Web Crawl-Python for Informatics
读取文件,寻找模式,提取感兴趣文本行片段 提取文本行,字符串方法: split , find ,列表与字符串切片 文本搜索与抽取 --python 正则表达式库 -- 关于字符串搜索与解析的小型编程语言 http://en.wikipedia.org/wiki/Regular_expression http://docs.python.org/library/re.html 1. search () import re hand = open ( 'mbox-short.txt' ) for line in hand: line = line.rstrip () if re.search ( 'From:' , line ) : print line 打开文件,循环每行, search ()打印包含“ From: ”的文本行, line.find ()也可以实现 1.1 re 的强大之处,可以在搜索字符串时添加特定字符,以实现精确字符串文本行的精确匹配 e.g. ^ in Regular_expression 匹配一行的开始 import re hand = open ( 'mbox-short.txt' ) for line in hand: line = line.rstrip () if re.search ( '^From:' , line ) : print line 仅 “ From: ” 开头的文本行, 字符串库的 startwith ()也可实现 1.2 正则表达式中的常用字符 “ . ” ,可匹配所有字符 import re hand = open ( 'mbox-short.txt' ) for line in hand: line = line.rstrip () if re.search ( '^F..m' , line ) : print line 1.3 * + 表示一个字符可重复任意次数, * 0 或多, + 1 或多 impo...