In [5]:
# 2.1 使用多个界定符分割字符串
# 你需要将一个字符串分割为多个字段，但是分隔符(还有周围的空格)并不是固定的
#     string 对象的 split() 方法只适应于非常简单的字符串分割情形， 它并不允许有多个分隔符或者是分隔符周围不确定的空格
line = 'asdf fjdk; afed, fjek,asdf, foo'
import re
print(re.split(r'[;,\s]\s*', line))
# 当你使用 re.split() 函数时候，需要特别注意的是正则表达式中是否包含一个括号捕获分组
fields = re.split(r'(;|,|\s)\s*', line)
print(fields)

['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']
['asdf', ' ', 'fjdk', ';', 'afed', ',', 'fjek', ',', 'asdf', ',', 'foo']


In [6]:
# 如果你不想保留分割字符串到结果列表中去，但仍然需要使用到括号来分组正则表达式的话， 确保你的分组是非捕获分组，形如 (?:...)
re.split(r'(?:,|;|\s)\s*', line)

['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']

In [7]:
# 2.2 字符串开头或结尾匹配
# 检查字符串开头或结尾的一个简单方法是使用 str.startswith() 或者是 str.endswith() 方法
filename = 'spam.txt'
filename.startswith('spa')

True

In [9]:
import os
filenames = os.listdir('.')
[ name for name in filenames if name.endswith(('.py', '.md')) ]

['quickSort.py', 'README.md']

In [10]:
any(name.endswith('.py') for name in filenames)

True

In [19]:
# 头部信息匹配
url = 'http://www.python.org'
url.startswith(('http:', 'https:', 'ftp:'))
# re.match('http:|https:|ftp:', url)
# url[:5] == 'http:' or url[:6] == 'https:' or url[:4] == 'ftp:'

True

In [23]:
# 2.3 用 Shell 通配符匹配字符串
from fnmatch import fnmatchcase
print(fnmatchcase('foo.txt', '*.TXT'))  # 完全使用你的模式大小写匹配
addresses = [
    '5412 N CLARK ST',
    '1060 W ADDISON ST',
    '1039 W GRANVILLE AVE',
    '2122 N CLARK ST',
    '4802 N BROADWAY',
]
print([addr for addr in addresses if fnmatchcase(addr, '* ST')])
[addr for addr in addresses if fnmatchcase(addr, '54[0-9][0-9] *CLARK*')]

False
['5412 N CLARK ST', '1060 W ADDISON ST', '2122 N CLARK ST']


['5412 N CLARK ST']

In [24]:
# 2.4 字符串匹配和搜索
# 匹配或者搜索特定模式的文本 (正则表达式)
# * str.find() , str.endswith() , str.startswith()
text = 'yeah, but no, but yeah, but no, but yeah'
text.find('no')

10

In [32]:
# 对于复杂的匹配需要使用正则表达式和 re 模块
text1 = '11/27/2012'
text2 = 'Nov 27, 2012'
re.match(r'\d+/\d+/\d+', text1)  # <re.Match object; span=(0, 10), match='11/27/2012'>
# re.match(r'\d+/\d+/\d+', text2)  # 未匹配返回空

<re.Match object; span=(0, 10), match='11/27/2012'>

In [36]:
# 如果你想使用同一个模式去做多次匹配，你应该先将模式字符串预编译为模式对象
datepat = re.compile(r'\d+/\d+/\d+')
# match() 总是从字符串开始去匹配
datepat.match(text1)  # <re.Match object; span=(0, 10), match='11/27/2012'> 
# datepat.match(text2)  # 未匹配返回空

text = 'Today is 11/27/2012. PyCon starts 3/13/2013.'
# 想查找字符串任意部分的模式出现位置
datepat.findall(text)

['11/27/2012', '3/13/2013']

In [40]:
# 在定义正则式的时候，通常会利用括号去捕获分组
datepat = re.compile(r'(\d+)/(\d+)/(\d+)')
m = datepat.match('11/27/2012')
# m.group(0), m.group(1), m.group(2), m.group(3), m.groups()
# ('11/27/2012', '11', '27', '2012', ('11', '27', '2012'))
month, day, year = m.groups()
print(month, day, year)

11 27 2012


In [44]:
# findall() 方法会搜索文本并以列表形式返回所有的匹配
datepat.findall(text)
# 如果你想以迭代方式返回匹配，可以使用 finditer() 方法来代替
for m in datepat.finditer(text):
    print(m, m.groups())

<re.Match object; span=(9, 19), match='11/27/2012'> ('11', '27', '2012')
<re.Match object; span=(34, 43), match='3/13/2013'> ('3', '13', '2013')


In [48]:
# 2.5 字符串搜索和替换
text = 'yeah, but no, but yeah, but no, but yeah'
print(text.replace('yeah', 'yep'))
# 对于复杂的模式，使用 re 模块中的 sub() 函数
text = 'Today is 11/27/2012. PyCon starts 3/13/2013.'
import re
# sub() 函数中的第一个参数是被匹配的模式，第二个参数是替换模式。反斜杠数字比如 \3 指向前面模式的捕获组号
print(re.sub(r'(\d+)/(\d+)/(\d+)', r'\3-\1-\2', text))
# 命名分组，那么第二个参数请使用 \g<group_name>
re.sub(r'(?P<month>\d+)/(?P<day>\d+)/(?P<year>\d+)', r'\g<year>-\g<month>-\g<day>', text)

yep, but no, but yep, but no, but yep
Today is 2012-11-27. PyCon starts 2013-3-13.


'Today is 2012-11-27. PyCon starts 2013-3-13.'

In [53]:
# 对于更加复杂的替换，可以传递一个替换回调函数来代替
from calendar import month_abbr
def change_date(m):
    mon_name = month_abbr[int(m.group(1))]
    return '{} {} {}'.format(m.group(2), mon_name, m.group(3))
datepat = re.compile(r'(\d+)/(\d+)/(\d+)')
print(datepat.sub(change_date, text))
# 如果除了替换后的结果外，你还想知道有多少替换发生了，可以使用 re.subn() 来代替
newtext, n = datepat.subn(change_date, text)
newtext, n

Today is 27 Nov 2012. PyCon starts 13 Mar 2013.


('Today is 27 Nov 2012. PyCon starts 13 Mar 2013.', 2)

In [55]:
# 2.6 字符串忽略大小写的搜索替换
text = 'UPPER PYTHON, lower python, Mixed Python'
import re
print(re.findall('python', text, flags=re.IGNORECASE))
re.sub('python', 'snake', text, flags=re.IGNORECASE)  # 小缺陷，替换字符串并不会自动跟被匹配字符串的大小写保持一致

['PYTHON', 'python', 'Python']


'UPPER snake, lower snake, Mixed snake'

In [58]:
# 2.7 最短匹配模式
# 正则表达式匹配某个文本模式，但是它找到的是模式的最长可能匹配
str_pat = re.compile(r'"(.*)"')
text1 = 'Computer says "no."'
print(str_pat.findall(text1))
text2 = 'Computer says "no." Phone says "yes."'
print(str_pat.findall(text2))  # ['no." Phone says "yes.']
# 在模式中的*操作符后面加上?修饰符. 匹配变成非贪婪模式
str_pat = re.compile(r'"(.*?)"')
str_pat.findall(text2)

['no.']
['no." Phone says "yes.']


['no.', 'yes.']

In [61]:
# 2.8 多行匹配模式
#### 用点(.)去匹配任意字符的时候，忘记了点(.)不能匹配换行符的事实
comment = re.compile(r'/\*(.*?)\*/')
text1 = '/* this is a comment */'
text2 = '''/* this is a\nmultiline comment */'''
comment.findall(text1)  # [' this is a comment ']
comment.findall(text2)  # []

[]

In [None]:
# 2.9 将Unicode文本标准化
