# 7.4 字符串处理

# 7.4.2 正则表达式
re模块有以下三个类别：patther matching（模式匹配）, substitution（替换）, splitting（分割）。通常这三种都是相关的，一个regex用来描述一种pattern，这样会有很多种用法。

In [1]:
import re

In [2]:
text = "foo    bar\t baz  \tqux"
# 想要根据空格来分割一个字符串。描述一个或多个空格的regex是`\s+`:
re.split('\s+', text)

['foo', 'bar', 'baz', 'qux']

当调用`re.split('\s+', text)`的时候，正则表达式第一次被compile编译，并且split方法会被调用搜索text。我们可以自己编译regex，用re.compile，可以生成一个可以多次使用的regex object：

In [3]:
regex = re.compile('\s+')
regex.split(text)

['foo', 'bar', 'baz', 'qux']

In [4]:
regex.findall(text)

['    ', '\t ', '  \t']

In [5]:
text = """Dave dave@google.com Steve steve@gmail.com Rob rob@gmail.com """
pattern = r'[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}'
regex = re.compile(pattern, flags=re.IGNORECASE)
regex.findall(text)

['dave@google.com', 'steve@gmail.com', 'rob@gmail.com']

### regex.search(text) 
返回text中的第一个匹配结果。
match object能告诉我们找到的结果在text中开始和结束的位置：

In [6]:
m = regex.search(text)
print(m)
print(m[0])

print(m.start(), m.end())
text[m.start():m.end()]

<_sre.SRE_Match object; span=(5, 20), match='dave@google.com'>
dave@google.com
5 20


'dave@google.com'

### regex.match()返回None，
因为它只会在pattern存在于stirng开头的情况下才会返回匹配结果：

In [7]:
print(regex.match(text))

None


### regex.sub('newstr', text) 返回一个新的string，
把pattern出现的地方替换为我们指定的newstr：

In [8]:
print(regex.sub('REDACTED', text))

Dave REDACTED Steve REDACTED Rob REDACTED 


# ============================
假设你想要找到邮件地址，同时，想要把邮件地址分为三个部分，username, domain name, and domain suffix.（用户名，域名，域名后缀）。需要给每一个pattern加一个括号：

In [9]:
pattern = r'([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\.([A-Z]{2,4})'
regex = re.compile(pattern, flags=re.IGNORECASE)

In [10]:
# match object会返回一个tuple，包含多个pattern组份，通过groups方法：
m1 = regex.match('wesm@bright.net')
m1.groups()

('wesm', 'bright', 'net')

In [11]:
# findall会返回a list of tuples:
m2 = regex.findall(text)
m2

[('dave', 'google', 'com'), ('steve', 'gmail', 'com'), ('rob', 'gmail', 'com')]

sub也能访问groups的结果，不过要使用特殊符号 \1, \2。\1表示第一个匹配的group，\2表示第二个匹配的group，以此类推：

In [12]:
m3 = regex.sub(r'Username: \1, Domain: \2, Suffix: \3', text)
type(m3)

str

In [13]:
m3

'Dave Username: dave, Domain: google, Suffix: com Steve Username: steve, Domain: gmail, Suffix: com Rob Username: rob, Domain: gmail, Suffix: com '