## Regex

### 建立自己的字符分类

In [18]:
# 这将匹配所有的元音字母,不论大小写.
import re
vowelRegex = re.compile(r'[aeiouAEIOU]')
vowelRegex.findall('RoboCop eats baby food,BABY FOOD.')

['o', 'o', 'o', 'e', 'a', 'a', 'o', 'o', 'A', 'O', 'O']

In [20]:
# [a-zA-Z0-9] 将匹配所有小写字母,大写字母和数字
import re
vowelRegex = re.compile(r'[a-zA-Z0-9]')
vowelRegex.findall('RoboCop eats baby food,BABY FOOD.12345')

['R',
 'o',
 'b',
 'o',
 'C',
 'o',
 'p',
 'e',
 'a',
 't',
 's',
 'b',
 'a',
 'b',
 'y',
 'f',
 'o',
 'o',
 'd',
 'B',
 'A',
 'B',
 'Y',
 'F',
 'O',
 'O',
 'D',
 '1',
 '2',
 '3',
 '4',
 '5']

In [22]:
# 在方括号里面,普通的正则表达式不会被解释,所以我们需要前面加上到斜杠来进行转义. 
# 可能之前会 [0-4/.] 这样写,但是现在只需要 [0-5.] 这样写就足够了.
import re
vowelRegex = re.compile(r'[0-9.]')
vowelRegex.findall('RoboCop eats baby food,BABY FOOD.12345')

['.', '1', '2', '3', '4', '5']

In [24]:
# 只要在字符分类的左方括号厚加上一个插入字符(^),就可以得到"非字符类",非字符类将匹配不在这个字符类中的所有字符,

In [27]:
# 现在匹配的就是非元音字母和不是1,2 的数字
import re
vowelRegex = re.compile(r'[^aeiouAEIOU1-2]')
vowelRegex.findall('RoboCop eats baby food,BABY FOOD.12134233')

['R',
 'b',
 'C',
 'p',
 ' ',
 't',
 's',
 ' ',
 'b',
 'b',
 'y',
 ' ',
 'f',
 'd',
 ',',
 'B',
 'B',
 'Y',
 ' ',
 'F',
 'D',
 '.',
 '3',
 '4',
 '3',
 '3']

### 插入字符和美元字符

In [30]:
# ^ --- 表明匹配必须发生在查找文本开始处.
# $ --- 在正则表达式的末尾加上美元符号,表明该字符串必须这个正则表达式模式结束
# 可以同时使用 ^ 和 $,表明整个字符串必须匹配该模式.

beginWithHello = re.compile(r'^Hello$')
beginWithHello.search('Hello world') == None

True

In [33]:
endWithNuber = re.compile(r'\d$')
endWithNuber.search('Your Number is 42') == None

False

In [45]:
endWithNuber = re.compile(r'^\d+$') # + 代表匹配1次或者多次,所以开头和结尾都必须是数字
endWithNuber.search(r'1212xyz1') == None

True

### 通配字符

在正则表达式中,`.` 称为"通配符",它匹配除了换行之外的所有字符.

In [51]:
import re 
atRegex = re.compile(r'.at')
mo = atRegex.findall('The Cat in the Hat sat on the flat mat.')
mo

['Cat', 'Hat', 'sat', 'lat', 'mat']

## 管理复杂的正则表达式

如果你要写很复杂的正则表达式,这个时候就需要注释来解释他是什么意思.否则不好维护.

In [6]:
"""
import re 
phoneRegex = re.compile(r'((\d{3})|(\d{3}\))?(\s|-|\.)?\d{3}(\s|-|\.)\d{4}(\s*)(ext|x|ext.)\s*\d{2,5})?)')
"""

# 具体写的什么东西,我也很难提取出来,下面是比较正规的写法

"\nimport re \nphoneRegex = re.compile(r'((\\d{3})|(\\d{3}\\))?(\\s|-|\\.)?\\d{3}(\\s|-|\\.)\\d{4}(\\s*)(ext|x|ext.)\\s*\\d{2,5})?)')\n"

In [10]:
phoneRegex = re.compile(r'''(
    (\d{3}|\(\d{3}\))? # area code  
    (\s|-|\.)? # separator
    \d{3} # first 3 digst 
    (\S|-|\.) # separator
    \d{4} # last 4 digits
    (\S*(ext}x}ext.)\S*\d{2,5})? # extension
)''',re.VERBOSE)

这种写法的有点在于
- 利用re.VERBOSE,忽略正则表达式字符串中的空白字符和注释,
- 这个例子是使用三重引号来搞的,创建了1个多行字符串,这样就可以将正则表达式定义放在多行中.可读性强

### 组合使用 re.IGNOREC ASE && re.DOTALL && re.VERBOSE

- 可以通过管道字符 `|` 来将他们连接起来.

`someRegexValue = re.compile('foo',re.IGNORECASE | re.DOTALL | re.VERBOSE)`


### 电话号码和E-mail地址提取程序

情境描述:
- 在一篇长的网页和文章中,找出所有电话号码和邮件地址.

In [20]:
"""
#! python3
# phoneAndEmail.py - Finds phone numbers and email addresses on the clipboard(剪切板)
# 美国号码: 415-838-3119
import pyperclip,re
re.compile(r'''(
    (\d{3}|\(\d{3}\))? # area code
    (\s|-|\.)? # separator
    (\d{3}) # first 3 digst
    (\s|-|\.) #separator
    (\d{4}) # last 4 digst
    (\s*(ext|x|ext.)\s*(\d{2,5}))? # extension
)''',re.VERBOSE)

# Create email regex 
emailRegex = re.compile(r'''(
    [a-zA-Z0-9._%+-]+ # username: email 地址的用户名部分是1个或者多个字符
    @ # @symbol
    [a-zA-Z0-9._%+-]+ #domain name
    (\.[a-zA-Z]{2-4}) # dot-something
)''',re.VERBOSE)

# Find matches in clipboard text 
text = str(pyperclip.paste())
matches = []
for groups in phoneRegex.findall(text):
    phoneNum = '-'.join([groups[1],groups[3],groups[5]])
    if groups[8] != '':
        phoneNums += ' x'+ groups[8]
    matches.append(phoneNum)
for groups in emailRegex.findall(text):
    matches.appends(group[0])
    

# Copy results to the clipboard
if len(matches) > 0:
    pyperclip.copy('\n'.join(matches))
    print('Copied to clipboard:')
    print('\n'.join(matches))
else:
    print('No phone numbers or email addresses found.')
"""

"\n#! python3\n# phoneAndEmail.py - Finds phone numbers and email addresses on the clipboard(剪切板)\n# 美国号码: 415-838-3119\nimport pyperclip,re\nre.compile(r'''(\n    (\\d{3}|\\(\\d{3}\\))? # area code\n    (\\s|-|\\.)? # separator\n    (\\d{3}) # first 3 digst\n    (\\s|-|\\.) #separator\n    (\\d{4}) # last 4 digst\n    (\\s*(ext|x|ext.)\\s*(\\d{2,5}))? # extension\n)''',re.VERBOSE)\n\n# Create email regex \nemailRegex = re.compile(r'''(\n    [a-zA-Z0-9._%+-]+ # username: email 地址的用户名部分是1个或者多个字符\n    @ # @symbol\n    [a-zA-Z0-9._%+-]+ #domain name\n    (\\.[a-zA-Z]{2-4}) # dot-something\n)''',re.VERBOSE)\n\n# Find matches in clipboard text \ntext = str(pyperclip.paste())\nmatches = []\nfor groups in phoneRegex.findall(text):\n    phoneNum = '-'.join([groups[1],groups[3],groups[5]])\n    if groups[8] != '':\n        phoneNums += ' x'+ groups[8]\n    matches.append(phoneNum)\nfor groups in emailRegex.findall(text):\n    matches.appends(group[0])\n    \n\n# Copy results to the clipboard\ni