# Python 正则表达式（Regular Expression）
- 使用re模块
- [Python Regular Expression Documents](https://pymotw.com/3/re/index.html#module-re)

## Python正则表达式的一般步骤

re.compile()开始，创建一个Regex对象
调用匹配函数
调用group()返回结果

In [1]:
import re

In [2]:
regex = re.compile(r'\b\w{3}\b')  # 匹配三个字符的单词
text = regex.search("coffee dog cat ")
text.group()

'dog'

> 为何表达式前面要用r？(raw规则) 正则表达式的规则也是由一个字符串定义的，而\在字符串中本身就是一个转义字符，要表示\必须使用两个\\来表示当前的\是普通字符，而正则表达式大量使用\，那么如果不加r，表示整数就需要这样写\\\d多写一个\，很麻烦

不使用r的写法

In [3]:
regex = re.compile('\\b\\w{3}\\b')  # 匹配三个字符的单词
text = regex.search("coffee dog cat ")
text.group()

'dog'

## . 匹配任意字符(除了\n换行符)

In [4]:
re.search(r'.', 'I love python!')

<_sre.SRE_Match object; span=(0, 1), match='I'>

In [5]:
re.search(r'pytho.', 'I love python!')

<_sre.SRE_Match object; span=(7, 13), match='python'>

In [6]:
re.search(r'pytho.', 'I love pytho\n')

In [7]:
re.search(r'pytho.', 'I love pytho\n', re.DOTALL)

<_sre.SRE_Match object; span=(7, 13), match='pytho\n'>

## \类似转义字符

### 用于匹配元字符（有特殊意义的字符如'.'）

In [8]:
re.search(r'\.', 'I love python.')

<_sre.SRE_Match object; span=(13, 14), match='.'>

### 把普通字符转化为有特殊意义的字符

In [9]:
re.search(r'\d\d\d', 'I love 123.')

<_sre.SRE_Match object; span=(7, 10), match='123'>

## [ ]来创建字符类
- 匹配[ ]中的任何一个字符都算匹配
- 可以用-表示一个字符范围，比如[0-9]表示匹配0到9的数字字符，但不能认为[0-255]匹配0到255之间的数，正则表达式匹配的是一个一个的字符，不存在多位数同时匹配
- 可以把^写在括号内的开头，表示取非，不匹配括号内的任意一个字符，如[^a-zA-Z]表示不匹配任何英文字母
- ^在括号内但不在开头，则就表示字符的^,[a-z^A-Z]表示匹配所有英文字母和^

In [10]:
re.search(r'[abc]', 'Abc')

<_sre.SRE_Match object; span=(1, 2), match='b'>

In [11]:
re.search(r'[^a-zA-z]', 'aADXc21')

<_sre.SRE_Match object; span=(5, 6), match='2'>

    正则表达式大小写敏感

### <span class="mark">匹配一个范围</span>

In [12]:
re.search(r'[a-z]', '123Abc')

<_sre.SRE_Match object; span=(4, 5), match='b'>

In [13]:
re.search(r'[1-5]', '01234')

<_sre.SRE_Match object; span=(1, 2), match='1'>

### <span class="mark">常见错误</span>

- 匹配0-255之间的数字

In [14]:
re.search(r'[0-255]', "123")

<_sre.SRE_Match object; span=(0, 1), match='1'>

    正则表达式匹配的是一个一个的字符，不可能整个数字匹配
    所以以上写法只是匹配[0125]这4个数

## { }表示重复匹配的次数

In [15]:
re.search(r'a{3}bc', "abc aabc aaabc aaaabc")

<_sre.SRE_Match object; span=(9, 14), match='aaabc'>

-  {0,9}<span class="mark">可以表示重复匹配的次数是0到9</span>

In [16]:
re.search(r'a{2,4}bc', "abc aabc aaabc aaaabc")

<_sre.SRE_Match object; span=(4, 8), match='aabc'>

In [17]:
re.search(r'a{2,4}bc', "abc aaabc aaaabc")

<_sre.SRE_Match object; span=(4, 9), match='aaabc'>

## | 表示逻辑或，分支条件
- 从左到右匹配每一个分支规则，如果满足，后续的就忽略
- 在[]中间不再表示或，就是字符|。如果要在[]外面表示字符的|，必须使用\转义
- 有效范围是两边的整条规则，abc|xyz 匹配的是abc或者xyz，而不是abcyz或abxyz
- 如果要限定范围，要使用（），并且最好使用（？：）无捕获组来限定。

In [18]:
re.findall(r'ab(?:c|x)yz', 'adasdabcyzadasfdav')

['abcyz']

In [19]:
re.findall(r'ab(c|x)yz', 'adasdabcyzadasfdav')

['c']

In [20]:
re.findall(r'abc|xyz', 'adasdabcyzadasfdav')

['abc']

### 同样的例子，匹配正确范围内的ip地址(0-255)

In [21]:
re.search(r'[01]\d\d|2[0-4]\d|25[0-5]', '188')

<_sre.SRE_Match object; span=(0, 3), match='188'>

In [22]:
re.search(r'[01]\d\d|2[0-4]\d|25[0-5]', '255')

<_sre.SRE_Match object; span=(0, 3), match='255'>

In [23]:
re.search(r'[01]\d\d|2[0-4]\d|25[0-5]', '256')

In [24]:
re.search(r'[01]\d\d|2[0-4]\d|25[0-5]', '2')

In [25]:
re.search(r'[01]\d\d|2[0-4]\d|25[0-5]', '002')

<_sre.SRE_Match object; span=(0, 3), match='002'>

    以上方法限制了位数必须是3所以还不够完善

## （ ）表示一个分组，先匹配完小括号内的，再继续匹配外面的
- ()指定子表达式的重复次数或者进行其他操作

In [26]:
re.search(
    r'(([01]\d\d|2[0-4]\d|25[0-5])\.){3}([01]\d\d|2[0-4]\d|25[0-5])', '192.168.111.123')

<_sre.SRE_Match object; span=(0, 15), match='192.168.111.123'>

### 无命名组（），最基本的组，可以用来匹配包夹在中间的特定的字符串

注意以下用法的区别，只返回括号内的字符串

In [27]:
s = 'aaa111aaa bbb222 333ccc'
re.findall(r'[a-z]+(\d)+[a-z]+', s)

['1']

In [28]:
s = 'aaa111aaa bbb222 333ccc'
re.findall(r'[a-z]+(\d+)[a-z]+', s)

['111']

In [29]:
s = 'aaa111aaa bbb222 333ccc'
re.findall(r'[a-z]+\d+[a-z]+', s)

['aaa111aaa']

### (? P< name>...)表示命名组

(?P=name)调用已匹配的命名组

In [30]:
s='aaa111aaa,bbb222,333ccc,444ddd444,555eee666,fff777ggg'

找出中间夹有数字的字母

In [31]:
re.findall(r'([a-z]+)\d+([a-z]+)', s)

[('aaa', 'aaa'), ('fff', 'ggg')]

找出中间夹有数字且前后是同样字母的字母

In [32]:
re.findall(r'(?P<a>[a-z]+)\d+(?P=a)', s)

['aaa']

### "\ number "通过序号调用已匹配的组，编号从1开始，每遇到一个'('编号加1

In [33]:
re.findall(r'([a-z]+)\d+\1', s)

['aaa']

找出完全对称的数字字母组合

In [34]:
s='111aaa222aaa111 , 333bbb444bb33'
re.findall(r'(\d+)([a-z]+)(\d+)(\2)(\1)', s)

[('111', 'aaa', '222', 'aaa', '111')]

### (?(id/name)yes-pattern|no-pattern) 判断指定的组是否已经匹配，执行相应的后续匹配

In [35]:
s='<usr1@mail1>  usr2@maill2'
re.findall(r'(<)?\s*(\w+@\w+)\s*(?(1)(>))', s)

[('<', 'usr1@mail1', '>'), ('', 'usr2@maill2', '')]

## 前向界定于后向界定
- 匹配一个跟在特定内容前面或者后面的字符串

(?<="")前向界定，”“里面是希望匹配的字符串前面应该出现的字符串

(?="")后向界定，”“里面是希望匹配的字符串后面应该出现的字符串

In [36]:
s = r'\* comment 1 *\  code  \* comment 2 *\ '
re.findall(r'(?<=\\\*).*?(?=\*\\)', s)

[' comment 1 ', ' comment 2 ']

In [37]:
s = 'aaa111aaa,bbb222,333ccc'  # 提取中间的数字
re.findall(r'(?<=[a-z])\d+(?=[a-z]+)', s)

['111']

前向非界定(?<!"") 当字符串前面不是" "时才匹配

后向非界定(?!"") 当字符串后面不跟着" "里面内容是才匹配

In [38]:
re.findall(r'\d+(?!\w+)', s)

['222']

## 汇总

### \ + 小写字母的转义用法


| 语法  | 用法 |
| :- | :- |
| \s | 匹配任意的空白字符，包括空格、制表符、换行符、中文全角空格等 |
| \d | 匹配数字字符，等价于[0-9] |
| \b | 匹配单词的开始或结束 |
| \w | 匹配字母或数字或下划线或汉字 |
| \m | 匹配单词的起始位置 |


### \ + 大写字母的转义用法（反义）


| 语法 | 用法 |
| :- | :- |
| \A | 只匹配字符串的开头，不会匹配其他行的行首（与^的区别） |
| \Z | 只匹配字符串的结尾，不会匹配其他行的行尾（与$的区别） |
| \S | 匹配任意不是空白的字符 |
| \D | 匹配任意非数字的字符 |
| \B | 匹配不是单词的开始或结束的位置 |
| \W | 匹配任意不是字母、数字、下划线、汉字的字符 |
| \M | 匹配单词的结束位置 |


### 元字符的用法


| 语法 | 用法 |
| :-| :- |
| . | 匹配除换行符以外的任意字符,在DOTALL模式中也可以匹配换行符 |
| ^ | 匹配字符串的开始（可以匹配每一行的行首和行尾）|
| $ | 匹配字符串的结束（可以匹配每一行的行首和行尾） |
| * | 匹配任意不是字母、数字、下划线、汉字的字符 |
| [^x] | 匹配除了x以外的任意字符 |
| [^aeiou] | 匹配除了aeiou这几个字符以外的字符 |


^ $ \A \Z 的用法与区别

In [39]:
s = '12 34\n56 78\n90'

In [40]:
re.findall(r'^\d+', s, re.MULTILINE)

['12', '56', '90']

In [41]:
re.findall(r'\d+$', s, re.MULTILINE)

['34', '78', '90']

In [42]:
re.findall(r'\A\d+', s, re.MULTILINE)

['12']

In [43]:
re.findall(r'\d+\Z', s, re.MULTILINE)

['90']

\B \b 的用法
- <span class="mark">\B \b是0长度字符，所以匹配的时候不会留下分界符号。而使用\s会在两边留下空字符</span>

In [44]:
s = 'abc 1bc23 bc bcd'

In [45]:
re.findall(r'\bbc\b', s)

['bc']

In [46]:
re.findall(r'\sbc\s', s)

[' bc ']

> 这种用空格匹配单词的方法多了空格，还需要去除空白

In [47]:
re.findall(r'\Bbc\w+', s)

['bc23']

### 重复次数限制(数量词)


| 语法 | 用法 |
| :-    | :- |
| *     | 重复0次或更多次（该字符可有可无） |
| +     | 重复一次或更多次 |
| ?     | 重复0次或一次 |
| {n}   | 重复n次 |
| {n,}  | 重复n次或更多次 |
| {n,m} | 重复n到m次 |


### ？的用法（非贪心）


    
| 语法 | 用法 |
| :- | :- |
| ? | 重复0次或一次，表示可选的分组 |
| *？ | 重复任意多次，但尽可能少重复 |
| +？ | 重复1次或更多次，但尽可能少重复 |
| ？？ | 重复0次或1次，但尽可能少重复 |
| {n,}? | 重复n次或更多次，但尽可能少重复 | 
| {n,m}? | 重复n到m次，但尽可能少重复 |
    

数量词的贪心和非贪心模式：<span class="mark">python中数量词默认是贪心的</span><span class="mark">，总是尝试匹配尽可能多的字符</span>。而利用$？$表示的非贪心的匹配总是尝试匹配最少的字符。

In [48]:
re.search(r'ab*', 'abbbb')

<_sre.SRE_Match object; span=(0, 5), match='abbbb'>

In [49]:
re.search(r'ab*?', 'abbbb')

<_sre.SRE_Match object; span=(0, 1), match='a'>

In [50]:
s = r'\* comment *\ code \* comment *\ '
re.findall(r'\\\*.*\*\\', s)

['\\* comment *\\ code \\* comment *\\']

In [51]:
re.findall(r'\\\*.*?\*\\', s)  # ?最小匹配

['\\* comment *\\', '\\* comment *\\']

### 其他基本符号用法

    
| 语法 | 用法 |
| :-    | :- | 
| { }     | 括号内写数字，表示重复次数 |
| ( )     | 表示分组。分组表达式作为一个整体，可以后接数量词 。表达式中的$|$仅在该组中有效|
| [ ]     | 字符集。对应的位置可以是字符集中任意一个字符。字符可以逐个列出， |
| (?:)    | 无捕获组
| (?#)    | 注释
| (?iLimsux) | 编译选项指定，i等价于IGNORECASE，m等价于MULTILINE，s等价于DOTALL，u等价于UNICODE
| (?=) | 后向界定，之后的字符串内容需要满足条件才匹配，不消耗字符 |
| (?<=) | 前向界定，之前的字符串内容需要满足条件才匹配，不消耗字符 |
| (?<!) | 前向非界定
| (?!)  | 后向非界定
| (?P <name>...) | 分组，除了原有的编号，指定一个额外的名字 |
| (?P=name) | 引用别名为name的前面匹配到的字符串
| \number | 应用编号为number的匹配到的字符串，编号从1开始
| (?(id/name) yes-pattern 或 no-pattern) | 如果编号为id或者别名为name的字符串匹配到，则进行yes-pattern的匹配，否则进行no-pattern的匹配，no-pattern可以省略

- (?i)表示忽略大小写，(?m)表示多行模式
- 注意有效范围是整条规则，无论写在哪里，选项都会对整个表达式有效

In [52]:
re.search(r'CAT(?i)(?#aksjdkafskehafndnzkjv)', 'cat')

  """Entry point for launching an IPython kernel.


<_sre.SRE_Match object; span=(0, 3), match='cat'>

In [53]:
regex = re.compile(r'(\d{4}-)?(\d{8})')
regex.findall("1:0510-82149457 2:82593018")

[('0510-', '82149457'), ('', '82593018')]

(?: ) 表示无捕获组

In [54]:
regex = re.compile(r'(?:\d{4}-)?(?:\d{8})')
regex.findall("1:0510-82149457 2:82593018")

['0510-82149457', '82593018']