# 正则表达式

## 正则表达式语法

![regular expression](./graph/regular_expression_1.png)

## Python正则表达式

- 指定好匹配的模式，pattern
- 选择相应的方法，match、search等
- 得到匹配结果，group


- re.match 从开始位置开始匹配，如果开头没有则无
- re.search 搜索整个字符串
- re.findall 搜索整个字符串，返回一个list

In [1]:
input_str = 're, 123??cd45'

In [2]:
import re

In [3]:
pattern = re.compile(r'.')

In [4]:
re.findall(pattern, input_str)

['r', 'e', ',', ' ', '1', '2', '3', '?', '?', 'c', 'd', '4', '5']

#### 字符集合
- [abc] 指定字符
- [a-zA-Z] 所有大小写英文字母
- [^a-zA-Z] 除所有大小写英文字母外

In [5]:
pattern = re.compile(r'[cd]')
re.findall(pattern, input_str)

['c', 'd']

In [6]:
pattern = re.compile(r'[^a-zA-Z]')
re.findall(pattern, input_str)

[',', ' ', '1', '2', '3', '?', '?', '4', '5']

#### 或方法

将两个规则并列起来，以'|'连接，只要满足其中之一即可匹配

In [7]:
re.findall(r'[cd]|[0-9]', input_str)

['1', '2', '3', 'c', 'd', '4', '5']

#### \d与\D

\d 匹配所有数字

In [8]:
re.findall(r'[\d]', input_str)

['1', '2', '3', '4', '5']

\D 匹配所有非数字

In [9]:
re.findall(r'[\D]', input_str)

['r', 'e', ',', ' ', '?', '?', 'c', 'd']

#### \w与\W

\w 匹配所有字母和数字

In [10]:
re.findall(r'[\w]', input_str)

['r', 'e', '1', '2', '3', 'c', 'd', '4', '5']

\W 匹配所有非字母和数字

In [11]:
re.findall(r'\W', input_str)

[',', ' ', '?', '?']

#### \s与\S

\s 匹配间隔符，如空格符，换行符，制表符
等同于[\r\t\n\f]

In [12]:
re.findall(r'\s', input_str)

[' ']

\S 

In [13]:
re.findall(r'\S', input_str)

['r', 'e', ',', '1', '2', '3', '?', '?', 'c', 'd', '4', '5']

### 重复

可以匹配不定长的字符串

#### *

0次或多次匹配

In [14]:
re.findall(r'\d*', input_str)

['', '', '', '', '123', '', '', '', '', '45', '']

#### +

一次或多次匹配

In [15]:
re.findall(r'\d+', input_str)

['123', '45']

#### ？

0次或1次匹配

In [16]:
re.findall(r'\??', input_str)

['', '', '', '', '', '', '', '?', '?', '', '', '', '', '']

### 精确匹配和最小匹配

{m} 精确匹配m次

{m,n} 匹配最少m次，最多n次

In [17]:
re.findall(r'\d{2}', input_str)

['12', '45']

In [18]:
re.findall(r'\d{2,3}', input_str)

['123', '45']

### match 与 search

返回的不是列表，是MatchObject，包含更多信息

匹配不成功则返回NoneType，因此进行下一步操作之前需要检验是否匹配成功

In [19]:
match = re.match(r'\w', input_str)
match.group()

'r'