# 使用正则表达式提取字符串

正则表达式`re`库提供了两个函数从文本中提取字符串。

`re.findall()`从文本中提取正则表达式匹配的所有子串，其语法为：
```python
re.findall(pattern, string, flags=0)
```
- 输入
    - `pattern`，正则表达式字符串。
    - `string`，文本字符串。
    - `flags`，标记符。
- 输出
    - 子串列表

`re.finditer()`与`re.findall()`功能类似，只是会返回迭代器，迭代器的元素是正则匹配对象。

下面通过一些实例来熟悉如何使用正则表达式提取字符串。

In [3]:
import re

## 提取数字

一个比较常见的应用是从杂乱的文本中快速提取数字，例如电话号码，身份证号码，QQ号、IP地址等。

国内的电话号码通常为11个数字，有移动号码或座机号码，例如：
- `0533-4405222`
- `010-86888822`

下面实例来提取电话号码：

In [5]:
string = '电话号码( 0533-4405222、010-86888822 )'
pattern = '\d{3}-\d{8}|\d{4}-\d{7}'
re.findall(pattern, string)

['0533-4405222', '010-86888822']

国内身份证号有两种，一种是 15 位，另一种 18 位数字。最后一位是校验位可能为数字或字符X。下面实例来提取身份证号：

In [12]:
string = '张三：123414191401244444；李四：12341419140124444x；王麻子：12341419140124444X'
pattern = '\d{15}|\d{17}[\dXx]'
re.findall(pattern, string)

['123414191401244', '123414191401244', '123414191401244']

腾讯QQ号是从10000开始的，正则表达式可以写为`[1-9][0-9]{4,}`，即从10000开始，长度不限：

In [13]:
string = '张QQ：1000234；老鼠吃大米：412341341234；2008年'
pattern = '[1-9][0-9]{4,}'
re.findall(pattern, string)

['1000234', '412341341234']

IP V4的地址是`xxx.xxx.xxx.xxx`，正则表达式可以写为`\d+\.\d+\.\d+\.\d+`，下面实例来提取IP地址：

In [11]:
string = 'dns：255.255.255.4；web：127.127.0.127'
pattern = '\d+\.\d+\.\d+\.\d+'
re.findall(pattern, string)

['255.255.255.4', '127.127.0.127']

## 提取特定字符串

使用正则表达式从文本中提取特定字符串，例如邮件地址等。