# 正则符号

## 原字符

In [1]:
import re

In [2]:
s1 = '通过几天Python的学习，感觉Python很简单，非常容易上手！'
re.findall('Python', s1)

['Python', 'Python']

## 英文状态的句号点
指代任意字符（数字，字母，标点，汉字），除了换行符\n

In [3]:
s2 = '此次新朗逸主要搭载了1.5L和1.5T两种动力总成的发动机。别克英朗则搭载了1.0T和1.3T的动力总成。'
re.findall('1...', s2)

['1.5L', '1.5T', '1.0T', '1.3T']

In [4]:
re.findall('1\...', s2)

['1.5L', '1.5T', '1.0T', '1.3T']

## 反斜杠  
\n  
\t  
\d：指代0-9的任意一个数字  
\s：指代任意一种空白（如空格、Tab、换行等）  
\w:指代字母、数字和下划线中的任意一种  
\.：代表句号点本身  

In [7]:
s3 = '   距离 2019北京马拉松开跑只有两周时间了，\n 今年的北京马拉松预报名人数超过16万人，\t 媒体公布的中签率只有16%左右，再创历年来的新低。\n'
s3


'   距离 2019北京马拉松开跑只有两周时间了，\n 今年的北京马拉松预报名人数超过16万人，\t 媒体公布的中签率只有16%左右，再创历年来的新低。\n'

In [8]:
re.sub('\s','', s3)

'距离2019北京马拉松开跑只有两周时间了，今年的北京马拉松预报名人数超过16万人，媒体公布的中签率只有16%左右，再创历年来的新低。'

## 中括号 []
指代字符集，当需要特定字符匹配时，可以选择中括号

In [9]:
# 取出手机号信息
s4 = '用户联系方式：13612345566，用户编号为11011254321'

In [11]:
re.findall('1[356789]\d\d\d\d\d\d\d\d\d', s4)#中括号内元素之间不需要分隔符

['13612345566']

In [12]:
# 提取出动力总成
s5 = '通过对比新朗逸1.5L和1.5T两种动力在1.5年行驶期后的数据。发现1.5T的口碑相对较好！'
re.findall('1.5[a-zA-Z]', s5)

['1.5L', '1.5T', '1.5T']

In [13]:
re.findall('1.5[TL]', s5)

['1.5L', '1.5T', '1.5T']

## 圆括号 ()
指代特定内容的截取

In [14]:
# 提取出用户的年龄
s6 = 'id:1, name:Tom, age:3, gender:1; id:2, name:Lily, age:5, gender:0'

In [16]:
re.findall('age:\d', s6)

['age:3', 'age:5']

In [17]:
re.findall('age:(\d)', s6)

['3', '5']

## 次数匹配

### 句号？
表示匹配前一个字符0次或者1次

In [27]:
# 超链接的匹配
URL1 = 'https://www.baidu.com/12345566'
URL2 = 'http://www.gov.cn/'
s_u = URL1+URL2

In [39]:
pattern = 'https?://www\..*?'
re.findall(pattern, URL1)

['https://www.']

### 加号 +
匹配前一个字符1次及以上

In [40]:
# 邮箱地址的匹配
email1 = 'Lsxxx2011@163.com'
email2 = '654088115@qq.com'

In [41]:
pattern = '[0-9a-zA-Z_\.\-]+@[0-9a-zA-Z_\.\-]+\.com'

In [43]:
re.findall(pattern, email1)

['Lsxxx2011@163.com']

In [45]:
re.findall(pattern, email2)

['654088115@qq.com']

### 星号 *
匹配前一个字符0次及以上

In [46]:
# 提取出产品名称中含奶粉字样的产品
prod = ['婴儿袜','亨氏奶粉','奶粉勺','多功能奶瓶','幼儿奶粉量筒','磨牙棒']

In [48]:
res = []
for i in prod:
    res.extend(re.findall('.*奶粉.*', i))

In [49]:
res

['亨氏奶粉', '奶粉勺', '幼儿奶粉量筒']

### 大括号 {}
匹配前一个字符特定的次数或范围  
{m}：匹配前一个字符m次  
{m,}：匹配前一个字符至少m次  
{m,n}：匹配前一个字符m-n次  
{, n}：匹配前一个字符至多n次

In [50]:
# 手机号码的匹配
pattern = '1[356789]\d{9}'
# 至少6个长度的密码
pattern = '\w{6,}'
# 区号信息
pattern = '0\d{2,3}'

## 例子

In [53]:
# 取出字符中所有的天气状态
string1 = "{ymd:'2018-01-01',tianqi:'晴',aqiInfo:'轻度污染'},{ymd:'2018-01-02',tianqi:'阴~小雨',aqiInfo:'优'},{ymd:'2018-01-03',tianqi:'小雨~中雨',aqiInfo:'优'},{ymd:'2018-01-04',tianqi:'中雨~小雨',aqiInfo:'优'}"

In [55]:
# .*？ 非贪婪式匹配，？只匹配一块区域
print(re.findall("tianqi:'(.*?)'", string1))

['晴', '阴~小雨', '小雨~中雨', '中雨~小雨']


In [56]:
# 取出所有含O字母的单词
string2  = 'Together, we discovered that a free market only thrives when there are rules to ensure competition and fair play, Our celebration of initiative and enterprise'

In [60]:
print(re.findall('\w*o\w*', string2, flags = re.I)) #flags = re.I 表示不区分大小写

['Together', 'discovered', 'only', 'to', 'competition', 'Our', 'celebration', 'of']


In [61]:
# 将标点符号、数字和字母删除
string3 = '据悉，这次发运的4台蒸汽冷凝罐属于国际热核聚变实验堆（ITER）项目的核二级压力设备，先后完成了压力试验、真空试验、氦气检漏试验、千斤顶试验、吊耳载荷试验、叠装试验等验收试验。'

In [62]:
print(re.sub('[，。、a-zA-Z0-9（）]', '', string3))

据悉这次发运的台蒸汽冷凝罐属于国际热核聚变实验堆项目的核二级压力设备先后完成了压力试验真空试验氦气检漏试验千斤顶试验吊耳载荷试验叠装试验等验收试验


In [63]:
# 将每一部分的内容分割开
string4 = '2室2厅 | 101.62平 | 低区/7层 | 朝南 \n 上海未来 - 浦东 - 金杨 - 2005年建'

In [64]:
s_s = re.split('[-\|\n]', string4)
print(s_s)

['2室2厅 ', ' 101.62平 ', ' 低区/7层 ', ' 朝南 ', ' 上海未来 ', ' 浦东 ', ' 金杨 ', ' 2005年建']


In [67]:
s_strip = [i.strip() for i in s_s]

In [68]:
print(s_strip)

['2室2厅', '101.62平', '低区/7层', '朝南', '上海未来', '浦东', '金杨', '2005年建']
