<h1>正则表达式</h1>
<ol>
    <li>
        <a href="#正则的含义">正则的含义</a>
    </li>
    <li>
        <a href="#正则表达式的应用场景">正则表达式的应用场景</a>
    </li>
    <li>
        <a href="#元字符">元字符</a>
    </li>
    <li>
        <a href="#反义代码">反义代码</a>
    </li>
    <li>
        <a href="#限定符">限定符</a>
    </li>
    <li>
        <a href="#分组匹配">分组匹配</a>
    </li>
    <li>
        <a href="#贪婪与非贪婪">贪婪与非贪婪</a>
    </li>
    <li>
        <a href="#分支条件匹配">分支条件匹配</a>
    </li>
    <li>
        <a href="#零宽断言">零宽断言</a>
    </li>
     <li>
        <a href="#实例展示">实例展示</a>
    </li>
</ol>

## 正则的含义

- 正则表达式是用来操作字符串的一种逻辑公式

## 正则表达式的应用场景

- 数据分析时，数据获取的文本筛选
- 写爬虫代码时，网页数据的匹配
- 写前端代码时，用户输入数据的验证(比如手机号)
- 测试人员在请求接口时，对请求结果的验证
- 批量文本编辑，比如在Sublime Text或nodepad++等等记事本软件中

### 常见格式验证
- 邮箱验证
- IP地址验证
- 电话号码验证
- 密码强度验证
- 网址验证
- 汉字验证，汉字的范围是:[\u4e00-\u9fa5]{0,}


- 凡是有一定规律的，批量的数据获取，我们都可以使用正则表达式来完成

In [2]:
## 正则表达式的演示
# 使用正则表达式，需要导入re库
import re

s = '贪心学院的官网是:http://www.greedyai.com'
reg = 'http://[w]{3}\.[a-z0-9]*\.com'
re.findall(reg,s)

['http://www.greedyai.com']

In [3]:
reg = '[\u4e00-\u9fa5]{0,}'
re.findall(reg,s)

['贪心学院的官网是',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '']

## 元字符

|字符|说明|
|--|--|
|.|代表的是换行符（\n,\r\n）以外的任意字符|
|\w|匹配字母或数字或下划线或汉字的字符|
|\s|匹配任意的空白符|
|\d|匹配数字|
|^|匹配字符串的开始|
|$|匹配字符串的结束|

In [4]:
s = '贪心学23院的123官网987是:http://www.greedyai.com'
re.findall('\d',s)

['2', '3', '1', '2', '3', '9', '8', '7']

In [5]:
s = '贪心学23院的123官网987是:http://www.greedyai.com'
re.findall('w',s)

['w', 'w', 'w']

In [6]:
s = '1贪心学23院的123官网987是:http://www.greedyai.com'
re.findall('^1',s)

['1']

In [7]:
s = '1贪心学23院的123官m网987是:http://www.greedyai.com'
re.findall('1',s)

['1', '1']

In [8]:
s = '1贪心学23院的123官m网987是:http://www.greedyai.com'
re.findall('m',s)

['m', 'm']

In [9]:
s = '1贪心学23院的123官m网987是:http://www.greedyai.com'
re.findall('m$',s)

['m']

## 反义代码

#### 就是与元字符相反的代码

|字符|说明|
|--|--|
|\W|匹配任意不是字母、数字、下划线、汉字的字符|
|\S|匹配任意不是空白符的字符|
|\D|匹配任意不是数字的字符|

In [12]:
s = """1贪心学23院的123官m
网987是:http://www.
greedyai.com"""
re.findall('.',s)

['1',
 '贪',
 '心',
 '学',
 '2',
 '3',
 '院',
 '的',
 '1',
 '2',
 '3',
 '官',
 'm',
 '网',
 '9',
 '8',
 '7',
 '是',
 ':',
 'h',
 't',
 't',
 'p',
 ':',
 '/',
 '/',
 'w',
 'w',
 'w',
 '.',
 'g',
 'r',
 'e',
 'e',
 'd',
 'y',
 'a',
 'i',
 '.',
 'c',
 'o',
 'm']

In [14]:
s = """1贪心学23院的123官m
网987是:http://www.
greedyai.com"""
re.findall('[\s\S]*',s)

['1贪心学23院的123官m\n网987是:http://www.\ngreedyai.com', '']

## 限定符

- 限定某一个逻辑集合所出现的次数

In [15]:
s = '贪心学院的官网是:http://www.greedyai.com'
reg = 'http://[w]{3}\.[a-z0-9]*\.com'

|字符|说明|
|--|--|
|*|代表的是重复0次或者是多次|
|+|代表的是重复1次或者是多次|
|?|代表是重复0次或者是1次|
|{n}|重复n次的意思|
|{n,}|重复n次或者是更多次|
|{n,m}|重复n次到m次|

In [19]:
s = '贪心1234学院的官45网678是:http://www.greedyai.com'
reg = '\d{2}'
re.findall(reg,s)


['12', '34', '45', '67']

In [20]:
s = '贪心1234学院的官45网678是:http://www.greedyai.com'
reg = '\d*'
re.findall(reg,s)


['',
 '',
 '1234',
 '',
 '',
 '',
 '',
 '45',
 '',
 '678',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '']

## 分组匹配

In [22]:
s = "我的qq号码是:42197393,my postcode: 10000"
reg="\d{5,8}"
result = re.findall(reg,s)
# 注意这里的返回值是一个列表
result

['42197393', '10000']

In [23]:
result[0]

'42197393'

In [24]:
reg = "(\d{8}).*(\d{5})"
result = re.findall(reg,s)
result

[('42197393', '10000')]

In [25]:
# 分组来啦
reg = "(\d{8}).*(\d{5})"
result = re.search(reg,s)
result



<_sre.SRE_Match object; span=(8, 35), match='42197393,my postcode: 10000'>

In [26]:
result.group()

'42197393,my postcode: 10000'

In [27]:
result.group(0)

'42197393,my postcode: 10000'

In [28]:
result.group(1)

'42197393'

In [29]:
result.group(2)

'10000'

## 贪婪与非贪婪

- 贪婪：尽可能多的匹配
- 非贪婪：尽可能少的匹配


- 非贪婪匹配的操作符是?   


|字符|说明|
|--|--|
|*|代表的是重复0次或者是多次|
|+|代表的是重复1次或者是多次|
|?|代表是重复0次或者是1次|

??:代表的是匹配1次


- 贪婪和非贪婪对限定符做出了一些限制

In [30]:
s = '贪心1234学院的官45网678是:http://www.greedyai.com'
reg = '\d*'
re.findall(reg,s)

['',
 '',
 '1234',
 '',
 '',
 '',
 '',
 '45',
 '',
 '678',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '']

In [31]:
s = "greedyaiiiiiii"
reg = 'i'
re.findall(reg,s)

['i', 'i', 'i', 'i', 'i', 'i', 'i']

In [32]:
# 默认是贪婪匹配，尽可能多的匹配
s = "greedyaiiiiiii"
reg = 'i*'
re.findall(reg,s)

['', '', '', '', '', '', '', 'iiiiiii', '']

In [33]:
s = "greedyaiiiiiii"
reg = 'i?'
re.findall(reg,s)

['', '', '', '', '', '', '', 'i', 'i', 'i', 'i', 'i', 'i', 'i', '']

In [34]:
# 在元字符后边加上非贪婪匹配操作符?，这个时候就是非贪婪匹配，就是尽可能少的匹配
s = "greedyaiiiiiii"
reg = 'i*?'
re.findall(reg,s)

['', '', '', '', '', '', '', '', '', '', '', '', '', '', '']

In [36]:
s = "greedyaiiiiiii"
reg = 'i??'
re.findall(reg,s)

['', '', '', '', '', '', '', '', '', '', '', '', '', '', '']

In [37]:
s = "greedyaiiiiiii"
reg = 'greedyai??'
re.findall(reg,s)

['greedya']

## 分支条件匹配

In [41]:
## 条件1 或 条件2  
s = """
5c714e1f397be4c5251a7185,1,1,武夷花园,北京,通州,,西,0,精装 集中供暖 随时看房,整租 · 京贸中心大开间，窗户是大落地窗，
看房随时https://m.lianjia.com/chuzu/bj/zufang/BJ2136262410049159168.html,72,3500,元/月,京贸中心,整租
"""
# 分支条件匹配书写正则表达式所需要注意的点
# 条件限定时，范围约小的，也就是越难满足的就要写在前边
# 因为多条件匹配的时候，匹配规则是从左到右，如果满足了左边的规则，那么右边就不去看了
# reg = '\d{3}|\d{4}'
reg = '\d{5}|\d{4}|\d{3}'
re.findall(reg,s)

['714', '397', '5251', '7185', '21362', '62410', '04915', '9168', '3500']

## 零宽断言

In [46]:
s = """
5c714e1f397be4c5251a7185,1,1,武夷花园,北京,通州,,西,0,精装 集中供暖 随时看房,整租 · 京贸中心大开间，窗户是大落地窗，
看房随时https://m.lianjia.com/chuzu/bj/zufang/BJ2136262410049159168.html,72,3500,元/月,京贸中心,整租
"""
reg=',(?=整租$)'
re.findall(reg,s)


[',']

|符号(reg代表着一个正则表达式)|说明|
|--|--|
|(?=reg)|匹配正则表达式前边的内容|
|(?<=reg)|匹配正则表达式后边的内容|
|(?!reg)|匹配后边跟的不是正则表达式的内容|
|(?<!reg)|匹配前边不是正则表达式的内容|

In [55]:
# 匹配hello中的lo
s = "hellogreedyaiilove"
reg = 'lo(?=greedy)'
re.findall(reg,s)

['lo']

In [56]:
# 匹配greedyai后边的所有的字母
reg = "(?<=greedyai)[a-z]*"
re.findall(reg,s)

['ilove']

In [57]:
# 匹配love中的lo
reg='lo(?!greedyai)'
re.findall(reg,s)

['lo']

In [59]:
# 这个匹配出来的就是greedai中的i，而不是ilove中的i
reg = '(?<!greedyai)i'
re.findall(reg,s)

['i']

## 实例展示

In [12]:
import pandas as pd 
import matplotlib.pyplot as plt
import numpy as np

In [16]:
df = pd.read_csv('旅游.csv',index_col =0)
df.head()

Unnamed: 0,出发地,目的地,价格,节省,路线名,酒店,房间,去程航司,去程方式,去程时间,回程航司,回程方式,回程时间
0,哈尔滨,北海,2208.0,650.0,哈尔滨-北海3天2晚 | 入住北海祥丰嘉年华大酒店 + 春秋航空往返机票,北海祥丰嘉年华大酒店 舒适型 4.7分/5分,标准双人间(双床) 双床 不含早 1间2晚,春秋航空 9C8741,直飞,17:10-21:50,春秋航空 9C8742,直飞,10:20-15:05
1,成都,泸沽湖,1145.0,376.0,成都-泸沽湖3天2晚 | 入住7天酒店丽江古城中心店 + 成都航空往返机票,7天酒店丽江古城中心店 经济型 4.0分/5分,经济房-不含早-限时特... 其他 不含早 1间2晚,成都航空 EU2237,直飞,19:45-21:20,成都航空 EU2738,直飞,23:30-01:05
2,广州,沈阳,2702.0,618.0,广州-沈阳3天2晚 | 入住沈阳中煤宾馆 + 南方航空/深圳航空往返机票,沈阳中煤宾馆 舒适型 4.5分/5分,大床间(内宾) 大床 双早 1间2晚,南方航空 CZ6384,直飞,08:05-11:45,深圳航空 ZH9652,经停,08:20-13:05
3,上海,九寨沟,1954.0,484.0,上海-九寨沟3天2晚 | 入住红原芸谊大酒店 + 成都航空往返机票,红原芸谊大酒店 舒适型 4.6分/5分,豪华双床房[双早] 双床 双早 1间2晚,成都航空 EU6678,直飞,21:55-01:15,成都航空 EU6677,直飞,17:45-20:35
4,广州,天津,1608.0,422.0,广州-天津3天2晚 | 入住天津逸海明珠大酒店 + 奥凯航空/海南航空往返机票,天津逸海明珠大酒店 高档型 4.1分/5分,豪华双床房(预付) 双床 不含早 1间2晚,奥凯航空 BK2787,直飞,06:55-10:00,海南航空 HU7201,直飞,20:15-23:25


In [19]:
# 提取酒店评分
df['酒店评分'] = df['酒店'].str.extract('(\d\.\d)分/5分')
df.head()

Unnamed: 0,出发地,目的地,价格,节省,路线名,酒店,房间,去程航司,去程方式,去程时间,回程航司,回程方式,回程时间,酒店评分
0,哈尔滨,北海,2208.0,650.0,哈尔滨-北海3天2晚 | 入住北海祥丰嘉年华大酒店 + 春秋航空往返机票,北海祥丰嘉年华大酒店 舒适型 4.7分/5分,标准双人间(双床) 双床 不含早 1间2晚,春秋航空 9C8741,直飞,17:10-21:50,春秋航空 9C8742,直飞,10:20-15:05,4.7
1,成都,泸沽湖,1145.0,376.0,成都-泸沽湖3天2晚 | 入住7天酒店丽江古城中心店 + 成都航空往返机票,7天酒店丽江古城中心店 经济型 4.0分/5分,经济房-不含早-限时特... 其他 不含早 1间2晚,成都航空 EU2237,直飞,19:45-21:20,成都航空 EU2738,直飞,23:30-01:05,4.0
2,广州,沈阳,2702.0,618.0,广州-沈阳3天2晚 | 入住沈阳中煤宾馆 + 南方航空/深圳航空往返机票,沈阳中煤宾馆 舒适型 4.5分/5分,大床间(内宾) 大床 双早 1间2晚,南方航空 CZ6384,直飞,08:05-11:45,深圳航空 ZH9652,经停,08:20-13:05,4.5
3,上海,九寨沟,1954.0,484.0,上海-九寨沟3天2晚 | 入住红原芸谊大酒店 + 成都航空往返机票,红原芸谊大酒店 舒适型 4.6分/5分,豪华双床房[双早] 双床 双早 1间2晚,成都航空 EU6678,直飞,21:55-01:15,成都航空 EU6677,直飞,17:45-20:35,4.6
4,广州,天津,1608.0,422.0,广州-天津3天2晚 | 入住天津逸海明珠大酒店 + 奥凯航空/海南航空往返机票,天津逸海明珠大酒店 高档型 4.1分/5分,豪华双床房(预付) 双床 不含早 1间2晚,奥凯航空 BK2787,直飞,06:55-10:00,海南航空 HU7201,直飞,20:15-23:25,4.1


In [22]:
# 提取酒店等级
df['酒店等级'] = df['酒店'].str.extract(' (.+) ')
df.head()

Unnamed: 0,出发地,目的地,价格,节省,路线名,酒店,房间,去程航司,去程方式,去程时间,回程航司,回程方式,回程时间,酒店评分,酒店等级
0,哈尔滨,北海,2208.0,650.0,哈尔滨-北海3天2晚 | 入住北海祥丰嘉年华大酒店 + 春秋航空往返机票,北海祥丰嘉年华大酒店 舒适型 4.7分/5分,标准双人间(双床) 双床 不含早 1间2晚,春秋航空 9C8741,直飞,17:10-21:50,春秋航空 9C8742,直飞,10:20-15:05,4.7,舒适型
1,成都,泸沽湖,1145.0,376.0,成都-泸沽湖3天2晚 | 入住7天酒店丽江古城中心店 + 成都航空往返机票,7天酒店丽江古城中心店 经济型 4.0分/5分,经济房-不含早-限时特... 其他 不含早 1间2晚,成都航空 EU2237,直飞,19:45-21:20,成都航空 EU2738,直飞,23:30-01:05,4.0,经济型
2,广州,沈阳,2702.0,618.0,广州-沈阳3天2晚 | 入住沈阳中煤宾馆 + 南方航空/深圳航空往返机票,沈阳中煤宾馆 舒适型 4.5分/5分,大床间(内宾) 大床 双早 1间2晚,南方航空 CZ6384,直飞,08:05-11:45,深圳航空 ZH9652,经停,08:20-13:05,4.5,舒适型
3,上海,九寨沟,1954.0,484.0,上海-九寨沟3天2晚 | 入住红原芸谊大酒店 + 成都航空往返机票,红原芸谊大酒店 舒适型 4.6分/5分,豪华双床房[双早] 双床 双早 1间2晚,成都航空 EU6678,直飞,21:55-01:15,成都航空 EU6677,直飞,17:45-20:35,4.6,舒适型
4,广州,天津,1608.0,422.0,广州-天津3天2晚 | 入住天津逸海明珠大酒店 + 奥凯航空/海南航空往返机票,天津逸海明珠大酒店 高档型 4.1分/5分,豪华双床房(预付) 双床 不含早 1间2晚,奥凯航空 BK2787,直飞,06:55-10:00,海南航空 HU7201,直飞,20:15-23:25,4.1,高档型


In [26]:
# 提取天数
df['天数'] = df['路线名'].str.extract('(\d)天\d晚') 
df.head()

Unnamed: 0,出发地,目的地,价格,节省,路线名,酒店,房间,去程航司,去程方式,去程时间,回程航司,回程方式,回程时间,酒店评分,酒店等级,天数
0,哈尔滨,北海,2208.0,650.0,哈尔滨-北海3天2晚 | 入住北海祥丰嘉年华大酒店 + 春秋航空往返机票,北海祥丰嘉年华大酒店 舒适型 4.7分/5分,标准双人间(双床) 双床 不含早 1间2晚,春秋航空 9C8741,直飞,17:10-21:50,春秋航空 9C8742,直飞,10:20-15:05,4.7,舒适型,3
1,成都,泸沽湖,1145.0,376.0,成都-泸沽湖3天2晚 | 入住7天酒店丽江古城中心店 + 成都航空往返机票,7天酒店丽江古城中心店 经济型 4.0分/5分,经济房-不含早-限时特... 其他 不含早 1间2晚,成都航空 EU2237,直飞,19:45-21:20,成都航空 EU2738,直飞,23:30-01:05,4.0,经济型,3
2,广州,沈阳,2702.0,618.0,广州-沈阳3天2晚 | 入住沈阳中煤宾馆 + 南方航空/深圳航空往返机票,沈阳中煤宾馆 舒适型 4.5分/5分,大床间(内宾) 大床 双早 1间2晚,南方航空 CZ6384,直飞,08:05-11:45,深圳航空 ZH9652,经停,08:20-13:05,4.5,舒适型,3
3,上海,九寨沟,1954.0,484.0,上海-九寨沟3天2晚 | 入住红原芸谊大酒店 + 成都航空往返机票,红原芸谊大酒店 舒适型 4.6分/5分,豪华双床房[双早] 双床 双早 1间2晚,成都航空 EU6678,直飞,21:55-01:15,成都航空 EU6677,直飞,17:45-20:35,4.6,舒适型,3
4,广州,天津,1608.0,422.0,广州-天津3天2晚 | 入住天津逸海明珠大酒店 + 奥凯航空/海南航空往返机票,天津逸海明珠大酒店 高档型 4.1分/5分,豪华双床房(预付) 双床 不含早 1间2晚,奥凯航空 BK2787,直飞,06:55-10:00,海南航空 HU7201,直飞,20:15-23:25,4.1,高档型,3


### 租房数据提取（练习）

### 租房数据提取（答案）