<h1>正则表达式</h1>
<ol>
    <li>
        <a href="#正则的含义">正则的含义</a>
    </li>
    <li>
        <a href="#正则表达式的应用场景">正则表达式的应用场景</a>
    </li>
    <li>
        <a href="#元字符">元字符</a>
    </li>
    <li>
        <a href="#反义代码">反义代码</a>
    </li>
    <li>
        <a href="#限定符">限定符</a>
    </li>
    <li>
        <a href="#分组匹配">分组匹配</a>
    </li>
    <li>
        <a href="#贪婪与非贪婪">贪婪与非贪婪</a>
    </li>
    <li>
        <a href="#分支条件匹配">分支条件匹配</a>
    </li>
    <li>
        <a href="#零宽断言">零宽断言</a>
    </li>
</ol>

## 正则的含义

- 正则表达式是用来操作字符串的一种逻辑公式

## 正则表达式的应用场景

- 数据分析时，数据获取的文本筛选
- 写爬虫代码时，网页数据的匹配
- 写前端代码时，用户输入数据的验证(比如手机号)
- 测试人员在请求接口时，对请求结果的验证
- 批量文本编辑，比如在Sublime Text或nodepad++等等记事本软件中

### 常见格式验证
- 邮箱验证
- IP地址验证
- 电话号码验证
- 密码强度验证
- 网址验证
- 汉字验证，汉字的范围是:[\u4e00-\u9fa5]{0,}


- 凡是有一定规律的，批量的数据获取，我们都可以使用正则表达式来完成

In [1]:
## 正则表达式的演示
# 使用正则表达式，需要导入re库
import re

s = '贪心学院的官网是:http://www.greedyai.com'
reg = 'http://[w]{3}\.[a-z0-9]*\.com'
re.findall(reg,s)

['http://www.greedyai.com']

In [2]:
reg = '[\u4e00-\u9fa5]{0,}'
re.findall(reg,s)

['贪心学院的官网是',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '']

## 元字符

|字符|说明|
|--|--|
|.|代表的是换行符（\n,\r\n）以外的任意字符|
|\w|匹配字母或数字或下划线或汉字的字符|
|\s|匹配任意的空白符|
|\d|匹配数字|
|^|匹配字符串的开始|
|$|匹配字符串的结束|

In [4]:
s = '贪心学23院的123官网987是:http://www.greedyai.com'
re.findall('\d',s)

['2', '3', '1', '2', '3', '9', '8', '7']

In [5]:
s = '贪心学23院的123官网987是:http://www.greedyai.com'
re.findall('w',s)

['w', 'w', 'w']

In [7]:
s = '1贪心学23院的123官网987是:http://www.greedyai.com'
re.findall('^1',s)

['1']

In [9]:
s = '1贪心学23院的123官m网987是:http://www.greedyai.com'
re.findall('1',s)

['1', '1']

In [10]:
s = '1贪心学23院的123官m网987是:http://www.greedyai.com'
re.findall('m',s)

['m', 'm']

In [11]:
s = '1贪心学23院的123官m网987是:http://www.greedyai.com'
re.findall('m$',s)

['m']

## 反义代码

#### 就是与元字符相反的代码

|字符|说明|
|--|--|
|\W|匹配任意不是字母、数字、下划线、汉字的字符|
|\S|匹配任意不是空白符的字符|
|\D|匹配任意不是数字的字符|

In [12]:
s = """1贪心学23院的123官m
网987是:http://www.
greedyai.com"""
re.findall('.',s)

['1',
 '贪',
 '心',
 '学',
 '2',
 '3',
 '院',
 '的',
 '1',
 '2',
 '3',
 '官',
 'm',
 '网',
 '9',
 '8',
 '7',
 '是',
 ':',
 'h',
 't',
 't',
 'p',
 ':',
 '/',
 '/',
 'w',
 'w',
 'w',
 '.',
 'g',
 'r',
 'e',
 'e',
 'd',
 'y',
 'a',
 'i',
 '.',
 'c',
 'o',
 'm']

In [14]:
s = """1贪心学23院的123官m
网987是:http://www.
greedyai.com"""
re.findall('[\s\S]*',s)

['1贪心学23院的123官m\n网987是:http://www.\ngreedyai.com', '']

## 限定符

- 限定某一个逻辑集合所出现的次数

In [15]:
s = '贪心学院的官网是:http://www.greedyai.com'
reg = 'http://[w]{3}\.[a-z0-9]*\.com'

|字符|说明|
|--|--|
|*|代表的是重复0次或者是多次|
|+|代表的是重复1次或者是多次|
|?|代表是重复0次或者是1次|
|{n}|重复n次的意思|
|{n,}|重复n次或者是更多次|
|{n,m}|重复n次到m次|

In [19]:
s = '贪心1234学院的官45网678是:http://www.greedyai.com'
reg = '\d{2}'
re.findall(reg,s)


['12', '34', '45', '67']

In [20]:
s = '贪心1234学院的官45网678是:http://www.greedyai.com'
reg = '\d*'
re.findall(reg,s)


['',
 '',
 '1234',
 '',
 '',
 '',
 '',
 '45',
 '',
 '678',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '']

## 分组匹配

In [18]:
s = "我的qq号码是:4219739310000"
reg="\d{5,8}"
result = re.findall(reg,s)
# 注意这里的返回值是一个列表
result

['42197393', '10000']

In [14]:
reg = "(\d).*(\d)"
result = re.findall(reg,s)
# 注意这里的返回值是一个列表
result

[('4', '0')]

In [3]:
result[0]

'42197393'

In [27]:
s = "1234561234"
reg = "1(2)3"
result = re.findall(reg,s)
result

['2', '2']

In [5]:
# 分组来啦
reg = "(\d{8}).*(\d{5})"
result = re.search(reg,s)
result



<re.Match object; span=(8, 35), match='42197393,my postcode: 10000'>

In [26]:
result.group()

'42197393,my postcode: 10000'

In [27]:
result.group(0)

'42197393,my postcode: 10000'

In [28]:
result.group(1)

'42197393'

In [29]:
result.group(2)

'10000'

## 贪婪与非贪婪

- 贪婪：尽可能多的匹配
- 非贪婪：尽可能少的匹配


- 非贪婪匹配的操作符是?   


|字符|说明|
|--|--|
|*|代表的是重复0次或者是多次|
|+|代表的是重复1次或者是多次|
|?|代表是重复0次或者是1次|

??:代表的是匹配1次


- 贪婪和非贪婪对限定符做出了一些限制

In [30]:
s = '贪心1234学院的官45网678是:http://www.greedyai.com'
reg = '\d*'
re.findall(reg,s)

['',
 '',
 '1234',
 '',
 '',
 '',
 '',
 '45',
 '',
 '678',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '']

In [31]:
s = "greedyaiiiiiii"
reg = 'i'
re.findall(reg,s)

['i', 'i', 'i', 'i', 'i', 'i', 'i']

In [32]:
# 默认是贪婪匹配，尽可能多的匹配
s = "greedyaiiiiiii"
reg = 'i*'
re.findall(reg,s)

['', '', '', '', '', '', '', 'iiiiiii', '']

In [33]:
s = "greedyaiiiiiii"
reg = 'i?'
re.findall(reg,s)

['', '', '', '', '', '', '', 'i', 'i', 'i', 'i', 'i', 'i', 'i', '']

In [34]:
# 在元字符后边加上非贪婪匹配操作符?，这个时候就是非贪婪匹配，就是尽可能少的匹配
s = "greedyaiiiiiii"
reg = 'i*?'
re.findall(reg,s)

['', '', '', '', '', '', '', '', '', '', '', '', '', '', '']

In [36]:
s = "greedyaiiiiiii"
reg = 'i??'
re.findall(reg,s)

['', '', '', '', '', '', '', '', '', '', '', '', '', '', '']

In [37]:
s = "greedyaiiiiiii"
reg = 'greedyai??'
re.findall(reg,s)

['greedya']

## 分支条件匹配

In [41]:
## 条件1 或 条件2  
s = """
5c714e1f397be4c5251a7185,1,1,武夷花园,北京,通州,,西,0,精装 集中供暖 随时看房,整租 · 京贸中心大开间，窗户是大落地窗，
看房随时https://m.lianjia.com/chuzu/bj/zufang/BJ2136262410049159168.html,72,3500,元/月,京贸中心,整租
"""
# 分支条件匹配书写正则表达式所需要注意的点
# 条件限定时，范围约小的，也就是越难满足的就要写在前边
# 因为多条件匹配的时候，匹配规则是从左到右，如果满足了左边的规则，那么右边就不去看了
# reg = '\d{3}|\d{4}'
reg = '\d{5}|\d{4}|\d{3}'
re.findall(reg,s)

['714', '397', '5251', '7185', '21362', '62410', '04915', '9168', '3500']

## 零宽断言

In [46]:
s = """
5c714e1f397be4c5251a7185,1,1,武夷花园,北京,通州,,西,0,精装 集中供暖 随时看房,整租 · 京贸中心大开间，窗户是大落地窗，
看房随时https://m.lianjia.com/chuzu/bj/zufang/BJ2136262410049159168.html,72,3500,元/月,京贸中心,整租
"""
reg=',(?=整租$)'
re.findall(reg,s)


[',']

|符号(reg代表着一个正则表达式)|说明|
|--|--|
|(?=reg)|匹配正则表达式前边的内容|
|(?<=reg)|匹配正则表达式后边的内容|
|(?!reg)|匹配后边跟的不是正则表达式的内容|
|(?<!reg)|匹配前边不是正则表达式的内容|

In [55]:
# 匹配hello中的lo
s = "hellogreedyaiilove"
reg = 'lo(?=greedy)'
re.findall(reg,s)

['lo']

In [56]:
# 匹配greedyai后边的所有的字母
reg = "(?<=greedyai)[a-z]*"
re.findall(reg,s)

['ilove']

In [57]:
# 匹配love中的lo
reg='lo(?!greedyai)'
re.findall(reg,s)

['lo']

In [59]:
# 这个匹配出来的就是greedai中的i，而不是ilove中的i
reg = '(?<!greedyai)i'
re.findall(reg,s)

['i']