<h1>正则表达式</h1>
<ol>
    <li>
        <a href="#正则的含义">正则的含义</a>
    </li>
    <li>
        <a href="#正则表达式的应用场景">正则表达式的应用场景</a>
    </li>
    <li>
        <a href="#元字符">元字符</a>
    </li>
    <li>
        <a href="#反义代码">反义代码</a>
    </li>
    <li>
        <a href="#限定符">限定符</a>
    </li>
    <li>
        <a href="#分组匹配">分组匹配</a>
    </li>
    <li>
        <a href="#贪婪与非贪婪">贪婪与非贪婪</a>
    </li>
    <li>
        <a href="#分支条件匹配">分支条件匹配</a>
    </li>
    <li>
        <a href="#零宽断言">零宽断言</a>
    </li>
</ol>

# 正则的含义
- 正则表达式是用来操作字符串的一种逻辑公式

# 正则表达式的应用场所
- 数据分析时，数据获取的文本
- 写爬虫代码时，网页数据的匹配

In [1]:
import re

# 元字符

|字符|说明|
|--|--|
|.|代表的是换行符（\n,\r\n）以外的任意字符|
|\w|匹配字母或数字或下划线或汉字的字符|
|\s|匹配任意的空白符|
|\d|匹配数字|
|^|匹配字符串的开始|
|$|匹配字符串的结束|

In [2]:
s = "百度的网址为：www.badu.com"
re.findall('w',s)

['w', 'w', 'w']

In [3]:
re.findall("\w",s)

['百',
 '度',
 '的',
 '网',
 '址',
 '为',
 'w',
 'w',
 'w',
 'b',
 'a',
 'd',
 'u',
 'c',
 'o',
 'm']

# 反义代码

- 就是与元字符相反的代码

|字符|说明|
|--|--|
|\W|匹配任意不是字母、数字、下划线、汉字的字符|
|\S|匹配任意不是空白符的字符|
|\D|匹配任意不是数字的字符|

In [8]:
s = '百度的网址时：www.baidu.com'
re.findall('[\s\S]*',s)

['百度的网址时：www.baidu.com', '']

# 限定符

- 限定某一个逻辑集合所出现的次数

|字符|说明|
|--|--|
|*|代表的是重复0次或者是多次|
|+|代表的是重复1次或者是多次|
|?|代表是重复0次或者是1次|
|{n}|重复n次的意思|
|{n,}|重复n次或者是更多次|
|{n,m}|重复n次到m次|

In [12]:
s = "百度的网址1234567：www.baidu.com"
re.findall('\d{2}',s)

['12', '34', '56']

In [13]:
reg = '\d*'
re.findall(reg,s)

['',
 '',
 '',
 '',
 '',
 '1234567',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '']

# 分组匹配

In [18]:
s = "我的qq号码是:12345678,my postcode: 10000"
reg="\d{5,8}"
result = re.findall(reg,s)
# 注意这里的返回值是一个列表
result

['12345678', '10000']

In [15]:
result[0]

'1234567'

In [19]:
reg = "(\d{8}).*(\d{5})"
result = re.findall(reg,s)
result

[('12345678', '10000')]

In [23]:
reg = "(\d{8}).*"
result = re.findall(reg,s)
result

['12345678']

In [27]:
# 分组
reg = "(\d{8}).*(\d{5})"
result = re.search(reg,s)
result

<_sre.SRE_Match object; span=(8, 35), match='12345678,my postcode: 10000'>

In [29]:
result.group()

'12345678,my postcode: 10000'

In [30]:
result.group(0)

'12345678,my postcode: 10000'

In [31]:
result.group(1)

'12345678'

In [32]:
result.group(2)

'10000'

In [33]:
result.group(3)

IndexError: no such group

# 贪婪与非贪婪

- 贪婪：尽可能多的匹配
- 非贪婪：尽可能少的匹配
- 非贪婪匹配的操作符
- ?? 代表是匹配1次
- 贪婪和非贪婪对限定符做出了一些限制

In [34]:
s = 'www.badu.com'
reg = 'w'
re.findall(reg,s)

['w', 'w', 'w']

In [35]:
# 默认是贪婪匹配，尽可能多匹配
reg = 'w*'
re.findall(reg,s)

['www', '', '', '', '', '', '', '', '', '', '']

In [37]:
reg = 'w?'
re.findall(reg,s)

['w', 'w', 'w', '', '', '', '', '', '', '', '', '', '']

In [38]:
# 在元字符后边加上非贪婪匹配操作符?，这个时候就是非贪婪匹配，就是尽可能少的匹配
reg = 'w*?'
re.findall(reg,s)

['', '', '', '', '', '', '', '', '', '', '', '', '']

In [39]:
reg = 'w??'
re.findall(reg,s)

['', '', '', '', '', '', '', '', '', '', '', '', '']

In [42]:
reg = 'www??'
re.findall(reg,s)

['ww']

# 分支匹配

In [43]:
## 条件1 或 条件2  
s = """
5c714e1f397be4c5251a7185,1,1,武夷花园,北京,通州,,西,0,精装 集中供暖 随时看房,整租 · 京贸中心大开间，窗户是大落地窗，
看房随时https://m.lianjia.com/chuzu/bj/zufang/BJ2136262410049159168.html,72,3500,元/月,京贸中心,整租
"""
# 分支条件匹配书写正则表达式所需要注意的点
# 条件限定时，范围约小的，也就是越难满足的就要写在前边
# 因为多条件匹配的时候，匹配规则是从左到右，如果满足了左边的规则，那么右边就不去看了
# reg = '\d{3}|\d{4}'
reg = '\d{5}|\d{4}|\d{3}'
re.findall(reg,s)

['714', '397', '5251', '7185', '21362', '62410', '04915', '9168', '3500']

# 零宽断言

In [44]:
s = """
5c714e1f397be4c5251a7185,1,1,武夷花园,北京,通州,,西,0,精装 集中供暖 随时看房,整租 · 京贸中心大开间，窗户是大落地窗，
看房随时https://m.lianjia.com/chuzu/bj/zufang/BJ2136262410049159168.html,72,3500,元/月,京贸中心,整租
"""
reg = ',(?=整租$)'
re.findall(reg,s)

[',']

|符号(reg代表着一个正则表达式)|说明|
|--|--|
|(?=reg)|匹配正则表达式前边的内容|
|(?<=reg)|匹配正则表达式后边的内容|
|(?!reg)|匹配后边跟的不是正则表达式的内容|
|(?<!reg)|匹配前边不是正则表达式的内容|

In [46]:
# 匹配baidu中的du
s = "www.baidu.com"
reg = 'du(?=.)'
re.findall(reg,s)

['du']

In [48]:
# 匹配du后所有的字母
reg = '(?<=du)\.[a-z]*'
re.findall(reg,s)

['.com']