## 什么是正则表达式(Regular Expression)：
通俗理解：按照一定的规则，从某个字符串中匹配出想要的数据。这个规则是正则表达式。  
标准答案：https://baike.baidu.com/item/%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F

## 正则表达式常用匹配规则：

In [2]:
import re

### 匹配单个字符

In [2]:
# 1.匹配某个字符串
text = 'hello' #如果是“ahello'，匹配结果为null，null打印不出来就会报错
ret = re.match('he', text)
print(ret.group())

he


In [3]:
# 2.点(.)匹配任意的字符
text = 'ab' #如果是换行符'\n',匹配结果为null，null打印不出来就会报错
ret = re.match('.', text)
print(ret.group())

a


In [5]:
# 3.\d匹配任意的数字（0-9）Digit
text = '1' #如果是换行符'a',匹配结果为null，null打印不出来就会报错
ret = re.match('\d', text)
print(ret.group())

1


In [5]:
# 4.\D匹配任意的非数字 non-Digit
text = '+' #如果是换行符'1',匹配结果为null，null打印不出来就会报错
ret = re.match('\D', text)
print(ret.group())

+


In [8]:
# 5.\s匹配任意空白字符（包括：\n, \t, \r, 空格) white space
text = '\nab' #如果是换行符'ab',匹配结果为null，null打印不出来就会报错
ret = re.match('\s', text)
print(ret.group()) #空白字符打印出来看不到而已，但是已经匹配到了





In [None]:
# \S non-white space

In [7]:
# 6.\w匹配的是a-z和A-Z以及数字和下划线 alphanumeric( or underscore)[a-zA-Z0-9_]
text = '_' #如果是换行符'+',匹配结果为null，null打印不出来就会报错
ret = re.match('\w', text)
print(ret.group())

_


In [8]:
# 7.\W匹配的是是和\w相反的 non-alphanumeric[^a-zA-Z0-9_]
text = '+' #如果是换行符'_',匹配结果为null，null打印不出来就会报错
ret = re.match('\W', text)
print(ret.group())

+


In [12]:
# 8.[]组合的方式，只要满足中括号中的字符。就可以匹配
text = '0731-88888888' #区号+电话号码
# + 代表找出match的多个字符
# \d-: 可以使任意的数字或者横杠-符号
ret = re.match('[\d\-]+', text) #'\-'：因为-本来就有指定范围的用处
print(ret.group())

0731-88888888


In [10]:
# 8.1. 中括号的形式代替\d
text = "09"
ret = re.match('[0-9]', text) #匹配0-9数字
print(ret.group())

ret = re.match('[0-9]+', text) #匹配0-9数字的多个字符
print(ret.group())

0
09


In [11]:
# 8.2. 中括号的形式代替\D
text = "a"
ret = re.match('[^0-9]', text) 
print(ret.group())

a


In [12]:
# 8.3. 中括号的形式代替\w
text = "_"
ret = re.match('[a-xA-Z0-9_]', text) 
print(ret.group())

_


In [13]:
# 8.4. 中括号的形式代替\W
text = "+"
ret = re.match('[^a-xA-Z0-9_]', text) 
print(ret.group())

+


### 匹配多个字符

In [15]:
# 9. *：可以匹配0或者任意多个字符 a+ == aa*
text = "abcd"
ret = re.match('\s*',text) 
print(ret.group())




In [15]:
# 10. +：可以匹配1或者任意多个字符
text = "abcd" #”+abcd“就不行
ret = re.match('\w+',text) 
print(ret.group())

abcd


In [16]:
# 11. ?：可以匹配1或者0个字符（要么没有，要么就只有一个） R{0,1} == R? 
text = "+abcd"
ret = re.match('\w?',text)
print(ret.group())




In [17]:
# 12. {m}：可以匹配m个字符
text = "abcd"
ret = re.match('\w{2}',text) 
print(ret.group())

ab


In [18]:
# 13. {m,n}：可以匹配m-n个字符
text = "abcdab"
ret = re.match('\w{1,5}',text)  # 匹配 1 - 5 个字符
print(ret.group())

abcda


### 小案例

In [19]:
# 14. 验证手机号码
text = "18578900987"
# 第一位必须是1
# 前两位可以是：13，14，15，17，18
# 后面9位是数字所以 \d{9}
ret = re.match('1[34578]\d{9}',text) 
print(ret.group())

18578900987


In [20]:
# 15. 验证邮箱
text1 = "hynever@qq.com"
text2 = "hy_never@163.com"
# \w数字或者符号或者_
# +至少一个
# 一定要有@
# 邮箱地址里有.
ret = re.match('\w+@[a-z0-9]+\.[a-z]+',text1)
print(ret.group())
ret = re.match('\w+@[a-z0-9]+\.[a-z]+',text2)
print(ret.group())

hynever@qq.com
hy_never@163.com


In [21]:
# 16. 验证url
# URL的规则是前面是http或者https或者是ftp然后加上一个冒号，
# 再加上两个斜杠，,再后面就是可以出现任意非空白字符了。
text = "https://baike.baidu.com/item/%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F"
# | 竖杠是或者的意思
ret = re.match('(http|https|ftp)://[^\s]+',text) 
print(ret.group())

https://baike.baidu.com/item/%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F


In [22]:
# 17. 验证身份证
# 总共18位，前面十七位是数字，最后一位可以使数字，也可以使小写的x，
# 也可以是大写的X。
text = "33102319931116044X"
ret = re.match('\d{17}[\dxX]', text) #或者ret = re.match('\d{17}(\d|x|X)', text)
print(ret.group())

33102319931116044X


In [23]:
# 18. ^(脱字号):表示以...开始
text = "hello"
ret = re.match('^h', text) #其实等同于ret = re.match('h', text)
print(ret.group())

# 在serch里
text = "hello"
ret = re.search('^h', text) #等同于上面 # ^使search失去效果
print(ret.group())

h
h


In [41]:
# 19. $:表示以...结尾
text = "xxx@163.com"
ret = re.match('\w+@163.com$', text) #以@163.com结尾
print(ret.group())

xxx@163.com


In [47]:
# 20. |:匹配多个字符串或者表达式：a(b|c|d)e  == a[bcd]e
# (...)分组
# (?P<name>...) 分组带名字
# (?:...) 不分组,但是看做一个整体

# 这里我们想说 fttp | http | https 而不是 ...| ...| https$ 所以用括号区分开
text = "https"
ret = re.match('(?:fttp|http|https)$', text)
print(ret.group())

https


In [49]:
# 21. 贪婪模式与非贪婪模式：
# 贪婪模式：会尽量地去匹配多的字符 ?
text = "0123456"
ret = re.match('\d+', text)
print(ret.group())
# 非贪婪模式：只会匹配一个字符
text = "0123456"
ret = re.match('\d+?', text)
print(ret.group())

0123456
0


In [58]:
text = "<h1>标题</h1>"
# 在贪婪模式下
ret = re.match('<.+>', text)
print(ret.group())
# 在非贪婪模式下
ret = re.match('<.+?>', text)
print(ret.group())

<h1>标题</h1>
<h1>


In [82]:
# 22.匹配0-100之间的数字
# 可以出现的： 1, 2, 3, 10, 100, 99
# 有三种情况：1, 99, 11
# 不可以出现的： 09, 101
text = "100"
ret = re.match('[1-9]\d?$|100$', text) 
#没有第1个$的话“100”会匹配出10
#没有第2个$的话会"1001"匹配出1001
print(ret.group())

100


In [98]:
"11{:d}".format(99)

'1199'

In [122]:
# 23.转义字符和原生字符串：
# \转义字符:去除符号本身的意义
text = "apple price is $299"
ret = re.search("\$\d+" ,text)
print(ret.group())

# 原生字串：
# \ 或者 r: raw
text = "\\n" #='\n'    #可以写成r"\n" 
# python: '\\n' = \n
# \\\\n => \\n
# 正则表达式： \n =
# \\n => \n
ret = re.search("\\\\n" ,text)
print(ret.group())

$299
\n


In [289]:
text = "\c"
ret = re.search("\\\\c" ,text)
print(ret.group())
#或者
ret = re.search(r"\\c" ,text) #加r以后就不会对\\进行解译了
print(ret.group())

\c
\c


### match函数
从开始的位置进行匹配。如果开始的位置没有匹配到。就直接失败了。示例代码如下：
```python
text = 'hello'
ret = re.match('h', text)
print(ret.group())
>> h
```
如果第一字母不是```h```，那么就会失败。示例代码如下：
```python
text = 'ahello'
ret = re.match('h', text)
print(ret.group())
>> AttributeError: 'NoneType' object has no attribute 'group'
```
如果想要匹配换行的数据，那么就要传入一个```flag=re.DOTALL```，就可以匹配换行符了。示例代码如下：
```python
text = 'abc\nabc'
ret = re.match('abc.*abc', text, re.DOTALL)
print(ret.group())
>> abc
   abc
```

### search函数
在字符串中找满足条件的字符。如果找到，就返回。说白了，就是只会找到第一个满足条件的。

### 分组
在正则表达式中，可以对过滤到的字符串进行分组。分组使用圆括号的方式。
1. ```group```: 和```group(0)```是等价的，返回的是整个满足条件的字符串。
2. ```groups```: 返回的是里面的自己。索引从1开始。
3. ```group(1)```: 返回的是第一个自足，可以传入多个。
示例代码如下：

```python
text = "apple price is $99, orange price is $10"
ret = re.search('.*(\$\d+).*(\$\d+)', text)
print(ret.group())
```
```
>> apple price $99, orange price is $10
```

```python
print(ret.group(1))
```
```
>> $99
```

```python
print(ret.group(2))
```
```
>> $10
```

### findall函数：
找出所有满足条件的，返回的是一个列表

In [162]:
text = "apple's price $99, orange's price is $10"
ret = re.findall('\$\d+', text)
print(ret)

['$99', '$10']


### sub函数：
用来替换字符串。将匹配到的字符串替换为其他字符串。

In [48]:
text = "apple's price $99, orange's price is $10"
ret = re.sub('\$\d+', '0', text) #默认替换所有满足的字符
print(ret)
print(text)

apple's price 0, orange's price is 0
apple's price $99, orange's price is $10


In [171]:
html = """
<dd class="job_bt">
        <h3 class="description">职位描述：</h3>
        <div>
        <p>参与公司新一代面向生命科学行业云服务应用及平台的开发。</p>
<p><br></p>
<p>【工作职责】</p>
<p>云服务软件产品的架构设计与开发</p>
<p>与设计、产品及前端人员沟通，保证产品的质量和开发进度</p>
<p>研究新兴技术，对产品进行持续优化</p>
<p><br></p>
<p>【职位要求】</p>
<p>计算机相关专业本科及以上学历</p>
<p>对常见数据结构和面向对象设计有深入理解</p>
<p>熟练掌握Python语言，3年以上实际经验</p>
<p>熟悉Python Web开发框架如Django</p>
<p>熟练掌握数据库开发和设计</p>
<p>基本的英文读写能力</p>

        </div>
    </dd>
"""

In [175]:
# 实例
# 1.替换标签类
ret = re.sub('<.+?>', "", html)
print(ret)



        职位描述：
        
        参与公司新一代面向生命科学行业云服务应用及平台的开发。

【工作职责】
云服务软件产品的架构设计与开发
与设计、产品及前端人员沟通，保证产品的质量和开发进度
研究新兴技术，对产品进行持续优化

【职位要求】
计算机相关专业本科及以上学历
对常见数据结构和面向对象设计有深入理解
熟练掌握Python语言，3年以上实际经验
熟悉Python Web开发框架如Django
熟练掌握数据库开发和设计
基本的英文读写能力

        
    



In [244]:
 re.sub('(a+)','{as}','aabcaaadaf')

'{as}bc{as}d{as}f'

In [51]:
# substite by group number
re.sub('(a+)','(\g<1>)','aabcaaadaf')

'(aa)bc(aaa)d(a)f'

In [53]:
# substitute by group name
# you can replece <name> by whatever you want
re.sub('(?P<name>a+)','(\g<name>)','aabcaaadaf')

'(aa)bc(aaa)d(a)f'

In [262]:
# substitute by group name
re.sub('(?P<name>a+)','(\1)','aabcaaadaf')

'(\x01)bc(\x01)d(\x01)f'

In [267]:
# 不改变 如果没有匹配
re.sub('(z)','(\g<1>)','aabcaaadaf')

'aabcaaadaf'

### split函数：
使用正则表达式来分割字符串。

In [177]:
text = "hellp world ni hao"
ret = re.split(' ', text)
print(ret)

['hellp', 'world', 'ni', 'hao']


In [181]:
# 如果想按空格和&进行分割呢
text = "hellp&world ni hao"
ret = re.split(' |&', text)
print(ret)

['hellp', 'world', 'ni', 'hao']


In [183]:
# 只要不是英文都当做分隔符
text = "hellp world ni hao"
ret = re.split('[^a-zA-Z]', text)
print(ret)

['hellp', 'world', 'ni', 'hao']


In [62]:
# 需要同\进行转义
re.split('\.|-', 'a.b-c')

['a', 'b', 'c']

In [63]:
# 其实不需要(?:) 来进行划分,默认就足够识别了
re.split('(?:\.|-)', 'a.b-c')

['a', 'b', 'c']

In [64]:
re.split(';+'  ,'abc;d;;;e') #;+ zero or more ;'s

['abc', 'd', 'e']

In [75]:
# ()输出结果不包含分隔符 
re.split(';+','abc;d;;e')

['abc', 'd', 'e']

In [79]:
# ()输出结果包含分隔符 
re.split('(;+)','abc;d;;e')

['abc', ';', 'd', ';;', 'e']

In [78]:
# ?: 可以避免包含分隔符
re.split('(?:;+)','abc;d;;e')

['abc', 'd', 'e']

### compile函数
对于一些经常要用到的正则表达式，就可以使用```compile```进行编译，后期再使用的时候可以直接拿过来用，执行效率会更快。而且```compile```还可以指定```flag=re.VERBOSE```,在写正则表达式的时候可以做好注释。示例代码如下：

In [198]:
text = "the number is 20.50"
pattern = re.compile('\d+\.?\d*')
ret = pattern.search(text)
print(ret.group())

20.50


In [88]:
# re.VERBOSE：可以添加注释（因为很容易忘记）
text = "the number is 20.50"
pattern = re.compile(r"""
    \d+ # 小数点前面的数
    \.? # 小数点本身
    \d* # 小数点后面的数字
""", re.VERBOSE)
ret = pattern.search(text)
print(ret.group())

20.50


# Group分组
### capture group 捕获分组
- (R): 分组
- (?P< group_name >R): 命名分组

### non-capture group 非捕获分组
- (?:R): 不记住顺序

In [18]:
# group() 显示所有的符合元素
text = "apple price is $99, orange price is $10"
ret = re.search('.*(\$\d+).*(\$\d+)', text)
print(ret.group())

apple price is $99, orange price is $10


In [51]:
# group(#) 选择第#个组 1, 2, 3, 4, ...
text = "apple price is $99, orange price is $10"
ret = re.search('.*(\$\d+).*(\$\d+)', text)
print(ret.group(1))

$99


In [33]:
# （R）捕获分组
text = "apple price is $99, orange price is $10"
ret = re.search('.*(\$\d+).*(\$\d+)', text)
print(ret.group(2))

$10


In [48]:
# (?P<name>R) 命名分组 
text = "apple price is $99, orange price is $10"
ret = re.search('.*(?P<price1>\$\d+).*(\$\d+)', text)
print(ret.group('price1'))

$99


In [92]:
text = "apple price is $99, orange price is $10"
ret = re.search('.*(?P<price1>\$\d+).*(\$\d+)', text)
print(ret.group(1))

$99


In [90]:
text = "apple price is $99, orange price is $10"
ret = re.search('.*(?P<price1>\$\d+).*(\$\d+)', text)
print(ret.groups())

('$99', '$10')


In [71]:
text = "First Name: Malcolm; Last Name: Reynolds"
m = re.match(r"First Name: (?P<first_name>\w+); Last Name: (?P<last_name>\w+)", text)
print(m.group('first_name'))
print(m.group('last_name'))
print(m.group(1))
print(m.group(0))
print(m.groups())

Malcolm
Reynolds
Malcolm
First Name: Malcolm; Last Name: Reynolds
('Malcolm', 'Reynolds')


In [11]:
# (?:R) 非捕获分组
text = "First Name: Malcolm; Last Name: Reynolds"
m = re.match(r"First Name: (?:\w+); Last Name: (?P<last_name>\w+)", text)
print(m.group(1))
print(m.groups())

Reynolds
('Reynolds',)


In [9]:
print(m.group())

First Name: Malcolm; Last Name: Reynolds


In [78]:
# (T|t)可以匹配多个模式，同时也是一个分组，会被捕获
print(re.findall(r'(T|t)he', 'The the'))  # ['T', 't']
# 方括号也可以匹配多模式
print(re.findall(r'[T|t]he', 'The the'))  # ['The', 'the']
# 非捕获分组
print(re.findall(r'(?:T|t)he', 'The the')) # ['The', 'the']

['T', 't']
['The', 'the']
['The', 'the']


In [84]:
print(re.findall(r'(.)he', 'The the')) 

['T', 't']


#### Ex: phone number

In [181]:
phone = r'^(?:\((\d{3})\))?(\d{3})[-.](\d{4})$'
m = re.match(phone,'(949)824-2704')
print(m.group())
print(m.groups())
area, exchange, number = [int(i) if i != None else None for i in m.group(1,2,3)]
print(area, exchange, number)

(949)824-2704
('949', '824', '2704')
949 824 2704


In [189]:
# compile
phone_pat = re.compile(r'^(?:\((\d{3})\))?(\d{3})[-.](\d{4})$')
m = phone_pat.match('(949)824-2704')
print(m.group())

(949)824-2704


#### Q1:
Write a regular expression pattern that matches the strings Jul 4, July 4,  
Jul 4th, July 4th, July fourth, and July Fourth.  
Hint: my re pattern was 24 characters.  

In [192]:
for text in ['Jul 4', 'July 4', 'Jul 4th', 'July 4th', 'July fourth', 'July Fourth']:
    m = re.match(r"July? (?:4|f|Four)(?:th)?", text)
    print(m.group())

Jul 4
July 4
Jul 4th
July 4th
July f
July Fourth


#### Q2:
Write a regular expression pattern that matches strings representing times on  
a 12 hour clock. An example time is  5:09am or 11:23pm. Allow only times that  
are legal (not 1:73pm nor 13:02pm)  
Hint: my re pattern was 32 characters.

In [151]:
text = "10:59am"
m = re.match(r"([0-9]|1[01]):[0-5][0-9][a|p]m", text)
print(m.group())

10:59am


In [208]:
m = re.search("(a+)b","xaaab")
m.group()

'aaab'

# Notes:

In [276]:
re.match('a(b?)c','ac').groups()

('',)

In [98]:
re.match('a(b)?c','ac').groups()

(None,)

In [81]:
phone_pat = re.compile(r'^(?:\((\d{3})\))?(\d{3})[-.](\d{4})$')
m = phone_pat.match('(949)824-2704')
m.groups()

('949', '824', '2704')

In [86]:
m = phone_pat.match('(949)823.2704')
m.groups()

('949', '823', '2704')

In [99]:
def f(n):
    def g(x):
        if x>0: return '1'
        else: return '0'
    a = g(n)
    return a

In [101]:
f(-1)

'0'

In [104]:
('\n'+2*'\t').join(i + '-' for i in ['x','y'])

'x-\n\t\ty-'

False