### 操作符（元字符）、特殊字符和修饰符

将元字符再细化为**7个普通元字符 + 4个常用量化符**

#### 7个普通元字符

| 元字符| 含义|
|---|---|
|.|点号，可以匹配（除了换行符以外的）任意单个字符|
|\[\]|方括号，可以匹配括号内的任意字符，括号中的每个字符是or的含义|
|()|组，可以匹配括号内的表达式，括号中的每个字符是and的含义|
|^|乘方符号，表示以该符号后的字符开头|
|$|表示以该符号前的字符结尾|
|\||表示匹配符号前或符号后的字符|
|\\|转义字符，可以让某些符号表示特殊含义|


#### 4个常用量化符

所谓“量化符”，指的是将紧挨着量化符**前面**的那个字符匹配0次，1次或者多次。

|元字符|含义|表达式|
|---|---|---|
|?|前面紧挨着的字符，最多匹配一次| 0<=x<=1|
|*|前面紧挨着的字符，匹配0次或多次| x>=0 |
|+|前面紧挨着的字符，匹配1次或多次| x>=1|
|{n}|前面紧挨着的字符，正好匹配n次| x=n|
|{n,}|前面紧挨着的字符，至少匹配n次| x>=n|
|{n,m}|前面紧挨着的字符，至少匹配n次,至多匹配m次| n<=x<=m|

#### 6个特殊符号

所谓“特殊符号”，指的是由转移符号加某些字母组合而成，具有特殊意义的特殊字符。

| 元字符| 含义|等价于|
|---|---|---|
|\d|匹配一个数字字符|[\0-9]|
|\D|匹配一个非数字字符|[^0-9]|
|\s|匹配任何空白字符，包括空格、制表符、换页符等等|[\f\n\r\t\v]|
|\S|匹配任何非空白字符，包括空格、制表符、换页符等等|[^\f\n\r\t\v]|
|\w|匹配包括下划线的任何单词字符|[A-Za-z0-9_]|
|\w|匹配任何非单词字符|[^A-Za-z0-9_]|

#### 3个修饰符

| 元字符| 含义|
|---|---|
|re.l|使匹配对大小写不敏感|
|re.M|多行匹配，影响^和$|
|re.S|使 . 匹配包括换行在内的所有字符|

#### 6个函数

- match() ： **匹配字符串的开头，一旦匹配到具体值，就立即返回，不再往后匹配。** 如果开头匹配不上，则返回None;
- search() : 扫描整个字符串，匹配后立刻返回，**不再往后面匹配**；
- findall() : 扫描整个字符串，以列表形式返回所有的匹配值；
- compile() : 将字符串编译成正则表达式对象，供match(), search() and findall()函数使用；
- sub() : 扫描整个字符串，用于替换字符串的某些值；
- split() : 扫描整个字符串，按照指定分隔符切分字符串。

In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

In [2]:
import re

# match(pattern, string, flag)
s1 = "ab陈cde同fghi学"
re.match('a',s1)

# 返回的使一个match对象，调用对象的group()函数，获取具体值
r1 = re.match('a', s1)
r1.group()

# 只从字符串开头匹配
r2 = re.match('b', s1)
r2.group()

<re.Match object; span=(0, 1), match='a'>

'a'

AttributeError: 'NoneType' object has no attribute 'group'

In [11]:
# search(pattern, string, flag)
s1 = "ab陈cde同fghi学"
re.search('a',s1)

r1 = re.search('a',s1)
r1.group()

r2 = re.search('b',s1)
r2.group()

# 不同点：
# match()函数如果开头匹配不上，就无法匹配。
# search()函数是扫描整个字符串，只要能匹配上，就有结果

# 相同点：
# 一旦首次匹配上，就返回结果，而不在往后匹配，如果都匹配不上，返回错误
r3 = re.search('m',s1)
r3.group()

<re.Match object; span=(0, 1), match='a'>

'a'

'b'

AttributeError: 'NoneType' object has no attribute 'group'

In [8]:
# findall(pattern, repl, string, count = 0, flags = 0)
# 直接返回所有匹配对象组成的列表
# 没有匹配上，则返回一个空列表， 不会报错

s1 = "ab陈cae同fbha学"
re.findall('a', s1)
re.findall('b', s1)
re.findall('[ab]',s1)
re.findall('[a|b]',s1)
re.findall('[m]',s1)

['a', 'a', 'a']

['b', 'b']

['a', 'b', 'a', 'b', 'a']

['a', 'b', 'a', 'b', 'a']

[]

In [10]:
html = """
<ul id= “ul1">
  <li> first </li>
  <li> second </li>
  <li> third </li>
</ul>

<ul id= “ul2">
  <li> alpha </li>
  <li> beta </li>
  <li> gamma </li>
</ul>

<a href = "http://www.google.com" title =”google">Google</a>
<a href = "http://www.tipdm.com" title =”google">Tipdm</a>
"""

In [12]:
# get li label
re.findall("<li>(.*?)</li>",html)

# get href label
re.findall('<a href = "(.*?)"', html)

[' first ', ' second ', ' third ', ' alpha ', ' beta ', ' gamma ']

['http://www.google.com', 'http://www.tipdm.com']

#### 贪婪匹配与非贪婪匹配

- .\* 表示贪婪匹配, 尽可能匹配更多的内容；

- .\*? 表示非贪婪匹配，尽可能少匹配内容；

- . 可以匹配除了换行符之外的所有字符；

- \* 表示匹配前面的字符无限次；

- ？表示前面紧挨的元素，最多匹配一次

In [17]:
s2 = "a123b4563b789b3"
re.findall('a(.*)3', s2)
re.findall('a(.*?)3',s2)

['123b4563b789b']

['12']

In [23]:
# compile(string)
# 将字符串编译成正则表达式对象，供match(), search(), findall()使用

type(re.compile(r'\d+'))

s3 = '12one34two56three78four90five'
pattern = re.compile(r'\d+')
pattern.findall(s3)      # 扫描整个字符串
pattern.findall(s3, 1)   # 下标1（含）开始，到结束
pattern.findall(s3, 1,6) # 下标1（含）到下标6（不含）之间

re.Pattern

['12', '34', '56', '78', '90']

['2', '34', '56', '78', '90']

['2', '3']

In [28]:
# sub(pattern, repl, string, count, flag)
# pattern: regular expression
# repl: 替换成的字符串
# string: 待替换的字符串
# count: 最大替换次数，默认 0 表示替换所有的匹配
# flag: 修饰符

# 将s3中英文字母全部替换为 字母 两字

s3 = '12one34two56three78four90five11eightdf'
re.sub('\D{3,5}', '字母', s3)
re.sub('\D{3,5}', '字母', s3, 2)    # count=2, 只会替换前2个匹配
re.sub('\D{3,5}', '字母', s3, 3)

'12字母34字母56字母78字母90字母11字母df'

'12字母34字母56three78four90five11eightdf'

'12字母34字母56字母78four90five11eightdf'

In [34]:
# split(pattern, string, maxsplit, flags)
# pattern: regular expression
# string: 待分割的字符串
# maxsplit: 最大替换次数，默认 0 表示不限制分割次数
# flag: 修饰符
# 返回是分割的列表

s4 = '136-7843--2693---6666'
re.split('\D+', s4)
re.split('\D+', s4,1)


['136', '7843', '2693', '6666']

['136', '7843--2693---6666']

**re.compile** 用于编译正则表达式，生成一个正则表达式（Pattern）对象；

**re.findall** 用于在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表。

In [2]:
import re

#### 邮箱
包含大小写字母，下划线，阿拉伯数字，点号，中划线
表达式：
    

In [33]:
pattern = re.compile(r"[a-zA-Z0-9][\w\.-_]*[a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+(?:\.[a-zA-Z0-9_-]+)")
strs = "my private mailbox is chenwenyu077@live.com,chen-wenyu@163.com,2949613@qq.com,chenwenyu@uestc.edu.cn business mailbox is wenyu.chen@nokia-sbell.com, please register"
results = pattern.findall(strs)
results

['chenwenyu077@live.com',
 'chen-wenyu@163.com',
 '2949613@qq.com',
 'chenwenyu@uestc.edu',
 'wenyu.chen@nokia-sbell.com']

In [47]:
pattern = re.compile(r'[\w]+(\.[\w]+)*@[\w]+(\.[\w])+')
strs = "chenwenyu077@live.com chen-wenyu@163.com 2949613@qq.com chenwenyu@uestc.edu.cn wenyu.chen@nokia-sbell.com"
results = pattern.findall(strs)
for result in results:
    print(result)


('', '.c')
('', '.c')
('', '.c')
('', '.e')


In [2]:
# 除了换行符\n,其他都匹配出来
re.findall(r'.',"陈文宇\n真帅")

['陈', '文', '宇', '真', '帅']

In [3]:
# 加了条件，都匹配出来
re.findall(r'.',"陈文宇\n真帅",re.DOTALL)

['陈', '文', '宇', '\n', '真', '帅']

In [4]:
# 匹配'd...c',三个点表示中间三个字符
re.findall(r'd...c','abd9匹配cdd')

['d9匹配c']

In [5]:
# 【】
re.findall(r'[apt]', 'abcdefghijklmnopqrstuvwxyz')

['a', 'p', 't']

In [6]:
#[]表示范围
re.findall(r'[0-5][0-9]','012234456789')

['01', '22', '34', '45']

In [7]:
# 特殊字符在集合中，失去它的特殊含义。[(+*)]只匹配这几个字符

In [8]:
re.findall(r'[^TM]','陈文宇真TM帅')

['陈', '文', '宇', '真', '帅']