## 正则表达式
正则表达式的匹配行为可以匹配特定字符串，并用计算后的指替换特定模式，或者将文本分段
### 通配符和转义  
`.`是通配符，可以匹配出`\n`换行符之外的任何字符
所以要匹配`.`需要转义，`python\\.org`才能匹配`python.org`而不会当成`pythonaorg`或者`python org`等通配符
### 字符集character set
控制匹配字符的范围:`[pj]ython`可以匹配python和jython  
还可以将范围联合使用:`[a-zA-Z0-9]`  
反转字符集：`[^abc]`可皮牌除abc以外的字母  
### 选择符和子模式subpattern 
`p(ython|erl)`匹配python和perl  
可选项和重复子模式：`(http://)?(www\.)?python\.org`只会匹配下列字符串：
```
http://www.python.org
http://python.org
www.python.org
python.org
```
子模式后加`?`就变成可选项，可选子模式用圆括号括起，各个可选子模式之间互相独立
```
(pattern)* 允许重复0次或多次
(pattern)+ 允许重复1次或多次
(pattern){m,n} 允许重复m~n次
```

### re模块几种不同的函数

In [1]:
import re 
pat = 'p.t'
string = 'pattern'
if re.search(pat, string): #找到返回True
    print('Found it!')
# 通过串寻找一个匹配的模式，返回一个匹配的对象，如果没有找到匹配就返回None

Found it!


In [2]:
# 在开头寻找pattern
print(re.match(pat, 'thisisapattern'))
print(re.match(pat, 'patternisthis'))
# match() 函数只在字符串的开始位置尝试匹配正则表达式，也就是只报告从位置 0 开始的匹配情况，而 search() 函数是扫描整个字符串来查找匹配

None
<re.Match object; span=(0, 3), match='pat'>


In [3]:
 file_pat = re.compile(r'\[(.+?)\]')
 print(file_pat)
 print(type(file_pat))
 # compile函数的用法Compile a regular expression pattern, returning a pattern object.
 # 把正则表达式的模式和标识转化成正则表达式对象，供 match() 和 search() 这两个函数使用。

re.compile('\\[(.+?)\\]')
<class 're.Pattern'>


`re.sub(pattern, repl, string, count=0, flags=0)`
在字符串 string 中找到匹配正则表达式 pattern 的所有子串，
用另一个字符串 repl 进行替换。如果没有找到匹配 pattern 的串，
则返回未被修改的 string。Repl 既可以是字符串也可以是一个函数。

可以实现replace方法无法实现的
下面用replace完成替换

In [4]:
inputStr = "hello 123 world 123"
inputStr.replace("123", "234")

'hello 234 world 234'

如果inputStr是hello123world345就没法完成替换

In [5]:
inputStr = "hello123world456"
re.sub("(\d)+", "234", inputStr)

'hello234world234'

### repl部分是pattern  
`\w`的作用：匹配非特殊字符，即a-z、A-Z、0-9、_、汉字  
https://blog.csdn.net/qq_34776336/article/details/81416232?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task  

`\1`的作用：
```
核心用法：选定组(group)的指定次序元素
例如"(ab)(cd)(ef)\1"就是"(ab)(cd)(ef)(cd)" 因为分组号从0开始
“（.+）\1”就是任意两组相同的元素
```
https://blog.csdn.net/weixin_43914889/article/details/88047709?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task

In [35]:
string = 'abcdabefghij'
print(re.findall(r'(ab)(cd)\1', string)) #返回了匹配的两个组 #这里不写r就会报错

[('ab', 'cd')]


In [39]:
inputStr = "hello crifan, nihao crifan"
replacedStr = re.sub(r"hello (\w+), nihao \1", "\g<1>", inputStr)  # 
print("replacedStr=",replacedStr) #crifan

replacedStr= crifan


### repl是函数  
将数字部分都加上111

In [3]:
import re
def _add111(mathced):
    intStr = matched.group("number") #???怎么把数字取出来的
    intValue = int(intStr)
    addedValue = intValue + 111
    addedValueStr = str(addValue)
    return addedValueStr

inputStr = "hello 123 world 456"
replaceStr = re.sub("?P<number>\d+", _add111, inputStr)
print("replacedStr", replacedStr)

error: nothing to repeat at position 0

### 模板系统 
类似于字符串格式化

In [4]:
print('[name="Mr.Gumby"]Hello, [name]') #注意这里的单双引号

[name="Mr.Gumby"]Hello, [name]


### r原生字符
Python中字符串前面加上 r 表示原生字符串
以下是terminal显示结果
```
>>> import re
>>> mm = "c:\\a\\b\\c"
>>> mm
'c:\\a\\b\\c'
>>> print(mm)
c:\a\b\c
>>> re.match("c:\\\\", mm).group()
'c:\\'
>>> print(re.match("c:\\\\", mm).group())
c:\
>>> print(re.match("c:\\\\a", mm).group())
c:\a
```
字符串就是正则表达式，"c:\\a"打印出来就是c:\a
为了匹配打印的c:\a，程序里的"c:\\a"，正则表达式里要写成"c:\\\\\a"，第一个"\\"对应"c:\\a"里的第一个`\`，这样写太累赘了！

原生字符串解决问题！
```
>>> print(re.match(r"c:\\a", mm).group())
c:\a
```





In [33]:
import re
a = 'China_net1809Chinna2018Nanjing'
b = re.findall(r'\d{4}Nanjing', a) # 列出全部匹配项，返回list
print(b)
c = re.findall('\d{4}', a)
print(c)
d = re.findall(r'.{9}\d{4}', a)
print(d)

['2018Nanjing']
['1809', '2018']
['China_net1809']


正则表达式的分组 
https://blog.csdn.net/caianye/article/details/6901289 


In [31]:
p = re.compile('(\d)-(\d)-(\d)')
m = p.match('0-1-2-3-4-5') # match是从开头找
print(type(m)) # 返回一个match对象
print(m.group(0))  # 0号分组总是匹配到的整个表达式
print(m.group(1))
print(m.group(0,1,2,3))

<class 're.Match'>
0-1-2
0
('0-1-2', '0', '1', '2')


In [32]:
c = re.findall('(\d){4}', a) #加上括号的不同是
print(c)
# 为什么加了括号之后就只有最后一个数了？？？？？

['9', '8']


**VERBOSE增加代码可读性！！！**  
把Hello, *world*!替换成网页格式

In [18]:
emphasis_pattern = re.compile(r'''
\*            #第一个*
(
    [^\*]+    #不是*
)
\*            #第二个星
''',re.VERBOSE)

re.sub(emphasis_pattern, r'<em>\1</em>', 'Hello, *world*!')

'Hello, <em>world</em>!'