### 正则表达式

正则表达式就是用于描述字符串规则的工具。换句话说，正则表达式就是记录文本规则的代码。

#### 能用来做什么：

- 在大段文字中搜索特定规则字符串，例如：你想找到email地址在哪里
- 替代特定规则的字符串们，例如：你向把特定规则的小写文字替代成大写
- 校验输入的正确性，例如：你在设置密码的时候，你要求密码的长度或大小写<br/>
等等<br/>

https://deerchao.net/tutorials/regex/regex.htm

https://docs.python.org/3.6/library/re.html

https://regex101.com/

### 常见代码
### 元字符
```
.	匹配除换行符以外的任意字符
\w	匹配字母或数字或下划线或汉字
\s	匹配任意的空白符
\d	匹配数字
\b	匹配单词的开始或结束
^	匹配字符串的开始
$	匹配字符串的结束


\W	匹配任意不是字母，数字，下划线，汉字的字符
\S	匹配任意不是空白符的字符 不包括换行
\D	匹配任意非数字的字符
\B	匹配不是单词开头或结束的位置
[^x]	匹配除了x以外的任意字符
[^aeiou]	匹配除了aeiou这几个字母以外的任意字符

[a-z0-9]    匹配在内的所有字符
```

### 重复
```
*	重复零次或更多次
+	重复一次或更多次
?	重复零次或一次
{n}	重复n次
{n,}	重复n次或更多次
{n,m}	重复n到m次
```

贪婪匹配 .*

非贪婪匹配 .*?

```
限定符
限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。
有 * 或 + 或 ? 或 {n} 或 {n,} 或 {n,m} 共6种。

正则表达式的限定符有：
字符	描述
*	匹配前面的子表达式零次或多次。例如，zo* 能匹配 "z" 以及 "zoo"。* 等价于{0,}。
+	匹配前面的子表达式一次或多次。例如，'zo+' 能匹配 "zo" 以及 "zoo"，但不能匹配 "z"。+ 等价于 {1,}。
?	匹配前面的子表达式零次或一次。例如，"do(es)?" 可以匹配 "do" 、 "does" 中的 "does" 、 "doxy" 中的 "do" 。? 等价于 {0,1}。
{n}	n 是一个非负整数。匹配确定的 n 次。例如，'o{2}' 不能匹配 "Bob" 中的 'o'，但是能匹配 "food" 中的两个 o。
{n,}	n 是一个非负整数。至少匹配n 次。例如，'o{2,}' 不能匹配 "Bob" 中的 'o'，但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。
{n,m}	m 和 n 均为非负整数，其中n <= m。最少匹配 n 次且最多匹配 m 次。例如，"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。
请注意在逗号和两个数之间不能有空格。
```

In [3]:
re_desc = """
This module provides regular expression matching operations similar to those found in Perl. Both patterns and strings to be searched can be Unicode strings as well as 8-bit strings.
Regular expressions use the backslash character ('\') to indicate special forms or to allow special characters to be used without invoking their special meaning. This collides with Python’s usage of the same character for the same purpose in string literals; for example, to match a literal backslash, one might have to write '\\\\' as the pattern string, because the regular expression must be \\, and each backslash must be expressed as \\ inside a regular Python string literal.
The solution is to use Python’s raw string notation for regular expression patterns; backslashes are not handled in any special way in a string literal prefixed with 'r'. So r"\n" is a two-character string containing '\' and 'n', while "\n" is a one-character string containing a newline. Usually patterns will be expressed in Python code using this raw string notation.
It is important to note that most regular expression operations are available as module-level functions and RegexObject methods. The functions are shortcuts that don’t require you to compile a regex object first, but miss some fine-tuning parameters.
"""

In [None]:
\cx	匹配由x指明的控制字符。例如， \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则，将 c 视为一个原义的 'c' 字符。
\f	匹配一个换页符。等价于 \x0c 和 \cL。
\n	匹配一个换行符。等价于 \x0a 和 \cJ。
\r	匹配一个回车符。等价于 \x0d 和 \cM。
\s	匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。注意 Unicode 正则表达式会匹配全角空格符。
\S	匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\t	匹配一个制表符。等价于 \x09 和 \cI。
\v	匹配一个垂直制表符。等价于 \x0b 和 \cK。

$	匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性，则 $ 也匹配 '\n' 或 '\r'。要匹配 $ 字符本身，请使用 \$。
( )	标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符，请使用 \( 和 \)。
*	匹配前面的子表达式零次或多次。要匹配 * 字符，请使用 \*。
+	匹配前面的子表达式一次或多次。要匹配 + 字符，请使用 \+。
.	匹配除换行符 \n 之外的任何单字符。要匹配 . ，请使用 \. 。
[	标记一个中括号表达式的开始。要匹配 [，请使用 \[。
?	匹配前面的子表达式零次或一次，或指明一个非贪婪限定符。要匹配 ? 字符，请使用 \?。
\	将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如， 'n' 匹配字符 'n'。'\n' 匹配换行符。序列 '\\' 匹配 "\"，而 '\(' 则匹配 "("。
^	匹配输入字符串的开始位置，除非在方括号表达式中使用，当该符号在方括号表达式中使用时，表示不接受该方括号表达式中的字符集合。要匹配 ^ 字符本身，请使用 \^。
{	标记限定符表达式的开始。要匹配 {，请使用 \{。
|	指明两项之间的一个选择。要匹配 |，请使用 \|。

```
元字符：
字符
转义
重复
```

#### 基本语法

In [1]:
import sys  
import re  

In [8]:
# 统计单词出现次数
re_desc.count("expression")

5

https://docs.python.org/2/library/re.html#search-vs-match

In [29]:
# re.search 查找单词
pattern = re.compile(r"expression")
search_result = pattern.search(re_desc) 
search_result.group()

'expression'

In [32]:
search_result = re.fullmatch(r"expression",re_desc) 
search_result

In [26]:
search_result = re.search(r"expression",re_desc) 
# search_result.group(0)
search_result.groups()


()

```python
prog = re.compile(pattern)
result = prog.match(string)
```
相当于：
```python
result = re.match(pattern, string)
```
**Note:** The compiled versions of the most recent patterns passed to re.compile() and the module-level matching functions are cached, so programs that use only a few regular expressions at a time needn’t worry about compiling regular expressions.


In [None]:
# search() vs. match()
# Python 提供了两种不同的操作：基于 re.match() 检查字符串开头，
# 或者 re.search() 检查字符串的任意位置（默认Perl中的行为）。

# 例如：

re.match("c", "abcdef")    # No match
re.search("c", "abcdef")   # Match
# re.Match object; span=(2, 3), match='c'>
# 在 search() 中，可以用 '^' 作为开始来限制匹配到字符串的首位


re.match("c", "abcdef")    # No match
re.search("^c", "abcdef")  # No matc
print("")
re.search("^a", "abcdef")  # Match
# <re.Match object; span=(0, 1), match='a'>
# 注意 MULTILINE 多行模式中函数 match() 只匹配字符串的开始，但使用 search() 和以 '^' 开始的正则表达式会匹配每行的开始


re.match('X', 'A\nB\nX', re.MULTILINE)  # No match
re.search('^X', 'A\nB\nX', re.MULTILINE)  # Match
# re.Match object; span=(4, 5), match='X'>

In [22]:
# re.match 和 re.search
print(re.match("c", "abcdef"))    # No match
print(re.search("c", "abcdef"))   # Match

# search ^c == match
print(re.match("c", "abcdef"))    # No match
print(re.search("^c", "abcdef"))   # No match
# re.match("c", "abcdef")    # No match
# re.search("^c", "abcdef")  # No match
print(re.search("^a", "abcdef"))  # Match
print(re.match("a", "abcdef"))  # Match
# re.match('X', 'A\nB\nX', re.MULTILINE)  # No match
# re.search('^X', 'A\nB\nX', re.MULTILINE)  # Match

None
<_sre.SRE_Match object; span=(2, 3), match='c'>
None
None
<_sre.SRE_Match object; span=(0, 1), match='a'>
<_sre.SRE_Match object; span=(0, 1), match='a'>


In [35]:
#pattern = re.compile()
# findall
search_result = re.findall(r"exp\w*",re_desc) 
search_result[0]

'expression'

In [147]:
for m in re.finditer(r"expression", re_desc):
    print('%02d-%02d: %s' % (m.start(), m.end(), m.group(0)))

30-40: expression
191-201: expression
556-566: expression
724-734: expression
1070-1080: expression


In [34]:
match_result = pattern.match(re_desc)  
print(match_result)

None


In [135]:
text = "C:\Windows\Program\Joshua"
pattern = re.compile(r"C:\\Windows")
result = pattern.search(text)  
print(result.group(0))

C:\Windows


### 字符匹配

这个表达式可以匹配几种格式的电话号码，像(010)88886666，或022-22334455，或02912345678等。

<br/>我们对它进行一些分析吧：首先是一个转义字符\(,它能出现0次或1次(?),然后是一个0，后面跟着2个数字(\d{2})，然后是)或-或空格中的一个，它出现1次或不出现(?)，最后是8个数字(\d{8})。

In [36]:
ip_address="not validate 255.255.255.0 and 127.0.0.1 or 1.1.1.1"
pattern = re.compile(r"\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}")
search_result = pattern.findall(ip_address) 
search_result

['255.255.255.0', '127.0.0.1', '1.1.1.1']

In [402]:
phone_number="some phone number is (010)88886666,some is 022-22334455, other is 02912345678, \
how about (022-87654321 format?"
pattern = re.compile(r"\(?0\d{ 2}[)-]?\d{8}")
search_result = pattern.findall(phone_number) 
search_result

['(010)88886666', '022-22334455', '02912345678', '(022-87654321']

### 分枝条件
匹配分枝条件时，将会从左到右地测试每个条件，如果满足了某个分枝的话，就不会去再管其它的条件了。

In [403]:
phone_number="some phone number is (010)88886666,some is 022-22334455, other is 02912345678, \
how about (022-87654321 format?"
pattern = re.compile(r"\(0\d{2}\)[- ]?\d{8}|0\d{2}[- ]?\d{8}")
search_result = pattern.findall(phone_number) 
search_result

['(010)88886666', '022-22334455', '02912345678', '022-87654321']

### 分组

In [405]:
text = "ababab hello ab  cdababcd"
pattern = re.compile(r"(ab){2}")

for m in re.finditer(r"(ab){2}", text):
    print('%02d-%02d: %s' % (m.start(), m.end(), m.group(0)))

00-04: abab
19-23: abab


In [406]:
for m in re.finditer(r"(\d{1,3}\.){3}\d{1,3}", ip_address):
    print('%02d-%02d: %s' % (m.start(), m.end(), m.group(0)))

13-26: 255.255.255.0
31-40: 127.0.0.1
44-51: 1.1.1.1


In [407]:
ip_address="not validate 355.555.255.0 and 127.0.0.1 or 1.1.1.1"
pattern = re.compile(r"((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)")
for m in pattern.finditer(ip_address):
    print('%02d-%02d: %s' % (m.start(), m.end(), m.group(0)))

31-40: 127.0.0.1
44-51: 1.1.1.1


```
捕获	
(exp)	匹配exp,并捕获文本到自动命名的组里
(?<name>exp)	匹配exp,并捕获文本到名称为name的组里，也可以写成(?'name'exp)
(?:exp)	匹配exp,不捕获匹配的文本，也不给此分组分配组号

零宽断言	
(?=exp)	匹配exp前面的位置
(?<=exp)	匹配exp后面的位置
(?!exp)	匹配后面跟的不是exp的位置
(?<!exp)	匹配前面不是exp的位置

注释	(?#comment)	这种类型的分组不对正则表达式的处理产生任何影响，用于提供注释让人阅读
```

### 后向引用

In [41]:
text = "kitty kitty go go, so cute"
pattern = re.compile(r"\b(\w+)\b\s+\1\b")  # \1第一匹配
search_result = pattern.findall(text) 
print(search_result)
for m in pattern.finditer(text):
    print('%02d-%02d: %s' % (m.start(), m.end(), m.group(0)))

['kitty', 'go']
00-11: kitty kitty
12-17: go go


In [45]:
for m in pattern.finditer(text):
    print(m.group(0))

kitty kitty
go go


In [47]:
text = "kitty kitty go go, so cute"
pattern = re.compile(r"\b(?P<wd>\w+)\b\s+(?P=wd)\b")  
for m in pattern.finditer(text):
    print('%02d-%02d: %s' % (m.start(), m.end(), m.group(0)))

00-11: kitty kitty
12-17: go go


<a href="cn.dataapplab.com">'hello dal'</a>

In [48]:
text = '<a href="http://cn.dataapplab.com">\'hello dal\'</a>'
# pattern = re.compile(r"(?P<quote>['\"]).*?(?P=quote)")  
pattern = re.compile(r"(?P<head>['\"]).*?(?P=head)")
for m in pattern.finditer(text):
    print('%02d-%02d: %s' % (m.start(), m.end(), m.group(0)))

08-34: "http://cn.dataapplab.com"
35-46: 'hello dal'


### 零宽断言
像\b,^,$那样用于指定一个位置，这个位置应该满足一定的条件(即断言)，因此它们也被称为零宽断言

In [49]:
text = "I'm singing while you're dancing"
pattern = re.compile(r"\b\w+(?=ing\b)")   
pattern = re.compile(r"\b(?=s)\w+(?=ing\b)")   
#匹配以ing结尾的单词的前面部分(除了ing以外的部分)
for m in pattern.finditer(text): 
    print('%02d-%02d: %s' % (m.start(), m.end(), m.group(0)))

04-08: sing


In [400]:
text = "I'm singing while you're dancing"
pattern = re.compile(r"(?<=\bdan)\w+\b")   #会匹配以dan开头的单词的后半部分(除了re以外的部分
for m in pattern.finditer(text): 
    print('%02d-%02d: %s' % (m.start(), m.end(), m.group(0)))

28-32: cing


### Q:找出副词

In [273]:
text = "He was carefully disguised but captured quickly by police."
re.findall(r"\w+ly", text)


['carefully', 'quickly']

In [274]:
text = "He was carefully disguised but captured quickly by police."
for m in re.finditer(r"\w+ly", text):
    print('%02d-%02d: %s' % (m.start(), m.end(), m.group(0)))

07-16: carefully
40-47: quickly


## 分词

In [51]:
phone_text = """Ross McFluff: 834.345.1254 155 Elm Street
Ronald Heathmore: 892.345.3428 436 Finley Avenue
Frank Burger: 925.541.7625 662 South Dogwood Way
Heather Albrecht: 548.326.4584 919 Park Place"""

In [64]:
# entries = re.split("\n+", phone_text)
# \W 不是字母数字下划线汉字
# entries = re.split(r'\W+', phone_text)
entries = re.split(r'[\W]+', phone_text)
# entries

In [63]:
re.split('\W+', 'Words, words, words.')


['Words', 'words', 'words', '']

In [65]:
re.split('(\W+)', 'Words, words, words.')


['Words', ', ', 'words', ', ', 'words', '.', '']

In [66]:
re.split('\W+', 'Words, words, words.', 1)


['Words', 'words, words.']

In [69]:
re.split('[a-f]+', '0a3B9', flags=re.IGNORECASE)

['0', '3', '9']

In [70]:
[re.split(":? ", entry, maxsplit=3) for entry in entries]

[['Ross', 'McFluff', '834.345.1254', '155 Elm Street'],
 ['Ronald', 'Heathmore', '892.345.3428', '436 Finley Avenue'],
 ['Frank', 'Burger', '925.541.7625', '662 South Dogwood Way'],
 ['Heather', 'Albrecht', '548.326.4584', '919 Park Place']]

### 替换

In [73]:
import random
def repl(m):
    inner_word = list(m.group(2))
    random.shuffle(inner_word)
    return m.group(1) + "".join(inner_word) + m.group(3)

text = "Professor Abdolmalek, please report your absences promptly."
re.sub(r"(\w)(\w+)(\w)", repl, text)

'Psfooresr Abalomdlek, plasee rreopt your asebecns prtlpomy.'

In [74]:
re.sub(r"(\w)(\w+)(\w)", repl, text)

'Pfsoerosr Alemdoalbk, peasle roeprt your acenbess ppomrlty.'

### 如何处理中文？

In [275]:
title = u'你好，hello，世界'
pattern = re.compile(r'[\u4e00-\u9fff]+')
result = pattern.findall(title)
result

['你好', '世界']

<table cellspacing="0" cellpadding="0" width="700" border="1"><colgroup></colgroup><colgroup><col width="10%"><col width="75%"><col width="15%"></colgroup><tbody><tr><td colspan="3">
<p align="center"><span style="font-family:'Microsoft YaHei';font-size:24px;">主要非英文语系字符范围</span></p>
</td>
</tr><tr><td><span style="font-family:'Microsoft YaHei';font-size:16px;"><strong>范围</strong></span></td>
<td><span style="font-family:'Microsoft YaHei';font-size:16px;"><strong>编码</strong></span></td>
<td><span style="font-family:'Microsoft YaHei';font-size:16px;"><strong>说明</strong></span></td>
</tr><tr><td><span style="font-family:'Microsoft YaHei';font-size:16px;"><em>2E80~33FFh</em></span></td>
<td><span style="font-family:'Microsoft YaHei';color:#ff0000;font-size:16px;">中日韩符号区</span></td>
<td><span style="font-family:'Microsoft YaHei';font-size:16px;">收容康熙字典部首、中日韩辅助部首、注音符号、日本假名、韩文音符，中日韩的符号、标点、带圈或带括符文数字、月份，以及日本的假名组合、单位、年号、月份、日期、时间等。</span></td>
</tr><tr><td><span style="font-family:'Microsoft YaHei';font-size:16px;"><em>3400~4DFFh</em></span></td>
<td><span style="font-family:'Microsoft YaHei';color:#ff0000;font-size:16px;">中日韩认同文字扩充A区</span></td>
<td><span style="font-family:'Microsoft YaHei';font-size:16px;">中日韩认同表意文字扩充A区，总计收容6,582个中日韩汉字。</span></td>
</tr><tr><td><span style="font-family:'Microsoft YaHei';font-size:16px;"><em>4E00~9FFFh</em></span></td>
<td><span style="font-family:'Microsoft YaHei';color:#ff0000;font-size:16px;">中日韩认同表意文字区</span></td>
<td><span style="font-family:'Microsoft YaHei';font-size:16px;">中日韩认同表意文字区，总计收容20,902个中日韩汉字。</span></td>
</tr><tr><td><span style="font-family:'Microsoft YaHei';font-size:16px;"><em>A000~A4FFh</em></span></td>
<td><span style="font-family:'Microsoft YaHei';color:#ff0000;font-size:16px;">彝族文字区</span></td>
<td><span style="font-family:'Microsoft YaHei';font-size:16px;">收容中国南方彝族文字和字根</span></td>
</tr><tr><td><span style="font-family:'Microsoft YaHei';font-size:16px;"><em>AC00~D7FFh</em></span></td>
<td><span style="font-family:'Microsoft YaHei';color:#ff0000;font-size:16px;">韩文拼音组合字区</span></td>
<td><span style="font-family:'Microsoft YaHei';font-size:16px;">收容以韩文音符拼成的文字</span></td>
</tr><tr><td><span style="font-family:'Microsoft YaHei';font-size:16px;"><em>F900~FAFFh</em></span></td>
<td><span style="font-family:'Microsoft YaHei';color:#ff0000;font-size:16px;">中日韩兼容表意文字区</span></td>
<td><span style="font-family:'Microsoft YaHei';font-size:16px;">总计收容302个中日韩汉字</span></td>
</tr><tr><td><span style="font-family:'Microsoft YaHei';font-size:16px;"><em>FB00~FFFDh</em></span></td>
<td><span style="font-family:'Microsoft YaHei';color:#ff0000;font-size:16px;">文字表现形式区</span></td>
<td><span style="font-family:'Microsoft YaHei';font-size:16px;">收容组合拉丁文字、希伯来文、阿拉伯文、中日韩直式标点、小符号、半角符号、全角符号等。</span></td>
</tr></tbody></table>

In [70]:
title = u'你好，hello，世界，生生世世，好不好啊, 世界繁荣'
pattern = re.compile(r'世{1,2}[\u4e00-\u9fff]*')
result = pattern.findall(title)
result

['世界', '世世', '世界繁荣']

In [None]:
pat = re.compile(r'((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)')

In [73]:
str = 'sdsd 0.0.0.0 1.1.1.1 255.255.255.255 iiiiiiiiii'
patt = re.compile(r'((25[0-5]|2[0-4]\d|[1]\d\d|[\d]{1,2})\.){3}(25[0-5]|2[0-4]\d|[1]?\d\d?)')
patt.findall(str)

[('0.', '0', '0'), ('1.', '1', '1'), ('255.', '255', '255')]

In [95]:
patt = re.compile(r'(25[0-5]|2[0-4]\d\.)')
patt = re.compile(r'(?P<name>\d{3}\.)(?P=name)')

patt = re.compile(r'((?P<q>25[0-5]|2[0-4]\d|[1]\d\d|\d\d?)\.){3}(?P=q)')
patt.findall('234.1.1.2 52567.,223.2.2.3, 34., 2, 0')

[]

In [None]:
import re
pattern = re.compile(ur'\b((25[0-5]|2[0-4]\d|1\d\d|\d\d|\d)\.){3}(25[0-5]|2[0-4]\d|1\d\d|\d\d|\d)\b')
str = u'234.1.1.2 52567.2.2.1,223.2.2.3, 34., 2, 0'
print(pattern.search(str))
re.search(r'(([01]{0,1}\d{0,1}\d|2[0-4]\d|25[0-5])\.){3}([01]{0,1}\d{0,1}\d|2[0-4]\d|25[0-5])',ip)