# 正则表达式

## 正则表达式简介

**正则表达式**（**regular expression**，简称**regex**）是一个特殊的字符串，用来代表其他字符串的某种模式。

比如，在实际应用中，一个非常常见的任务是判断某个字符串是否是合法的Email/网页地址/ip地址等等，或者从一个字符串中挑出满足这些模式的字符串。这些字符串都有固定的模式，虽然人类可以很轻松地识别出这些模式，但是对于机器而言，仍然是非常复杂而困难的，正则表达式就是为了解决这一问题。

比如，如果我们想要匹配一个邮件地址，那么下面的字符串可以方便地表示Email地址的模式：

```python
"""
(\w+\.)*\w+@(\w+\.)+[A-Za-z]+
"""
```

以上看起来十分复杂，但实际上是有章可循的。下面我们就结合Python介绍正则表达式的用法。

## Python中的正则表达式

在Python中自带了“re”包，可以方便的实现匹配。为了展示起见，在系统介绍正则表达式之前，我们先介绍几个有用的函数。

### match()函数

首先是re.match()函数，该函数从一个字符串的**开头**开始匹配一个字符串，如果能够匹配，返回一个对象，该对象包含了匹配结果；如果不能匹配，返回None。比如，我们可以使用上面的正则表达式来匹配邮件地址：

In [1]:
import re

pattern="(\w+\.)*\w+@(\w+\.)+[A-Za-z]+"
res=re.match(pattern,"si.jichun@outlook.com")
print("结果：",res)
if res!=None:
    print("位置：",res.span())

结果： <_sre.SRE_Match object; span=(0, 21), match='si.jichun@outlook.com'>
位置： (0, 21)


如果按照以上规则，判断该字符串不是以Email地址开头，则返回None：

In [2]:
pattern="(\w+\.)*\w+@(\w+\.)+[A-Za-z]+"
res=re.match(pattern,"si jichun@outlook.com")
print("结果：",res)
if res!=None:
    print("位置：",res.span())

结果： None


或者，即使包含邮件地址，但是不再开头，也会匹配失败：

In [3]:
pattern="(\w+\.)*\w+@(\w+\.)+[A-Za-z]+"
res=re.match(pattern,"邮件地址：si.jichun@outlook.com")
print("结果：",res)
if res!=None:
    print("位置：",res.span())

结果： None


当然，如果在后面则没有问题：

In [4]:
pattern="(\w+\.)*\w+@(\w+\.)+[A-Za-z]+"
mystr="si.jichun@outlook.com我的邮件地址"
res=re.match(pattern,mystr)
print("结果：",res)
if res!=None:
    print("位置：",res.span())
    print("开始位置：",res.start())
    print("结束位置：",res.end())
    print("匹配的字符串：",res.group())
    print("匹配的字符串：",mystr[res.start():res.end()])

结果： <_sre.SRE_Match object; span=(0, 21), match='si.jichun@outlook.com'>
位置： (0, 21)
开始位置： 0
结束位置： 21
匹配的字符串： si.jichun@outlook.com
匹配的字符串： si.jichun@outlook.com


注意在上面，我们使用re.match()函数匹配字符串之后，该函数返回了一个**Match对象**，我们使用了该对象的四个方法：
1. res.span()返回匹配成功字符串的起始和结束位置
2. res.group()返回匹配成功的字符串
3. res.start()返回匹配成功字符串的起始位置
3. res.end()返回匹配成功字符串的结束位置

### re.search()函数

re.search()函数用以搜索一个字符串中第一个位置。比如：

In [5]:
pattern="(\w+\.)*\w+@(\w+\.)+[A-Za-z]+"
mystr="邮件地址：si.jichun@outlook.com。"
res=re.search(pattern,mystr)
print("结果：",res)
if res!=None:
    print("位置：",res.span())
    print("匹配的字符串：", res.group())

结果： <_sre.SRE_Match object; span=(5, 26), match='si.jichun@outlook.com'>
位置： (5, 26)
匹配的字符串： si.jichun@outlook.com


注意match()函数一定是从第一个字符开始匹配，而search()函数则是找到第一个匹配，两者用处不同。不过两者的共同点是，都会返回一个Match对象，因而返回之后的处理都是一样的。

### re.finditer()函数

re.search()函数只是找到第一个匹配，而如果想要找到所有的匹配，需要使用re.finditer()函数：

In [6]:
pattern="(\w+\.)*\w+@(\w+\.)+[A-Za-z]+"
mystr="""
我的邮件地址：si.jichun@outlook.com。
或者，你可以使用：zhiyuezen@126.com。
"""
res=re.finditer(pattern,mystr)
for r in res:
    print(r.group(),";start:",r.start(),"end:",r.end())

si.jichun@outlook.com ;start: 8 end: 29
zhiyuezen@126.com ;start: 40 end: 57


值得注意的是，re.finditer()函数返回的是一个**迭代器**(**iterator**)，因而必须使用循环语句对其进行调用。

### re.sub()函数

该函数用于替换字符串。比如：

In [7]:
pattern="(\w+\.)*\w+@(\w+\.)+[A-Za-z]+"
mystr="""
我的邮件地址：si.jichun@outlook.com。
或者，你可以使用：zhiyuezen@126.com。
"""
res=re.sub(pattern,"就不告诉你",mystr)
print(res)


我的邮件地址：就不告诉你。
或者，你可以使用：就不告诉你。



该函数还有一个版本，即re.subn()，该函数不仅返回替换后的字符串，还返回替换的次数：

In [8]:
pattern="(\w+\.)*\w+@(\w+\.)+[A-Za-z]+"
mystr="""
我的邮件地址：si.jichun@outlook.com。
或者，你可以使用：zhiyuezen@126.com。
"""
res=re.subn(pattern,"就不告诉你",mystr)
print(res[0])
print("替换了：",res[1],"次。")


我的邮件地址：就不告诉你。
或者，你可以使用：就不告诉你。

替换了： 2 次。


最后需要注意的是，以上我们展示的情况比较简单，都是每个正则表达式进行一次匹配。如果一个正则表达式需要多次匹配多个字符串，比较好的做法是先使用re.compile()函数将正则表达式编译，该函数返回一个**Regex对象**，使用该对象的compare(),search(),finditer(),sub(),subn()等函数与上面直接使用各个函数完全等价，但是效率更高：

In [9]:
pattern=re.compile("(\w+\.)*\w+@(\w+\.)+[A-Za-z]+")
mystr="""
我的邮件地址：si.jichun@outlook.com。
或者，你可以使用：zhiyuezen@126.com。
"""
## 查找
res=pattern.finditer(mystr)
for r in res:
    print(r.group())
    
## 替换
res=pattern.subn("就不告诉你",mystr)
print(res[0])
print("替换了：",res[1],"次。")

si.jichun@outlook.com
zhiyuezen@126.com

我的邮件地址：就不告诉你。
或者，你可以使用：就不告诉你。

替换了： 2 次。


## 正则表达式详细介绍

在掌握了Python中正则表达式的相关函数之后，我们可以详细介绍正则表达式的规则了。

### 字符、特殊字符、字符集

正则表达式的规则比较复杂，我们从最简单的规则开始。最简单的正则表达式就是一个字符串，比如：

In [10]:
mystr1="""
2019年4月，人民银行对金融机构开展中期借贷便利操作共2000亿元，
期限1年，利率为3.30%。
期末中期借贷便利余额为35600亿元。
"""

res=re.finditer("元",mystr1)
for r in res:
    print(r.start(),"：",r.group())

34 ： 元
69 ： 元


以上我们将"元"作为一个正则表达式，并在字符串中寻找这个规则，最终输出符合该规则的字符串在整个字符串中的位置。需要注意的是，一般而言正则表达式严格区分大小写：

In [11]:
mystr2="""
Ark Invest chief Catherine Wood is holding firm on her thesis on Tesla — which she believes could run to $4,000 a share or higher — telling CNBC's "ETF Edge" on Monday that her conviction in the company has actually increased since last year.

"It is our largest position ... and our conviction has increased in the last year or so," said Wood, who is founder, CEO and chief investment officer at Ark. "It's down about 29% this year. And it's always been our largest position this year, and yet our fund is up 28%."

The way Ark achieves that is through its unique model, Wood said. The company centers on innovation as a growth driver, offering a number of exchange-traded funds focused on cutting-edge areas of the market like artificial intelligence, the future of finance and genomics.

Most of Ark's actively managed ETFs are outperforming the broader market this year, and therein lies the strategy for how Ark — whose top holding is, indeed, the periodically downtrodden stock of Tesla — makes its money.

"Last year, when genomics was under assault because of reimbursement concerns and pricing concerns and so forth, we were leaning into those [stocks] heavily," which helped offset Tesla's 2018 declines, Wood explained.

But in this article, there is no CFO, so I added it . Maybe I can also add a CxO.

"Our second-largest position, Invitae NVTA  -- which we think is one of the most important molecular diagnostic companies out there riding down the cost curve of DNA sequencing -- [is] up 125%," she said. "It got as low as $5 last year. Today it's $18. So leaning into that has really paid off."

That rang true for the rest of Ark's investments in the genomics space last year, and this year, "we're doing the same ... with Tesla," the CEO said. "But our conviction level there is so high that it never left our top position."

Ark's conviction in Tesla has held strong through a myriad of issues — including concerns around profitability, cash flow and execution — both because Wood believes the company is grossly undervalued by Wall Street, and because of Ark's nimble investing method.

"Disruptive innovation is characterized by controversy and volatility, and so we know we are going to get opportunities to buy stocks. We lie in wait for those opportunities," Wood said. "Many people think, because of what we do – disruptive innovation – that we're momentum driven. Absolutely not. We lie in wait. So take Tesla alone. [...] If you take away the performance of the stock ... and just look at what we delivered in alpha because of our trading around controversy, we delivered 175 basis points just from Tesla. And we get opportunities like that throughout the portfolio."

Tesla's plan to raise $2.7 billion worth of capital didn't phase Wood either, she said Friday in a phone call with CNBC.

"Our bear case has it going to $700 and our bull case is $4,000, but now we think that's too low," she said, explaining that Ark's five-year time horizons for each case already assumed capital raises would occur.

"We understand what they're doing," Wood continued. "In our bear case, even if they just were an electric vehicle manufacturer and nothing else, we expected them to raise $10 billion in capital, and in our bull case, which means they're going to need funding to roll out this autonomous strategy, we thought they were going to raise $20 billion."

That $4,000 target also bakes in what Tesla CEO Elon Musk predicted on an investor call Thursday: that Tesla's self-driving segment would help drive the business to $500 billion.

"That $4,000 forecast is higher than $500 billion in the next five years," she said.

And if Tesla does indeed rally a whopping 1,500% to the $4,000 level, it'll be because analysts finally value the company properly, the CEO argued.

"The analysts following this stock don't know how to analyze it," she said, adding that rather than seeing Tesla as exclusively an auto stock or a tech stock, she and her firm see it as a tech-auto-battery-utility hybrid. "I don't think research departments out there are set up to analyze this stock."

"It's something for everyone, and no one can pull it all together," she said.

Ark, for one, has four analysts in the areas of robotics, energy storage, artificial intelligence and transportation as a service collaborating on covering Tesla, Wood said.
"""

res=re.finditer("Tesla",mystr2)
for r in res:
    print(r.start(),"：",r.group())

print("----------------")

res=re.finditer("tesla",mystr2)
for r in res:
    print(r.start(),"：",r.group())

66 ： Tesla
988 ： Tesla
1193 ： Tesla
1741 ： Tesla
1865 ： Tesla
2431 ： Tesla
2627 ： Tesla
2697 ： Tesla
3419 ： Tesla
3484 ： Tesla
3654 ： Tesla
3903 ： Tesla
4335 ： Tesla
----------------


匹配"Tesla"可以找到很多条，而匹配"tesla"却一条都找不到。

此外有的时候我们可能需要匹配任意字符，比如：我们可能需要找到所有的"C\*O"，即不管是CEO还是CTO、CFO，我们统统希望找到，那么可以使用"."这个符号作为通配符：

In [12]:
res=re.finditer("C.O",mystr2)
for r in res:
    print(r.start(),"：",r.group())

362 ： CEO
1266 ： CFO
1310 ： CxO
1753 ： CEO
3425 ： CEO
3783 ： CEO


可以看到，上面把字符串中所有的C\*O都给找了出来。

然而，我们发现其中混入了一个奇奇怪怪的东西：CxO。其实我们可能只是想提取出CEO\CFO\CTO，如何写这个正则表达式呢？可以使用方括号\[\]，方括号之中定义了一个“**字符集**”，只要在方括号之中的任何一个匹配就可以，但是不在方括号中的就无法匹配：

In [13]:
res=re.finditer("C[ETF]O",mystr2)
for r in res:
    print(r.start(),"：",r.group())

362 ： CEO
1266 ： CFO
1753 ： CEO
3425 ： CEO
3783 ： CEO


此外，如果我们希望匹配所有的大写字母，可以使用简写形式：

In [14]:
res=re.finditer("C[A-Z]O",mystr2)
for r in res:
    print(r.start(),"：",r.group())

362 ： CEO
1266 ： CFO
1753 ： CEO
3425 ： CEO
3783 ： CEO


常见的所有简写有

* 所有大写字母：\[A-Z\]
* 所有小写字母：\[a-z\]
* 所有数字：\[0-9\]

当然，也可以制定某个区间，比如可以使用\[E-G\]代表E、F、G三个大写字母，\[1-3\]代表1、2、3三个数字等。比如以下程序提取除了所有以1、2、3三个数字开头的美元：

In [15]:
res=re.finditer("\$[1-3]",mystr2)
for r in res:
    print(r.start(),"：",r.group())

1564 ： $1
2719 ： $2
3204 ： $1
3366 ： $2


然而这里有一个问题需要注意：我们在输入美元符号"$"时，在前面加了一个斜杠"\"，这是为什么呢？

可以考虑以下的问题：既然"."能够匹配所有字符，那么如果我们使用：
```python
pattern="..."
```
那么以上的模式就变成了匹配任意三个字符，而不是三个点。比如在mystr中，出现了三个点，但是如果我们使用：

In [16]:
res=re.finditer("...",mystr2)
for r in res:
    print(r.start(),"：",r.group())

1 ： Ark
4 ：  In
7 ： ves
10 ： t c
13 ： hie
16 ： f C
19 ： ath
22 ： eri
25 ： ne 
28 ： Woo
31 ： d i
34 ： s h
37 ： old
40 ： ing
43 ：  fi
46 ： rm 
49 ： on 
52 ： her
55 ：  th
58 ： esi
61 ： s o
64 ： n T
67 ： esl
70 ： a —
73 ：  wh
76 ： ich
79 ：  sh
82 ： e b
85 ： eli
88 ： eve
91 ： s c
94 ： oul
97 ： d r
100 ： un 
103 ： to 
106 ： $4,
109 ： 000
112 ：  a 
115 ： sha
118 ： re 
121 ： or 
124 ： hig
127 ： her
130 ：  — 
133 ： tel
136 ： lin
139 ： g C
142 ： NBC
145 ： 's 
148 ： "ET
151 ： F E
154 ： dge
157 ： " o
160 ： n M
163 ： ond
166 ： ay 
169 ： tha
172 ： t h
175 ： er 
178 ： con
181 ： vic
184 ： tio
187 ： n i
190 ： n t
193 ： he 
196 ： com
199 ： pan
202 ： y h
205 ： as 
208 ： act
211 ： ual
214 ： ly 
217 ： inc
220 ： rea
223 ： sed
226 ：  si
229 ： nce
232 ：  la
235 ： st 
238 ： yea
245 ： "It
248 ：  is
251 ：  ou
254 ： r l
257 ： arg
260 ： est
263 ：  po
266 ： sit
269 ： ion
272 ：  ..
275 ： . a
278 ： nd 
281 ： our
284 ：  co
287 ： nvi
290 ： cti
293 ： on 
296 ： has
299 ：  in
302 ： cre
305 ： ase
308 ： d i
311 ： n t
314 ： 

2772 ： r, 
2775 ： she
2778 ：  sa
2781 ： id 
2784 ： Fri
2787 ： day
2790 ：  in
2793 ：  a 
2796 ： pho
2799 ： ne 
2802 ： cal
2805 ： l w
2808 ： ith
2811 ：  CN
2814 ： BC.
2819 ： "Ou
2822 ： r b
2825 ： ear
2828 ：  ca
2831 ： se 
2834 ： has
2837 ：  it
2840 ：  go
2843 ： ing
2846 ：  to
2849 ：  $7
2852 ： 00 
2855 ： and
2858 ：  ou
2861 ： r b
2864 ： ull
2867 ：  ca
2870 ： se 
2873 ： is 
2876 ： $4,
2879 ： 000
2882 ： , b
2885 ： ut 
2888 ： now
2891 ：  we
2894 ：  th
2897 ： ink
2900 ：  th
2903 ： at'
2906 ： s t
2909 ： oo 
2912 ： low
2915 ： ," 
2918 ： she
2921 ：  sa
2924 ： id,
2927 ：  ex
2930 ： pla
2933 ： ini
2936 ： ng 
2939 ： tha
2942 ： t A
2945 ： rk'
2948 ： s f
2951 ： ive
2954 ： -ye
2957 ： ar 
2960 ： tim
2963 ： e h
2966 ： ori
2969 ： zon
2972 ： s f
2975 ： or 
2978 ： eac
2981 ： h c
2984 ： ase
2987 ：  al
2990 ： rea
2993 ： dy 
2996 ： ass
2999 ： ume
3002 ： d c
3005 ： api
3008 ： tal
3011 ：  ra
3014 ： ise
3017 ： s w
3020 ： oul
3023 ： d o
3026 ： ccu
3033 ： "We
3036 ：  un
3039 ： der
3042 ： sta
3045 ： nd 
3048 ： wha

以上并没有得到我们想要的结果，而是匹配了任意的三个字符，且是不重叠的三个字符。

为了解决这一问题，我们需要给在正则表达式中有特殊含义的字符进行转义：在特殊字符，如"."前面加一个斜杠，即"\."，现在程序如下：

In [17]:
res=re.finditer("\.\.\.",mystr2)
for r in res:
    print(r.start(),"：",r.group())

273 ： ...
1732 ： ...
2445 ： ...
2496 ： ...


以上程序得到了我们想要的结果：连续的三个点。

除了"."这个字符之外，以下所有字符都需要转义：
```python
"""
* . ? + $ ^ [ ] ( ) { } | \ /
"""
```
分别使用：
```python
"""
\* \. \? \+ \$ \^ \[ \] \( \) \{ \} \| \\ \/
"""
```
进行转义。

既然有了字符集这个集合，那么就会有补集。比如我们可能需要匹配除了数字之外的其他字符，或者除了大写字母之外的其他字符。只需要在\[\]中加入一个"^"符号就可以表示“补集”的概念，比如如下程序我们匹配了除了CEO之外的所有C\*O：

In [18]:
res=re.finditer("C[^E]O",mystr2)
for r in res:
    print(r.start(),"：",r.group())

1266 ： CFO
1310 ： CxO


以上介绍了对特殊字符的转义，除了这些在正则表达式中比较特殊的字符之外，还有一些字符在文本中比较特殊，有特别的表示方法，比如：

* 空白字符：
    - \\f：换页符
    - \\n：换行符
    - \\r：回车符
    - \\t：制表符
    - \\v：垂直制表符

这里需要注意的是\\r和\\n。在Windows中，一个文本文件的每一行都是以"\\r\\n"结尾的，即"\\r\\n"代表一行的结束，新一行的开始。而在Linux\Unix中，只需要"\\n"。

还有一些其他比较重要的特殊字符：

* 元字符
    - \\d：所有的数字，等价于\[0-9\]
    - \\D：所有的非数字，等价于\[^0-9\]
    - \\w：所有的字母、数字或者下划线，等价于\[a-zA-Z0-9_\]
    - \\W：所有的非(字母、数字或者下划线)，等价于\[^a-zA-Z0-9_\]
    - \\s：所有的空白字符，等价于\[\\f\\n\\r\\t\\v\]
    - \\S：所有的空白字符，等价于\[^\\f\\n\\r\\t\\v\]

### 重复匹配
