# 正则表达式

## 正则表达式简介

**正则表达式**（**regular expression**，简称**regex**）是一个特殊的字符串，用来代表其他字符串的某种模式。

比如，在实际应用中，一个非常常见的任务是判断某个字符串是否是合法的Email/网页地址/ip地址等等，或者从一个字符串中挑出满足这些模式的字符串。这些字符串都有固定的模式，虽然人类可以很轻松地识别出这些模式，但是对于机器而言，仍然是非常复杂而困难的，正则表达式就是为了解决这一问题。

比如，如果我们想要匹配一个邮件地址，那么下面的字符串可以方便地表示Email地址的模式：

```python
"""
(\w+\.)*\w+@(\w+\.)+[A-Za-z]+
"""
```

以上看起来十分复杂，但实际上是有章可循的。下面我们就结合Python介绍正则表达式的用法。

## Python中的正则表达式

在Python中自带了“re”包，可以方便的实现匹配。为了展示起见，在系统介绍正则表达式之前，我们先介绍几个有用的函数。

### match()函数

首先是re.match()函数，该函数从一个字符串的**开头**开始匹配一个字符串，如果能够匹配，返回一个对象，该对象包含了匹配结果；如果不能匹配，返回None。比如，我们可以使用上面的正则表达式来匹配邮件地址：

In [1]:
import re

pattern="(\w+\.)*\w+@(\w+\.)+[A-Za-z]+"
res=re.match(pattern,"si.jichun@outlook.com")
print("结果：",res)
if res!=None:
    print("位置：",res.span())

结果： <re.Match object; span=(0, 21), match='si.jichun@outlook.com'>
位置： (0, 21)


如果按照以上规则，判断该字符串不是以Email地址开头，则返回None：

In [2]:
pattern="(\w+\.)*\w+@(\w+\.)+[A-Za-z]+"
res=re.match(pattern,"si jichun@outlook.com")
print("结果：",res)
if res!=None:
    print("位置：",res.span())

结果： None


或者，即使包含邮件地址，但是不再开头，也会匹配失败：

In [3]:
pattern="(\w+\.)*\w+@(\w+\.)+[A-Za-z]+"
res=re.match(pattern,"邮件地址：si.jichun@outlook.com")
print("结果：",res)
if res!=None:
    print("位置：",res.span())

结果： None


当然，如果在后面则没有问题：

In [4]:
pattern="(\w+\.)*\w+@(\w+\.)+[A-Za-z]+"
mystr="si.jichun@outlook.com我的邮件地址"
res=re.match(pattern,mystr)
print("结果：",res)
if res!=None:
    print("位置：",res.span())
    print("开始位置：",res.start())
    print("结束位置：",res.end())
    print("匹配的字符串：",res.group())
    print("匹配的字符串：",mystr[res.start():res.end()])

结果： <re.Match object; span=(0, 21), match='si.jichun@outlook.com'>
位置： (0, 21)
开始位置： 0
结束位置： 21
匹配的字符串： si.jichun@outlook.com
匹配的字符串： si.jichun@outlook.com


注意在上面，我们使用re.match()函数匹配字符串之后，该函数返回了一个**Match对象**，我们使用了该对象的四个方法：
1. res.span()返回匹配成功字符串的起始和结束位置
2. res.group()返回匹配成功的字符串
3. res.start()返回匹配成功字符串的起始位置
3. res.end()返回匹配成功字符串的结束位置

### re.search()函数

re.search()函数用以搜索一个字符串中第一个位置。比如：

In [5]:
pattern="(\w+\.)*\w+@(\w+\.)+[A-Za-z]+"
mystr="邮件地址：si.jichun@outlook.com。"
res=re.search(pattern,mystr)
print("结果：",res)
if res!=None:
    print("位置：",res.span())
    print("匹配的字符串：", res.group())

结果： <re.Match object; span=(5, 26), match='si.jichun@outlook.com'>
位置： (5, 26)
匹配的字符串： si.jichun@outlook.com


注意match()函数一定是从第一个字符开始匹配，而search()函数则是找到第一个匹配，两者用处不同。不过两者的共同点是，都会返回一个Match对象，因而返回之后的处理都是一样的。

### re.finditer()函数

re.search()函数只是找到第一个匹配，而如果想要找到所有的匹配，需要使用re.finditer()函数：

In [6]:
pattern="(\w+\.)*\w+@(\w+\.)+[A-Za-z]+"
mystr="""
我的邮件地址：si.jichun@outlook.com。
或者，你可以使用：zhiyuezen@126.com。
"""
res=re.finditer(pattern,mystr)
for r in res:
    print(r.group(),";start:",r.start(),"end:",r.end())

si.jichun@outlook.com ;start: 8 end: 29
zhiyuezen@126.com ;start: 40 end: 57


值得注意的是，re.finditer()函数返回的是一个**迭代器**(**iterator**)，因而必须使用循环语句对其进行调用。

### re.sub()函数

该函数用于替换字符串。比如：

In [7]:
pattern="(\w+\.)*\w+@(\w+\.)+[A-Za-z]+"
mystr="""
我的邮件地址：si.jichun@outlook.com。
或者，你可以使用：zhiyuezen@126.com。
"""
res=re.sub(pattern,"就不告诉你",mystr)
print(res)


我的邮件地址：就不告诉你。
或者，你可以使用：就不告诉你。



该函数还有一个版本，即re.subn()，该函数不仅返回替换后的字符串，还返回替换的次数：

In [8]:
pattern="(\w+\.)*\w+@(\w+\.)+[A-Za-z]+"
mystr="""
我的邮件地址：si.jichun@outlook.com。
或者，你可以使用：zhiyuezen@126.com。
"""
res=re.subn(pattern,"就不告诉你",mystr)
print(res[0])
print("替换了：",res[1],"次。")


我的邮件地址：就不告诉你。
或者，你可以使用：就不告诉你。

替换了： 2 次。


最后需要注意的是，以上我们展示的情况比较简单，都是每个正则表达式进行一次匹配。如果一个正则表达式需要多次匹配多个字符串，比较好的做法是先使用re.compile()函数将正则表达式编译，该函数返回一个**Regex对象**，使用该对象的compare(),search(),finditer(),sub(),subn()等函数与上面直接使用各个函数完全等价，但是效率更高：

In [9]:
pattern=re.compile("(\w+\.)*\w+@(\w+\.)+[A-Za-z]+")
mystr="""
我的邮件地址：si.jichun@outlook.com。
或者，你可以使用：zhiyuezen@126.com。
"""
## 查找
res=pattern.finditer(mystr)
for r in res:
    print(r.group())
    
## 替换
res=pattern.subn("就不告诉你",mystr)
print(res[0])
print("替换了：",res[1],"次。")

si.jichun@outlook.com
zhiyuezen@126.com

我的邮件地址：就不告诉你。
或者，你可以使用：就不告诉你。

替换了： 2 次。


## 正则表达式详细介绍

在掌握了Python中正则表达式的相关函数之后，我们可以详细介绍正则表达式的规则了。

### 字符、特殊字符、字符集

正则表达式的规则比较复杂，我们从最简单的规则开始。最简单的正则表达式就是一个字符串，比如：

In [10]:
mystr1="""
2019年4月，人民银行对金融机构开展中期借贷便利操作共2000亿元，
期限1年，利率为3.30%。
期末中期借贷便利余额为35600亿元。
"""

res=re.finditer("元",mystr1)
for r in res:
    print(r.start(),"：",r.group())

34 ： 元
69 ： 元


以上我们将"元"作为一个正则表达式，并在字符串中寻找这个规则，最终输出符合该规则的字符串在整个字符串中的位置。需要注意的是，一般而言正则表达式严格区分大小写：

In [11]:
mystr2="""
Ark Invest chief Catherine Wood is holding firm on her thesis on Tesla — which she believes could run to $4,000 a share or higher — telling CNBC's "ETF Edge" on Monday that her conviction in the company has actually increased since last year.

"It is our largest position ... and our conviction has increased in the last year or so," said Wood, who is founder, CEO and chief investment officer at Ark. "It's down about 29% this year. And it's always been our largest position this year, and yet our fund is up 28%."

The way Ark achieves that is through its unique model, Wood said. The company centers on innovation as a growth driver, offering a number of exchange-traded funds focused on cutting-edge areas of the market like artificial intelligence, the future of finance and genomics.

Most of Ark's actively managed ETFs are outperforming the broader market this year, and therein lies the strategy for how Ark — whose top holding is, indeed, the periodically downtrodden stock of Tesla — makes its money.

"Last year, when genomics was under assault because of reimbursement concerns and pricing concerns and so forth, we were leaning into those [stocks] heavily," which helped offset Tesla's 2018 declines, Wood explained.

But in this article, there is no CFO, so I added it . Maybe I can also add a CxO.

"Our second-largest position, Invitae NVTA  -- which we think is one of the most important molecular diagnostic companies out there riding down the cost curve of DNA sequencing -- [is] up 125%," she said. "It got as low as $5 last year. Today it's $18. So leaning into that has really paid off."

That rang true for the rest of Ark's investments in the genomics space last year, and this year, "we're doing the same ... with Tesla," the CEO said. "But our conviction level there is so high that it never left our top position."

Ark's conviction in Tesla has held strong through a myriad of issues — including concerns around profitability, cash flow and execution — both because Wood believes the company is grossly undervalued by Wall Street, and because of Ark's nimble investing method.

"Disruptive innovation is characterized by controversy and volatility, and so we know we are going to get opportunities to buy stocks. We lie in wait for those opportunities," Wood said. "Many people think, because of what we do – disruptive innovation – that we're momentum driven. Absolutely not. We lie in wait. So take Tesla alone. [...] If you take away the performance of the stock ... and just look at what we delivered in alpha because of our trading around controversy, we delivered 175 basis points just from Tesla. And we get opportunities like that throughout the portfolio."

Tesla's plan to raise $2.7 billion worth of capital didn't phase Wood either, she said Friday in a phone call with CNBC.

"Our bear case has it going to $700 and our bull case is $4,000, but now we think that's too low," she said, explaining that Ark's five-year time horizons for each case already assumed capital raises would occur.

"We understand what they're doing," Wood continued. "In our bear case, even if they just were an electric vehicle manufacturer and nothing else, we expected them to raise $10 billion in capital, and in our bull case, which means they're going to need funding to roll out this autonomous strategy, we thought they were going to raise $20 billion."

That $4,000 target also bakes in what Tesla CEO Elon Musk predicted on an investor call Thursday: that Tesla's self-driving segment would help drive the business to $500 billion.

"That $4,000,000 forecast is higher than $500 billion in the next five years," she said.

And if Tesla does indeed rally a whopping 1,500% to the $4,000 level, it'll be because analysts finally value the company properly, the CEO argued.

"The analysts following this stock don't know how to analyze it," she said, adding that rather than seeing Tesla as exclusively an auto stock or a tech stock, she and her firm see it as a tech-auto-battery-utility hybrid. "I don't think research departments out there are set up to analyze this stock."

"It's something for everyone, and no one can pull it all together," she said.

Ark, for one, has four analysts in the areas of robotics, energy storage, artificial intelligence and transportation as a service collaborating on covering Tesla, Wood said.
"""

res=re.finditer("Tesla",mystr2)
for r in res:
    print(r.start(),"：",r.group())

print("----------------")

res=re.finditer("tesla",mystr2)
for r in res:
    print(r.start(),"：",r.group())

66 ： Tesla
988 ： Tesla
1193 ： Tesla
1741 ： Tesla
1865 ： Tesla
2431 ： Tesla
2627 ： Tesla
2697 ： Tesla
3419 ： Tesla
3484 ： Tesla
3658 ： Tesla
3907 ： Tesla
4339 ： Tesla
----------------


匹配"Tesla"可以找到很多条，而匹配"tesla"却一条都找不到。

此外有的时候我们可能需要匹配任意字符，比如：我们可能需要找到所有的"C\*O"，即不管是CEO还是CTO、CFO，我们统统希望找到，那么可以使用"."这个符号作为通配符：

In [12]:
res=re.finditer("C.O",mystr2)
for r in res:
    print(r.start(),"：",r.group())

362 ： CEO
1266 ： CFO
1310 ： CxO
1753 ： CEO
3425 ： CEO
3787 ： CEO


可以看到，上面把字符串中所有的C\*O都给找了出来。

然而，我们发现其中混入了一个奇奇怪怪的东西：CxO。其实我们可能只是想提取出CEO\CFO\CTO，如何写这个正则表达式呢？可以使用方括号\[\]，方括号之中定义了一个“**字符集**”，只要在方括号之中的任何一个匹配就可以，但是不在方括号中的就无法匹配：

In [13]:
res=re.finditer("C[ETF]O",mystr2)
for r in res:
    print(r.start(),"：",r.group())

362 ： CEO
1266 ： CFO
1753 ： CEO
3425 ： CEO
3787 ： CEO


此外，如果我们希望匹配所有的大写字母，可以使用简写形式：

In [14]:
res=re.finditer("C[A-Z]O",mystr2)
for r in res:
    print(r.start(),"：",r.group())

362 ： CEO
1266 ： CFO
1753 ： CEO
3425 ： CEO
3787 ： CEO


常见的所有简写有

* 所有大写字母：\[A-Z\]
* 所有小写字母：\[a-z\]
* 所有数字：\[0-9\]

当然，也可以制定某个区间，比如可以使用\[E-G\]代表E、F、G三个大写字母，\[1-3\]代表1、2、3三个数字等。比如以下程序提取除了所有以1、2、3三个数字开头的美元：

In [15]:
res=re.finditer("\$[1-3]",mystr2)
for r in res:
    print(r.start(),"：",r.group())

1564 ： $1
2719 ： $2
3204 ： $1
3366 ： $2


然而这里有一个问题需要注意：我们在输入美元符号"$"时，在前面加了一个斜杠"\\"，这是为什么呢？

可以考虑以下的问题：既然"."能够匹配所有字符，那么如果我们使用：
```python
pattern="..."
```
那么以上的模式就变成了匹配任意三个字符，而不是三个点。比如在mystr中，出现了三个点，但是如果我们使用：

In [16]:
res=re.finditer("...",mystr2)
counter=0
for r in res:
    print(r.start(),"：",r.group())
    counter+=1
    if counter>10:
        break
print("......")

1 ： Ark
4 ：  In
7 ： ves
10 ： t c
13 ： hie
16 ： f C
19 ： ath
22 ： eri
25 ： ne 
28 ： Woo
31 ： d i
......


以上并没有得到我们想要的结果，而是匹配了任意的三个字符，且是不重叠的三个字符。

为了解决这一问题，我们需要给在正则表达式中有特殊含义的字符进行转义：在特殊字符，如"."前面加一个斜杠，即"\\\."，现在程序如下：

In [17]:
res=re.finditer("\.\.\.",mystr2)
for r in res:
    print(r.start(),"：",r.group())

273 ： ...
1732 ： ...
2445 ： ...
2496 ： ...


以上程序得到了我们想要的结果：连续的三个点。

除了"."这个字符之外，以下所有字符都需要转义：
```python
"""
* . ? + $ ^ [ ] ( ) { } | \ /
"""
```
分别使用：
```python
"""
\* \. \? \+ \$ \^ \[ \] \( \) \{ \} \| \\ \/
"""
```
进行转义。

既然有了字符集这个集合，那么就会有补集。比如我们可能需要匹配除了数字之外的其他字符，或者除了大写字母之外的其他字符。只需要在\[\]中加入一个"^"符号就可以表示“补集”的概念，比如如下程序我们匹配了除了CEO之外的所有C\*O：

In [18]:
res=re.finditer("C[^E]O",mystr2)
for r in res:
    print(r.start(),"：",r.group())

1266 ： CFO
1310 ： CxO


以上介绍了对特殊字符的转义，除了这些在正则表达式中比较特殊的字符之外，还有一些字符在文本中比较特殊，有特别的表示方法，比如：

* 空白字符：
    - \\f：换页符
    - \\n：换行符
    - \\r：回车符
    - \\t：制表符
    - \\v：垂直制表符

这里需要注意的是\\r和\\n。在Windows中，一个文本文件的每一行都是以"\\r\\n"结尾的，即"\\r\\n"代表一行的结束，新一行的开始。而在Linux\Unix中，只需要"\\n"。

还有一些其他比较重要的特殊字符：

* 元字符
    - \\d：所有的数字，等价于\[0-9\]
    - \\D：所有的非数字，等价于\[^0-9\]
    - \\w：所有的字母、数字或者下划线，等价于\[a-zA-Z0-9_\]
    - \\W：所有的非(字母、数字或者下划线)，等价于\[^a-zA-Z0-9_\]
    - \\s：所有的空白字符，等价于\[\\f\\n\\r\\t\\v\]
    - \\S：所有的非空白字符，等价于\[^\\f\\n\\r\\t\\v\]
    
现在思考这样一个问题：我们希望将上面一段文字中所有的「it」或者「It」都找出来，我们可能会写出如下的表达式：
```python
"[Ii]t"
```

然而，使用这个表达式很有可能会把带有「it」的单词也都找出来，为了展示起见，我们把在「it」前后一个字符也都打出来：

In [35]:
res=re.finditer(".[Ii]t.",mystr2)
for r in res:
    print(r.start(),"：",r.group())

245 ： "It 
266 ： siti
403 ： "It'
438 ：  it'
470 ： siti
554 ：  its
1001 ：  its
1281 ：  it 
1338 ： siti
1348 ： vita
1521 ： "It 
1558 ：  it'
1736 ： with
1810 ：  it 
1835 ： siti
1945 ： fita
1951 ： lity
2173 ： lity
2221 ： niti
2254 ： ait 
2275 ： niti
2418 ： ait.
2652 ： niti
2743 ： pita
2767 ： eith
2807 ： with
2837 ：  it 
3006 ： pita
3221 ： pita
3720 ：  it'
3860 ：  it,
3979 ：  it 
4009 ： lity
4104 ： "It'
4153 ：  it 


我们发现以上表达式不止找到了it，还找到了with之类的其他单词。为了实现这一目的，可以使用「\\b」，该符号用来表示匹配不能构成单词的字符，或者单词边界：

In [43]:
res=re.finditer("\\b[Ii]t\\b",mystr2)
for r in res:
    print(r.start(),"：",r.group())

注意由于「\\b」在Python中也是转义字符，代表退格键，因而在上面实际使用的是「\\\\b」。同理，\\B代表不希望匹配单词的边界：

In [42]:
res=re.finditer(".\B[Ii]t\B.",mystr2)
for r in res:
    print(r.start(),"：",r.group())

266 ： siti
470 ： siti
1338 ： siti
1348 ： vita
1736 ： with
1835 ： siti
1945 ： fita
1951 ： lity
2173 ： lity
2221 ： niti
2275 ： niti
2652 ： niti
2743 ： pita
2767 ： eith
2807 ： with
3006 ： pita
3221 ： pita
4009 ： lity


此外，我们还可以使用「^」符号匹配字符串的开头、「$」符号匹配字符串的结尾，使用「(?m)」代表启用分行匹配模式。以上几个特性可以联合起来使用，比如我们如果想匹配出所有以引号开头的行，可以使用如下表达式：

In [49]:
res=re.finditer('(?m)^".+',mystr2)
for r in res:
    print(r.start(),"：",r.group())

245 ： "It is our largest position ... and our conviction has increased in the last year or so," said Wood, who is founder, CEO and chief investment officer at Ark. "It's down about 29% this year. And it's always been our largest position this year, and yet our fund is up 28%."
1014 ： "Last year, when genomics was under assault because of reimbursement concerns and pricing concerns and so forth, we were leaning into those [stocks] heavily," which helped offset Tesla's 2018 declines, Wood explained.
1316 ： "Our second-largest position, Invitae NVTA  -- which we think is one of the most important molecular diagnostic companies out there riding down the cost curve of DNA sequencing -- [is] up 125%," she said. "It got as low as $5 last year. Today it's $18. So leaning into that has really paid off."
2108 ： "Disruptive innovation is characterized by controversy and volatility, and so we know we are going to get opportunities to buy stocks. We lie in wait for those opportunities," Wood said. 

### 重复匹配

思考这样一个问题。如果我们需要把字符串中所有的货币提取出来，比如在“mystr2”中，有：
```python
"$4,000"
"$500"
"$2.7"
```
等，可以分别用：

```python
"$\d,\d\d\d"
"$\d\d\d"
"$\d.\d"
```

进行匹配。但是由于我们并不知道后面的数字的位数，我们不可能针对每一种情况都写出一个正则表达式。

为了解决这一问题，可以使用重复匹配附进行操作。

比如，如果需要匹配一个或者多个（至少一个），可以使用“+”字符，正则表达式“\d+”即一个或者多个数字（至少一个数字），比如：

In [20]:
res=re.finditer("\$\d+",mystr2)
for r in res:
    print(r.start(),"：",r.group())

106 ： $4
1539 ： $5
1564 ： $18
2719 ： $2
2850 ： $700
2876 ： $4
3204 ： $10
3366 ： $20
3386 ： $4
3546 ： $500
3567 ： $4
3602 ： $500
3707 ： $4


然而注意到，以上的正则表达式虽然匹配了数字，但是由于在计数的时候有逗号“,”的存在，导致我们只保留了美元符号后面的数字，可以做如下修改：

In [21]:
res=re.finditer("\$[\d,]+",mystr2)
for r in res:
    print(r.start(),"：",r.group())

106 ： $4,000
1539 ： $5
1564 ： $18
2719 ： $2
2850 ： $700
2876 ： $4,000,
3204 ： $10
3366 ： $20
3386 ： $4,000
3546 ： $500
3567 ： $4,000,000
3602 ： $500
3707 ： $4,000


如此我们就得到了所有美元后面的整数。但是注意到，上面虽然提取了整数位，但是没有提取小数位。如果我们这么写：

In [22]:
res=re.finditer("\$[\d,]+\.[\d]+",mystr2)
for r in res:
    print(r.start(),"：",r.group())

2719 ： $2.7


显然我们只匹配了小数。实际上，我们需要的是小数点及其后面的数字可以出现可以不出现，即0次或者多次。此时，我们可以使用“\*”表示匹配0次或者多次：

In [23]:
res=re.finditer("\$[\d,]+[\.]*[\d]*",mystr2)
for r in res:
    print(r.start(),"：",r.group())

106 ： $4,000
1539 ： $5
1564 ： $18.
2719 ： $2.7
2850 ： $700
2876 ： $4,000,
3204 ： $10
3366 ： $20
3386 ： $4,000
3546 ： $500
3567 ： $4,000,000
3602 ： $500
3707 ： $4,000


上面的仍然不完美，我们发现数字的最后一位出现了“,”、“.”之类，这是我们不需要的，因此我们必须限定最后一位必须为数字：

In [24]:
res=re.finditer("\$[\d,]+[\.]*[\d]*\d",mystr2)
for r in res:
    print(r.start(),"：",r.group())

106 ： $4,000
1564 ： $18
2719 ： $2.7
2850 ： $700
2876 ： $4,000
3204 ： $10
3366 ： $20
3386 ： $4,000
3546 ： $500
3567 ： $4,000,000
3602 ： $500
3707 ： $4,000


如此，我们就得到了一个比较完善的提取货币的正则表达式。

当然，以上的正则表达式还是不完美的，比如，如果有以下字符串：

```python
str1="The range is $5...7"
```

那么我们仍然会得到匹配：

In [25]:
str1="The range is $5...7"
res=re.finditer("\$[\d,]+[\.]*[\d]*\d",str1)
for r in res:
    print(r.start(),"：",r.group())

13 ： $5...7


因此我们需要限定，“.”可以重复0次或者1次，但是不能重复多次。此时我们可以使用“?”字符，用以匹配0次或者1次：

In [26]:
str1="The range is $5...7"
res=re.finditer("\$[\d,]+[\.]?[\d]*\d",str1)
for r in res:
    print(r.start(),"：",r.group())
print("--------------")
res=re.finditer("\$[\d,]+[\.]?[\d]*\d",mystr2)
for r in res:
    print(r.start(),"：",r.group())

--------------
106 ： $4,000
1564 ： $18
2719 ： $2.7
2850 ： $700
2876 ： $4,000
3204 ： $10
3366 ： $20
3386 ： $4,000
3546 ： $500
3567 ： $4,000,000
3602 ： $500
3707 ： $4,000


可以发现使用新的正则表达式完美的避开了这个问题。

那么有没有办法限定重复次数呢？此时可以使用大括号“{}”：

* 固定重复n次，使用：{n}
* 重复n-m次，使用：{n,m}
* 重复至少n次，使用：{n,}

比如，为了搜索三个点“...”，可以使用"\\.{3}"代替"\\.\\.\\."：

In [27]:
res=re.finditer("\.{3}",mystr2)
for r in res:
    print(r.start(),"：",r.group())

273 ： ...
1732 ： ...
2445 ： ...
2496 ： ...


或者，如果我们需要把所有至少是三位数的整数提取出来，我们可以使用：

In [28]:
res=re.finditer("\$[\d,]{0,}\d{3}",mystr2)
for r in res:
    print(r.start(),"：",r.group())

106 ： $4,000
2850 ： $700
2876 ： $4,000
3386 ： $4,000
3546 ： $500
3567 ： $4,000,000
3602 ： $500
3707 ： $4,000


此外还需要注意的是，默认情况下，在使用“+”、“\*”、“{}”时，默认使用“贪婪模式”，即对于每一行，都把能够匹配到的最大的字符串匹配出来。比如，如果我们希望提取出所有引号“""”中间的文本，我们可能会使用如下的正则表达式：

In [29]:
res=re.finditer('".*"',mystr2)
for r in res:
    print(r.start(),"：",r.group())

148 ： "ETF Edge"
245 ： "It is our largest position ... and our conviction has increased in the last year or so," said Wood, who is founder, CEO and chief investment officer at Ark. "It's down about 29% this year. And it's always been our largest position this year, and yet our fund is up 28%."
1014 ： "Last year, when genomics was under assault because of reimbursement concerns and pricing concerns and so forth, we were leaning into those [stocks] heavily,"
1316 ： "Our second-largest position, Invitae NVTA  -- which we think is one of the most important molecular diagnostic companies out there riding down the cost curve of DNA sequencing -- [is] up 125%," she said. "It got as low as $5 last year. Today it's $18. So leaning into that has really paid off."
1710 ： "we're doing the same ... with Tesla," the CEO said. "But our conviction level there is so high that it never left our top position."
2108 ： "Disruptive innovation is characterized by controversy and volatility, and so we know we

然而实际情况是，该正则表达式把每一行中第一个引号和最后一个引号之间的内容全部匹配出来了，尽管两个引号中间还有引号。

为了避免“贪婪模式”，可以在“+”、“\*”、“{}”后面加一个问号“?”：

In [30]:
res=re.finditer('".*?"',mystr2)
for r in res:
    print(r.start(),"：",r.group())

148 ： "ETF Edge"
245 ： "It is our largest position ... and our conviction has increased in the last year or so,"
403 ： "It's down about 29% this year. And it's always been our largest position this year, and yet our fund is up 28%."
1014 ： "Last year, when genomics was under assault because of reimbursement concerns and pricing concerns and so forth, we were leaning into those [stocks] heavily,"
1316 ： "Our second-largest position, Invitae NVTA  -- which we think is one of the most important molecular diagnostic companies out there riding down the cost curve of DNA sequencing -- [is] up 125%,"
1521 ： "It got as low as $5 last year. Today it's $18. So leaning into that has really paid off."
1710 ： "we're doing the same ... with Tesla,"
1763 ： "But our conviction level there is so high that it never left our top position."
2108 ： "Disruptive innovation is characterized by controversy and volatility, and so we know we are going to get opportunities to buy stocks. We lie in wait for those 

这样就尽可能小的把双引号以内的内容尽量“小”地匹配了出来。

### 子表达式

以上我们使用重复匹配匹配了一段字符串中所有的数字，然而以上规则仍然不够完美。比如，以下字符串：
```python
"I have $4,0.5\% of yours"
```

仍然是符合我们上面的规则的，但是显然这不是我们想要的：

In [31]:
str1="I have $4,0.5\% of yours"
res=re.finditer("\$[\d,]+[\.]?[\d]*\d",str1)
for r in res:
    print(r.start(),"：",r.group())

7 ： $4,0.5


为了规避以上情况，思考一下，逗号的引入是每三位加一个逗号，因而在美元符号后面，应该首先是至少一位、不超过三位的数字，紧接着跟着“,\\d\\d\\d”零次或者多次的组合。问题是，如何能够将“,\\d\\d\\d”组合起来看成一个整体呢？这时，我们需要使用子表达式，即以括号“()”里面的内容为一个表达式，并将跟表达式视为一个整体。

比如，按照上面的想法，我们可以写成：
```python
"\$\d{1,3}(,\d{3})*"
```

以上表达式代表着美元符号后面跟着1-3位的数字，是必须的；而“,\\d\\d\\d”这个组合可以出现0次或者多次。

此外，小数点及其后面也是可能有可能没有的，我们可以将小数点后面的表达式写成一个子表达式，并令其至多出现一次，组合起来，就变成了：

```python
"\$\d{1,3}(,\d{3})*(\.\d+)?"
```

比如：

In [32]:
res=re.finditer("\$\d{1,3}(,\d{3})*(\.\d+)?",mystr2)
for r in res:
    print(r.start(),"：",r.group())
print("--------------")
res=re.finditer("\$\d{1,3}(,\d{3})*(\.\d+)?","$4,,000")
for r in res:
    print(r.start(),"：",r.group())
print("--------------")
res=re.finditer("\$\d{1,3}(,\d{3})*(\.\d+)?","$4,0.5")
for r in res:
    print(r.start(),"：",r.group())

106 ： $4,000
1539 ： $5
1564 ： $18
2719 ： $2.7
2850 ： $700
2876 ： $4,000
3204 ： $10
3366 ： $20
3386 ： $4,000
3546 ： $500
3567 ： $4,000,000
3602 ： $500
3707 ： $4,000
--------------
0 ： $4
--------------
0 ： $4


此外，我们还可以在子表达式里面使用“逻辑或”，即使用“|”代表某一种模式成立即可。

比如，如果我们希望挑出最高位数字为1或者2的，我们可以这样写：

In [33]:
res=re.finditer("\$(1|2)\d{0,2}(,\d{3})*(\.\d+)?",mystr2)
for r in res:
    print(r.start(),"：",r.group())

1564 ： $18
2719 ： $2.7
3204 ： $10
3366 ： $20


在这里需要特别强调时Matching对象的group()函数。我们知道，直接使用不带参数的group()函数可以返回匹配的字符串，实际上group()是可以带参数的，其参数为整型变量i，代表第i个子表达式的值。比如，如果我们使用：
```python
"(\$\d{1,3})(,\d{3})*(\.\d+)?"
```

注意这里面有三个括号，分别是最高的1-3位数字、中间的多个三位数字以及小数点后面的数字。如果我们使用group(1)，就可以获得最高的1-3位数字。此外，使用groups()函数可以获得一个包含所有子表达式值的元组。比如：

In [34]:
res=re.finditer("(\$\d{1,3})(,\d{3})*(\.\d+)?",mystr2)
for r in res:
    print("%-10s" % r.group(), " |", end='')
    print("%-5s" % r.group(1), " ", end='')
    for g in r.groups():
        if g!=None:
            print(" | %-5s" % g,end='')
    print("")

$4,000      |$4      | $4    | ,000 
$5          |$5      | $5   
$18         |$18     | $18  
$2.7        |$2      | $2    | .7   
$700        |$700    | $700 
$4,000      |$4      | $4    | ,000 
$10         |$10     | $10  
$20         |$20     | $20  
$4,000      |$4      | $4    | ,000 
$500        |$500    | $500 
$4,000,000  |$4      | $4    | ,000 
$500        |$500    | $500 
$4,000      |$4      | $4    | ,000 
