# 正则表达式基本用法

先导入正则表达式所用的库：import re

In [2]:
import re

## re.match

re.match 尝试从字母的起始位置匹配一个模式，如果不是起始位置，match()就返回None

re.match(patten,string,flags=0)

### 最常规的匹配

In [3]:
content='Hello 1234568 World_This is a Regex Demo'
result=re.match('^Hello\s\d{7}\s\w{10}.*Demo$',content)
print(result)
print(result.group())
print(result.span())

<_sre.SRE_Match object; span=(0, 40), match='Hello 1234568 World_This is a Regex Demo'>
Hello 1234568 World_This is a Regex Demo
(0, 40)


### 泛匹配

In [4]:
content='Hello 1234568 World_This is a Regex Demo'
result=re.match('^Hell.*Demo$',content)
print(result)
print(result.group())
print(result.span())

<_sre.SRE_Match object; span=(0, 40), match='Hello 1234568 World_This is a Regex Demo'>
Hello 1234568 World_This is a Regex Demo
(0, 40)


### 匹配目标

In [5]:
content='Hello 1234568 World_This is a Regex Demo'
result=re.match('^Hello\s(\d+)\sWorld.*Demo$',content)
print(result)
print(result.group(1))
print(result.span())

<_sre.SRE_Match object; span=(0, 40), match='Hello 1234568 World_This is a Regex Demo'>
1234568
(0, 40)


### 贪婪匹配

In [6]:
content='Hello 1234568 World_This is a Regex Demo'
result=re.match('^H.*(\d+).*Demo$',content)
print(result)
print(result.group(1))
print(result.span())

<_sre.SRE_Match object; span=(0, 40), match='Hello 1234568 World_This is a Regex Demo'>
8
(0, 40)


贪婪匹配(.* )会尽可能多的进行匹配，+表示至少匹配到一个，所以只输出一个数字，就是末尾的数字

### 非贪婪匹配

In [7]:
content='Hello 1234568 World_This is a Regex Demo'
result=re.match('^H.*?(\d+).*Demo$',content)
print(result)
print(result.group(1))
print(result.span())

<_sre.SRE_Match object; span=(0, 40), match='Hello 1234568 World_This is a Regex Demo'>
1234568
(0, 40)


非贪婪匹配(.* ?)尽可能少的匹配

### 匹配模式

In [8]:
content='''Hello 1234568 World_T
his is a Regex Demo'''
result=re.match('^Hello.*Demo$',content,re.S)
print(result)
print(result.group())
print(result.span())

<_sre.SRE_Match object; span=(0, 41), match='Hello 1234568 World_T\nhis is a Regex Demo'>
Hello 1234568 World_T
his is a Regex Demo
(0, 41)


### 转义

In [9]:
content='price is $5.00'
result=re.match('price is \$5\.00$',content)
print(result)
print(result.group())
print(result.span())

<_sre.SRE_Match object; span=(0, 14), match='price is $5.00'>
price is $5.00
(0, 14)


总结，尽量使用泛匹配，使用括号得到匹配模式，尽量使用贪婪模式，有换行符就用re.S

## re.search

re.search 扫描整个字符串并且返回第一个成功匹配

In [10]:
content='Kobe Bryant is My hero，his number is 24 and 8.He has no any boy child'
result=re.match('My.*(\d+).*child$',content)
print(result)
print(result.group())

None


AttributeError: 'NoneType' object has no attribute 'group'

In [11]:
content='Kobe Bryant is My hero，his number is 24 and 8.He has no any boy child'
result=re.search('My.*(\d+).*?child$',content)
print(result)
print(result.group(1))

<_sre.SRE_Match object; span=(15, 69), match='My hero，his number is 24 and 8.He has no any boy >
8


总结，为了匹配方便，能用search就不用match

### 匹配演练

分别匹配出电影名，演员，上映时间，评分

In [12]:
html='''<div class="board-item-main">
      <div class="board-item-content">
              <div class="movie-item-info">
        <p class="name"><a href="/films/1203" title="霸王别姬" data-act="boarditem-click" data-val="{movieId:1203}">霸王别姬</a></p>
        <p class="star">
                主演：张国荣,张丰毅,巩俐
        </p>
<p class="releasetime">上映时间：1993-01-01(中国香港)</p>    </div>
    <div class="movie-item-number score-num">
<p class="score"><i class="integer">9.</i><i class="fraction">6</i></p>        
    </div>
'''
result=re.search('<p.*?name.*?\}\">(.*?)</a>',html)
print(result)
print(result.group(1))

<_sre.SRE_Match object; span=(121, 233), match='<p class="name"><a href="/films/1203" title="霸王别姬>
霸王别姬


In [13]:
html='''<div class="board-item-main">
      <div class="board-item-content">
              <div class="movie-item-info">
        <p class="name"><a href="/films/1203" title="霸王别姬" data-act="boarditem-click" data-val="{movieId:1203}">霸王别姬</a></p>
        <p class="star">
                主演：张国荣,张丰毅,巩俐
        </p>
<p class="releasetime">上映时间：1993-01-01(中国香港)</p>    </div>
    <div class="movie-item-number score-num">
<p class="score"><i class="integer">9.</i><i class="fraction">6</i></p>        
    </div>
'''
result=re.search('<p.*?star">\s+(.*?)\s+</p>',html,re.S)
print(result)
print(result.group(1))

<_sre.SRE_Match object; span=(121, 305), match='<p class="name"><a href="/films/1203" title="霸王别姬>
主演：张国荣,张丰毅,巩俐


In [14]:
html='''<div class="board-item-main">
      <div class="board-item-content">
              <div class="movie-item-info">
        <p class="name"><a href="/films/1203" title="霸王别姬" data-act="boarditem-click" data-val="{movieId:1203}">霸王别姬</a></p>
        <p class="star">
                主演：张国荣,张丰毅,巩俐
        </p>
<p class="releasetime">上映时间：1993-01-01(中国香港)</p>    </div>
    <div class="movie-item-number score-num">
<p class="score"><i class="integer">9.</i><i class="fraction">6</i></p>        
    </div>
'''
result=re.search('<p.*?time">(.*?)</p>',html)
print(result)
print(result.group(1))

<_sre.SRE_Match object; span=(306, 354), match='<p class="releasetime">上映时间：1993-01-01(中国香港)</p>'>
上映时间：1993-01-01(中国香港)


In [15]:
html='''<div class="board-item-main">
      <div class="board-item-content">
              <div class="movie-item-info">
        <p class="name"><a href="/films/1203" title="霸王别姬" data-act="boarditem-click" data-val="{movieId:1203}">霸王别姬</a></p>
        <p class="star">
                主演：张国荣,张丰毅,巩俐
        </p>
<p class="releasetime">上映时间：1993-01-01(中国香港)</p>    </div>
    <div class="movie-item-number score-num">
<p class="score"><i class="integer">9.</i><i class="fraction">6</i></p>        
    </div>
'''
result=re.search('<p.*?score.*">(\d\.).*?">(\d)',html)
print(result)
print(type(result.group(1)))
print(result.group(1)+result.group(2))

<_sre.SRE_Match object; span=(411, 474), match='<p class="score"><i class="integer">9.</i><i clas>
<class 'str'>
9.6


## re.findall

搜索字符串，以列表形式返回全部匹配的字串

In [26]:
html='''
<dd>
                        <i class="board-index board-index-1">1</i>
    <a href="/films/1203" title="霸王别姬" class="image-link" data-act="boarditem-click" data-val="{movieId:1203}">
      <img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" />
      <img data-src="http://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c" alt="霸王别姬" class="board-img" />
    </a>
    <div class="board-item-main">
      <div class="board-item-content">
              <div class="movie-item-info">
        <p class="name"><a href="/films/1203" title="霸王别姬" data-act="boarditem-click" data-val="{movieId:1203}">霸王别姬</a></p>
        <p class="star">
                主演：张国荣,张丰毅,巩俐
        </p>
<p class="releasetime">上映时间：1993-01-01(中国香港)</p>    </div>
    <div class="movie-item-number score-num">
<p class="score"><i class="integer">9.</i><i class="fraction">6</i></p>        
    </div>

      </div>
    </div>

                </dd>
                <dd>
                        <i class="board-index board-index-2">2</i>
    <a href="/films/1297" title="肖申克的救赎" class="image-link" data-act="boarditem-click" data-val="{movieId:1297}">
      <img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" />
      <img data-src="http://p0.meituan.net/movie/__40191813__4767047.jpg@160w_220h_1e_1c" alt="肖申克的救赎" class="board-img" />
    </a>
    <div class="board-item-main">
      <div class="board-item-content">
              <div class="movie-item-info">
        <p class="name"><a href="/films/1297" title="肖申克的救赎" data-act="boarditem-click" data-val="{movieId:1297}">肖申克的救赎</a></p>
        <p class="star">
                主演：蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿
        </p>
<p class="releasetime">上映时间：1994-10-14(美国)</p>    </div>
    <div class="movie-item-number score-num">
<p class="score"><i class="integer">9.</i><i class="fraction">5</i></p>        
    </div>

      </div>
    </div>

                </dd>
                <dd>
                        <i class="board-index board-index-3">3</i>
    <a href="/films/2641" title="罗马假日" class="image-link" data-act="boarditem-click" data-val="{movieId:2641}">
      <img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" />
      <img data-src="http://p0.meituan.net/movie/23/6009725.jpg@160w_220h_1e_1c" alt="罗马假日" class="board-img" />
    </a>
    <div class="board-item-main">
      <div class="board-item-content">
              <div class="movie-item-info">
        <p class="name"><a href="/films/2641" title="罗马假日" data-act="boarditem-click" data-val="{movieId:2641}">罗马假日</a></p>
        <p class="star">
                主演：格利高利·派克,奥黛丽·赫本,埃迪·艾伯特
        </p>
<p class="releasetime">上映时间：1953-09-02(美国)</p>    </div>
    <div class="movie-item-number score-num">
<p class="score"><i class="integer">9.</i><i class="fraction">1</i></p>        
    </div>

      </div>
    </div>

                </dd>
                <dd>
                        <i class="board-index board-index-4">4</i>
    <a href="/films/4055" title="这个杀手不太冷" class="image-link" data-act="boarditem-click" data-val="{movieId:4055}">
      <img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" />
      <img data-src="http://p0.meituan.net/movie/fc9d78dd2ce84d20e53b6d1ae2eea4fb1515304.jpg@160w_220h_1e_1c" alt="这个杀手不太冷" class="board-img" />
    </a>
    <div class="board-item-main">
      <div class="board-item-content">
              <div class="movie-item-info">
        <p class="name"><a href="/films/4055" title="这个杀手不太冷" data-act="boarditem-click" data-val="{movieId:4055}">这个杀手不太冷</a></p>
        <p class="star">
                主演：让·雷诺,加里·奥德曼,娜塔莉·波特曼
        </p>
<p class="releasetime">上映时间：1994-09-14(法国)</p>    </div>
    <div class="movie-item-number score-num">
<p class="score"><i class="integer">9.</i><i class="fraction">5</i></p>        
    </div>

      </div>
    </div>

                </dd>
                <dd>
                        <i class="board-index board-index-5">5</i>
    <a href="/films/1247" title="教父" class="image-link" data-act="boarditem-click" data-val="{movieId:1247}">
      <img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" />
      <img data-src="http://p0.meituan.net/movie/92/8212889.jpg@160w_220h_1e_1c" alt="教父" class="board-img" />
    </a>
    <div class="board-item-main">
      <div class="board-item-content">
              <div class="movie-item-info">
        <p class="name"><a href="/films/1247" title="教父" data-act="boarditem-click" data-val="{movieId:1247}">教父</a></p>
        <p class="star">
                主演：马龙·白兰度,阿尔·帕西诺,詹姆斯·凯恩
        </p>
<p class="releasetime">上映时间：1972-03-24(美国)</p>    </div>
    <div class="movie-item-number score-num">
<p class="score"><i class="integer">9.</i><i class="fraction">3</i></p>        
    </div>

      </div>
    </div>

                </dd>
                <dd>
                        <i class="board-index board-index-6">6</i>
    <a href="/films/267" title="泰坦尼克号" class="image-link" data-act="boarditem-click" data-val="{movieId:267}">
      <img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" />
      <img data-src="http://p0.meituan.net/movie/11/324629.jpg@160w_220h_1e_1c" alt="泰坦尼克号" class="board-img" />
    </a>
    <div class="board-item-main">
      <div class="board-item-content">
              <div class="movie-item-info">
        <p class="name"><a href="/films/267" title="泰坦尼克号" data-act="boarditem-click" data-val="{movieId:267}">泰坦尼克号</a></p>
        <p class="star">
                主演：莱昂纳多·迪卡普里奥,凯特·温丝莱特,比利·赞恩
        </p>
<p class="releasetime">上映时间：1998-04-03</p>    </div>
    <div class="movie-item-number score-num">
<p class="score"><i class="integer">9.</i><i class="fraction">5</i></p>        
    </div>'''
'.*?name.*">(.*?).*star">(.*?).*?time">(.*?).*?score.*">(.*?).*?">(%d)'
results=re.findall('<dd>.*?board-index.*?">(\d+)</i>.*?name"><a.*?>(.*?)</a>.*?star">\s+(.*?)\s+</p>.*?time">(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(\d)</i>.*?</dd>',html,re.S)
print(results)
print(type(results))
for result in results:
    print(result)

[('1', '霸王别姬', '主演：张国荣,张丰毅,巩俐', '上映时间：1993-01-01(中国香港)', '9.', '6'), ('2', '肖申克的救赎', '主演：蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿', '上映时间：1994-10-14(美国)', '9.', '5'), ('3', '罗马假日', '主演：格利高利·派克,奥黛丽·赫本,埃迪·艾伯特', '上映时间：1953-09-02(美国)', '9.', '1'), ('4', '这个杀手不太冷', '主演：让·雷诺,加里·奥德曼,娜塔莉·波特曼', '上映时间：1994-09-14(法国)', '9.', '5'), ('5', '教父', '主演：马龙·白兰度,阿尔·帕西诺,詹姆斯·凯恩', '上映时间：1972-03-24(美国)', '9.', '3')]
<class 'list'>
('1', '霸王别姬', '主演：张国荣,张丰毅,巩俐', '上映时间：1993-01-01(中国香港)', '9.', '6')
('2', '肖申克的救赎', '主演：蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿', '上映时间：1994-10-14(美国)', '9.', '5')
('3', '罗马假日', '主演：格利高利·派克,奥黛丽·赫本,埃迪·艾伯特', '上映时间：1953-09-02(美国)', '9.', '1')
('4', '这个杀手不太冷', '主演：让·雷诺,加里·奥德曼,娜塔莉·波特曼', '上映时间：1994-09-14(法国)', '9.', '5')
('5', '教父', '主演：马龙·白兰度,阿尔·帕西诺,詹姆斯·凯恩', '上映时间：1972-03-24(美国)', '9.', '3')


## re.compile

将正则字符串编译成正则对象，以便于复用该匹配模式