# Re(正则表达式）库入门)

> 正则表达式详解，提取页面关键信息

## 正则表达式的概念

## 语法

> 由字符和操作符构成

### 常用操作符

|操作符|说明|实例|
|--|--|--|
|{m}|扩展前一个字符m次|ab{2}c表示abbc|
|.|表示任何单个字符，除\n| |
|[]|字符集，对单个字符给出取值范围|[abc]表示a、b、c，[a-z]表示a到z单个字符|
|[^]|非字符集，对单个字符给出排除范围|[^abc]表示非a或b或c的单个字符|
|*|前一个字符0次或无限次扩展|abc*表示ab、abc、abcc、abccc等|
|+|前一个字符1次或无限次扩展|abc+表示abcc、abccc等|
|?|前一个字符0次或1次扩展|abc?表示ab、abc|
|||左右表达式任意一个|abc\def表示abc、def|



|操作符|说明|实例|
|--|--|--|
|{m}|扩展前一个字符m次|ab{2}c表示abbc|
|{m,n}|扩展前一个字符m至n次（含n）|ab{1,2}c表示abc、abbc|
|^|匹配字符串开头|^abc表示abc且在一个字符串的开头|
| $ |匹配字符串结尾 | abc$表示abc且在一个字符串的结尾|
|()|分组标记，内部只能使用\（竖直）操作符|(abc)表示abc,(abc\def)表示abc\def|
|\d|数字，等价于[0-9]| |
|\w|单词字符，等价于[A-Za-z0-9_]| |
|\s|匹配空白字符，包括制表符、换行符、回车符和空格符|
|\S|匹配非空白字符|


#### 语法实例

#### 经典实例

#### 匹配IP地址的正则表示式

## Re库的基本使用

### Re库介绍

> Re库是Python的标准库，主要用于字符串匹配


In [1]:
import re

### 正则表达式的表示类型

* raw string 类型（原生字符串类型）


* string类型

### Re库主要功能函数

|函数|说明|
|--|--|
|re.search()|在一个字符串中搜索匹配正则表达式的第一个位置，返回**match对象**|
|re.match()|从一个字符串的开始位置起匹配正则表达式，返回**match对象**|
|re.findall()|搜索字符串，以列表类型返回全部能匹配的子串|
|re.split()|将一个字符串按照正则表达式匹配结果进行分割，返回列表类型|
|re.finditer()|搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是**match对象**|
|re.sub()|在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串|

* re.search(pattern,string,flags=0)
    * pattern: 正则表达式的字符串或原生字符串
    * string : 待匹配字符串
    * flags :  正则表达式使用时的控制标记

|常用标记|说明|
|--|-|
|re.I     re.IGNORE CASE|忽略正则表达式的大小写，[A-Z]能够匹配小写字符|
|re.M     re.MULTILINE|正则表达式中的^操作符能够将给定字符串的每行当作匹配开始|
|re.S      re.DOTALL|正则表达式中的.操作符能够匹配所有字符，默认匹配除换行外的所有字符|

In [8]:
url="data-original=\"http://ww2.sinaimg.cn/bmiddle/9150e4e5gy1g74f16kbfqj20go0figmz.jpg\n\""
match=re.compile(r"data-original=\".*?\"",re.S)
match.findall(url)

['data-original="http://ww2.sinaimg.cn/bmiddle/9150e4e5gy1g74f16kbfqj20go0figmz.jpg\n"']

In [9]:
url="data-original=\"http://ww2.sinaimg.cn/bmiddle/9150e4e5gy1g74f16kbfqj20go0figmz.jpg\n\""
match=re.compile(r"data-original=\".*?\"")
match.findall(url)

[]

In [21]:
url="data-original=\"http://ww2.sinaimg.cn/bmiddle/9150e4e5gy1g74f16kbfqj20go0figmz.jpg\""
match=re.compile(r"data-original=\"(.*)\"",re.S)
print(match.findall(url))

['http://ww2.sinaimg.cn/bmiddle/9150e4e5gy1g74f16kbfqj20go0figmz.jpg']


* re.match(pattern,string,flags=0)
> 从一个字符串的开始位置起匹配正则表达式，返回match对象

In [10]:
import re
match=re.match(r'[1-9]\d{5}','BIT 100081')
if match:
    print(match.group(0))

In [11]:
match.group(0)

AttributeError: 'NoneType' object has no attribute 'group'

In [12]:
match=re.match(r'[1-9]\d{5}','100081  BIT')
if match:
    print(match.group(0))
type(match)

100081


re.Match

* re.findall(pattern,string,flags=0)
> 搜索字符串，以列表类型返回全部能匹配的子串

In [3]:
ls=re.findall('[1-9]\d{5}','BIT100818 TSU100084')
ls

['100818', '100084']

* re.split(pattern,string,maxsplit=0,flags=0)
    * maxsplit:最大分割数，剩余部分作为最后一个元素输出
> 将一个字符串按照正则表达式匹配结果进行分割返回列表类型

    

In [4]:
re.split('[1-9]\d{5}','BIT100818 TSU100084')

['BIT', ' TSU', '']

In [5]:
re.split('[1-9]\d{5}','BIT100818 TSU100084',maxsplit=1)

['BIT', ' TSU100084']

In [14]:
re.split('[1-9]\d{5}','BIT123550 TSU526854 PK869422',maxsplit=2)

['BIT', ' TSU', ' PK869422']

* re.finditer(pattern,string,flags=0)
> 搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对象

In [15]:
for m in re.finditer('[1-9]\d{5}','BIT100818 TSU100084'):
    if m:
        print(m.group(0))

100818
100084


* re.sub(pattern,repl,string,count=0,flags=0)
    * repl:替换匹配字符串的字符串
    * count:匹配的最大替换次数
> 在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串


In [1]:
import re
re.sub('[1-9]\d{5}',':syj','bit123402 dds545443 df451236d')

'bit:syj dds:syj df:syjd'

### Re库的另一种等价用法

In [None]:
rst=re.search(r'[1-9]\d{5}','BIT 100081')  #函数式用法：一次性操作


In [None]:
pat=re.compile(r'[1-9]\d{5}')
rst=pat.search('BIT 100081')       #面向对象用法：编译后的多次操作

* regex=re.complie(pattern,flags=0)
> 将正则表达式的字符串形式编译成正则表达式对象

In [None]:
regex=re.compile(r'[1-9]\d{5}')

In [None]:
if regex.search('bit456328fff'):
    print(regex.search('bit456328fff').group(0))

## Re库的Match对象

### Match对象介绍
> Match对象是一次匹配结果，包含匹配的很多信息

In [None]:
match=re.search(r'[1-9]\d{5}','BIT 100081')
if match:
    print(match.group(0))
type(match)

### Match对象属性

|属性|说明|
|-|-|
|.string|待匹配文本|
|.re|匹配时使用的patter对象（正则表达式）|
|.pos|正则表达式搜索文本的开始位置|
|.endpos|正则表达式搜索文本的结束位置|

### Match对象方法

|方法|说明|
|-|-|
|.group(0)|获得匹配后的字符串|
|.start()|匹配字符串在原始字符串的开始位置|
|.end()|匹配字符串在原始字符串的结束位置|
|.span()|返回(.start(),end())|

### Match对象实例

In [5]:
m=re.search(r'\d[0-9]{7}','syj20000906')

In [6]:
m.string

'syj20000906'

In [7]:
m.re

re.compile(r'\d[0-9]{7}', re.UNICODE)

In [8]:
m.pos

0

In [9]:
m.endpos

11

In [10]:
m.group(0)

'20000906'

In [11]:
m.span()

(3, 11)

In [12]:
type(m.span())

tuple

## Re库的贪婪匹配和最小匹配

In [4]:
match=re.search(r'PY.*N','PYANBNCNDN')
match.group(0)        #同时匹配长短不同的多项，返回哪一个？

'PYANBNCNDN'

#### 贪婪匹配
> Re库默认采用贪婪匹配，即输出匹配最长的子串

#### 最小匹配
> 输出最小字串

In [5]:
import re
match=re.search(r'PY.*?N','PYANBNCNDN')
match.group(0) 

'PYAN'

###### 最小匹配操作符
|操作符|说明|
|-|-|
|*?| 前一个字符0次或无限次扩展，最小匹配|
|+? |前一个字符1次或无限次扩展，最小匹配|
|?? |前一个字符0次或1次扩展，最小匹配|
|{m,n}? |扩展前一个字符m至n次（含n），最小匹配|
> 只要长度输出可能不同的，都可以通过在操作符后增加？变成最小匹配