# Python正则表达式

正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。

## 原意字符(literal characters)

  Literal character | Meaning
  -----------------|---------
    \f        |换页符
    \n        |换行符
    \r        |回车键
    \t        |Tab键
    \v        |垂直制表符
    \a        |Alarm (beep)不懂什么意思
    \xHH      |The ASCII character specified by the two digit hexadecimal code. For octal use \OOO except JS
    \x{HHHH}   |PHP: ASCII character represented by a four digit hexadecimal code. Javascript uses \uHHHH
    \cX      |The control character ^X. For example, \cI is equivalent to \t and \cJ is equivalent to \n

## 重复(repetition)

定义某个对象是否要重复几次.

 Character | Meaning
  -----------------|---------
  {n,m}        |匹配前面的对象至少n次,但是不超过m次.
  {n,}        |匹配前面的对象至少n次.
  {n}        |匹配前面的对象n次.
  ?        |匹配前面的对象0次或者1次.等于{0,1}
  +        |匹配前面的对象至少1次.等于{1,}
  *        |匹配前面的对象0次或者多次.等于{0,}
  {}?        |非贪婪匹配(non-greedy match),不会包括剩下的`group/match characters`.
  ??        |非贪婪匹配(non-greedy match),不会包括剩下的`group/match characters`.
  +?        |非贪婪匹配(non-greedy match),不会包括剩下的`group/match characters`.
  *?        |非贪婪匹配(non-greedy match).

非贪婪匹配时一种特殊的匹配,当重复一个正则表达式时,比如`a*`,星号是指匹配0次或者多次,那么python匹配时会尽可能匹配多的a.非贪婪匹配其实就是在原来的重复后面加上一个问好.
下面举个例子:

In [30]:
import re as re
s = '<html><head><title>Title</title>'

比如我们像匹配第一个`<html>`,如果使用`<.*>`作为正则表达式,那么右边的`>`则会一直匹配到最右边的`title`的`>`.

In [31]:
print(re.match('<.*>', s).span())
print(re.match('<.*>', s).group())

(0, 32)
<html><head><title>Title</title>


`re`在`<html>`中匹配 `<`，`.*`会消耗掉字符串的剩余部分。`re`中保持更多的向左匹配，不能在字符串结尾匹配`>`，因此正则表达式必须一个字符一个字符地回溯，直到它找到`>`的匹配。最终的匹配从`<html`中的`<`到`</title>`中的`>`,这变成了全文匹配，并不是你想要的结果。

在这种情况下，解决方案是使用不贪婪的限定符`*?`,`+?`,`??`或`{m,n}?`，尽可能匹配小的文本。在上面的例子里，在第一个 `<` 之后立即尝试匹配`>`，当它失败时，引擎一次增加一个字符，并在每步重试匹配`>`。这个处理将得到正确的结果：

In [32]:
print(re.match('<.*?>', s).group())

<html>


## 组(grouping)

 Character | Meaning
  -----------------|---------
  (...)|大括号中的内容会作为一个整体进行匹配,然后可以跟着重复符,或者`|`等.
    `\|`  | 或者的标志.匹配该符号的左边或者右边的内容.
    \n | Match the same characters that were matched when group number n was first matched. Groups are subexpressions within (possibly nested) parentheses.

## 锚点(Anchors)

Character | Meaning
  -----------------|---------
  ^|匹配字符串的开始.
  $ | 匹配字符串的的结尾
    

Python自1.5版本起增加了`re`模块，它提供Perl风格的正则表达式模式。
`re`模块使Python语言拥有全部的正则表达式功能。
`compile()`函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。
`re`模块也提供了与这些方法功能完全一致的函数，这些函数使用一个模式字符串做为它们的第一个参数。

# re.match()函数

尝试从字符串的**起始位置**匹配一个字符,如果匹配不成功的话,就会返回`None`.注意,这个方法并不是完全匹配。它仅仅决定在字符串开始的位置是否匹配。所以当pattern结束时若还有剩余字符，仍然视为成功。想要完全匹配，可以在表达式末尾加上边界匹配符`$`.   
例如：    
```
match('p','python')
```
返回值为真；
```
match('p','www.python.org')
```
返回值为假。


## 函数语法

```
re.match(pattern, string, flags = 0)
```

## 参数说明

Aargument | Meaning
----------|--------
pattern  |要匹配的字符或者正则表达式
string  |要匹配的自负床
flags  |标志位,用于控制正则表达式的匹配方式.如是否区分大小写,多行匹配等

## 返回对象

返回的是一个匹配对象,如果没有匹配成功,否则返回`None`.    
我们可以使用`group(num)`或`groups()`配对象函数来获取匹配表达式。

## 例子

In [33]:
import re as re

In [34]:
string = 'www.runoob.com'

In [35]:
result = re.match('www', string)

In [36]:
print(result)
print(type(result))

<re.Match object; span=(0, 3), match='www'>
<class 're.Match'>


In [10]:
result.span()

(0, 3)

In [11]:
result.group()

'www'

In [15]:
result.group(0)

'www'

`group`方法输出匹配到的内容.如果只使用字符进行匹配,那返回的就是字符,如果时使用正则表达式,那么就是返回匹配的的符合正则表达式的字符.

In [40]:
line = 'Cats are smarter than dogs'
print(re.M)
print(re.I)

RegexFlag.MULTILINE
RegexFlag.IGNORECASE


In [48]:
match_object = re.match(r'(.*) are (.*?) .*', line, flags = re.M|re.I)

这个`pattern`就是所谓的正则表达式.   
`()`括号括起来的内容意味着他们作为一个整体进行匹配.    
`.`点代表着任意字符.    
`*`星号放在某个字符后面,代表着该字符或者对象出现0或者多次.    
`*?`在星号后加上问好,是指非贪婪匹配(Non-greedy match).参考上面内容.

另外一个要重点提的就是`r`,在一个正则表达式的最前面加上`r`,则不需要使用转义符.

`flags`参数设置为了`re.M|re.I`.
其中`re.I`(`IGNORECASE`)是指进行忽略大小写匹配.    
`re.M`(`MULTILINE`)是指多行匹配.

In [49]:
if match_object:
   print("match_object.group() : ", match_object.group())
   print("match_object.group(0) : ", match_object.group(0))
   print("match_object.group(1) : ", match_object.group(1))
   print("match_object.group(2) : ", match_object.group(2))
else:
   print("No match!!")

match_object.group() :  Cats are smarter than dogs
match_object.group(0) :  Cats are smarter than dogs
match_object.group(1) :  Cats
match_object.group(2) :  smarter


# re.search()函数

该函数用来扫描整个字符串,并返回第一个成功的匹配.跟`re.match`不同,`re.match`时从开头开始匹配的.

## 函数语法

```
re.search(pattern, string, flags=0)
```

参数跟`re.match()`的完全一样,含义也相同.

## 返回对象

返回的对象也跟`re.match()`相同.

## 例子

In [51]:
import re as re
print(re.search('www', 'www.runoob.com').span())  # 在起始位置匹配
print(re.search('com', 'www.runoob.com').span())# 不在起始位置匹配

(0, 3)
(11, 14)


In [52]:
import re as re
line = "Cats are smarter than dogs";
search_object = re.search( r'(.*) are (.*?) .*', line, re.M|re.I)
if search_object:
   print("search_object.group() : ", search_object.group())
   print("search_object.group(1) : ", search_object.group(1))
   print("search_object.group(2) : ", search_object.group(2))
else:
   print("Nothing found!!")

search_object.group() :  Cats are smarter than dogs
search_object.group(1) :  Cats
search_object.group(2) :  smarter
