# 正则表达式
https://deerchao.cn/tutorials/regex/regex.htm

In [39]:
import re

## 元字符

.；匹配除换行符以外的任意字符  
\w；匹配字母或者数字或者下划线或汉字  
\s；匹配任意的空白符  
\d；匹配数字  
\b；匹配单词的开始或结束  
^；匹配字符串的开始  
$；匹配字符串的结束  

## 字符转义

\. -> \  
\* -> *
deerchao\.cn -> 匹配deerchao.cn  
C:\\windowns -> 匹配C:\\windows

## 重复

\*；重复零次或更多次  
\+；重复一次或更多次  
?；重复零次或一次  
{n}；重复n次  
{n,}；重复n次或更多次  
{n,m}；重复n到m次

## 字符类

\[aeiou] -> 匹配任何一个英文元音字母  
\[.?!] -> 匹配标点符号（.或？或！）  
\[a-z0-9A-z]

## 分支条件

0\d{2}-\d{8}|0\d{3}-\d{7} -> 匹配两种以连字号分隔的电话号码：010-12345678 | 0376-2233445   

## 分组

(\d{1,3}\.){3}\d{1,3} -> 简单的IP地址匹配：\d{1,3}匹配1到3位数字，(\d{1,3}\.){3}匹配三位数字加上一个英文句号重复3次，最后再加上一个一到三位的数字(\d{1,3})

## 反义

\W；匹配任意不是字母，数字，下划线，汉字的字符  
\S；匹配任意不是空白符的字符  
\D；匹配任意非数字的字符  
\B；匹配不是单词开头或结束的位置  
\[^x]；匹配除了x以外的任意字符  
\[^aeiou]；匹配除了aeiou这几个字母以外的任意字符  

## 后向引用

### 捕获

(exp) -> 匹配exp，并捕获文本到自动命令的组里  
(?<name>exp) -> 匹配exp，并捕获文本到名称为name的组里，也可以写成(?'name'exp)  
(?:exp) -> 匹配exp，不捕获匹配的文本，也不给此分组分配组号  

### 零宽断言

(?=exp) -> 匹配exp前面的位置  
(?<=exp) -> 匹配exp后面的位置  
(?!exp) -> 匹配后面跟的不是exp的位置  
(?<!exp) -> 匹配前面不是exp的位置

In [70]:
m = re.search(r"\b\w+(?=ing\b)", "I'm singing while you're dancing")

In [72]:
m = re.findall(r"\b\w+(?=ing\b)", "I'm singing while you're dancing")

In [73]:
m

['sing', 'danc']

### 注释

(?#comment) -> 这种类型的分组不对正则表达式的处理产生任何影响，用于提供注释让人阅读  

## 贪婪与懒惰

*?；重复任意次，但尽可能少重复  
+/；重复1次或更多次，但尽可能少重复  
??；重复0次或1次，但尽可能少重复  
{n,m}?；重复n到m次，但尽可能少重复  
{n,)?；重复n次以上，但尽可能少重复

## 方法

### match
从头匹配

In [74]:
email_pattern = re.compile(r"^[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+){0,4}@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+){0,4}$")

In [79]:
re.match(email_pattern, "django@pyghon.org").group()

'django@pyghon.org'

### search
从字符串中任意位置匹配

In [87]:
year_pattern = re.compile(r"\d{4}")

In [81]:
string1 = "I love 1998 and 1999"

In [88]:
match1 = re.match(year_pattern, string1)

In [89]:
match1

In [90]:
match2 = re.search(year_pattern, string1)

In [91]:
match2

<re.Match object; span=(7, 11), match='1998'>

In [94]:
match2.group()

'1998'

In [95]:
string3 = "Elephants are bigger than rats"

In [98]:
re.search(r"(.*) are (.*?) .*", string3).group()

'Elephants are bigger than rats'

In [100]:
re.search(r"(.*) are (.*?) .*", string3).group(1)

'Elephants'