# re 正则表达式

In [1]:
import re

## compile(pattern[, flags])
将一个字符串编译成 regular pattern object（regex），用于匹配或搜索

re 所定义的 flag 包括：
> re.I 忽略大小写（ignorecase）

> re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境（locale）

> re.M 多行模式（multiline）

> re.S 即为’ . ’并且包括换行符在内的任意字符（’ . ’不包括换行符）

> re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库

> re.X 为了增加可读性，忽略空格和’ # ’后面的注释 

## 匹配
有匹配即返回，只会匹配一个

match：从起始位置开始匹配
> match(pattern, string, flags=0)

> regex.match(string[, pos[, endpos]])

search：字符串内查找模式匹配
> search(pattern, string, flags=0) 

> regex.search(string[, pos[, endpos]])

group()用来提出分组截获的字符串，group(0)指所有匹配的内容，group(1)指第一个()匹配内容

In [4]:
m = re.match(r"(\w+) (\w+)", "Isaac Newton, physicist")
m.group(0)       # The entire match

'Isaac Newton'

In [5]:
m.group(1)       # The first parenthesized subgroup.

'Isaac'

In [6]:
m.group(1, 2)    # Multiple arguments give us a tuple.

('Isaac', 'Newton')

## 搜索
搜索全部匹配情况，可以多个

findall：组成一个列表返回
> findall(pattern, string, flags=0)

> regex.findall(string[, pos[, endpos]])

finditer：组成一个迭代器返回
> finditer(pattern, string, flags=0)

> regex.finditer(string[, pos[, endpos]])

In [7]:
#搜索多个字符串
re.findall("(aa|bb)","acaacbfbb")

['aa', 'bb']

匹配和搜索的区别：
> 匹配：有匹配即返回，只会匹配一个

> 搜索：搜索全部匹配情况，可以多个

## 分割
split(pattern, string[, maxsplit=0, flags=0])

regex.split(string, maxsplit=0)

## 替换
sub：返回新字符串；若未找到匹配，则返回未被修改的字符串
> sub(pattern, repl, string[, count, flags]) 其中count 用于指定最多替换次数

> regex.sub(repl, string, count=0) 

subn：返回新字符串以及替换的次数
> subn(pattern, repl, string[, count, flags])

> regex.subn(repl, string, count=0)

## 其它
escape(string):对字符串中的非字母数字进行转义

purge():清空缓存中的正则表达式

# fuzzywuzzy
依据 Levenshtein Distance 算法 计算两个序列之间的差异

In [11]:
from fuzzywuzzy import fuzz
from fuzzywuzzy import process



## 简单匹配（Simple Ratio）

In [12]:
fuzz.ratio("this is a test", "this is a test!")

97

## 非完全匹配（Partial Ratio）

In [13]:
fuzz.partial_ratio("this is a test", "this is a test!")

100

## 忽略顺序匹配（Token Sort Ratio）

In [14]:
fuzz.ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear")

91

In [15]:
fuzz.token_sort_ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear")

100

## 去重子集匹配（Token Set Ratio）

In [16]:
fuzz.token_sort_ratio("fuzzy was a bear", "fuzzy fuzzy was a bear")

84

In [17]:
fuzz.token_set_ratio("fuzzy was a bear", "fuzzy fuzzy was a bear")

100

## Process
用来返回模糊匹配的字符串和相似度

In [18]:
choices = ["Atlanta Falcons", "New York Jets", "New York Giants", "Dallas Cowboys"]

In [19]:
process.extract("new york jets", choices, limit=2)

[('New York Jets', 100), ('New York Giants', 79)]

In [20]:
process.extractOne("cowboys", choices)

('Dallas Cowboys', 90)