# Regular Expression

正则表达式(regular expression)描述了一种字符串匹配的模式（pattern），可以用来检查一个串是否含有某种子串、将匹配的子串替换
或者从某个串中取出符合某个条件的子串等。

## 1. 语法介绍

### 1.1 举例

In [47]:
import re

**findall(pattern, string, flags=0):找到正则匹配的所有子字符串，并将它们作为列表返回。pattern：我们定义的匹配规则，string：待匹配的字符串，flags：匹配的模式，比如flags=re.I是忽略大小写。**

In [48]:
reg = 'T'
text = 'Text Preprocessing Techniques in NLP'
result = re.findall(reg,text)
result

['T', 'T']

### 1.2 语法

#### 1.2.1 普通字符
所有的大写和小写字母，所有数字，所有标点符号等。

In [50]:
reg = 'e'
text = 'Text Preprocessing Techniques in NLP 。 123 @'
result = re.findall(reg,text)
result

['e', 'e', 'e', 'e', 'e']

#### 1.2.2 其他字符
**\w, \W, \d, \D, \s, \S, ., *, +, |, ?, ^, $, [], {}, ()**

\w:匹配单个的字母数字下划线。等价于“[A-Za-z0-9_]”。

In [51]:
reg = '\w'
text = 'Text Preprocessing Techniques in NLP 。_ 123 @'
result = re.findall(reg,text)
result

['T',
 'e',
 'x',
 't',
 'P',
 'r',
 'e',
 'p',
 'r',
 'o',
 'c',
 'e',
 's',
 's',
 'i',
 'n',
 'g',
 'T',
 'e',
 'c',
 'h',
 'n',
 'i',
 'q',
 'u',
 'e',
 's',
 'i',
 'n',
 'N',
 'L',
 'P',
 '_',
 '1',
 '2',
 '3']

\W:匹配单个的**非**    字母、数字、下划线；这相当于类 [^a-zA-Z0-9_]。

In [52]:
reg = '\W'
text = 'Text Preprocessing Techniques in NLP 。 123 @'
result = re.findall(reg,text)
result

[' ', ' ', ' ', ' ', ' ', '。', ' ', ' ', '@']

\d:匹配任何单个的十进制数字；这等价于类 [0-9]。

In [53]:
reg = '\d'
text = 'Text Preprocessing Techniques in NLP 。 123 @4'
result = re.findall(reg,text)
result

['1', '2', '3', '4']

\D:匹配任何一个非数字字符；这等价于类 [^0-9]。

In [7]:
reg = '\D'
text = 'Text Preprocessing Techniques in NLP 。 123 @4'
result = re.findall(reg,text)
result

['T',
 'e',
 'x',
 't',
 ' ',
 'P',
 'r',
 'e',
 'p',
 'r',
 'o',
 'c',
 'e',
 's',
 's',
 'i',
 'n',
 'g',
 ' ',
 'T',
 'e',
 'c',
 'h',
 'n',
 'i',
 'q',
 'u',
 'e',
 's',
 ' ',
 'i',
 'n',
 ' ',
 'N',
 'L',
 'P',
 ' ',
 '。',
 ' ',
 ' ',
 '@']

\s:匹配任何一个空白字符；这等价于类 [ \t\n\r\f\v]。

In [9]:
reg = '\s'
text = 'Text Preprocessing Techniques in NLP 。 123 @4'
result = re.findall(reg,text)
result

[' ', ' ', ' ', ' ', ' ', ' ', ' ']

\S:匹配任何一个非空白字符；这相当于类 [^ \t\n\r\f\v]。

In [10]:
reg = '\S'
text = 'Text Preprocessing Techniques in NLP 。 123 @4'
result = re.findall(reg,text)
result

['T',
 'e',
 'x',
 't',
 'P',
 'r',
 'e',
 'p',
 'r',
 'o',
 'c',
 'e',
 's',
 's',
 'i',
 'n',
 'g',
 'T',
 'e',
 'c',
 'h',
 'n',
 'i',
 'q',
 'u',
 'e',
 's',
 'i',
 'n',
 'N',
 'L',
 'P',
 '。',
 '1',
 '2',
 '3',
 '@',
 '4']

.  :匹配除换行符之外的任何字符。

In [56]:
reg = '.'
text = 'Text Preprocessing Techniques in NLP 。 \n\r123 @4'
result = re.findall(reg,text)
result

['T',
 'e',
 'x',
 't',
 ' ',
 'P',
 'r',
 'e',
 'p',
 'r',
 'o',
 'c',
 'e',
 's',
 's',
 'i',
 'n',
 'g',
 ' ',
 'T',
 'e',
 'c',
 'h',
 'n',
 'i',
 'q',
 'u',
 'e',
 's',
 ' ',
 'i',
 'n',
 ' ',
 'N',
 'L',
 'P',
 ' ',
 '。',
 ' ',
 '\r',
 '1',
 '2',
 '3',
 ' ',
 '@',
 '4']

\*: 与字面字符 '\*' 不匹配；相反，它指定前一个字符可以匹配零次或多次，而不是恰好一次。
例如，ca*t 将匹配 'ct' (0个 'a' 字符)，'cat' (1个 'a' )， 'caaat' (3个 'a' 字符)，等等。

In [62]:
reg = '\w*'
text = 'Text Preprocessing Techniques in * NLP 。 \r\n123 @4'
result = re.findall(reg,text)
result

['Text',
 '',
 'Preprocessing',
 '',
 'Techniques',
 '',
 'in',
 '',
 '',
 '',
 'NLP',
 '',
 '',
 '',
 '',
 '',
 '123',
 '',
 '',
 '4',
 '']

+:它匹配一次或多次。 要特别注意 * 和 + 之间的区别；* 匹配 零次 或更多次，因此重复的任何东西都可能根本不存在，而 + 至少需要 一次。用类似的   例子，ca+t 将匹配 'cat' (1 个 'a')，'caaat' (3 个 'a')，但不会匹配 'ct'。

In [63]:
reg = '\w+'
text = 'Text Preprocessing Techniques in NLP 。 \r\n123 @4'
result = re.findall(reg,text)
result

['Text', 'Preprocessing', 'Techniques', 'in', 'NLP', '123', '4']

|:匹配x或y。例如，“z|food”能匹配“z”或“food”。“(z|f)ood”则匹配“zood”或“food”。

In [64]:
reg = 'e|s'
text = 'Text Preprocessing Techniques in NLP 。 \r\n123 @4'
result = re.findall(reg,text)
result

['e', 'e', 'e', 's', 's', 'e', 'e', 's']

?:它匹配一次或零次；你可以把它想象成是可选的。 例如，home-?brew 匹配 'homebrew' 或 'home-brew'。

In [65]:
reg = 'e-?s'
text = 'Text Preprocessing Tec-hnique-s in NLP 。 \r\n123 @4'
result = re.findall(reg,text)
result

['es', 'e-s']

[]:它们用于指定字符类，它是你希望匹配的一组字符。 可以单独列出字符，也可以通过给出两个字符并用 '-' 标记将它们分开来表示一系列字符。
    例如， [abc] 将匹配任何字符 a、 b 或 c ；这与 [a-c] 相同，它使用一个范围来表示同一组字符。 如果你只想匹配小写字母，你的正则是 [a-z] 。

In [66]:
reg = '[TPg]'
text = 'Text Preprocessing Technique-s in NLP 。 \r\n123 @4'
result = re.findall(reg,text)
result

['T', 'P', 'g', 'T', 'P']

^:在行的开头匹配。

In [68]:
reg = '^Tech'
text = 'Text Preprocessing Technique-s in NLP 。 \r\n123 @4'
result = re.findall(reg,text)
result

[]

In [19]:
reg = '^Preprocessing'
text = 'Text Preprocessing Technique-s in NLP 。 \r\n123 @4'
result = re.findall(reg,text)
result

[]

^在[]里面使用时，表示非的意思。例如，[^5] 将匹配除 '5' 之外的任何字符。 如果插入符出现在字符类的其他位置，则它没有特殊含义。 例如：[5^] 将匹配 '5' 或 '^'。

In [69]:
reg = '[^T]'
text = 'Text Preprocessing Technique-s in NLP 。 \r\n123 @4'
result = re.findall(reg,text)
result

['e',
 'x',
 't',
 ' ',
 'P',
 'r',
 'e',
 'p',
 'r',
 'o',
 'c',
 'e',
 's',
 's',
 'i',
 'n',
 'g',
 ' ',
 'e',
 'c',
 'h',
 'n',
 'i',
 'q',
 'u',
 'e',
 '-',
 's',
 ' ',
 'i',
 'n',
 ' ',
 'N',
 'L',
 'P',
 ' ',
 '。',
 ' ',
 '\r',
 '\n',
 '1',
 '2',
 '3',
 ' ',
 '@',
 '4']

$:匹配字符串的结尾

In [72]:
reg = 'Pre$'
text = 'Text Preprocessing Technique-s in NLP'
result = re.findall(reg,text)
result

[]

In [22]:
reg = 'Text$'
text = 'Text Preprocessing Technique-s in NLP'
result = re.findall(reg,text)
result

[]

{}:{m,n}，其中 m 和 n 是十进制整数。 这个限定符意味着必须至少重复 m 次，最多重复 n 次。
例如，a/{1,3}b 将匹配 'a/b' ，'a//b' 和 'a///b' 。 它不匹配没有斜线的 'ab'，或者有四个的 'a////b'。

你可以省略 m 或 n; 在这种情况下，将假定缺失值的合理值。 省略 m 被解释为 0 下限，而省略 n 则为无穷大的上限。

{0,} 与 * 相同， {1,} 相当于 + ， {0,1} 和 ? 相同。 最好使用 * ， + 或 ? ，只要因为它们更短更容易阅读。
{m},表示重复m次。

In [None]:
{2,3}

In [81]:
reg = 's{,2}'
text = 'Text Presprocessing Tessschnique-s in NLP'
result = re.findall(reg,text)
result

['',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 's',
 '',
 '',
 '',
 '',
 '',
 'ss',
 '',
 '',
 '',
 '',
 '',
 '',
 'ss',
 's',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 's',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '']

():标记一个子表达式的开始和结束位置。

In [24]:
import re

In [None]:
''

In [83]:
reg = '((es){2,}u)'
text = 'Tesxt Preprocesesuing Techniqesesesue-s in NLP'
result = re.findall(reg,text)
result

[('esesu', 'es'), ('esesesu', 'es')]

In [26]:
reg = '(es){2,}'
text = 'Tesxt Preprocesesing Technique-s in NLP'
result = re.findall(reg,text)
result

['es']

In [27]:
result

['es']

In [28]:
reg = 'aaa'
text = 'Tesxt Preprocesesing Technique-s in NLP'
result = re.findall(reg,text)
result

[]

### 1.3 常用函数

#### 1.3.1 findall(pattern, string, flags=0):
找到正则匹配的所有子字符串，并将它们作为列表返回。pattern：我们定义的匹配规则，string：待匹配的字符串，flags：匹配的模式，比如flags=re.I是忽略大小写。

In [29]:
help(re.findall)

Help on function findall in module re:

findall(pattern, string, flags=0)
    Return a list of all non-overlapping matches in the string.
    
    If one or more capturing groups are present in the pattern, return
    a list of groups; this will be a list of tuples if the pattern
    has more than one group.
    
    Empty matches are included in the result.



#### 1.3.2 search(pattern, string, flags=0):
扫描整个字符串，并返回第一个成功的匹配对象。该匹配对象，包含匹配相关的信息：起始和终结位置、匹配的子串以及其它。
如果没有找到匹配，返回None。匹配对象的方法有：group(),start(),end(),span()。
group()：返回正则匹配的字符串。
start()：返回匹配的开始位置。
end()：返回匹配的结束位置。
span()：返回包含匹配 (start, end) 位置的元组。
pattern：我们定义的匹配规则，string：待匹配的字符串，flags：匹配的模式，比如flags=re.I是忽略大小写。

In [85]:
reg = 'Te'
text = 'Text Preprocessing Technique-s in NLP'
result = re.search(reg,text)
print(result)

<re.Match object; span=(0, 2), match='Te'>


In [86]:
result.group()

'Te'

In [89]:
result.span()

(0, 2)

In [31]:
reg = 'pr'
text = 'Text Preprocessing Technique-s in NLP'
result = re.search(reg,text)
print(result)

<re.Match object; span=(8, 10), match='pr'>


In [32]:
result.group()

'pr'

In [33]:
result.start()

8

In [34]:
result.end()

10

In [35]:
result.span()

(8, 10)

#### 1.3.3 match(pattern, string, flags=0):
确定正则是否从字符串的开头匹配。并返回一个匹配对象。该匹配对象，包含匹配相关的信息：起始和终结位置、匹配的子串以及其它。
如果没有找到匹配，返回None。匹配对象的方法有：group(),start(),end(),span()。
group()：返回正则匹配的字符串。
start()：返回匹配的开始位置。
end()：返回匹配的结束位置。
span()：返回包含匹配 (start, end) 位置的元组。
pattern：我们定义的匹配规则，string：待匹配的字符串，flags：匹配的模式，比如flags=re.I是忽略大小写。

In [93]:
reg = 'Te'
text = 'Text Preprocessing Technique-s in NLP'
result = re.match(reg,text)
print(result)

<re.Match object; span=(0, 2), match='Te'>


re.match()方法要求必须从字符串的开头进行匹配，如果字符串的开头不匹配，整个匹配就失败了；
re.search()并不要求必须从字符串的开头进行匹配。

#### 1.3.4 finditer(pattern, string, flags=0):
和findall一样的匹配规则，除了返回值为一个由匹配对象构成的迭代器。

In [98]:
reg = 'Te'
text = 'Text Preprocessing Technique-s in NLP'
result = re.finditer(reg,text)
print(result)

<callable_iterator object at 0x000001759023E748>


In [99]:
for i in result:
    print(i.group())

Te
Te


In [39]:
help(re.sub)

Help on function sub in module re:

sub(pattern, repl, string, count=0, flags=0)
    Return the string obtained by replacing the leftmost
    non-overlapping occurrences of the pattern in string by the
    replacement repl.  repl can be either a string or a callable;
    if a string, backslash escapes in it are processed.  If it is
    a callable, it's passed the Match object and must return
    a replacement string to be used.



#### 1.3.5 sub(pattern, repl, string, count=0, flags=0)
pattern:我们定义的匹配规则,repl:该参数表示要替换的字符串（即匹配到pattern后替换为repl），
        string：待匹配的字符串,count:可选参数，表示是要替换的最大次数；


In [102]:
reg = 'Te'
repl = 'AA'
text = 'Text Preprocessing Technique-s in NLP'
result = re.sub(reg,repl,text,count=1)
print(result)

AAxt Preprocessing Technique-s in NLP


In [41]:
help(re.split)

Help on function split in module re:

split(pattern, string, maxsplit=0, flags=0)
    Split the source string by the occurrences of the pattern,
    returning a list containing the resulting substrings.  If
    capturing parentheses are used in pattern, then the text of all
    groups in the pattern are also returned as part of the resulting
    list.  If maxsplit is nonzero, at most maxsplit splits occur,
    and the remainder of the string is returned as the final element
    of the list.



#### 1.3.6 split(pattern, string, maxsplit=0, flags=0)
pattern:我们定义的匹配规则,string：待匹配的字符串,maxsplit:分隔次数,默认为0(即不限次数)

In [104]:
reg = ' '
text = 'Text Preprocessing Technique-s in NLP'
result = re.split(reg,text,maxsplit=1)
print(result)

['Text', 'Preprocessing Technique-s in NLP']


In [43]:
help(re.compile)

Help on function compile in module re:

compile(pattern, flags=0)
    Compile a regular expression pattern, returning a Pattern object.



#### 1.3.6 compile(pattern, flags=0)
pattern:我们定义的匹配规则.
编译一个正则表达式，返回一个正则表达式对象。

In [105]:
arr = ['Text', 'Preprocessing', 'Techniques', 'in', 'NLP']

In [106]:
reg = 'T'
for i in arr:
    result = re.search(reg,i)
    if result == None:
        print(None)
    else:
        print(result.group())

T
None
T
None
None


In [107]:
reg = 'T'
regEx = re.compile(reg)
for i in arr:
    result = regEx.search(i)
    if result == None:
        print(None)
    else:
        print(result.group())

T
None
T
None
None


**更多正则表达式操作：** https://docs.python.org/zh-cn/3/library/re.html