#### 正则表达式
正则表达式是用来匹配字符串或者子串的一种模式，匹配的字符串可以很具体，也可以很一般化。

In [3]:
import re

####  re.match(pattern, string[, flags])
####  re.search(pattern, string[, flags])
pattern 匹配的正则表达式  string要匹配的字符串 flags标志位，用于控制匹配方式
两者都寻找第一个匹配成功的部分，成功则返回一个 match 对象，不成功则返回 None，不同之处在于 re.match 只匹配字符串的开头部分，而 re.search 匹配的则是整个字符串中的子串。

In [4]:
string = 'hello world'
pattern = 'hello (\w+)'

match = re.match(pattern, string)
print(match)

<_sre.SRE_Match object; span=(0, 11), match='hello world'>


In [5]:
if match is not None:
    print(match.group(0))

hello world


In [6]:
if match is not None:
    print(match.group(1))

world


In [7]:
string = 'hello there'
pattern = 'hello (\w+)'

match = re.match(pattern, string)
if match is not None:
    print(match.group(0))
    print(match.group(1))

hello there
there


In [9]:
patternl = re.compile('hello (\w+)')

match = patternl.match(string)
if match is not None:
    print(match.group(1))

there


#### 匹配url的正则表达式
[a-zA-z]+://[^\s]*
a-z表示匹配任意的小写字母
\s 表示匹配任意的空白字符
* 表示匹配前面的字符任意多个

####  正则表达式匹配规则
####  模式描述
\w匹配字母数字及下划线
\W匹配非字母数字及下划线
\s匹配任意空白字符，等价于 [\t\n\r\f].
\S匹配任意非空字符
\d匹配任意数字，等价于 [0-9]
\D匹配任意非数字
\A匹配字符串开始
\Z匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串
\z匹配字符串结束
\G匹配最后匹配完成的位置
\n匹配一个换行符
\t匹配一个制表符
^匹配字符串的开头
$匹配字符串的末尾。
.匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。
[...]用来表示一组字符,单独列出：[amk] 匹配 'a'，'m'或'k'
[^...]不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。
*匹配0个或多个的表达式。
+匹配1个或多个的表达式。
?匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式
{n}精确匹配n个前面表达式。
{n, m}匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式
a|b匹配a或b
( )匹配括号内的表达式，也表示一个组,标记一个子表达式开始和结束的位置

In [11]:
import re

content = 'Hello 123 4567 World_This is a Regex Demo'
print(len(content))
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}', content)
print(result)
print(result.group())
print(result.span())

41
<_sre.SRE_Match object; span=(0, 25), match='Hello 123 4567 World_This'>
Hello 123 4567 World_This
(0, 25)


####  
group()方法可以输出匹配到的内容
span()方法可以输出匹配的范围
在正则表达式中增加（），可以将提取的内容分组，并可调用group()来提取

In [17]:
import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^Hello(\s)(\d+)\s(World)', content)
print(len(content))
print(result)
print(result.group())
print(result.group(1))
print(result.group(2))
print(result.span())

40
<_sre.SRE_Match object; span=(0, 19), match='Hello 1234567 World'>
Hello 1234567 World
 
1234567
(0, 19)


####  对于一些射术字符，需要使用'\'进行逃逸字符处理

In [18]:
pattern = '\\'
print(pattern)

\


####  使用四个 '\\\\' 来匹配一个单独的 '\'：

In [19]:
pattern = '\\\\'
path = "C:\\foo\\bar\\baz.txt"
print(re.split(pattern, path))

['C:', 'foo', 'bar', 'baz.txt']


In [20]:
pattern = r'\\'
path = r"C:\foo\bar\baz.txt"
print(re.split(pattern, path))

['C:', 'foo', 'bar', 'baz.txt']


In [21]:
%%file test.dat
1312 foo
1543    bar
444  qux

Writing test.dat


#### regex实现内置模块re不能实现的一下高级特性
如：
固化分组    Atomic grouping
占有优先量词    Possessive quantifiers
可变长度的逆序环视    Variable-length lookbehind
递归匹配    Recursive patterns
（起始/继续）位置锚\G    Search anchor

In [22]:
pattern = "(\d+)\s+(...)"
dt = [('num', 'int64'),('key', 'S3')]

from numpy import fromregex
output = fromregex('test.dat', pattern, dt)
print(output)

[(1312, b'foo') (1543, b'bar') (444, b'qux')]


In [23]:
print(output['num'])

[1312 1543  444]


In [24]:
import os
os.remove('test.dat')