# 正则表达式
正则表达式是一种用来匹配字符串的强有力的武器  
因为正则表达式也是用字符串表示的，所以，我们要首先了解如何用字符来描述字符。

## 精确匹配
- `\d`可以匹配一个数字
- `\w`：一个字母/数字
- `\s`：一个空格（也包括Tab等空白符）
- `.`：任意一个字符
- `*`：任意个字符（包括0个）
- `+`：至少一个字符
- `?`：0-1个
- `{n}`：n个字符
- `{n,m}`：n-m个字符

举例：`\d{3}\s+\d{3,8}`
- `\d{3}`: 三个数字
- `\s+`: 至少一个空格
- `\d{3,8}`：3-8个数字
## 范围匹配
- `[0-9a-zA-Z\_]`:一个数字、字母或者下划线
- `[0-9a-zA-Z\_]+`:至少由一个数字、字母或者下划线组成的字符串
- `[a-zA-Z\_][0-9a-zA-Z\_]*`:字母或下划线开头，后接任意个由一个数字、字母或者下划线组成的字符串
- `[a-zA-Z\_][0-9a-zA-Z\_]{0, 19}`:长度是1-20个字符（前面1个字符+后面最多19个字符）
- `A|B`:可以匹配A或B，所以(P|p)ython可以匹配'Python'或者'python'
- `^`:行的开头，^\d表示必须以数字开头
- `$`:行的结束，\d$表示必须以数字结束。
- `^py$`就变成了整行匹配，就只能匹配'py'了

In [1]:
import re 
re.match(r'^\d{3}\-\d{3,8}$', '010-12345').group(0)


'010-12345'

In [2]:
re.match(r'^\d{3}\-\d{3,8}$', '010 12345')

In [3]:
string='abc:123,cdf:456|test=abc|door=123|elevator=14|door=456|'
#提取abc后到|的字符 abc:123,cdf:456
re.match(r'[0-9a-zA-Z\:\,]*', string).group(0)

'abc:123,cdf:456'

## findall的使用
1. 找a或者b
2. 利用分组，找出一部分

注意：使用非贪婪模式会有问题

In [4]:
text = 'This string1 is an example for match string2'
text= text.replace(' ','')   #去空格
result = re.findall(r'string1|string2',text)   #分别匹配两种模式
print(result)

['string1', 'string2']


In [5]:
re.findall(r'This(.*?)isanexampleformatch(.*$)',text)

[('string1', 'string2')]

In [6]:
text_multi = 'This string1 is \n an example \n for match string2'
text_multi = text_multi .replace(' ','')   #去空格
result3 = re.findall(r'string\d*',text_multi,re.S)   #利用re.S开启多行模式来忽略\n换行
print(result3)


['string1', 'string2']


## example
使用findall查找abnormal里的数据
一共有两个方法：

In [7]:
with open('asset/abnormal.txt','r') as f:
    data=f.read()

In [8]:
#方法1
matches=re.findall(r'<\?xml.*?</.*?>',data,re.S)
for item in matches:
    print(item)
    print('*' * 100)

<?xml version="1.0" encoding="UTF-8"?>
<liftstatus>
       <event lift="1" group="1" building="1" floor="3" deck="1" side="1" value="starting" servingDir="down" destFloor="1"/>
</liftstatus>
****************************************************************************************************
<?xml version="1.0" encoding="UTF-8"?>
<liftservice>
       <event lift="1" group="1" building="1" value="n"/>
</liftservice>
****************************************************************************************************
<?xml version="1.0" encoding="UTF-8"?>
<liftstatus>
       <event lift="1" group="1" building="1" floor="3" deck="1" side="1" value="closed" servingDir="down"/>
</liftstatus>
****************************************************************************************************


In [9]:
#方法二
matches=re.findall(r'(<\?xml.*?)(</liftstatus>|</liftservice>)',data,re.S)
matches=[item[0]+item[1] for item in matches]
for item in matches:
    print(item)
    print('*' * 100)

<?xml version="1.0" encoding="UTF-8"?>
<liftstatus>
       <event lift="1" group="1" building="1" floor="3" deck="1" side="1" value="starting" servingDir="down" destFloor="1"/>
</liftstatus>
****************************************************************************************************
<?xml version="1.0" encoding="UTF-8"?>
<liftservice>
       <event lift="1" group="1" building="1" value="n"/>
</liftservice>
****************************************************************************************************
<?xml version="1.0" encoding="UTF-8"?>
<liftstatus>
       <event lift="1" group="1" building="1" floor="3" deck="1" side="1" value="closed" servingDir="down"/>
</liftstatus>
****************************************************************************************************
