# 1.常用元字符
|元字符|含义|
|:-:|:-|
| . |匹配除换行符以外的任意字符|
| \b|匹配单词的开始或结束|
| \d|匹配数字|
| \w|匹配字母、数字、下划线或汉字|
| \s|匹配任意空白符，包括空格、制表符（Tab）、换行符、中文全角空格等|
| ^ |匹配字符串的开始|
| $ |匹配字符串的结束|
    

In [11]:
import re
text = 'we are still studying and so busy'
pattern = re.compile(r'\bs\w*\b')
result = pattern.findall(text)
print(result)

['still', 'studying', 'so']


# 2.字符转义
### 如果你想查找元字符本身的话，因为它们具有特定功能，没办法指定为普通字符，这个时候需要用到转义，使用“\”来取消这些字符的特殊意义。因此如果查找“.”、“\”或者“*”时，必须写成“\.”、“\\”、“\*”。


In [12]:
text1 = 'asda sdqw e qwe www.google.com asdasd 123123'
pattern1 = re.compile(r'www\.google\.com')
result1 = pattern1.findall(text1)
print(result1)

['www.google.com']


# 3.重复
|限定符|含义|
|:-:|:-|
| * |重复零次或更多次|
| + |重复一次或更多次|
| ? |重复零次或一次|
|{n}|重复n次|
|{n,}|重复n次或更多次|
|{n,m}|重复n到m次|

# 4.字符集合
### 正则表达式是通过[ ]来实现自定义字符集合，[abcde]就是匹配abcde中任意一个字符，[0-9]的含义与“\d”是完全一致的。

# 5.分支条件
### 正则表达式中的分支条件指的是有几种匹配规则，如果满足其中任意一种规则都应该当成匹配，具体方法是用“|”把不同的规则分隔开。

In [13]:
text2 = 'asdas asdw 010-11223344 0321-1234567 asdaswq aaq 123123 44334 5454'
pattern2 = re.compile(r'\d{3}-\d{8}|\d{4}-\d{7}')
result2 = pattern2.findall(text2)
print(result2)

['010-11223344', '0321-1234567']


# 6.分组

In [93]:
text3 = 'ads as aad 123.123.121 4324 192.168.10.3 adas oo12p3 333.444.555.666'
pattern3 = re.compile(r'(?P<ip>(\d{1,3}\.){3}?\d{1,3})')
#result3 = re.findall(pattern3.group('ip'), text3)
result3 = pattern3.findall(text3)
print(result3)


[('192.168.10.3', '10.'), ('333.444.555.666', '555.')]


In [82]:
text4 = 'ads as aad 123123 4324 192.168.10.3 adas oo12p3 333.444.555.666'
pattern4 = re.compile(r'(((25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.){3}(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d))')
result4 = pattern4.findall(text4)
print(result4)

[('192.168.10.3', '10.', '10', '3')]


# 7.反义
|代码|含义|
|:-:|:-|
|\W        |匹配任意不是字母、数字、下划线、汉字的字符|
|\S        |匹配任意不是空白符的字符|
|\D        |匹配任意非数字的字符|
|\B        |匹配不是单词开头或结束的位置|
|[^a]      |匹配除a以外的任意字符|
|[^abcde]      |匹配出abcde以外的任意字符|
|[^123丨abc]|匹配除1、2、3或者a、 b、c这几个字符以外的任意字符|