# Python 正则表达式（Regular Expression）
- 使用re模块

## search()方法用于在字符串中搜索正则表达式模式匹配的第一次出现的位置

In [1]:
import re

In [2]:
re.search(r'python', 'I love python!')

<_sre.SRE_Match object; span=(7, 13), match='python'>

In [3]:
print(re.search(r'Python', 'I love python!'))

None


    可以直接使用字符串的搜索方法

In [4]:
'I love python!'.find("python")

7

## . 匹配任意字符(除了\n换行符)

In [5]:
re.search(r'.', 'I love python!')

<_sre.SRE_Match object; span=(0, 1), match='I'>

In [6]:
re.search(r'pytho.', 'I love python!')

<_sre.SRE_Match object; span=(7, 13), match='python'>

In [7]:
re.search(r'pytho.', 'I love pytho\n')

In [8]:
re.search(r'pytho.', 'I love pytho\n', re.DOTALL)

<_sre.SRE_Match object; span=(7, 13), match='pytho\n'>

## \类似转义字符

### 用于匹配元字符（有特殊意义的字符如'.'）

In [9]:
re.search(r'\.', 'I love python.')

<_sre.SRE_Match object; span=(13, 14), match='.'>

### 把普通字符转化为有特殊意义的字符

In [10]:
re.search(r'\d\d\d', 'I love 123.')

<_sre.SRE_Match object; span=(7, 10), match='123'>

## [ ]来创建字符类
- 匹配[ ]中的任何一个字符都算匹配

In [11]:
re.search(r'[abc]', 'Abc')

<_sre.SRE_Match object; span=(1, 2), match='b'>

    正则表达式大小写敏感

### <span class="mark">匹配一个范围</span>

In [12]:
re.search(r'[a-z]', '123Abc')

<_sre.SRE_Match object; span=(4, 5), match='b'>

In [13]:
re.search(r'[1-5]', '01234')

<_sre.SRE_Match object; span=(1, 2), match='1'>

### <span class="mark">常见错误</span>

- 匹配0-255之间的数字

In [14]:
re.search(r'[0-255]', "123")

<_sre.SRE_Match object; span=(0, 1), match='1'>

    正则表达式匹配的是一个一个的字符，不可能整个数字匹配
    所以以上写法只是匹配[0125]这4个数

## { }表示重复匹配的次数

In [15]:
re.search(r'a{3}bc', "abc aabc aaabc aaaabc")

<_sre.SRE_Match object; span=(9, 14), match='aaabc'>

-  {0,9}<span class="mark">可以表示重复匹配的次数是0到9</span>

In [16]:
re.search(r'a{2,4}bc', "abc aabc aaabc aaaabc")

<_sre.SRE_Match object; span=(4, 8), match='aabc'>

In [17]:
re.search(r'a{2,4}bc', "abc aaabc aaaabc")

<_sre.SRE_Match object; span=(4, 9), match='aaabc'>

## | 表示逻辑或，分支条件
- 从左到右匹配每一个分支规则，如果满足，后续的就忽略

### 同样的例子，匹配正确范围内的ip地址(0-255)

In [18]:
re.search(r'[01]\d\d|2[0-4]\d|25[0-5]','188')

<_sre.SRE_Match object; span=(0, 3), match='188'>

In [19]:
re.search(r'[01]\d\d|2[0-4]\d|25[0-5]','255')

<_sre.SRE_Match object; span=(0, 3), match='255'>

In [20]:
re.search(r'[01]\d\d|2[0-4]\d|25[0-5]','256')

In [21]:
re.search(r'[01]\d\d|2[0-4]\d|25[0-5]','2')

In [22]:
re.search(r'[01]\d\d|2[0-4]\d|25[0-5]','002')

<_sre.SRE_Match object; span=(0, 3), match='002'>

    以上方法限制了位数必须是3所以还不够完善

## （ ）表示一个分组，先匹配完小括号内的，再继续匹配外面的
- ()指定子表达式的重复次数或者进行其他操作

In [23]:
re.search(r'(([01]\d\d|2[0-4]\d|25[0-5])\.){3}([01]\d\d|2[0-4]\d|25[0-5])','192.168.111.123')

<_sre.SRE_Match object; span=(0, 15), match='192.168.111.123'>

## 汇总

### \ + 小写字母的转义用法

语法|用法
-|-
\s|匹配任意的空白字符，包括空格、制表符、换行符、中文全角空格等
\d|匹配数字字符 
\b|匹配单词的开始或结束
\w|匹配字母或数字或下划线或汉字

### \ + 大写字母的转义用法（反义）

语法|用法
-|-
\S|匹配任意不是空白的字符
\D|匹配任意非数字的字符 
\B|匹配不是单词的开始或结束的位置
\W|匹配任意不是字母、数字、下划线、汉字的字符

### 元字符的用法

语法|用法
-|-
.|匹配除换行符以外的任意字符,在DOTALL模式中也可以匹配换行符
^|匹配字符串的开始
$|匹配字符串的结束
*|匹配任意不是字母、数字、下划线、汉字的字符
[^x]|匹配除了x以外的任意字符
[^aeiou]|匹配除了aeiou这几个字符以外的字符

### 重复次数限制

语法|用法
-|-
*|重复0次或更多次（该字符可有可无）
+|重复一次或更多次
?|重复0次或一次
{n}|重复n次
{n,}|重复n次或更多次
{n,m}|重复n到m次

### ？的用法（贪心和非贪心）


语法|用法
-|-
?|重复0次或一次，表示可选的分组
*？|重复任意多次，但尽可能少重复
+？|重复1次或更多次，但尽可能少重复
？？|重复0次或1次，但尽可能少重复
{n,}?|重复n次或更多次，但尽可能少重复
{n,m}?|重复n到m次，但尽可能少重复