# 介绍
* 定义：是特殊的字符序列，计算机科学的一个概念。通常用来检索、替换符合某个规则的文本。
* 作用：用来处理字符串，对字符串进行检索和替换
* 特点：
  1. 灵活性、逻辑性、功能性
  2. 迅速地用极简单的方式达到字符串的复杂控制

In [1]:
import re

x = 'hello\\nworld'
#在正则表达式里，要想匹配一个 \ 需要使用 \\\\
#re.search('匹配规则','匹配对象')
re.search('\\\\', x)  #==>结果是一个 Match 类型的对象
#<re.Match object; span=(5, 6), match='\\'>

<re.Match object; span=(5, 6), match='\\'>

In [2]:
#字符串前面加 r ,表示原生字符串
re.search(r'\\', x)

<re.Match object; span=(5, 6), match='\\'>

# 方法使用

## 查找

In [6]:
import re

In [7]:
#match&search:
#共同点：1.只对字符串查询一次  2.返回的结果是一个 re.Match 类型的对象
m1 = re.match(r'hello', 'hello world hello')
m2 = re.search(r'hello', 'hello world hello')
print(m1)
print(m2)
print('-----------------------------------------------------------')
#不同点： match 是头开始匹配，一旦匹配失败，就返回 None ；search 是在整个字符串里匹配
m3 = re.match(r'world', 'hello world hello')
m4 = re.search(r'world', 'hello world hello')
print(m3)
print(m4)

<re.Match object; span=(0, 5), match='hello'>
<re.Match object; span=(0, 5), match='hello'>
-----------------------------------------------------------
None
<re.Match object; span=(6, 11), match='world'>


In [8]:
#finditer:查找到所有的匹配数据，放到一个可迭代对象里
from collections.abc import Iterable

m = re.finditer(r'x', 'sfdbxavfxxvffaddxavnygvxjkdsi')
print(m)
print(isinstance(m, Iterable))
for i in m:
    print(i)

<callable_iterator object at 0x000001D0AFEF7E48>
True
<re.Match object; span=(4, 5), match='x'>
<re.Match object; span=(8, 9), match='x'>
<re.Match object; span=(9, 10), match='x'>
<re.Match object; span=(16, 17), match='x'>
<re.Match object; span=(23, 24), match='x'>


In [9]:
#findall:把查找到的所有字符串结果放到一个列表里
re.findall(r'x\d+', 'sfdbx12avfx5xvffaddx80avn47ygvx21jkdsi')

['x12', 'x5', 'x80', 'x21']

In [10]:
#fullmatch:完整匹配，字符串需要完全满足正则规则才会有结果，否则就是 None
m1 = re.fullmatch(r'hello', 'hello world')
m2 = re.fullmatch(r'hello world', 'hello world')
m3 = re.fullmatch(r'h.*d', 'hshbdvuqewfd')
print(m1)
print(m2)
print(m3)

None
<re.Match object; span=(0, 11), match='hello world'>
<re.Match object; span=(0, 12), match='hshbdvuqewfd'>


## 正则替换
* sub方法

In [3]:
import re

print(re.sub(r'\d', 'x', '1b2m3a4d5b6v7e8u9r0'))

1b2m3d5b6v7e8u9r0


In [20]:
x = 'hello23world34'  #将字符串里的数字*2
#第一个参数是正则表达式
#第二个是新字符或函数
#第三个是需要被替换的字符串
print(re.sub(r'\d+', lambda a: str(int(a.group(0)) * 2), x))  #sub内部在调用函数时，会把每个匹配到的数据以re.Match的格式传参

hello46world68


## re.Match 类
* 调用 re.match、re.search或者对 re.finditer 结果进行遍历拿到的内容

In [3]:
m = re.search(r'h.*o', 'hello world')
print(dir(m))

['__class__', '__copy__', '__deepcopy__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'end', 'endpos', 'expand', 'group', 'groupdict', 'groups', 'lastgroup', 'lastindex', 'pos', 're', 'regs', 'span', 'start', 'string']


In [4]:
print(m.pos, m.endpos)  #匹配范围
print(m.span())  #匹配到的结果字符串的开始和结束的下标
print(m.group())  #获取匹配到的字符串结果
print(m.group(0))  #可以传参，表示第 n 个组

0 11
(0, 8)
hello wo
hello wo


In [5]:
#group 方法表示正则表达式的分组
#1.在正则表达式里使用()表示一个分组
#2.如果没有分组，默认1组
#3.分组的下标从0开始
m = re.search(r'(2.*)(0.*)(0.*5)', 'aivasd2abva0iuwe0fjn5bk')  #有四个分组
print(m.group(0))
print(m.group(1))
print(m.group(2))
print(m.group(3))

2abva0iuwe0fjn5
2abva
0iuwe
0fjn5


In [19]:
#给分的组取名  格式：?P<name>
m = re.search(r'(?P<a>2.*)(?P<b>0.*)(?P<c>0.*5)', 'aivasd2abva0iuwe0fjn5bk')
print(m.groups())
print(m.groupdict())  #获取到分组组成的字典
print(m.groupdict()['a'])
print(m.group(1))
print(m.span(1))

('2abva', '0iuwe', '0fjn5')
{'a': '2abva', 'b': '0iuwe', 'c': '0fjn5'}
2abva
2abva
(6, 11)


## re.compile方法
* 得到一个对象

In [20]:
import re

In [24]:
m = re.search(r'f.*f', 'afekufwc')
print(m)
#----------------------------------
r = re.compile(r'f.*f')
print(r.search('afekufwc'))
#优点：规则可以重复使用
print(r.search('sdfgfjsgmy'))

<re.Match object; span=(1, 6), match='fekuf'>
<re.Match object; span=(1, 6), match='fekuf'>
<re.Match object; span=(2, 5), match='fgf'>


## 正则修饰符
* 对正则表达式进行修饰

In [25]:
import re

In [28]:
# . 表示除了换行以外的任意字符
m1 = re.search(r'j.*a', 'sdjhvb\naave')
print(m1)
#re.S:让 . 匹配换行
m2 = re.search(r'j.*a', 'sdjhvb\naave', re.S)
print(m2)

None
<re.Match object; span=(2, 9), match='jhvb\naa'>


In [29]:
m1 = re.search(r'h', 'ajHvr')
print(m1)
#re.I:忽略大小写
m2 = re.search(r'h', 'ajHvr', re.I)
print(m2)

None
<re.Match object; span=(2, 3), match='H'>


In [31]:
#\w:表示字母、数字和_
#+:出现一次以上
#$:以指定内容结尾
m1 = re.findall(r'\w+$', 'i am a boy\n you are a girl\n he is a man')
print(m1)
#re.M:让 $ 匹配换行
m2 = re.findall(r'\w+$', 'i am a boy\n you are a girl\n he is a man', re.M)
print(m2)

['man']
['boy', 'girl', 'man']


## 正则匹配规则

In [35]:
#1.数组和字母都表示它本身
print('1.', re.search(r'x', 'ksxhf'))
#2.很多字符前面添加 \ 会有特殊含义（学习重点1）
print('2.', re.search(r'\d', 'good'))
print('2.', re.search(r'\d', 'g12d'))
#3.绝大多数标点符号都有特殊含义（学习重点2）
#print(re.search(r'+','1+2'))  ==>报错
#4.若要使用标点符号，要使用 \ 
print('4.', re.search(r'\+', '1+2'))

1. <re.Match object; span=(2, 3), match='x'>
2. None
2. <re.Match object; span=(1, 2), match='1'>
4. <re.Match object; span=(1, 2), match='+'>


### 非打印字符

In [2]:
import re

In [11]:
#1.\s:空白字符
print('1.', re.search(r'\s', 'hello world'))
#2.\n:换行
print('2.', re.search(r'\n', 'hello\nworld'))
#3.\t:制表符
print('3.', re.search(r'\t', 'hello\tworld'))
#4.\S:非空白字符
print('4.', re.search(r'\S', 'hello world'))
#5.\d:数字  ==[0,9]
print('5.', re.search(r'\d', 'hello0world'))
#6.\D:非数字  ==[^0,9]==>^在[]中还可以表示取反
print('6.', re.search(r'\D+', 'he110'))
#7.\w:数字、字母、汉字、_
print('7.', re.findall(r'\w+', '---he110_.*world---'))
#8.\W:\w取反
print('8.', re.findall(r'\W+', '---he110_.*world---'))

1. <re.Match object; span=(5, 6), match=' '>
2. <re.Match object; span=(5, 6), match='\n'>
3. <re.Match object; span=(5, 6), match='\t'>
4. <re.Match object; span=(0, 1), match='h'>
5. <re.Match object; span=(5, 6), match='0'>
6. <re.Match object; span=(0, 2), match='he'>
7. ['he110_', 'world']
8. ['---', '.*', '---']


### 标点符号的特殊含义

#### 特殊字符

In [7]:
#1.():分组
print('1.', re.search(r'h(\d+)x', 'sh287xsv()fkey').group(1))
print('1.', re.search(r'\(\)', 'sh287xsv()fkey'))
#2. .:除换行以外的任意字符
#3.[]:表示可选项范围    [a,b]==>包含a,b
print('3.', re.search(r'f[0-5]m', 'asdhjcbf5maec'))
print('3.', re.search(r'f[0-5]+m', 'asdhjcbf532maec'))
print('3.', re.search(r'f[0-5a-dx]m', 'asdhjcbf5cmaec'))  #[0-5a-dx]==>0-5或a-d或x
#4.|:或者    和[]有一定地相似，但有区别:[]是范围且是单个字符，|是可选值且可为多个字符
print('4.', re.search(r's(abc|cd)v', 'ascdvbt'))
#5.\d<==>[0-9]
#6.{}:限定出现的次数   {n}==>前面的元素出现n次    {n,}==>n次以上    {,n}==>n次以下    {m,n}==>m到n次 
print('6.', re.search(r'x{2}', 'guxmguawrxxfrx'))
print('6.', re.search(r'x{2,}', 'guxmguawrxxxxxxfrx'))
print('6.', re.search(r'x{,2}', 'guxmguawrxxfrx'))
print('6.', re.search(r'x{1,2}', 'guxmguawrxxfrx'))
#7.*:前面的元素出现任意次  =={0,}
print('7.', re.search(r'go*d', 'goooood'))
#8.+:前面的元素至少出现一次  =={1,}
print('8.', re.search(r'go+d', 'goooood'))
#9.?:两种用法：①前面的元素最多出现一次  =={,1}    ②将贪婪模式转换为非贪婪模式(*)
print('9.', re.search(r'go?d', 'gd'))
#10.^:以指定的内容开头    $:以指定的内容结尾
print('10.', re.search(r'^a.*z$', 'abcdxyz'))
print('10.', re.search(r'^a.*z$', 'dsvd\nabcdxyz\naernbc', re.M))

1. 287
1. <re.Match object; span=(8, 10), match='()'>
3. <re.Match object; span=(7, 10), match='f5m'>
3. <re.Match object; span=(7, 12), match='f532m'>
3. None
4. <re.Match object; span=(1, 5), match='scdv'>
6. <re.Match object; span=(9, 11), match='xx'>
6. <re.Match object; span=(9, 15), match='xxxxxx'>
6. <re.Match object; span=(0, 0), match=''>
6. <re.Match object; span=(2, 3), match='x'>
7. <re.Match object; span=(0, 7), match='goooood'>
8. <re.Match object; span=(0, 7), match='goooood'>
9. <re.Match object; span=(0, 2), match='gd'>
10. <re.Match object; span=(0, 7), match='abcdxyz'>
10. <re.Match object; span=(5, 12), match='abcdxyz'>


# 贪婪模式和非贪婪模式

In [1]:
#默认是贪婪模式，尽可能多地匹配
import re

print(re.search(r'm.*a', 'avcmekuaxsa').group())
#非贪婪模式，尽可能少地匹配
print(re.search(r'm.*?a', 'avcmekuaxsa').group())

mekuaxsa
mekua


In [2]:
x1 = re.match(r'aa(\d+)', 'aa2243ddd')
print(x1.group(0))
print(x1.group(1))
x2 = re.match(r'aa(\d+?)', 'aa2243ddd')
print(x2.group(0))
print(x2.group(1))
x3 = re.match(r'aa(\d+)ddd', 'aa2243ddd')
print(x3.group(0))
print(x3.group(1))
x4 = re.match(r'aa(\d+?)ddd', 'aa2243ddd')
print(x4.group(0))
print(x4.group(1))
x5 = re.match(r'aa(\d+?).*', 'aa243ddd')
print(x5.group(0))
print(x5.group(1))
x6 = re.match(r'aa(\d??)(.*)', 'aa243ddd')
print(x6.group(0))
print(x6.group(1))
print(x6.group(2))

aa2243
2243
aa2
2
aa2243ddd
2243
aa2243ddd
2243
aa243ddd
2
aa243ddd

243ddd


# 练习

In [17]:
#判断用户输入的内容是否是数字，若是，转化成为数字类型
import re

x = input('请输入：')
if re.fullmatch(r'\d+\.?\d+', x):
    print(float(x))
else:
    print('不是数字')

请输入：3.14
3.14


In [1]:
#匹配用户名
import re

x = input('请输入用户名：')
print('输入正确') if re.fullmatch(r'^\D[0-9a-zA-Z_\-]{3,13}', x) else print('输入错误')
#                                  以非数字开头，由数字、大小写字母、_、-组成，长度为4-14位

请输入用户名：bckqeuc
输入正确


In [6]:
#匹配邮箱
import re

x = input('请输入邮箱：')
print('输入正确') if re.fullmatch(r'^([A-Za-z0-9_\-\.])+@([A-Za-z0-9_\-\.])+\.([A-Za-z]{2,4})$', x) else print(
    '输入错误')

请输入邮箱：2734492976@qq.com
输入正确


In [7]:
#匹配手机号
import re

x = input('请输入手机号：')
print('输入正确') if re.fullmatch(r'^((13[0-9])|(14[5|7])|(15([0-3]|[5-9]))|(18[05-9]))\d{8}$', x) else print(
    '输入错误')
#                                      130~139、145~147、150~153、155~159、180、185~189加8位数字

请输入手机号：18506258298
输入正确


In [8]:
#匹配身份证号
import re

x = input('请输入身份证号：')
print('输入正确') if re.fullmatch(
    r'^[1-9]\d{5}(18|19|20)\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{3}[0-9Xx]', x) else print('输入错误')
#                                   1xxxxx~9xxxxx  1800~2099  01~09、10、11、12

请输入身份证号：320582200507040339
输入正确


In [None]:
#匹配URL地址
import re

x = input('请输入URL地址：')
print('输入正确') if re.fullmatch(
    r'((ht|f)tps?):\/\/(([\w\-]+(\.[\w\-]+)*\/)*[\w\-]+\.[\w\-]+)*\/?([\w\-\.,@?^=%:\/~])', x) else print('输入错误')

In [9]:
#匹配QQ号
import re

x = input('请输入QQ号：')
print('输入正确') if re.fullmatch(r'^[1-9][0-9]{4,10}', x) else print('输入错误')

请输入QQ号：2734492976
输入正确


In [10]:
#匹配微信号
import re

x = input('请输入微信号：')
print('输入正确') if re.fullmatch(r'^[A-Za-z]([-_a-zA-Z0-9]{5,19})+$', x) else print('输入错误')

请输入微信号：A18506258298
输入正确


In [11]:
#匹配车牌号
import re

x = input('请输入车牌号：')
print('输入正确') if re.fullmatch(
    r'^[京津沪渝冀豫云滇辽黑湘皖鲁新苏浙赣鄂桂甘陇晋蒙陕秦吉闽贵黔粤青藏川蜀宁琼台使领A-Z]{1}[A-Z]{1}[0-9A-Z]{4}[A-Z0-9挂学警港澳]{1}$',
    x) else print('输入错误')

请输入车牌号：苏U29163
输入正确


In [3]:
#匹配密码
#1.以字母开头  2.不包含!@%^&*字符  3.长度在6-12位
import re

x = input('请输入密码：')
print('输入正确') if re.fullmatch(r'^[a-zA-Z][^!@%^&*]{5,11}', x) else print('输入错误')

请输入密码：akbcuiqwye
输入正确


In [5]:
#匹配文件demo.txt中以1000phone开头的语句
import re

try:
    with open('demo.txt', 'r', encoding='utf8') as file:
        while 1:
            content = file.readline().strip('\n')
            if not content:
                break
            if re.match(r'^1000phone', content):
                print(content)
except FileNotFoundError:
    print('文件打开失败！')

1000phone hello python
1000phone java


In [7]:
#ip地址检测(0.0.0.0~255.255.255.255)
import re

x = input('请输入ip地址：')
print('输入正确') if re.fullmatch(r'((\d|[1-9]\d|1\d{2}|2([0-4]\d|5[0-5]))\.){3}(\d|[1-9]\d|1\d{2}|2([0-4]\d|5[0-5]))',
                                  x) else print('输入错误')

请输入ip地址：192.163.249.255
输入正确


In [12]:
#提取用户输入数据中的数值(-3.14good87nice19bye)
import re

x = input('请输入数据：')
r = re.finditer(r'-?(0|[1-9]\d*)(\.\d+)?', x)
for i in r:
    print(i.group())

请输入数据：-3.14good87nice19bye
-3.14
87
19
