**python中处理regular expression的标准库**

@creation time: 2023-08-29  
@follow: 
1. [re-python docs](https://docs.python.org/zh-cn/3/library/re.html)
2. [r2coding](https://r2coding.com/#/README?id=正则表达式)
3. [regex101.com-正则表达式练习网站](https://regex101.com)
4. https://www.cnblogs.com/CYHISTW/p/11363209.html

In [6]:
import re

## 引言

* 正则表达式是表达字符串的模式，常用于文本中的查找匹配

---
## 转义字符

In [5]:
# python中使用字符\进行转义
print("ABC\\-001")
print("ABC\-001")

# 而正则表达式中也使用\转义、
# 推荐写正则表达式时一直加上r, 即取消python默认的转义
print(r"ABC\\-001")
print(r"ABC\-001")

ABC\-001
ABC\-001
ABC\\-001
ABC\-001


---
# 搜索匹配

## re.match()
从字符串的起始位置匹配一个模式, 没有匹配或不是起始位置, 返回none

In [22]:
string = "www.python.org"
regex = r"www"

print(re.match(pattern=regex, string=string))

<re.Match object; span=(0, 3), match='www'>


## re.search()
扫描整个字符串, 返回第一个匹配成功的字符串

In [35]:
string = "www.python.org"
regex = r"o"

searchObj = re.search(pattern=regex, string=string)
searchObj.group()

'o'

## re.findall()
* 找到正则表达式匹配的全部子串, 返回列表
* 有多个匹配模式, 返回元组列表
* 无匹配,返回空字符串

In [59]:
string = "www.python.org"
regex = r"(python|org)"

re.findall(pattern=regex, string=string)

['python', 'org']

## re.finditer()
跟findall()差不多, 只不过返回的是迭代器

In [62]:
string = "www.python.org"
regex = r"(python|org)"

for item in re.finditer(pattern=regex, string=string):
    print(item.group())

python
org


## re.complile()
编译相同的正则表达式, 产生的pattern对象有re的全部功能

In [53]:
string = "one12twothree34four"
pattern = re.compile(r'\d+')  # 编译正则表达式, 生成re.Pattern对象

In [56]:
# match()函数依旧是从头匹配, 但是这个函数提供位置参数pos
print(pattern.match(string))
print(pattern.match(string, pos=1))
print(pattern.match(string, pos=4))

None
None
<re.Match object; span=(4, 5), match='2'>


## re.split()
以匹配字符为分隔, 分隔字符串, 然后返回列表

In [65]:
string = "www.python.org"
regex = r"\.p|\.o"

re.split(pattern=regex, string=string)

['www', 'ython', 'rg']

In [66]:
string = "www.python.org"
regex = r"(\.p|\.o)"  # 如果使用捕获组, 则保留对应的分隔字符串

re.split(pattern=regex, string=string)

['www', '.p', 'ython', '.o', 'rg']

---
# 替换

## re.sub()
re.sub(pattern="正则表达式", repl=<替换的字符串或函数>, string="被替换的字符串", count=<模式替换次数, 0表示全部替换>)

In [32]:
phone = "2004-959-559 # 这是一个国外电话号码"

# 删除字符串中的python注释
regex = r"\s#.*$"
re.sub(pattern=regex, repl="", string=phone)  #  这个例子中替换字符串是空字符串

'2004-959-559'

In [40]:
# repl参数传入一个函数, 可实现对匹配到的内容进行操作
def func(matched):
    value = int(matched.group("value"))
    return str(value * 2)

string = "A123B234"
re.sub(pattern=r"(?P<value>\d+)", repl=func, string=string)

'A246B468'