In [1]:
import re
import pprint
import json
import logging

In [2]:
print(re.match('www', 'www.qwer.com').span())  # 在起始位置匹配
print(re.match('com', 'www.qwer.com'))  # 不在起始位置匹配

(0, 3)
None


In [3]:

line = "Cats are smarter than dogs"
match = re.match(r'(.*) are (.*?) (.*)', line, re.M | re.I)
if match:
    print("match.group()  : ", match.group())
    print("match.group(1) : ", match.group(1))
    print("match.group(2) : ",     match.group(2))
else:
    print("No match!!")

match.group()  :  Cats are smarter than dogs
match.group(1) :  Cats
match.group(2) :  smarter


In [4]:
# re.search(pattern, string, flags=0)
print(re.search('www', 'www.1234.com').span())  # 在起始位置匹配
print(re.search('com', 'www.1234.com').span())  # 不在起始位置匹配

(0, 3)
(9, 12)


In [5]:
line = "Cats are smarter than dogs"
searchObj = re.search(r'(.*) are (.*?) (.*)', line, re.M | re.I)
if searchObj:
    print("searchObj.group()  : ", searchObj.group())
    print("searchObj.group(1) : ", searchObj.group(1))
    print("searchObj.group(2) : ", searchObj.group(2))
else:
    print("Nothing found!!")

searchObj.group()  :  Cats are smarter than dogs
searchObj.group(1) :  Cats
searchObj.group(2) :  smarter


In [6]:
# re.match 只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回 None
# re.search 匹配整个字符串，直到找到一个匹配

line = "Cats are smarter than dogs"

matchObj = re.match(r'dogs', line, re.M | re.I)
if matchObj:
    print("match --> matchObj.group() : ", matchObj.group())
else:
    print("No match!!")

matchObj = re.search(r'dogs', line, re.M | re.I)
if matchObj:
    print("search --> matchObj.group() : ", matchObj.group())
else:
    print("No match!!")

No match!!
search --> matchObj.group() :  dogs


## 参数

|               |                                                                            |
|   ---------   |   ----------------------------------------------------------------------   |
|   参数        |   描述                                                                     |
|   `pattern`   |   匹配的正则表达式                                                         |
|   `string`    |   要匹配的字符串。                                                         |
|   `flags`     |   标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等   |


|            |                                                                    |
|   ------   |   --------------------------------------------------------------   |
|   修饰符   |   描述                                                             |
|   `re.I`   |   使匹配对大小写不敏感                                             |
|   `re.L`   |   做本地化识别（locale-aware）匹配                                 |
|   `re.M`   |   多行匹配，影响 ^ 和 $                                            |
|   `re.S`   |   使 . 匹配包括换行在内的所有字符                                  |
|   `re.U`   |   根据Unicode字符集解析字符。这个标志影响 `\w`,` \W`, `\b`, `\B`   |
|   `re.X`   |   该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。   |


可以使用`group(num)` 或 `groups()` 匹配对象函数来获取匹配表达式。

|                    |                                                                               |
|   --------------   |   ---------------------------------------------------------                   |
|   匹配对象方法     |   描述                                                                        |
|   `group(num=0)`   |   匹配的整个表达式的字符串，`group()`                                         |
|                    |   可以一次输入多个组号，在这种情况下它 将返回一个包含那些组所对应值的元组。   |
|   `groups()`       |   返回一个包含所有小组字符串的元组，从 1 到 所含的小组号。                    |

|                           |                                                                                                        |
|   ---------------------   |   --------------------------------------------------------------------------------------------------   |
|   `group([group1, …]`)   |   获得一个或多个分组匹配的字符串，当要获得整个匹配的子串时，可直接使用 `group()` 或 `group(0)`         |
|   `start([group])`        |   获取分组匹配的子串在整个字符串中的起始位置（子串第一个字符的索引），参数默认值为 0；                 |
|   `end([group])`          |   获取分组匹配的子串在整个字符串中的结束位置（子串最后一个字符的索引+1），参数默认值为 0；             |
|   `span([group])`         |   方法返回 `(start(group), end(group))`                                                                |


In [7]:
# re.sub(pattern, repl, string, count=0, flags=0)
# pattern   正则中的模式字符串。
# repl      替换的字符串，也可为一个函数。
# string    要被查找替换的原始字符串。
# count     模式匹配后替换的最大次数，默认 0 表示替换所有的匹配。

phone = "123-456-789 # 这是一个电话号码"

print(re.sub(r'#.*$', "", phone))
print(re.sub(r'\D', "", phone))

123-456-789 
123456789


In [8]:
def double(matched):
    """将匹配的数字*2
    :param matched: 传入的匹配的参数 value
    :return: str 类型的 value*2
    """
    value = int(matched.group('value'))
    return str(value * 2)


s = 'A1111G4HFD2222'
print(re.sub('(?P<value>\d+)', double, s))

A2222G8HFD4444


In [9]:
# 编译表达式 re.compile(pattern[, flags])

# pattern   一个字符串形式的正则表达式
# flags     可选，表示匹配模式，比如忽略大小写，多行模式等，具体参数为
#     re.I    忽略大小写
#     re.L    表示特殊字符集 `\w`, `\W`, `\b`, `\B`, `\s`,`\S` 依赖于当前环境
#     re.M    多行模式
#     re.S    即为 . 并且包括换行符在内的任意字符（. 不包括换行符）
#     re.U    表示特殊字符集 `\w`, `\W`, `\b`, `\B`, `\d`, `\D`, `\s`, `\S`     依赖于 Unicode 字符属性据库
#     re.X   为了增加可读性，忽略空格和 # 后面的注释

pattern = re.compile(r'\d+')

math_item = pattern.match('one12twothree34four')
print(1, math_item)

math_item = pattern.match('one12twothree34four', 2, 10)
print(2, math_item)

math_item = pattern.match('one12twothree34four', 3, 10)
print(3, math_item)  # 返回一个 Match 对象

# 可省略 0
print(1, math_item.group(0))
print(2, math_item.start(0))
print(3, math_item.end(0))
print(4, math_item.span(0))

1 None
2 None
3 <re.Match object; span=(3, 5), match='12'>
1 12
2 3
3 5
4 (3, 5)


In [10]:
pattern = re.compile(r'([a-z]+) ([a-z]+)', re.I)
math_item = pattern.match('Hello World Wide Web')

print(1, math_item)  # 匹配成功，返回一个 Match 对象
print(1, math_item.group(0))  # 返回匹配成功的整个子串
print(1, math_item.span(0))  # 返回匹配成功的整个子串的索引

print(2, math_item.group(1))  # 返回第一个分组匹配成功的子串
print(2, math_item.span(1))  # 返回第一个分组匹配成功的子串的索引

print(3, math_item.group(2))  # 返回第二个分组匹配成功的子串
print(3, math_item.span(2))  # 返回第二个分组匹配成功的子串

print(4, math_item.groups())  # 等价于 (m.group(1), m.group(2), ...)

1 <re.Match object; span=(0, 11), match='Hello World'>
1 Hello World
1 (0, 11)
2 Hello
2 (0, 5)
3 World
3 (6, 11)
4 ('Hello', 'World')


In [11]:

try:
    item = math_item.group(3)  # 不存在第三个分组
except IndexError as e:
    print(e)

# 查找所有 re.findall(string[, pos[, endpos]])
#     string   待匹配的字符串。
#     pos      可选参数，指定字符串的起始位置，默认为 0。
#     endpos   可选参数，指定字符串的结束位置，默认为字符串的长度

pattern = re.compile(r'\d+')
print(1, pattern.findall('qwer 123 google 456'))
print(1, pattern.findall('qwe88rty123456google456', 0, 10))

# 查找所有 `re.finditer` 和 `re.findall` 类似，在字符串中找到正则表达式所匹配的所有子串，并把它们作为一个迭代器返回。

matchs = re.finditer(r"\d+", "12a32bc43jf3")
print(2, matchs)
for item in matchs:
    print(3, item.group())

no such group
1 ['123', '456']
1 ['88', '12']
2 <callable_iterator object at 0x06586070>
3 12
3 32
3 43
3 3


In [12]:

# 分割 re.split(pattern, string[, maxsplit=0, flags=0])
#     maxsplit 分隔次数，maxsplit = 1 分隔一次，默认为0，不限制次数

print(1, re.split('\W+', 'runoob, runoob, runoob.'))
print(2, re.split('(\W+)', ' runoob, runoob, runoob.'))

print(3, re.split('\W+', ' runoob, runoob, runoob.', 1))

print(4, re.split('a*', 'hello world'))  # 对于一个找不到匹配的字符串而言，split 不会对其作出分割

1 ['runoob', 'runoob', 'runoob', '']
2 ['', ' ', 'runoob', ', ', 'runoob', ', ', 'runoob', '.', '']
3 ['', 'runoob, runoob, runoob.']
4 ['', 'h', 'e', 'l', 'l', 'o', ' ', 'w', 'o', 'r', 'l', 'd', '']


## 其他
```
re.RegexObject
re.compile()
返回
RegexObject
对象。

re.MatchObject
group()
返回被
RE
匹配的字符串。
```


In [13]:
dytt_title = ".*\[(.*)\].*"

name_0 = r"罗拉快跑BD国德双语中字[电影天堂www.dy2018.com].mkv"
name_1 = r"[电影天堂www.dy2018.com]罗拉快跑BD国德双语中字.mkv"

print(1, re.findall(dytt_title, name_0))
print(1, re.findall(dytt_title, name_1))

data = "xxxxxxxxxxxentry某某内容for-----------"
result = re.findall(".*entry(.*)for.*", data)
print(3, result)

1 ['电影天堂www.dy2018.com']
1 ['电影天堂www.dy2018.com']
3 ['某某内容']
