In [14]:
import re

## 一. 相关方法

### 1. findall
Python的正则表达式模块包含一个findall方法，它能够以列表的形式返回所有满足要求的字符串。

In [4]:
content = '我的微博密码是：123456，QQ密码是：33445566，银行卡密码是：88888888，GitHub密码是：999abc999，帮我记住它们'

password_list = re.findall('：(.*?)，', content)
name_list = re.findall('名字是(.*?)，', content)
print('找到内容，返回：{}'.format(password_list))
print('找不到任何内容，返回：{}'.format(name_list))

找到内容，返回：['123456', '33445566', '88888888', '999abc999']
找不到任何内容，返回：[]


In [5]:
content = '微博账户是：kingname，密码是：123456，QQ账户是：99999，密码是：33445566，银行卡账户是：000001，密码是：654321，GitHub账户是：99999@qq.com，密码是：999abc999，帮我记住它们'

account_password = re.findall('账户是：(.*?)，密码是：(.*?)，', content)
print('包含多个括号的情况下，返回：{}'.format(account_password))

包含多个括号的情况下，返回：[('kingname', '123456'), ('99999', '33445566'), ('000001', '654321'), ('99999@qq.com', '999abc999')]


In [8]:
# re.S 会忽略换行符
big_string_mutil = '''
我是kingname，我的微博密码是：123
45678，
'''
password_findall_no_flag = re.findall('密码是：(.*?)，', big_string_mutil)
password_findall_flag = re.findall('密码是：(.*?)，', big_string_mutil, re.S)
print('不使用re.S的时候：{}'.format(password_findall_no_flag))
print('使用re.S的时候：{}'.format(password_findall_flag))

不使用re.S的时候：[]
使用re.S的时候：['123\n45678']


### 2. search
search()的用法和findall()的用法一样，但是search()只会返回第1个满足要求的字符串。一旦找到符合要求的内容，它就会停止查找。对于从超级大的文本里面只找第1个数据特别有用，可以大大提高程序的运行效率。

In [9]:
content = '我的微博密码是：123456，QQ密码是：33445566，银行卡密码是：88888888，GitHub密码是：999abc999，帮我记住它们'

password_search = re.search('密码是：(.*?)，', content)
password_search_not_find = re.search('xxx：(.*?)，', content)
print(password_search)
print(password_search.group())
print(password_search.group(0))
print(password_search.group(1))
print(password_search_not_find)

<re.Match object; span=(4, 15), match='密码是：123456，'>
密码是：123456，
密码是：123456，
123456
None


##### group()的参数最大不能超过正则表达式里面括号的个数。参数为1表示读取第1个括号中的内容，参数为2表示读取第2个括号中的内容，以此类推

In [12]:
content = '微博账户是：kingname，密码是：123456，QQ账户是：99999，密码是：33445566，银行卡账户是：000001，密码是：654321，GitHub账户是：99999@qq.com，密码是：999abc999，帮我记住它们'

account_password = re.search('账户是：(.*?)，密码是：(.*?)，', content)
print('读取第一个括号的内容：{}'.format(account_password.group(1)))
print('读取第二个括号的内容：{}'.format(account_password.group(2)))

读取第一个括号的内容：kingname
读取第二个括号的内容：123456


### 3 .* 和 .*? 的区别
点号表示任意非换行符的字符，星号表示匹配它前面的字符0次或者任意多次。所以“.*”表示匹配一串任意长度的字符串任意次。这个时候必须在“.*”的前后加其他的符号来限定范围，否则得到的结果就是原来的整个字符串。

如果在“.*”的后面加一个问号，变成“.*? ”，那么可以得到什么样的结果呢？问号表示匹配它前面的符号0次或者1次。于是．*？的意思就是匹配一个能满足要求的最短字符串。

In [13]:
content = '我的微博密码是：123456，QQ密码是：33445566，银行卡密码是：88888888，GitHub密码是：999abc999，帮我记住它们'

without_question_mark = re.findall('密码是：(.*)，', content)
with_question_mark = re.findall('密码是：(.*?)，', content)
print('不使用问号的结果：{}，长度为：{}'.format(without_question_mark, len(without_question_mark)))
print('使用问号的结果：{}，长度为：{}'.format(with_question_mark, len(with_question_mark)))

不使用问号的结果：['123456，QQ密码是：33445566，银行卡密码是：88888888，GitHub密码是：999abc999']，长度为：1
使用问号的结果：['123456', '33445566', '88888888', '999abc999']，长度为：4


#### 一句话总结如下。
- “.*”：贪婪模式，获取最长的满足条件的字符串。
- “.*? ”：非贪婪模式，获取最短的能满足条件的字符串。

## 二. 正则技巧

### 1. 先抓大后抓小

In [16]:
big_small_text = '''
有效用户：
姓名：张三
姓名：李四
姓名：王五
无效用户：
姓名：不知名的小虾米
姓名：隐身的张大侠
'''
user_big = re.findall('有效用户(.*?)无效用户', big_small_text, re.S)
print('user_big 的值为：{}'.format(user_big))

user_useful = re.findall('姓名：(.*?)\n', user_big[0])
print('真正有效的人名：{}'.format(user_useful))

user_big 的值为：['：\n姓名：张三\n姓名：李四\n姓名：王五\n']
真正有效的人名：['张三', '李四', '王五']


### 2. 括号内和括号外

在上面的例子中，括号和“.*? ”都是一起使用的，因此可能会有读者认为括号内只能有这3种字符，不能有其他普通的字符。但实际上，括号内也可以有其他字符。

In [19]:
html = '''<div class="tail-info">客户端</div>
<div class="tail-info">2024.02.20 13:45:00</div>
'''
result_1 = re.findall('tail-info">(.*?)<', html)
result_2 = re.findall('tail-info">2024(.*?)<', html)
result_3 = re.findall('tail-info">(2024.*?)<', html)

print('括号里只有.*?时，得到的结果：{}'.format(result_1))
print('2024在括号外面时，得到的结果：{}'.format(result_2))
print('2024在括号里面时，得到的结果：{}'.format(result_3))

括号里只有.*?时，得到的结果：['客户端', '2024.02.20 13:45:00']
2024在括号外面时，得到的结果：['.02.20 13:45:00']
2024在括号里面时，得到的结果：['2024.02.20 13:45:00']
