In [None]:
'''
数据解析

1. re解析
2. bs4解析
3. xpath解析
4. pyquery解析

元字符：具有固定含义的特殊符号

.  -> 匹配除了换行符以外的所有字符(不能匹配换行符)  
\w -> 匹配字母、数字、下划线  
\s -> 匹配任意的空白符  
\d -> 匹配数字  
\n -> 匹配一个换行符  
\t -> 匹配一个制表符  
^  -> 匹配字符串的开始  
$  -> 匹配字符串的结尾  

\W -> 匹配非数字或字母或下划线  
\D -> 匹配非数字  
\S -> 匹配非空白符  
a|b -> 匹配字符a或字符b  
() -> 匹配括号内的表达式, 也表示一个组  
[...] -> 匹配字符组(中括号中字符是否出现过)    [a-zA-Z0-9] 匹配数字和字母  
[^...] -> 匹配除了字符组以外的内容  

量词: 控制前面字符出现的次数 (前面的元字符)

* -> 重复零次或更多次  
+ -> 重复一次或更多次  
? -> 重复零次或一次  
{n} -> 重复n次                       \d{11}  11个数字  
{n,} -> 重复n次或更多次  
{n,m} -> 重复n到m次  

贪婪匹配  .*  
惰性匹配  .*?                <div>.*?</div>
'''

In [None]:
import re

def main():
    input_ = '我是一个abcdefg, 我今年18岁, 我有200块'
    
    res = re.findall(r"\d+", input_)
    print(res)
    
    result = re.finditer(r'\d+', input_)
    for res in result:
        print(res.group())
    
    # search只匹配第一次找到的内容
    result = re.search(r'\d+', input_)
    print(result.group())

    # match是从字符串的开头进行匹配，类似在正则前面加^
    result = re.match(r'\d+', input_)
    print(result)

    # 预加载，提前把正则对象加载完毕
    obj = re.compile(r'\d+')
    result = obj.findall(input_)
    print(result)

    s = """
        <div class='西游记'><span id='10010'>中国联通</span></div>
        <div class='西游记'><span id='10086'>中国移动</span></div>
    """
    obj = re.compile(r"<span id='\d+'>.*?</span>")
    result = obj.findall(s)
    print(result)
    
    # 想要提取数据必须用小括号括起来，可以单独起名字
    # 提取数据时，需要group("名字")
    obj = re.compile(r"<span id='(\d+)'>(.*?)</span>")
    result = obj.findall(s)
    print(result)
    obj = re.compile(r"<span id='(?P<id>\d+)'>(?P<name>.*?)</span>")
    result = obj.finditer(s)
    for res in result:
        print(res.group('id'))
        print(res.group('name'))


if __name__ == '__main__':
    main()

In [16]:
import re

email = 'xxxx@126.com'

is_valid = re.match(r'^\w+@\w+\.\w+$', email, re.ASCII)  # re.ASCII, 表示不包含中文
if is_valid:
    print('有效')
else:
    print('错误')

有效


## 字符相关
- 固定文本
    - re.findall('wupeiqi', text)
- 含特定字符，以abi为例
    - re.findall('wupeiq[abi]', text)
    - re.findall('wupeiq[a-z0-9]', text)
- 一个数字
    - re.findall('t\d', text)
- 两个数字
    - re.findall('t\d{2}', text)
- 两个数字或多个数字
    - re.findall('t\d{2,}', text)
- '？'>>> 0个或1个
- '+' >>> 1个或n个
- '*' >>> 0个或n个
- '\w' >>> 字母、数字、下划线（汉字）
- '.' >>> 除了换行以外任意字符 （'\w'无法表示空格, '.'可以表示空格）
- 分组: 括号
    - re.findall('1234(\d{5})', text)
- | >>> 表示或
- ^ >>> 起始符
- $ >>> 终止符









In [5]:
# 特定字符
import re 

text = '你好wupeiqi,asldjflkds大量时间法律上 wupeiqasdldkfjds'

data_list = re.findall('wupeiq[abi]', text)
print(data_list)

['wupeiqi', 'wupeiqa']


In [7]:
# 特定字符
import re 

text = '你好wupeiq5,asldjflkds大量时间法律上 wupeiqasdldkfjds'

data_list = re.findall('wupeiq[a-z0-9]', text)
print(data_list)

['wupeiq5', 'wupeiqa']


In [10]:
# \d  一个数字
import re 

text = '你好wupeit5,asldjflkts大量时间法t13上 wupeitasdldkfjds'

data_list = re.findall('t\d', text)
print(data_list)

['t5', 't1']


In [None]:
# \d{2}      2个数字
import re 

text = '你好wupeit5,asldjflkts大量时间法t13上 wupeitasdldkfjds'

data_list = re.findall('t\d{2}', text)
print(data_list)

In [11]:
# \d{2,}      2个数字或大于2个数字
import re 

text = '你好wupeit5,asldjflkts大量时间法t13上 wupeitasdldkfjds'

data_list = re.findall('t\d{2,}', text)
print(data_list)

['t13']


In [15]:
# \w

import re 

text = '你好wupeit5,asldjflkts大量时间法t13上 wupeitasdldkfjds'
result = re.findall('t\w大量', text)
print(result)

['ts大量']
