#  基本正则表达式

原子是正则表达式中最基本的组成单位，每个正则表达式中至少包含一个原子，常见的原子类型有

    1. 普通字符作为原子
    2. 非打印字符作为原子
    3. 通用字符作为原子
    4. 原子表

## 普通字符

最简单的正则表达式是哪些仅包含简单字母数字字符的表达式,不包含任何其他字符

不过如果只是使用正则表达式来匹配文本，没有什么实际的意义，毕竟检测一个文本中是否有另一个字符串本来就非常简单。

正则表达式强大的地方在于能够指定用于匹配的文本模式

In [2]:
import re
pat = "yue"
string = "www.ipyue.com"
rest1 = re.search(pat,string)
print(rest1)

<re.Match object; span=(6, 9), match='yue'>


## 非打印字符

In [10]:
pat2 = "\n"
string1 = '''hello 
world'''
rest2 = re.search(pat2,string1)
print(rest2)

<re.Match object; span=(6, 7), match='\n'>


## 通用字符

\w 匹配任意字母，数字，下划线
\W \w反义

\d 匹配任意十进制数
\D \d反义

\s 匹配任意空白字符
\S \s反义

\b 匹配单词开头或结尾
\B \b反义

In [11]:
string2 = "hell123 world"
pat3 = "\w\d\d\d\s"
rest2 = re.search(pat3,string2)
print(rest2)

<re.Match object; span=(3, 8), match='l123 '>


In [6]:
a = re.findall(r'\bstring\b','astring-string a string')

print(a)

['string', 'string']


## 原子表(字符组)

使用 [] 构建多个原子构成的列表，字符组中仅会匹配一个字符

string3 = "python"
pat4 = "pytho[niu]"
rest3 = re.search(pat4,string3)
print(rest3)

### 1. 区间

有一些常见的字符组非常大。正则表达式引擎在字符组使用连字符(-)代表区间

[0-9] 匹配任意数字
[a-z] 匹配所有小写字母
[A-Z] 匹配所有大写字母

如果我们想匹配连字符,那么需要进行转义，因为连字符会被正则表达式引擎理解为连接区间

In [4]:
a = re.findall(r'[0-9]','xxx0978abc')
print(a)

b = re.findall(r'[a-z]','xxx0789abcd')
print(b)

c = re.findall(r'[a-z0-9A-Z]','abd123AZC')
print(c)

# 匹配连字符

d = re.findall(r'[0-9\-]','abc123a-b-')
print(d)

['0', '9', '7', '8']
['x', 'x', 'x', 'a', 'b', 'c', 'd']
['a', 'b', 'd', '1', '2', '3', 'A', 'Z', 'C']
['1', '2', '3', '-', '-']


### 取反

我们定义的字符组都是有可能出现的字符，不过有时候我们希望根据不会出现的字符定义字符组，在[]中使用^取反

In [5]:
a = re.findall(r'[^0-9]','abd123')
print(a)

['a', 'b', 'd']


## 元字符

所谓的元字符，就是正则表达式中具有一些特殊含义的字符，比如重复N次前面的字符等

. 匹配任意字符
^ 匹配字符串开始位置
$ 匹配字符串结束位置

* 匹配0次1次或多次前面的字符
+ 匹配至少1次前面的字符
? 匹配0次或1次前面的字符

{N}  N表示前面字符重复的次数
{N,} 前面字符至少出现N次
{N1,N2} 前面字符出现次数位于N1,N2之间

| 择一匹配
() 捕获

### 字符串开始和结尾

正则表达式中 ^ 可以表示开始，$ 表示结束

In [8]:
a = re.search(r'^python','python and perl are friends')
print(a)

b = re.search(r'python$','python and perl are friends,i also love python')
print(b)

<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(40, 46), match='python'>


### 任意字符

'.'匹配除换行符外任意的单个字符 

In [13]:
pat = ".python..."
string = "ssdfpythonfhhhh"
rst = re.search(pat,string)
print(rst)

<re.Match object; span=(3, 13), match='fpythonfhh'>


pat = "python|php"
string = "sfsfphpdfdgpython"
rst = re.search(pat,string)
print(rst)

### 重复

In [9]:
a = re.findall(r'\d{4}-\d{7}','chenzhi:0731-8825951')
print(a)

['0731-8825951']


In [None]:
# 正则表达式默认是贪婪模式，尽可能匹配更多字符
a = re.search(r'\d{3,4}','0731')
print(a)

# 使用非贪婪
b = re.search(r'\d{3,4}?','0731')
print(b)

### 分组捕获

使用()实现分组，当使用分组时，除了获得整个匹配

还能够在匹配中选择每一个分组

若仅仅想分组不需要捕获需要使用语法 '(?:pattern)'

In [81]:
a = re.search(r'(\d{4})-(\d{7})','张三：0731-8825951')

# 返回整个匹配
print(a.group())
print(a.group(0))

# 返回某个分组结果
print(a.group(1)) # 用数字表示


# groups 返回分组结果组成的元组
print(a.groups())

# (?:) 非捕获
b = re.search(r'(?:\d{4})-(\d{7})','张三：0731-8825951')
print(b.group(1))

0731-8825951
0731-8825951
0731
('0731', '8825951')
8825951


In [25]:
pattern = re.compile(r'(\+?1?)?(\-)?\(?(\d{3})[\)\.]?\-?(\d{3})[\-\.]?(\d{4})')

a = re.search(pattern,'+1-213-867-5509')

print(a.group())

print(a.groups())

+1-213-867-5509
('+1', '-', '213', '867', '5509')


#### 命名分组捕获

一个命名分组的语法是在开始的"("之后，添加?P<group_name>，来命名实现分组，对于命名分组实际上是存储为一个字典，和perl中一样，perl中将其存储为hash

In [31]:
pattern = re.compile(r'(?P<区号>\+?1?)?(\-)?\(?(\d{3})[\)\.]?\-?(\d{3})[\-\.]?(\d{4})')

a = re.search(pattern,'+1-213-867-5509')

print(a.group('区号'))

# groupdict() 返回所有命名分组，以字典形式展现
print(a.groupdict())

+1
{'区号': '+1'}


#### 捕获引用 

在正则表达式中引用之前的分组，使用\N即可回溯引用编号为N的捕获，和perl中一样

In [40]:
a = re.search(r'<(\w+?)>(.*?)</\1>','<font>hello world</font>')

b = re.search(r'<(\w+?)>(.*?)</\1>','<font>hello world</fon>')

print(a.group(2))
print(b)

hello world
None


## 断言

断言就是指明某个字符前边或者后边，将会出现满足某种规律的字符串。

如匹配字符串'<title>xxx</title>'中的'xxx',它没有规律，但是它前边肯定有<title>,后边肯定会有</title>,这就足够了

**先行断言**: 假设目标字符串后边有条件，可以理解为目前字符串在前，就用先行断言，放在目标字符串之后

**后发断言**: 假如目标字符串前面有条件，可以理解为目标字符串在后，就用后发断言，放在目标字符串之前

假如指定满足某个条件，就是正
计入指定不满足某个条件，就是负

断言只是条件，帮你找到真正需要的字符串，本身并不会匹配

### 语法

xxx(?=x) 正先行断言，仅当子表达式x在此位置的右侧时才继续匹配
xxx(?!x) 负先行断言，仅当子表达式x不在此位置的右侧匹配时才继续匹配
(?<=x)xxx 正后发断言,仅当子表达式 X 在 此位置的左侧匹配时才继续匹配
(?<!x)xxx　负后发断言，仅当子表达式 X 不在此位置的左侧匹配时才继续匹配

In [47]:
# 正先行断言

a = re.findall(r'n(?=e)','final')
print(a)

b = re.findall(r'n(?=a)','finalna')
print(b)

[]
['n', 'n']


In [48]:
# 负先行断言

a = re.findall(r'n(?!e)','finanena')
print(a)

['n', 'n']


In [50]:
# 正后发断言

a = re.findall(r'(?<=chen).*','chenzhi')
print(a)

['zhi']


In [51]:
# 负后发断言

a = re.findall(r'(?<!chen).*','zhanzhi')
print(a)

['zhanzhi', '']


In [43]:
pattern = re.compile('(?<=<title>).*(?=</title>)')

a = re.search(pattern,'<title>hello world</title>')

print(a)

<re.Match object; span=(7, 18), match='hello world'>


## 模式修正符 

I 不区分大小写
M 多行匹配
S 让.匹配换行符

In [14]:
pat = "python"
string = "learning Python"
rst = re.search(pat,string,re.I)
print(rst)

<re.Match object; span=(9, 15), match='Python'>


## 贪婪模式与懒惰模式

贪婪模式的核心点就是尽可能多的匹配，而懒惰模式的核心点就是尽可能少的匹配

In [None]:
pat1 = "p.*y"  # 贪婪模式
pat2 = "p.*?y" # 懒惰模式

string = "pagggpythondfdspy"
rst1 = re.search(pat1,string)
print(rst1)

rst2 = re.search(pat2,string)
print(rst2)

## 正则表达式函数

正则表达式函数有re.match()函数，re.search()函数，全局匹配函数，re.sub函数

### re.match() 

re.match()  从字符串开头匹配，如果开头不匹配则匹配失败
re.search() pattern 可以出现在字符串中的任意位置

In [1]:
pat = "p.*y"
string = "helpy"
rst = re.search(pat,string)
print(rst)

NameError: name 're' is not defined

### 全局匹配

re.search只能搜索出其中的一个匹配

re.compile(pattern).findall(string) 全局匹配

In [None]:
pat = "p.*?y"
string = "phhykellepy"
rst = re.compile(pat).findall(string)
print(rst)

## 爬取豆瓣中的出版社

In [25]:
from urllib import request as rq
url = "http://read.douban.com/provider/all"
ref = rq.urlopen(url).read().decode("utf-8")
print(ref)

# 出现了反爬虫后面解决

HTTPError: HTTP Error 418: 

# re 模块

在使用爬虫爬取数据时，或者做数据挖掘和分析时我们经常会使用正则表达式

在python中使用正则需要导入re包

*re模块两种使用方式*

- 使用 re.compile 函数生成一个 Pattern 对象，然后使用 Pattern 对象的一系列方法对文本进行匹配查找；

- 直接使用 re.match, re.search 和 re.findall 等函数直接对文本匹配查找；

出于效率的考虑，我们推荐使用第一种方式

## 字符不转义输出

在python中有时候字符串中的特殊字符输出时会转义，如'\n'表示换行符，如果希望'\n'仅表示字符串时，需要对'\'进行转义

### repr()

In [94]:
print('hello\nworld')

print(repr('hello\nworld'))

hello
world
'hello\nworld'


### 转义符 \

In [95]:
print('hello\\nworld')

hello\nworld


### 字符串前加'r'

In [96]:
print(r'hello\nworld')

hello\nworld


## re.search()

re.search()函数，目的是接收一个正则表达式和一个字符串，并返回发现的第一个匹配的字符串,如果匹配不到则返回None

返回的是re.Match对象

In [1]:
import re 

a = re.search(r'fox','the quick fox jumpred')

# span方法获取的是正则表达式匹配到的位置
print(a.span())

(10, 13)


## re.match()

re.match()函数和re.search()语法一样，而且两者都只会返回第一个匹配结果，不过最大的不同在于:

re.match()只会在字符串开头进行匹配,使用了re.M,仍然不能多行匹配

然而re.search()会在整个字符串中搜索匹配(perl中的匹配机制)

In [99]:
a = re.match('h','abch')
print(a)

b = re.match('h','hello')
print(b)

c = re.match('h','chen\nhello',re.M)
print(c)

None
<re.Match object; span=(0, 1), match='h'>
None


## 找到多个匹配

re.search的一个限制是它仅仅返回最近一个以match对象形式的匹配，如果一个字符串内存在多个匹配，re.search()只会返回第一个匹配

但有时候需要获得多个匹配，这时候我们可以使用findall或finditer，区别在于findall返回的是一个列表，finditer返回的是一个生成器

In [69]:
l = re.findall(r'张','张三 张三丰 张无忌 张小凡')

print(l)

l1 = re.finditer(r'张','张三 张三丰 张无忌 张小凡')
for i in l1:
    print(i)

['张', '张', '张', '张']
<re.Match object; span=(0, 1), match='张'>
<re.Match object; span=(3, 4), match='张'>
<re.Match object; span=(7, 8), match='张'>
<re.Match object; span=(11, 12), match='张'>


StopIteration: 

## 修饰符

re.I 不区分大小写　

re.S 让'.'可以匹配换行符

re.M 多行匹配，仅能够匹配字符串开始与结束的^与$字符可以匹配字符串内任意行的开始与结束

re.X 忽略空白(除了字符组中的空白)，包括换行符，并且正则表达式中可以使用#进行注释

### 不区分大小写

In [52]:
a = re.search(r'hello','Hello',re.I)
print(a)

<re.Match object; span=(0, 5), match='Hello'>


### 点匹配换行符

In [56]:
a = re.search(r'o.*','hello\nworld')
print(a)

b = re.search(r'o.*','hello\nworld',re.S)
print(b)

<re.Match object; span=(4, 5), match='o'>
<re.Match object; span=(4, 5), match='o'>


### 多行模式

re.M 改变^ $ 的行为，匹配行首和行尾

In [58]:
a = re.search(r'^bar','foo\nbar')
print(a)

b = re.search(r'^bar','foo\nbar',re.M)
print(b)

None
<re.Match object; span=(4, 7), match='bar'>


### 注释 

In [63]:

a = re.search(r'''(?P<区号>\+?1?)? #命名捕获
                     (\-)? #匹配连字符
                     \(?
                       (\d{3})
                       [\)\.]?
                       \-?(\d{3})[\-\.]?
                       (\d{4})''','+1-213-867-5509',re.X)

print(a)

<re.Match object; span=(0, 15), match='+1-213-867-5509'>


### 内联标记

在一个正则表达式里也可以使用标记

In [73]:
a = re.search(r'(?i)Foo','foo')
print(a)

<re.Match object; span=(0, 3), match='foo'>


### 使用多个修饰符

有时候，我们可以同时使用多个标记，使用 '|' 操作符 

In [64]:
a = re.search(r'''(?P<区号>\+?a?)? #命名捕获
                     (\-)? #匹配连字符
                     \(?
                       (\d{3})
                       [\)\.]?
                       \-?(\d{3})[\-\.]?
                       (\d{4})''','+A-213-867-5509',re.X|re.I)

print(a)

<re.Match object; span=(0, 15), match='+A-213-867-5509'>


## re.sub()

re模块中使用re.sub()进行字符串替换

re.sub(repl, substitute,prestring[, count])

count用于指定最多替换次数，不指定全部替换

接收三个参数，正则表达式，用于替换的字符串，被搜索的字符串

还可以使用捕获引用

In [78]:
a = re.sub(r'\d+',r'a','222-11-223')
print(a)

# 替换所有的a或A
b = re.sub(r'(?i)a',r'W','abcAbc')
print(b)

# 使用str.replace()也可以进行替换
'abcAbc'.replace('a','W').replace('A','W')

# 在替换字符串中使用捕获引用

a = re.sub(r'(?:\+?1?)?(?:\-)?\(?(\d{3})[\)\.]?\-?(\d{3})[\-\.]?(\d{4})',
          r'\1\2\3',
           '213-667-8890')

print(a)

a-a-a
WbcWbc
2136678890


## re.compile()

re模块包含一个函数：compile，它返回一个已编译的正则表达式对象，即pattern对象，该对象之后可以被复用，而且pattern对象也提供了search()、match()等方法，语法上与re中的同名函数有略微出入

使用已编译的正则表达式有两个好处：

    1. 可用于作为方法的参数被传递
    2. 允许使用在re.search/findall/finditer中不可用的两个额外参数，这两个参数分别是被搜索字符串的开始和结束位置，他们可用来减少对部分字符串的考虑

In [86]:
# 已编译的正则表达式作为方法的参数
class num1():
    def __init__(self,string):
        self.str = string
        
    def findnum(self,recompile):
        return re.findall(recompile,self.str)

a = num1(string="hello123")
pattern = re.compile(r'\d')
print(a.findnum(recompile=pattern))

['1', '2', '3']


In [92]:
# 在search/findall/finditer中使用额外参数

# #pos：匹配的起始位置，可选，默认为0
a = re.compile(r'\d').search('hello123',pos=6)
print(a)

# endpos：匹配的结束位置，可选，默认为 len(string)
b = re.compile(r'\d').findall('hello123',endpos=7)
print(b)

c = re.compile(r'\d').finditer('hello123',endpos=7)
for i in c:
    print(i)
    

<re.Match object; span=(6, 7), match='2'>
['1', '2']
<re.Match object; span=(5, 6), match='1'>
<re.Match object; span=(6, 7), match='2'>


## re.split()

re.split(string[, maxsplit])

按照能够匹配的子串将字符串分割后返回列表

maxsplit指定最大分割次数，不指定将全部分割

In [1]:
import re

a = 'a;1;2,3'

print(re.split(r'[;,]',a))

['a', '1', '2', '3']


## re.Match对象的常用方法

### group()

返回一个字符串，即捕获的内容，默认为0,表示整个表达式匹配的内容

In [7]:
a = re.search(r'(\d+?)-(\w+)','123-wad')

print(a.group())

print(a.group(1))

123-wad
123


### groups()

返回一个元组，包含所有捕获的内容(包括命名捕获)

In [8]:
print(a.groups())

('123', 'wad')


### groupdict

返回一个字典，包含所有的命名捕获(仅返回命名捕获)

In [10]:
a = re.search(r'(?P<code>\d+?)-(\w+)','123-wad')

print(a.groupdict())

{'code': '123'}
('123', 'wad')


### start()

当前匹配对象的子分组从原字符串中的哪个位置开始匹配，若没有匹配则返回-1

In [15]:
a = re.search(r'(\d+?)-(\w+)','123-wad')

print(a.start())

<re.Match object; span=(0, 7), match='123-wad'>
0


### end()

当前匹配对象的子分组从原字符串中的哪个位置结束匹配，若没有匹配则返回-1

In [16]:
print(a.end())

7


### span()

返回一个元组，包含m.start()和m.end()的返回值

In [19]:
print(a.span())

(0, 7)


## 正则表达式结合if条件判断

    对于正则表达式的匹配功能，Python没有返回true和false的方法，但可以通过对match或者search方法的返回值是否是None来判断

In [22]:
if re.search(r'a','bda'):
    print(r"string has 'a'")

string has 'a'
