## 正则表达式
### 动机
  1. 文本处理已经成为计算机常见工作之一
  2. 对文本内容的搜索,定位,提取是逻辑比较复杂的工作
  3. 为了快速方便的解决上述问题，产生了正则表达式技术。


### 定义 ：
- 即文本的高级匹配模式，提供搜索，替代等功能。本质是由一系列特殊符号和字符组成的字串，  
这个字串即是正则表达式。这个表达式描述了字符和字符的重复行为，可以匹配一类特征的字符串。 

### 特点：
* 方便进行检索修改的文本操作
* 支持语言众多
* 使用灵活多样

### python ----> re模块 处理正则表达式
- **re.findall(pattern,string)**
  - 功能：使用正则表达式匹配字符串
  - 参数：
    - pattern  正则表达式
    - string   目标字符串
- **返回值：返回一个列表，列表中为匹配到的内容**


In [2]:
import re 
s = 'my email is Levi@126.com or lvze@tedu.cn'
re.findall('\w+@\w+\.\w{2,3}',s)

['Levi@126.com', 'lvze@tedu.cn']

### 1.普通字符
- 元字符 ： a b c
- 匹配规则：匹配相应的字符

In [4]:
re.findall('abc',"abcdefghabc")

['abc', 'abc']

### 2.或
- 元字符  |
- 匹配规则：匹配 | 两边任意一个正则表达式的内容
- |左右不要加没用的空格

In [5]:
re.findall('ab|cd','abcdefgabasdfcd')

['ab', 'cd', 'ab', 'cd']

In [7]:
re.findall('abc|bcd','abcdefabc') # 重合的部分不取值

['abc', 'abc']

### 3. 匹配单一字符
- 元字符 ：  .
- 匹配规则：匹配除换行外的任意字符

In [8]:
re.findall('f.o','foo is not fao')

['foo', 'fao']

### 4.匹配开始位置
- 元字符 ： ^ 
- 匹配规则：匹配字符串的开头位置

In [9]:
re.findall('^hello','hello world')

['hello']

### 5.匹配结束位置
- 元字符 ： \$ 
- 匹配规则： 匹配目标字符串的结束位置

In [15]:
re.findall('py$','hello.py')

['py']

### 6.匹配重复
- 元字符：  * 
- 匹配规则： 匹配前面的正则表达式0次或多次

In [18]:
re.findall('ab*','ababbbcadfsdfaaaafbbbbbb')

['ab', 'abbb', 'a', 'a', 'a', 'a', 'a']

In [19]:
re.findall('b*','ababbbcadfsdf') # 匹配单个字符的时候会以空字符串开头

['', 'b', '', 'bbb', '', '', '', '', '', '', '', '']

### 7.匹配重复
- 元字符 ： + 
- 匹配规则： 匹配前面的正则表达式一次或多次

In [35]:
re.findall('ab+','abbbbbbbbscaaaaadsfab')

['abbbbbbbb', 'ab']

### 8.匹配重复
- 元字符 ： ？
- 匹配规则： 匹配前面的正则表达式0次或1次

In [37]:
re.findall('ab?','ablkasdjfabbbbb')

['ab', 'a', 'ab']

### 9.匹配重复
- 元字符 ： ｛n｝
- 匹配规则： 匹配指定的重复次数
- ab{3} ----》 abbb

In [52]:
re.findall('ab{3}','ablkasdabbbjfabbbbbbb')

['abbb', 'abbb']

### 10. 匹配重复
- 元字符：｛m，n｝
- 匹配规则：匹配前面的正则表达式m-n次
- ab{3,5} -->  abbb  abbbb  abbbbb

In [50]:
re.findall('ab{2,4}','absaabbdfeaabbbb')

['abb', 'abbbb']

### 11.匹配字符集合
- 元字符： [字符集]
- 匹配规则：匹配括号内的任意一个字符
  - [abc123d]  a b c 1 2 3 d
  - [a-z]  
  - [A-Z]
  - [0-9]
  - [123a-zA-Z]

In [62]:
re.findall('[0-9a-zA-Z]+','hello world 123')

['hello world 123']

## 12.匹配字符集合
- 元字符 ： [^字符集]
- 匹配规则： 匹配除了括号中字符集的任意一个字符

- [^abc]  匹配除abc的任意一个字符

In [66]:
re.findall('[^abcd]','a little boy')

[' ', 'l', 'i', 't', 't', 'l', 'e', ' ', 'o', 'y', '\n']

### 13.匹配任意（非）数字字符
- 元字符：  \d    \D 
- 匹配规则：
  - \d匹配任意数字字符   
  - \D匹配任意非数字

In [73]:
re.findall('1\d{10}','17778965439')

['17778965439']

In [77]:
re.findall('\D+','1777DJJJLLJHHJJJFD89GH65439')

['DJJJLLJHHJJJFD', 'GH']

### 14.匹配（非）普通字符 （数字字母下划线）
- 元字符： \w     \W 
- 匹配规则： 
  - \w 普通字符  \[_0-9a-zA-Z]
  - \W非普通字符  \[^_0-9a-zA-Z]

In [81]:
re.findall('\w+',"hello$1 何荣华")

['hello', '1', '何荣华']

In [80]:
re.findall('\W\w',"hello$1")

['$1']

### 15.匹配（非）空字符   （空格，\r \t \n ）
- 元字符 ： \s   \S 
- 匹配规则： 
  - \s 空字符    
  - \S 非空字符

In [82]:
re.findall('\s+',"hello   world\r\n\t")

['   ', '\r\n\t']

In [83]:
re.findall('\S+',"hello   world")

['hello', 'world']

### 16.匹配起止位置
- 元字符 ： \A     \Z
- 匹配规则： 
  - \A 匹配开始位置  
  - \Z匹配结束位置
* 绝对匹配：正则表达式前后加^$。

In [84]:
re.findall('\Ahello\Z',"hello")

['hello']

In [87]:
'1\f1'

'1\x0c1'

### 17. 匹配（非）单词边界位置  
（普通字符和非普通字符的交界处为单词边界）
- 元字符：  \b     \B
- 匹配规则： 
  - \b单词边界位置  
  - \B非单词边界


In [108]:
re.findall('\Bis',"This is a  test")

['is']

In [107]:
re.findall(r'\b成都\b',"成都，成都接头走一走")

[]

## 元字符总结
[介绍正则表达式博客地址](http://www.cnblogs.com/Eva-J/articles/7228075.html#_label10)
![元字符](2018-07-25 09-22-24 的屏幕截图.png)

### 正则表达式转义
- raw 字符串 ： 原生字符串，字符串内容就是本身不进行任何转义
- 用法： r"hello"

## 贪婪与非贪婪
- 贪婪模式 ： 正则表达式的重复匹配默认总是尽可能多的向后匹配内容
  - \*   +   ？  ｛m,n｝
- 非贪婪模式 ： 尽可能少的匹配内容
  - 贪婪---》非贪婪   *？  +？ ??  ｛m,n｝？

In [111]:
re.findall(r'ab*?',"abbbbb")

['a']

In [112]:
re.findall(r'ab+?',"abbbbb")

['ab']

In [113]:
re.findall(r'ab??',"abbbbb")

['a']

In [114]:
re.findall(r'ab{3,5}',"abbbbb")

['abbbbb']

### 正则表达式分组
- 使用()可以为一个正则表达式建立子组,子组可以看做是一个局部的整体部分
- **子组的作用：**
  - 1.子组可以改变正则表达式的重复行为

In [115]:
re.search(r'(ab)+',"ababababab").group()

'ababababab'

- 2.子组在某些操作中可以单独提取匹配内容

In [122]:
re.search(r'(ab)+',"ababababab").group(1)

'ab'

- **子组的使用注意事项**
  - 一个正则表达式中可以有多个子组,正则表达式依然是通过整体匹配内容
  - 子组由外到内,由左到右为第一第二第三.....子组
    - ((ab)cd(ef)g) ----> abcdefg   ab  ef
  - 子组内容不会重叠
- **捕获组和非捕获组 （命名组和非命名组）**
  - 格式:(?P\<name\>pattern)
  - 命名作用:
    1. 很多编程接口可以通过名称获取指定组的内容 
    2. 命名组可以被重复调用
      - 调用格式:(?P=name)
    

In [123]:
re.search(r'(?P<dog>ab)cdef+',"abcdefgh").group()

'abcdef'

In [125]:
re.search(r'(?P<dog>ab)cd(?P=dog)',"abcdab").group()

'abcdab'

- **正则表达式设计原则**
  - 正确性,能够正确的匹配要求内容
  - 唯一性,除了需要匹配的内容,尽可能不匹配不需要的内容
  - 全面性,对目标特征考虑全面不遗漏

In [127]:
# 匹配身份证号
re.search(r'\d{17}(\d|x)',"21803119950425135x").group()

'21803119950425135x'

# re模块

- **regex = re.compile(pattern,flags=0)**
  - 功能:生成正则表达式对象
  - 参数: 
    - pattern 正则表达式
    - flags  功能标志位,丰富正则的匹配功能
  - 返回值:正则表达式对象
  
- **list = re.findall(pattern,string,flags)**
  - 功能:根据正则表达式匹配内容
  - 参数：
    - pattern 正则表达式
    - string  目标字符串
	- flags  功能标志位
  - 返回值：
    - 将匹配到的内容放入一个列表返回
    - **如果有子组，只能返回子组匹配到的内容**
  

In [148]:
s = 'abcdefabghiabcdef'
l = re.findall(r'((ab)cd(ef))',s)
print(l)

[('abcdef', 'ab', 'ef'), ('abcdef', 'ab', 'ef')]


- **list = regex.findall(string,pos=0,endpos=999)**
  - 功能:根据正则表达式匹配目标字符串
  - 参数:
    - string:目标字符串
    - pos:标明从目标字符串的哪个位置开始匹配
    - endpos:标明匹配到目标字符串的哪里
  - 返回:
    - 返回一个列表,内部为匹配到的内容

In [5]:
s = 'abcdefabghiabcdef'
regex = re.compile(r'abcd')
l = regex.findall(s,5)
print(l)

['abcd']


- **re.split(pattern,string,flags=0)**
  - 功能:通过正则表达式分隔字符串
  - 参数:
    - pattern : 正则
    - string : 目标字符串
  - 返回值:分割后的字符串

In [10]:
s = 'he   is   Tom'
l = re.split(r'\s+',s)
print(l)

['he', 'is', 'Tom']


- **re.sub(pattern,replaceStr,string.max,flags)**
  - 功能:替换正则表达式匹配到的内容
  - 参数:
    - pattern: 正则
    - replaceStr: 要替换的内容 
    - string:目标字符串
    - max:最多替换几处
  - 返回值:返回替换后的字符串
  

In [15]:
s = re.sub(r'\s+','陈维捷','hello world nihao china',2)
print(s)

hello陈维捷world陈维捷nihao china


- **re.sub(pattern,replaceStr,string.max,flags)**
  - 功能:替换正则表达式匹配到的内容
  - 参数:
    - pattern: 正则
    - replaceStr: 要替换的内容 
    - string:目标字符串
    - max:最多替换几处
  - 返回值:返回替换后的字符串和替换了几处

In [20]:
s = re.subn(r'\s+','陈维捷','hello world nihao china',20)
print(s)

('hello陈维捷world陈维捷nihao陈维捷china', 3)


- **re.finditer(pattern,string,flags)
  - 功能:使用正则表达式匹配目标字符串
  - 参数:
    - pattern: 正则
    - string: 目标字符串
  - 返回值:将匹配内容生成

In [36]:
s = '2008年是个多事之秋,512地震,08奥运等'
it = re.finditer(r'\d+',s)


      
for i in it:
    print(i)
dir(i)

<_sre.SRE_Match object; span=(0, 4), match='2008'>
<_sre.SRE_Match object; span=(12, 15), match='512'>
<_sre.SRE_Match object; span=(18, 20), match='08'>


['__class__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'end',
 'endpos',
 'expand',
 'group',
 'groupdict',
 'groups',
 'lastgroup',
 'lastindex',
 'pos',
 're',
 'regs',
 'span',
 'start',
 'string']

- **re.fullmatch(pattern,string,flags)**
  - 功能:完全匹配目标字符串
  - 参数:
    - pattern 正则
    - string 目标字符串
  - 返回值:匹配到的内容(match object)


In [41]:
try:
    obj = re.fullmatch(r'\w+','abcde#f123')
    print(obj.group())
except AttributeError as e:
    print(e)

'NoneType' object has no attribute 'group'


- **re.match(pattern,string,flags)**
  - 功能:完全匹配目标字符串开头
  - 参数:
    - pattern 正则
    - string 目标字符串
  - 返回值:匹配到的内容(match object)


In [58]:
# 匹配字符串开始位置
try:
    obj = re.match('foo','foo,food on the table')
    print(obj.group())
except SyntaxError as e:
    print(e)

foo


- **re.search(pattern,string,flags)**
  - 功能:匹配目标字符串,只能匹配第一处
  - 参数:
    - pattern 正则
    - string 目标字符串
  - 返回值:匹配到的内容(match object)
- **由于fullmatch  match search函数匹配不到会返回 None ，而None没有match对象的属性，所以往往需要用异常判断处理**

In [63]:
# 匹配第一处内容
try:
    obj = re.search('foo','Foo,food on the table')
    print(obj.group())
except AttributeError as e:
    print(e)

foo


## 正则对象其他属性
- flags :  标志位
- pattern ： 正则表达式
- groups ： 有多少个子组
- groupindex： 
  - 捕获组形成的字典
  - 组名为键，第几组为值
![dsfsdkjfds](re结构.png)

## 作业
1. 读取一个文本,将文本中所有以大写字母开头的单词匹配出来,将文本中数字匹配出来
2. 熟练掌握元字符的匹配规则
3. 将findall  finditer  match  search  sub  split  fullmatch 使用compile方法进行调用 
4. 看一下之前的项目 

In [18]:
import re 
with open ('1.txt') as f:
    s = f.read()
    ret = re.findall(r'\b[A-Z][\._0-9a-zA-Z]*',s)
    rst = re.findall(r'-?\+?\d+\.?/?\d*%?',s)
    print(ret,rst)

['Discover122', 'Learn', 'Git', 'GitHub'] ['122', '18677007003', '1/2', '2.55', '-0.258', '1', '+2.5']


## match对象

- **属性变量**
  - pos ： 目标字符串的开头位置
  - endpos ： 目标字符串结束位置
  - re ： 正则表达式对象
  - string ： 目标字符串
  - lastgroup：最后一组名字
  - lastindex：最后一组是第几组

- **属性方法**
  - start()  获取匹配到的内容的开始位置
  - end()    获取匹配到的内容的结束位置
  - span()   获取匹配到的内容的起止位置

  - group(n = 0)
    - 功能： 获取match对象对应匹配到的内容
    - 参数： 
      - 默认为0表示获取正则表达式整体的匹配内容
      - 如果赋值1，2，3...则表示获取某个子组的匹配内容
    - 返回值：返回匹配字符串

  - groups()  获取所有子组匹配内容
  - groupdict() 将所有捕获组内容形成一个字典

In [30]:
import re

regex = re.compile(r'(ab)cd(?P<dog>ef)')

match_obj = regex.search('abcdefghij')
dir(match_obj)

['__class__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'end',
 'endpos',
 'expand',
 'group',
 'groupdict',
 'groups',
 'lastgroup',
 'lastindex',
 'pos',
 're',
 'regs',
 'span',
 'start',
 'string']

In [29]:
#演示match对象

import re

regex = re.compile(r'(ab)cd(?P<dog>ef)')

match_obj = regex.search('abcdefghij')

#目标字符串的起始位置
print(match_obj.pos)
print(match_obj.endpos)

# 获取原始的正则表达式对象和目标字符串
print(match_obj.re)
print(match_obj.string)

#获取最后一组的信息
print(match_obj.lastgroup)
print(match_obj.lastindex)
print("==========================")
#获取匹配内容的起止位置
print(match_obj.start())
print(match_obj.end())
print(match_obj.span())

#获取具体匹配内容
print(match_obj.group())
print(match_obj.group(1match对象

属性变量
pos ： 目标字符串的开头位置
endpos ： 目标字符串结束位置
re ： 正则表达式对象
string ： 目标字符串
lastgroup：最后一组名字
lastindex：最后一组是第几组

属性方法
start()  获取匹配到的内容的开始位置
end()    获取匹配到的内容的结束位置
span()   获取匹配到的内容的起止位置

group(n = 0)
功能： 获取match对象对应匹配到的内容
参数： 默认为0表示获取正则表达式整体的匹配内容
       如果赋值1，2，3...则表示获取某个子组的匹配内容
返回值：返回匹配字符串

groups()  获取所有子组匹配内容
groupdict() 将所有捕获组内容形成一个字典))

#获取子组内容
print(match_obj.groups())
print(match_obj.groupdict())

0
10
re.compile('(ab)cd(?P<dog>ef)')
abcdefghij
dog
2
0
6
(0, 6)
abcdef
ab
('ab', 'ef')
{'dog': 'ef'}


## flags 参数 
- re.compile  re.findall  re.search  re.match
- re.finditer   re.fullmatch  re.sub   re.subn  re.split
- **作用： 辅助正则表达式，丰富匹配结果**

In [31]:
dir(re)

['A',
 'ASCII',
 'DEBUG',
 'DOTALL',
 'I',
 'IGNORECASE',
 'L',
 'LOCALE',
 'M',
 'MULTILINE',
 'RegexFlag',
 'S',
 'Scanner',
 'T',
 'TEMPLATE',
 'U',
 'UNICODE',
 'VERBOSE',
 'X',
 '_MAXCACHE',
 '__all__',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 '__version__',
 '_alphanum_bytes',
 '_alphanum_str',
 '_cache',
 '_compile',
 '_compile_repl',
 '_expand',
 '_locale',
 '_pattern_type',
 '_pickle',
 '_subx',
 'compile',
 'copyreg',
 'enum',
 'error',
 'escape',
 'findall',
 'finditer',
 'fullmatch',
 'functools',
 'match',
 'purge',
 'search',
 'split',
 'sre_compile',
 'sre_parse',
 'sub',
 'subn',
 'template']

### I == IGNORECASE   或略大小写

In [36]:
# regex.py3
s = 'Hello world'
pattern=r'hello'
l = re.findall(pattern,s,re.I)

print(l)

['Hello']


### S == DOTALL  元字符.可以匹配\n 匹配所有

In [47]:
s = '''Hello world 
nihao beijin'''
obj = re.search(r'.+',s,re.S)
print(obj.group())

Hello world 
nihao beijin


### M == MULTILINE 元字符^  $ 可以匹配每一行的开头结尾位置

In [48]:
regex = re.compile(r'^nihao',re.M)
l = regex.findall(s)
print(l)

['nihao']


### X == VERBOSE   可以给正则添加注释

In [54]:
pattern = '''(?P<dog>H\w+)  # dog组
\s+  # 任意多个空字符
(world) #匹配world
'''
obj = re.match(pattern,'Hello world',re.X)
print(obj.group())

Hello world


## 同时使用多个flag 用 |
- **re.I | re.S**


In [55]:
obj = re.match(pattern,'hello world',re.X|re.I )
print(obj.group())

hello world


In [70]:
import re
import sys


def getAddress(port):
    pattern = r'\S+'
    f = open('1.txt')
    while True:
        data = ''
        for line in f:
            if line != '\n':
                data += line
            else:
                break
        if not data:
            break
        PORT = re.match(pattern,data).group()
        if port == PORT:
            pattern = r'address\s+is\s+(\S+)'
            addr = re.search(pattern,data).group(1)
            return addr
            break
        else:
            continue
                
        return data
            
    
#     return addr


if __name__ == "__main__":
    port = input('请输入:')
    print(getAddress(port))

请输入:BVI1
10f3.116c.e6a7
