* 小数：`r'\d+(\.\d*)?'`
* 运算符：`r'[+-*/]'`

In [1]:
import re

* `re`中的正则表达式与Perl中的正则表达式匹配操作类似；
* 在正则表达式匹配中，要搜索的模式字符串和被匹配的字符串可以是Unicode字符串(str)或者8位字节码(8-bit)字符串(bytes),但是两种类型不能混合使用，即搜索的字符串和被匹配的字符串必须是上面两种类型中的一种；
* 正则表达式中的反义字符：`\`
    - `\`: `\\\\`
    - `\`: `r'\'`
    - `\n`: `r'\n'`

# 1. 正则表达式语法

## 1.1 语法

* 正则表达式可以进行合并
    - `A`是一个正则表达式，`B`也是一个正则表达式，合并起来的`AB`同样也是一个正则表达式；
    - 如果一个字符串`p`能够与正则表达式`A`匹配，字符串`q`能够与正则表达式`B`匹配，那么字符串`pq`一般也能与正则表达式`AB`匹配，除非`A`或`B`包含低优先级操作；
    - 复杂的正则表达式可以用简单的正则表达式构造；
* 正则表达式元字符可以包含特殊字符和普通字符
    - 普通字符：只匹配自己，可以连接普通字符
        - `A`
        - `a`
        - `0`
        - `last`
    - 特殊字符：代表普通字符的类，影响普通字符周围的正则表达式的解释方式
        - `|`
        - `(`
        * 重复限定符：不能直接嵌套，避免非贪婪修饰符后缀(`?`)的模糊性,以及其他修饰符，为了对内部重复应用第二次重复，可以使用括号。
            - `*`
            - `+`
            - `?`
            - `{m, n}`
* 正则表达式模式
    - 默认模式
    - 贪婪模式
    - 非贪婪模式

## 1.2 元字符

|一般字符 |含义     |解释   |
|---------|-----------|--------|
| `.`    |匹配除换行符之外的任何字符|re.DOTALL模式下匹配包括换行符在内的任何字符|
| `\`|转义字符，使后一个字符改变原来(正则表达式)的意思|
| `[...]`|字符集，对应的位置可以是字符集中任意字符，字符集中的字符可以逐个列出，也可以给出范围，第一个字符如果是`^`则取反||

|预定义字符 |含义     |解释   |
|---------|-----------|--------|
| `\d`|数字`[0-9]`||
| `\D`|非数字`[^0-9]`||
| `\s`|空白字符`[<空格>\t\r\n\f\v]`||
| `\S`|非空白字符`[^\s]`||
| `\w`|字母`[a-zA-Z0-9]`||
| `\W`|非单词字母`[^\w]`||

|边界匹配符|含义    |解释   |
|--------|---------|--------|
| `^`|匹配字符串的开头|re.MULTILINE模式下匹配每一行的开头|
| `$`|匹配字符串的结尾|re.MULTILINE模式下匹配每一行的结尾|

| 重复限定符|含义|解释|
|:----------|:----|:----|
| `?`|匹配`?`前面的正则表达式0或1次|重复限定符|
| `*`|匹配`*`前面的正则表达式0次或多次|重复限定符|
| `+`|匹配`+`前面的正则表达式1次或多次|重复限定符|
| `{m}`|匹配前面的正则表达式m次||
| `{m, n}`|匹配前面的正则表达式m至n次||
| `??`|`?`的非贪婪模式||
| `*?`|`*`的非贪婪模式||
| `+?`|`+`的非贪婪模式||
| `{m}?`|`{m}`的非贪婪模式||
| `{m, n}?`|`{m, n}`的非贪婪模式||

| 逻辑或   |含义|解释|
|-----------|----|:----|
|竖杆     | 先尝试匹配左边的表达式，匹配成功后则跳过右边的表达式，否则尝试匹配右边的表达式||

| 分组   |含义|解释|
|-----------|----|----|
| `(...)`| 被括号括起来的表达式将作为分组，从表达式左边开始每遇到一个分组的左括号，编号+1||
| `\<number>`|引用编号为<number>的分组匹配到的字符串||

| 万能匹配字符   |含义|解释|
|-----------|----|----|
| `.*`| 万能匹配贪婪模式||
| `.*?`|万能匹配非贪婪模式||

# 2.`re`模块

## 2.1 模块内容

* 匹配修饰符
    - re.A
         - re.ASCII
    - re.DEBUG
    - re.I
        - re.IGNORECASE
    - re.L
        - re.LOCALE
    - re.M
        - re.MULTILINE
    - re.S
        - re.DOTALL
    - re.X
        - re.VERBOSE
* 匹配函数
    - `re.match()`
    - `re.search()`
    - re.fullmatch()
    - `re.split()`
    - `re.findall()`
    - `re.finditer()`
    - `re.sub()`
    - `re.subn()`
    - re.escape()
    - re.purge()
* exception 
    - re.error(msg, pattern = None, pos = None)
        - msg
        - pattern
        - pos
        - lineno
        - colno
* 正则表达式对象
    - Pattern对象
        - Pattern = re.compile(pattern, flags = 0)
    - 属性
        - Pattern.flags
        - Pattern.groups
        - Pattern.groupindex
        - Pattern.pattern
    - 方法
        - MatchObj = Pattern.search(string, pos, endpos)
        - MatchObj = Pattern.match(string, pos, endpos)
        - MatchObj = Pattern.fullmatch(string, pos, endpos)
        - MatchObj = Pattern.split(string, maxsplit = 0)
        - MatchObj = Pattern.findall(string, pos, endpos)
        - MatchObj = Pattern.finditer(string, pos, endpos)
        - MatchObj = Pattern.sub(repl, string, count = 0)
        - MatchObj = Pattern.subn(repl, string, count = 0)
            - Match Object
                - 方法
                    - Match.expand(template)
                    - Match.group()
                    - `Match.__getitem__(g)`
                    - Match.groups()
                    - Match.groupdict()
                    - Match.start()
                    - Match.end()
                    - Match.span()
                - 属性
                    - Match.pos
                    - Match.endpos
                    - Match.lastindex
                    - Match.lastgroup
                    - Match.re
                    - Match.string






# 3. 例子

#### `re.match()`

In [19]:
def displaymatch(match):
    if match is None:
        return None
    return '<Match: %r, groups = %r>'% (match.group(), match.groups())

# 牌的有效性
valid = re.compile(r'^[2-9atjqk]{5}$')
print(displaymatch(valid.match('akt5q')))
print(displaymatch(valid.match('akt5e')))
print(displaymatch(valid.match('akt')))
print(displaymatch(valid.match('727ak')))

<Match: 'akt5q', groups = ()>
None
None
<Match: '727ak', groups = ()>


In [20]:
# 特殊牌
pair = re.compile(r'.*(.).*\1')
print(displaymatch(pair.match('717ak')))
print(displaymatch(pair.match('354aa')))

<Match: '717', groups = ('7',)>
<Match: '354aa', groups = ('a',)>


In [26]:
print(pair.match('717ak').group(1))
print()

try: 
    pair.match('718ak').group(1)
except :
    print('AttributeError: ', "'NoneType' object has no attribute 'group'")

print()
print(pair.match('354aa').group(1))

7

AttributeError:  'NoneType' object has no attribute 'group'

a


#### `re.match()`, `re.search()`

* 单行模式
    * re.match()
        - 仅从字符串开头进行匹配，开头匹配不到就返回None
    * re.search()
        - 可以在字符串中的任意位置进行匹配
    * re.search('^')
        - 同re.match()
* 多行模式
    * re.match(re.MULTILINE)
        - 多行模式下，仅从第一行字符串开头进行匹配，开头匹配不到就返回None
    * re.search('', re.MULTILINE)
        - 多行模式下，可以从多行的字符串的任意位置进行匹配
    * re.search('^', re.MULTILINE)
        - 多行模式下，可以从多行的字符串的开头进行匹配

In [27]:
re.match('c', 'abcdef')

In [28]:
re.search('c', 'abcde')

<_sre.SRE_Match object; span=(2, 3), match='c'>

In [31]:
re.search('^c', 'abcdef')

In [32]:
re.search('^a', 'abcde')

<_sre.SRE_Match object; span=(0, 1), match='a'>

In [33]:
re.match('X', 'A\nB\nX')

In [34]:
re.search('X', 'A\nB\nX')

<_sre.SRE_Match object; span=(4, 5), match='X'>

#### `re.split()`

In [51]:
text = """Ross McFluff: 834.345.1254 155 Elm Street

Ronald Heathmore: 892.345.3428 436 Finley Avenue
Frank Burger: 925.541.7625 662 South Dogwood Way


Heather Albrecht: 548.326.4584 919 Park Place"""

entries = re.split('\n+', text)
entries

['Ross McFluff: 834.345.1254 155 Elm Street',
 'Ronald Heathmore: 892.345.3428 436 Finley Avenue',
 'Frank Burger: 925.541.7625 662 South Dogwood Way',
 'Heather Albrecht: 548.326.4584 919 Park Place']

In [44]:
[re.split(':?', entry, 4) for entry in entries]

  return _compile(pattern, flags).split(string, maxsplit)


[['Ross McFluff', ' 834.345.1254 155 Elm Street'],
 ['Ronald Heathmore', ' 892.345.3428 436 Finley Avenue'],
 ['Frank Burger', ' 925.541.7625 662 South Dogwood Way'],
 ['Heather Albrecht', ' 548.326.4584 919 Park Place']]

In [55]:
[re.split(":? ", entry, 3) for entry in entries]

[['Ross', 'McFluff', '834.345.1254', '155 Elm Street'],
 ['Ronald', 'Heathmore', '892.345.3428', '436 Finley Avenue'],
 ['Frank', 'Burger', '925.541.7625', '662 South Dogwood Way'],
 ['Heather', 'Albrecht', '548.326.4584', '919 Park Place']]

In [57]:
[re.split(":?", entry, 4) for entry in entries]
[re.split(":? ", entry, 3) for entry in entries]

[['Ross', 'McFluff', '834.345.1254', '155', 'Elm Street'],
 ['Ronald', 'Heathmore', '892.345.3428', '436', 'Finley Avenue'],
 ['Frank', 'Burger', '925.541.7625', '662', 'South Dogwood Way'],
 ['Heather', 'Albrecht', '548.326.4584', '919', 'Park Place']]

#### `re.sub()`

In [78]:
import random
def repl(m):
    inner_word = list(m.group(2))
    random.shuffle(inner_word)
    return m.group(1) + "".join(inner_word) + m.group(3)
text = "Professor Abdolmalek, please report your absences promptly."
re.sub(r"(\w)(\w+)(\w)", repl, text)

'Pooesfrsr Ambdalelok, pelsae rerpot your aecbesns polmtrpy.'

#### `re.findall()`

In [75]:
text = "He was carefully disguised but captured quickly by police."
re.findall(r'\w+ly', text)

['carefully', 'quickly']

#### `re.finditer()`

In [77]:
text = "He was carefully disguised but captured quickly by police."
for m in re.finditer(r'\w+ly', text):
    print('%02d-%02d: %s' % (m.start(), m.end(), m.group(0)))

07-16: carefully
40-47: quickly


#### `r(\)`

In [81]:
re.match(r'\W(.)\1\W', ' ff ')

<_sre.SRE_Match object; span=(0, 4), match=' ff '>

In [82]:
re.match('\\W(.)\\1\\W', ' ff ')

<_sre.SRE_Match object; span=(0, 4), match=' ff '>

In [83]:
re.match(r'\\', r'\\')

<_sre.SRE_Match object; span=(0, 1), match='\\'>

In [84]:
re.match('\\\\', r'\\')

<_sre.SRE_Match object; span=(0, 1), match='\\'>

In [89]:
import collections
import re

Token = collections.namedtuple('Token', ['type', 'value', 'line', 'column'])

def tokenize(code):
    keywords = {'IF', 'THEN', 'ENDIF', 'FOR', 'NEXT', 'GOSUB', 'RETURN'}
    token_specification = [
        ('NUMBER', r'\d+(\.\d*)?'),
        ('ASSIGN', r':='),
        ('END', r';'),
        ('ID', r'[A-Za-z]+'),
        ('OP', r'[+\-*/]'),
        ('NEWLINE', r'\n'),
        ('SKIP', r'[ \t]+'),
        ('MISMATCH', r'.'),
    ]
    tok_regex = '|'.join('?P<%s>%s' % pair for pair in token_specification) 
    line_num = 1
    line_start = 0
    for mo in re.finditer(tok_regex, code):
        pass