针对任意多的分隔符拆分字符串  
re.split()

In [5]:
import re
line = 'asdf fjdk; afed, fjek, asdf,    foo'
re.split(r'[;,\s]\s*', line)

['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']

In [7]:
# capture group  
# 如果用到了捕获组 那么匹配的文本也会包含在最终结果中
fields = re.split(r'(;|,|\s)\s*', line)
fields

['asdf', ' ', 'fjdk', ';', 'afed', ',', 'fjek', ',', 'asdf', ',', 'foo']

In [12]:
values = fields[::2]
values

['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']

In [13]:
delimiters = fields[1::2]
delimiters

[' ', ';', ',', ',', ',']

In [14]:
"".join(v+d for v, d in zip(values, delimiters))

'asdf fjdk;afed,fjek,asdf,'

In [15]:
# 非捕获组
# (?: )
re.split(r'(?:,|:|\s)\s*', line)

['asdf', 'fjdk;', 'afed', 'fjek', 'asdf', 'foo']

在字符串的开头或结尾处做文本匹配  
startswith()  
endswith()  
接受tuple() 元组参数  
re.match('http:|https:|ftp:', url)

利用Shell通配符做字符串匹配  
fnmatch模块提供了  
fnmatch() 大小写区分规则和底层文件系统相同  
fnmatch('foo.txt', '*.TXT') Win True Mac False  
fnmatchcase() 完全匹配我们提供的大小写方式  
fnmatchcase('foo.txt', '*.txt') True

In [16]:
from fnmatch import fnmatchcase
addresses = [
    '5412 N CLARK ST',
    '1060 W ADDISON ST',
    '1039 W GRANVILLE AVE',
    '2122 N CLARK ST',
    '4802 N BROADWAY',
]

In [17]:
[addr for addr in addresses if fnmatchcase(addr, '* ST')]

['5412 N CLARK ST', '1060 W ADDISON ST', '2122 N CLARK ST']

In [18]:
[addr for addr in addresses if fnmatchcase(addr, '54[0-9][0-9] *')]

['5412 N CLARK ST']

文本模式的匹配与查找  
re.match(r'\d+/\d+/\d+', text1)  
针对同一个模式做多次匹配  
首先将正则表达式模式预编译成一个模式对象  
datepat = re.compile(r'\d+/\d+/\d+')  
datepat.match(text1) True/False   
datepat.match(text2)  
match()总是在字符串的开头找到匹配项  
如果想针对整个文本  
findall()    
text = 'Today is 11/27/2012. PyCon starts 3/13/2013.'  
datepat.findall(text) ['11/27/2012', '3/13/2013']  
finditer()  

查找与替换文本  
str.replace('old', 'new')  
re.sub(r'(\d+)/(\d+)/(\d+)', r'\3-\1-\2', text)  
\3表示第几个捕获组  


In [21]:
# 指定一个替换回调函数  
from calendar import month_abbr
import re
def change_date(m):
    mon_name = month_abbr[int(m.group(1))]
    return '{} {} {}'.format(m.group(2), mon_name, m.group(3))

In [22]:
text = 'Today is 11/27/2012. PyCon starts 3/13/2013.'
re.sub(r'(\d+)/(\d+)/(\d+)',change_date,text)

'Today is 27 Nov 2012. PyCon starts 13 Mar 2013.'

In [23]:
# 想知道完成了多少次替换
newtext, n = re.subn(r'(\d+)/(\d+)/(\d+)',change_date,text)
newtext

'Today is 27 Nov 2012. PyCon starts 13 Mar 2013.'

In [24]:
n

2

以不区分大小写的方式对文本做查找和替换  
re.IGNORECASE  
re.findall('python', text, flags=re.IGNORECASE)

定义实现最短匹配的正则表达式  
r'\"(.*)\"' 尝试去匹配包含在引号中的文本,  
但是 * 操作符在正则表达式中采用的是贪心策略  
所匹配过程是基于找出最长的可能匹配来进行的  
r'\"(.*?)\"'  
在*或+ 后添加 ? 使得匹配过程不会以贪心方式进行  
会强制将匹配算法调整为寻找最短的可能匹配  

编写多行模式的正则表达式  
re.compile(r'/\*((?:.|\n)*?)\*/')  
re.compile(r'/\*(.*?)\*/', re.DOTALL)  
re.DOTALL 使得 . 可以匹配所有字符

将Unicode文本统一表示为规范形式  


In [28]:
import unicodedata
# t1 = unicodedata.normalize('NFC', s1) NFD NFKC NFKD
# NFC 表示字符应该是全组成的  如果可能的话就使用单个代码点
# NFD 表示字符是组合字符  每个字符应该是能完全分解开的
# unicodedata.combining(c) 判断它是否为一个组合型字符

用正则表达式处理Unicode字符  


从字符串中去掉不要的字符  
str.strip()  
str.lstrip()  
str.rstrip()  


In [29]:
t = '------hello+++++++++'
t.lstrip('-')

'hello+++++++++'

In [30]:
t.rstrip('+')

'------hello'

In [33]:
t.strip('-+')

'hello'

In [39]:
s = '  hello          in      '
s = s.strip()
s

'hello          in'

In [40]:
s.replace(' ', '')

'helloin'

In [41]:
re.sub('\s+', ' ', s)

'hello in'

文本过滤和清理  


对齐文本字符串  
str.ljust()  
str.rjust()  
str.center()  
(num, '填充字符')  


In [43]:
# format() 也可以完成对齐任务
text = 'hello world'
format(text, '<20') # 左对齐

'hello world         '

In [44]:
format(text, '>20') # 右对齐

'         hello world'

In [48]:
format(text, '*^20') # 居中 填充*

'****hello world*****'

In [59]:
# 格式化多个值
a = '{:>10}{:>10}'.format('Hi', 'Xin')
a

'        Hi       Xin'

In [60]:
len(a)

20

In [66]:
# format() 并不特定于字符串 它能作用于任何值
x = 3.141592654
format(x, '>20')

'         3.141592654'

In [68]:
format(x, '^10.2f') # 对数字做格式化处理

'   3.14   '

字符串连接与合并

In [69]:
parts = ['Is', 'Chicago', 'Not', 'Chicago?']
' '.join(parts)

'Is Chicago Not Chicago?'

In [70]:
','.join(parts)

'Is,Chicago,Not,Chicago?'

In [78]:
s = ""
for p in parts: # 比join()方法慢 每个+=操作都会创建一个新的字符串对象
    s += p
s

'IsChicagoNotChicago?'

In [71]:
a = '悲伤的'
b = '新娘'
a + b

'悲伤的新娘'

In [72]:
'{}-{}'.format(a, b)

'悲伤的-新娘'

In [73]:
a = 'hello' 'world'
a

'helloworld'

In [74]:
# 利用生成器表达式将数据转换为字符串的同时完成连接操作
data = ['Xin', 50, 90.1]
','.join(str(d) for d in data)

'Xin,50,90.1'

Version 1 (string concatenation)  
f.write(chunk1 + chunk2)  
Version 2 (separate I/ O operations)  
f.write(chunk1) f.write(chunk2)  
如 果 这 两 个 字 符 串 都 很 小， 那 么 第 一 个 版 本 的 代 码 能 带 来 更 好 的 性 能，  
这 是 因 为 执 行 一 次 I/ O 系 统 调 用 的 固 有 开 销 就 很 高。   
另 一 方 面， 如 果 这 两 个 字 符 串 都 很 大，  
那 么 第 二 个 版 本 的 代 码 会 更 加 高 效。   
因 为 这 里 避 免 了 创 建 大 的 临 时 结 果， 也 没 有 对 大 块 的 内 存 进 行 拷 贝。

In [79]:
# 如果我们编写的代码要从许多短字符串中构建输出
# 则应该考虑编写生成器函数 
# 通过yield关键字生成字符串片段
def sample():
    yield 'Is'
    yield 'Xin'
    yield 'Feng'
    yield 'Rong?'

In [82]:
text = ' '.join(sample())
text

'Is Xin Feng Rong?'

给字符串中的变量名做插值处理

In [1]:
s = '{name} has {n} messages.'
s.format(name='Xin', n=22)

'Xin has 22 messages.'

In [2]:
name = 'Feng'
n = 21
s.format_map(vars())

'Feng has 21 messages.'

vars()能作用于类实例上


In [4]:
class Info:
    def __init__(self, name, n):
        self.name = name
        self.n = n

In [5]:
a = Info('Rong', 20)
s.format_map(vars(a))

'Rong has 20 messages.'

In [6]:
class safesub(dict): # 带有__missing__()方法的字典类
    def __missing__(self, key):
        return '{' + key + '}'

In [7]:
del n
s.format_map(safesub(vars()))

'Feng has {n} messages.'

In [13]:
# frame hack
# f_locals 是 一 个 字 典， 它 完 成 对 调 用 函 数 中 局 部 变 量 的 拷 贝。
# 尽 管 可 以 修 改 f_locals 的 内 容， 
# 可 是 修 改 后 并 不 会 产 生 任 何 持 续 性 的 效 果。
import sys
def sub(text):
    return text.format_map(safesub(sys._getframe(1).f_locals))

In [9]:
name = 'Lee'
n = 29
sub('hello {name}')

'hello Lee'

In [10]:
sub('you are {n} years')

'you are 29 years'

In [12]:
sub('you is {color}')

'you is {color}'

以固定的列数重新格式化文本  
textwrap.fill()模块来重新格式化文本的输出

In [14]:
s = "Look into my eyes, look into my eyes, the eyes, the eyes, the eyes, not around the eyes, don't look around the eyes,  look into my eyes, you're under."

In [19]:
import textwrap
textwrap.fill(s, 40)

"Look into my eyes, look into my eyes,\nthe eyes, the eyes, the eyes, not around\nthe eyes, don't look around the eyes,\nlook into my eyes, you're under."

In [20]:
textwrap.fill(s, 40, initial_indent=' ')

" Look into my eyes, look into my eyes,\nthe eyes, the eyes, the eyes, not around\nthe eyes, don't look around the eyes,\nlook into my eyes, you're under."

In [25]:
textwrap.fill(s, 40, subsequent_indent=' ')

"Look into my eyes, look into my eyes,\n the eyes, the eyes, the eyes, not\n around the eyes, don't look around the\n eyes,  look into my eyes, you're under."

In [28]:
import os
os.get_terminal_size().columns

120

在文本中处理HTML与XML实体  
html.escape()函数来完成对< >特殊字符的替换

In [29]:
s = 'Elements are written as "<tag>text</tag>".'
import html
s

'Elements are written as "<tag>text</tag>".'

In [30]:
html.escape(s)

'Elements are written as &quot;&lt;tag&gt;text&lt;/tag&gt;&quot;.'

In [31]:
html.escape(s, quote=False)

'Elements are written as "&lt;tag&gt;text&lt;/tag&gt;".'

文本分词

In [1]:
text = 'foo = 23 + 42 * 10'
import re
NAME = r'(?P<NAME>[a-zA-Z_][a-zA-Z_0-9]*)'
NUM = r'(?P<NUM>\d+)'
PLUS = r'(?P<PLUS>\+)'
TIMES = r'(?P<TIMES>\*)'
EQ = r'(?P<EQ>=)'
WS = r'(?P<WS>\s+)'
list_args = [NAME, NUM, PLUS, TIMES, EQ, WS]
master_pat = re.compile('|'.join(list_args))

In [21]:
# 扫描对象演示
scanner = master_pat.scanner('foo=32')
scanner.match()

<re.Match object; span=(0, 3), match='foo'>

In [22]:
_.lastgroup, _.group()

('NAME', 'foo')

In [23]:
scanner.match()

<re.Match object; span=(3, 4), match='='>

In [24]:
_.lastgroup, _.group()

('EQ', '=')

In [25]:
scanner.match()

<re.Match object; span=(4, 6), match='32'>

In [26]:
_.lastgroup, _.group()

('NUM', '32')

In [28]:
from collections import namedtuple
Token = namedtuple('Token', ['type', 'value'])
def generate_tokens(pat, text):
    scanner = pat.scanner(text)
    for m in iter(scanner.match, None):
        yield Token(m.lastgroup, m.group())

In [29]:
for tok in generate_tokens(master_pat, 'foo = 42'):
    print(tok)

Token(type='NAME', value='foo')
Token(type='WS', value=' ')
Token(type='EQ', value='=')
Token(type='WS', value=' ')
Token(type='NUM', value='42')


In [31]:
# 过滤掉空格
tokens = (tok for tok in generate_tokens(master_pat, text) if tok.type != 'WS')
for tok in tokens:
    print(tok)

Token(type='NAME', value='foo')
Token(type='EQ', value='=')
Token(type='NUM', value='23')
Token(type='PLUS', value='+')
Token(type='NUM', value='42')
Token(type='TIMES', value='*')
Token(type='NUM', value='10')


编写简单的递归下降解析器  
根据一组语法规则来解析文本  
以此来执行相应的操作或构建一个抽象的语法树

在字节串上执行文本操作  
Byte String  
