### 2.1 针对任意多的分割符拆分字符串

In [1]:
# 用re.split()
line = 'asdf fsds; aaff, foif,adfk,         fjfk'
import re
print(re.split(r'[;,\s]\s*', line))

['asdf', 'fsds', 'aaff', 'foif', 'adfk', 'fjfk']


在使用re.split()时，需要小心正则表达式中的捕获组。

In [5]:
line = 'asdf fsds; aaff, foif,adfk,         fjfk'
import re
fields = re.split(r'(;|,|\s)\s*', line)
print(fields)

['asdf', ' ', 'fsds', ';', 'aaff', ',', 'foif', ',', 'adfk', ',', 'fjfk']


In [6]:
values = fields[::2]
delimiters = fields[1::2] + ['']
result = ''.join(v+d for v,d in zip(values, delimiters))
print(result)

asdf fsds;aaff,foif,adfk,fjfk


### 2.2 在字符串的开头或结尾处做文本匹配 

用str.starswith()和str.endswith()就可以了。  
如果需要同时针对多个选项进行检查，只需要给startswith()和endswith()提供包含可能选项的元组即可。

In [7]:
filenames = ['makefile', 'foo.c', 'bar.py', 'spam.h']
# 这里针对多个选项，必须传入元组
print([name for name in filenames if name.endswith(('.c', '.h'))])

['foo.c', 'spam.h']


### 2.3 利用Shell通配符做字符串匹配

fnmatch模块提供了两个函数fnmatch()和fnmatchcase()

In [8]:
from fnmatch import fnmatch, fnmatchcase
fnmatch('foo.txt', '*.txt')

True

fnmatch()的匹配模式所采用的大小写区分规则和底层文件系统相同。  
可以用fnmatchcase()来根据我们提供的大小写来匹配。

In [9]:
fnmatchcase('foo.txt', '*.TXT')

False

### 2.4 文本模式的匹配和查找

可以用re（正则表达式）模块。

In [35]:
import re
re.match(r'(\\\d)/(\d)', r'\2/3')

<_sre.SRE_Match object; span=(0, 4), match='\\2/3'>

### 2.5 查找和替换文本

In [36]:
text = "Today is 09/05/2019."
import re
# sub()的第一个参数是要匹配的模式，
# 第二个参数是要替换成的模式
# "\3"这样的反斜线加数字的符号代表模式捕获组
re.sub(r'(\d+)/(\d+)/(\d+)', r'\3-\1-\2', text)

'Today is 2019-09-05.'

In [41]:
# 对于更加复杂的情况，可以指定一个替换回调函数。
from calendar import month_abbr
text = "Today is 09/05/2019."
def change_date(m):
    mon_name = month_abbr[int(m.group(1))]
    return '{} {} {}'.format(m.group(2), mon_name, m.group(3))
datapat = re.compile(r'(\d+)/(\d+)/(\d+)')
datapat.sub(change_date, text)

'Today is 05 Sep 2019.'

##  2.6 以不区分大小写的方式对文本做查找和替换

In [42]:
# 用re.IGNORECASE
text = "UPPER PYTHON, lower python, Mixed Python"
re.findall('python', text, re.I)

['PYTHON', 'python', 'Python']

In [44]:
# re.I的局限性，待替换的文本与匹配的文本大小写并不吻合。
text = "UPPER PYTHON, lower python, Mixed Python"
re.sub('python', 'snake', text, flags = re.I)

'UPPER snake, lower snake, Mixed snake'

In [45]:
# 用支撑函数（support function）修正上述问题。
def matchcase(word):
    def replace(m):
        text = m.group()
        if text.isupper():
            return word.upper()
        elif text.islower():
            return word.lower()
        elif text[0].isupper():
            return word.capitalize()
        else:
            return word
    return replace

text = "UPPER PYTHON, lower python, Mixed Python"
import re
re.sub('python', matchcase('snake'), text, flags = re.I)

'UPPER SNAKE, lower snake, Mixed Snake'

### 2.7 定义实现最短匹配的正则表达式

*操作符在正则表达式中采用的是贪心策咯。  
在*操作符后加上?操作符则表示非贪心策略，就能产生处最短的匹配了。

### 2.8 编写多行模式的正则表达式

In [63]:
import re
text = """/* this is a 
        multiline comment */"""
# 在re.compile()函数中传入标志re.DOTALL,使正则中句点(.)能匹配所有字符。
comment = re.compile(r'/\*(.*?)\*/', flags= re.DOTALL)
# 使用(?:.|\n)指定一个非捕获组，只做匹配但不捕获结果，也不分配组号。
comment2 = re.compile(r'/\*((?:.|\n)*?)\*/')
print(comment.findall(text))
print(comment2.findall(text))

[' this is a \n        multiline comment ']
[' this is a \n        multiline comment ']


### 2.9 将Unicode文本统一表示为规范形式

在unicode中，有些特定字符可以被表示成多种合法的代码点序列。如下：

In [64]:
s1 = 'Spicy Jalape\u00f1o'
s2 = 'Spicy Jalapen\u0303o'
print(s1)
print(s2)
print(s1==s2, len(s1), len(s2))

Spicy Jalapeño
Spicy Jalapeño
False 14 15


对于上述情况，可通过unicodedata模块来处理.  
unicodedata.normalize()第一个参数指定了字符串应该如何完成规范表示。  
NFC表示字符应该是全组成的（即如果可能的话用单个代码点）。  
NFD表示应该使用组合字符。 
Python还支持NFKC和KNFKD，为一些特定类型的字符增加了额外兼容功能。  
unicodedata.combining()函数用来检测字符是否为一个组合型字符。

In [65]:
import unicodedata
s1 = 'Spicy Jalape\u00f1o'
s2 = 'Spicy Jalapen\u0303o'
t1 = unicodedata.normalize('NFC', s1)
t2 = unicodedata.normalize('NFC', s2)
print(t1==t2)
print(ascii(t1))
t3 = unicodedata.normalize('NFD', s1)
t4 = unicodedata.normalize('NFD', s2)
print(t3==t4)
print(ascii(t3))

True
'Spicy Jalape\xf1o'
True
'Spicy Jalapen\u0303o'


### 2.10 用正则表达式处理Unicode字符

把Unicode和正则表达式混在一起使用很令人头疼，如果必须这样做，应考虑安装第三方正则表达式库（http://pypi.python.org/pypi/regex）

###  2.11 从字符串中去掉不需要的字符

字符串的strip()方法可从字符串的开始和结尾去掉字符。  
lstrip()和rstrip()可去掉左侧或右侧的字符。  
这些方法默认去掉空格符和换行符，但也可以通过指定去掉其他字符。

In [75]:
s = '-- h-ello world \n-'

In [76]:
s.lstrip('-')

' h-ello world \n-'

我们通常会遇到的情况是将去字符串的 操作同某些迭代操作结合起来。  
如从文件中读取文本行，这时可以使用生成器,就会很高效。
```python
with open(filename) as f:
    # 这里的作用是完成数据的转换（即去开头和结尾的空白符）
    lines = (line.strip() for line in f)
    for line in lines:
        pass
```

###  2.12 文本过滤和清理

简单的文本转换有str.upper()和str.lower()等。  
简单的替换操作也可以通过str.replace()或re.sub()来完成。  
如果想清楚整个范围内的字符，或者去掉音符标志，可以使用常被忽视的str.translate()方法。

In [85]:
s = 'pyth\u0302on\fis\tawesome\r\n'
print(s)

pytĥonis	awesome



先建立一个小型的转换表，然后使用translate()方法。

In [86]:
remap = {
    ord('\t') : ' ',
    ord('\f') : ' ',
    ord('\r') : None
}
a = s.translate(remap)
print(a)

pytĥon is awesome



可以利用这种重映射思想构建处庞大的转换表。  
如我们可以把所有的Unicode组合字符都去掉。

In [89]:
import unicodedata
import sys
cmb_chrs = dict.fromkeys(c for c in range(sys.maxunicode) 
                         if unicodedata.combining(chr(c)))
b = unicodedata.normalize('NFD', a)
print(b.translate(cmb_chrs))

python is awesome



In [101]:
# 将所有的Unicode十进制数字字符映射为他们对应的ASCII版本
digitmap = {
    c: ord('0') + unicodedata.digit(chr(c))
    for c in range(sys.maxunicode)
    if unicodedata.category(chr(c)) == 'Nd'
}
x = '\u0661\u0662\u0663'
print(x.translate(digitmap))

123


### 2.13 对其文本字符串

In [102]:
text = "Hello world!"
print(text.ljust(20,'*'))
print(text.rjust(20))
print(text.center(20, '='))

Hello world!********
        Hello world!
====Hello world!====


format()函数也可用来对齐字符串。

In [104]:
text = "Hello world!"
print(format(text, '>20'))
print(format(text, '<20'))
print(format(text, '^20'))
print(format(text, '*>20s'))
print(format(text, '*^20s'))

        Hello world!
Hello world!        
    Hello world!    
********Hello world!
****Hello world!****


还可以格式化多个值。

In [107]:
print('{:>10s} {:>10s}'.format("hello", "World"))

     hello      World


### 2.14 字符串连接以及合并

使用+操作符做大量的字符串连接是非常低效的，如下：
```python
s = ''
for p in parts:
    s += p
```
一个漂亮的技巧是利用生成器表达式在将数据转换为字符串同时完成连接操作，如下：
```python
data = ['ACME', 50, 91.1]
','.join(str(d) for d in data)
```

有时候不要用不必要的字符串连接操作。如下：
```python
print(a + ':' + b + ':' + c) # Ugly
print(":".join([a,b,c])) # Still ugly
print(a,b,c, sep=':') # Better
```

将字符串连接同I/O操作混合起来时应对应用做仔细分析。
```python
# 当两个字符串都很小应该用这种
f.write(chunk1 + chunk2)

# 当两个字符串都很大，应该用这种
f.write(chunk1)
f.write(chunk2)
```

如果我们编写的代码要从许多段字符串中构建输出，则应该考虑编写生成器函数，  
通过yield关键字生成字符串片段。

In [110]:
def sample():
    yield 'Is'
    yield 'Chicago'
    yield 'Not'
    yield 'Chicago?'

### 2.15 给字符串中的变量名做插值处理

In [8]:
# 通过format()方法
s = '{name} has {n} messages.'
news = s.format(name="wang", n=3)
print(news)

wang has 3 messages.


In [9]:
# 如果要替换的值能在变量中找到
# 可将format_map()和vars()联合起来使用。
name = 'zhang'
n = 4
s.format_map(vars())

'zhang has 4 messages.'

In [10]:
# vars()有一个微妙的特性是他也能作用于类实例上。
class Info:
    def __init__(self, name, n):
        self.name = name
        self.n = n
        
a = Info("zhao", 2)
s.format_map(vars(a))

'zhao has 2 messages.'

In [11]:
# format()和format_map()的一个缺点则是没法优雅地处理缺少某个值的情况。
s.format(name="error")

KeyError: 'n'

In [12]:
# 避免出现这种情况的一种方法就是单独定义一个带有__missing__()方法的字典类。
class safesub(dict):
    def __missing__(self, key):
        return '{' + key + '}'
del n
s.format_map(safesub(vars()))

'zhang has {n} messages.'

### 2.16 以固定的列数格式化文本

In [14]:
import os
print(os.get_terminal_size().columns)

120


In [19]:
s = "对于上述情况，可通过unicodedata模块来处理.\
unicodedata.normalize()第一个参数指定了字符串应该如何完成规范表示.\
NFC表示字符应该是全组成的（即如果可能的话用单个代码点）.\
NFD表示应该使用组合字符.\
Python还支持NFKC和KNFKD，为一些特定类型的字符增加了额外兼容功能.\
unicodedata.combining()函数用来检测字符是否为一个组合型字符."
import textwrap
print(textwrap.fill(s, 40))

对于上述情况，可通过unicodedata模块来处理.unicodedata.n
ormalize()第一个参数指定了字符串应该如何完成规范表示.NFC表示字符应
该是全组成的（即如果可能的话用单个代码点）.NFD表示应该使用组合字符.Pyth
on还支持NFKC和KNFKD，为一些特定类型的字符增加了额外兼容功能.unic
odedata.combining()函数用来检测字符是否为一个组合型字符.


In [21]:
print(textwrap.fill(s, 40, initial_indent = "  "))

  对于上述情况，可通过unicodedata模块来处理.unicodedata
.normalize()第一个参数指定了字符串应该如何完成规范表示.NFC表示字
符应该是全组成的（即如果可能的话用单个代码点）.NFD表示应该使用组合字符.Py
thon还支持NFKC和KNFKD，为一些特定类型的字符增加了额外兼容功能.un
icodedata.combining()函数用来检测字符是否为一个组合型字符.


In [22]:
print(textwrap.fill(s, 40, subsequent_indent = " "))

对于上述情况，可通过unicodedata模块来处理.unicodedata.n
 ormalize()第一个参数指定了字符串应该如何完成规范表示.NFC表示字符
 应该是全组成的（即如果可能的话用单个代码点）.NFD表示应该使用组合字符.Py
 thon还支持NFKC和KNFKD，为一些特定类型的字符增加了额外兼容功能.u
 nicodedata.combining()函数用来检测字符是否为一个组合型字
 符.


### 2.17 在文本中处理HTMPL和XML实体 

如果要生成文本，使用html.escape()函数来完成替换$<or>$这样的特殊字符。

In [23]:
s = 'Elements are written as "<tag>text</tag>".'

In [26]:
import html
print(s)
print(html.escape(s))
print(html.escape(s, quote =False))

Elements are written as "<tag>text</tag>".
Elements are written as &quot;&lt;tag&gt;text&lt;/tag&gt;&quot;.
Elements are written as "&lt;tag&gt;text&lt;/tag&gt;".


如果要替换文本中的实体，则可以用HTML或XML解析器自带的功能函数。