# 第二章:字符串和文本(1)

### 2.1 使用多个界定符分割字符串

**问题：你需要将一个字符串分割为多个字段,但是分隔符 (还有周围的空格) 并不是固定
的**

string 对象的 split() 方法只适应于非常简单的字符串分割情形,它并不允许有
多个分隔符或者是分隔符周围不确定的空格。当你需要更加灵活的切割字符串的时候,
最好使用 re.split() 方法

In [8]:
line = 'asdf fjdk; afed, fjek,asdf, foo' 
import re 
re.split(r'[;,\s]\s*', line)

['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']

当你使用 re.split() 函数时候,需要特别注意的是正则表达式中是否包含一个括
号捕获分组。如果使用了捕获分组,那么被匹配的文本也将出现在结果列表中

In [14]:
f = re.split(r'(;|,|\s)\s*', line)
f

['asdf', ' ', 'fjdk', ';', 'afed', ',', 'fjek', ',', 'asdf', ',', 'foo']

In [13]:
#获取分割字符在某些情况下也是有用的。比如,你可能想保留分割字符串,用来在后面重新构造一个新的输出字符串



SyntaxError: invalid character in identifier (<ipython-input-13-845e597ea8c1>, line 1)

In [17]:
v = f[::2]
d = f[1::2] + ['']
v

['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']

In [18]:
d

[' ', ';', ',', ',', ',', '']

In [20]:
list(zip(v, d))

[('asdf', ' '),
 ('fjdk', ';'),
 ('afed', ','),
 ('fjek', ','),
 ('asdf', ','),
 ('foo', '')]

In [22]:
''.join(v+d for v,d in zip(v, d))

'asdf fjdk;afed,fjek,asdf,foo'

### 2.2 字符串开头或结尾匹配

**问：你需要通过指定的文本模式去检查字符串的开头或者结尾,比如文件名后缀,URL
Scheme 等等**

- 检 查 字 符 串 开 头 或 结 尾 的 一 个 简 单 方 法 是 使 用str.startswith() 或 者 是
str.endswith() 方法

In [2]:
a = 'song.txt'
a.endswith('.txt')

True

In [4]:
a.startswith('s')

True

- 如果你想检查多种匹配可能,只需要将所有的匹配项放入到一个元组中去,然后传
给 startswith() 或者 endswith() 方法

In [6]:
import os 
a = os.listdir('../第一章 数据结构和算法')
a

['3.ipynb', '1.ipynb', '.ipynb_checkpoints', '2.ipynb', '5.ipynb', '4.ipynb']

In [7]:
[x for x in a if x.endswith(('b', 's'))]

['3.ipynb', '1.ipynb', '.ipynb_checkpoints', '2.ipynb', '5.ipynb', '4.ipynb']

In [8]:
any(x.endswith('.py') for x in a)

False

**当和其他操作比如普通数据聚合相结合的时候 startswith() 和
endswith() 方法是很不错的。比如,下面这个语句检查某个文件夹中是否存在指定的
文件类型**

In [None]:
if any(name.endswith(('.c', '.h')) for name in listdir(dirname)):
    pass

### 2.3 用 Shell 通配符匹配字符串

**问：你想使用 `Unix Shell` 中常用的通配符 (比如 *.py , Dat[0-9]*.csv 等) 去匹配文
本字符串**

- fnmatch 模块提供了两个函数—— fnmatch() 和 fnmatchcase() ,可以用来实现
这样的匹配

In [11]:
from fnmatch import fnmatch, fnmatchcase
fnmatch('song.txt', '*.txt')

True

In [13]:
fnmatch('foo.txt', '?oo.txt')

True

In [14]:
fnmatch('Dat45.csv', 'Dat[0-9]*')

True

In [15]:
names = ['Dat1.csv', 'Dat2.csv', 'config.ini', 'foo.py']
[name for name in names if fnmatch(name, 'Dat*.csv')]

['Dat1.csv', 'Dat2.csv']

fnmatch() 函数使用底层操作系统的大小写敏感规则 (不同的系统是不一样的) 来
匹配模式,如果你对这个区别很在意,可以使用 fnmatchcase() 来代替。它完全使用你的模
式大小写匹配

In [16]:
# Mac Os 
fnmatch('foo.txt', '*.TXT')

False

In [17]:
# Windows
fnmatch('foo.txt', '*.TXT') # True

In [18]:
fnmatchcase('foo.txt', '*.TXT')

False

- 这两个函数通常会被忽略的一个特性是在处理非文件名的字符串时候它们也是很有
用的

In [19]:
addresses = [
    '22323 n 32cdo ST',
    '98989 n dad89 ST',
    'sadsdasdd AVE',
    '32323nnn WAY'
]

In [20]:
from fnmatch import fnmatchcase
[addr for addr in addresses if fnmatchcase(addr, '* ST')]

['22323 n 32cdo ST', '98989 n dad89 ST']

In [23]:
[addr for addr in addresses if fnmatchcase(addr, '*WAY')]

['32323nnn WAY']

**fnmatch() 函数匹配能力介于简单的字符串方法和强大的正则表达式之间。如果在
数据处理操作中只需要简单的通配符就能完成的时候,这通常是一个比较合理的方案。
如果你的代码需要做文件名的匹配,最好使用 glob 模块**

### 2.4 字符串匹配和搜索

**问：你想匹配或者搜索特定模式的文本**

- 如果你想匹配的是字面字符串,那么你通常只需要调用基本字符串方法就行,比如
str.find() , str.endswith() , str.startswith() 或者类似的方法

In [24]:
text = 'yeah, but no, but yeah, but no, but yeah' 
text == 'sssss'

False

In [25]:
text.startswith('y')

True

In [26]:
text.find('no')

10

- 对于复杂的匹配需要使用正则表达式和 re 模块

In [28]:
a = '11/21/2017'
b = 'Nov 21, 2017' 

import re 

if re.match(r'\d+/\d+/\d+', a):
    print('yes') 
else:
    print('no')

yes


- 如果你想使用同一个模式去做多次匹配,你应该先将模式字符串预编译为模式对
象

In [30]:
s = re.compile(r'\d+/\d+/\d+')
if s.match(b):
    print('yes') 
else:
    print('no')

no


- match() 总是从字符串开始去匹配,如果你想查找字符串任意部分的模式出现位
置,使用 findall() 方法去代替

In [31]:
text = 'Today is 11/27/2012. PyCon starts 3/13/2013.' 
s.findall(text)

['11/27/2012', '3/13/2013']

- 捕获分组可以使得后面的处理更加简单,因为可以分别将每个组的内容提取出来

In [40]:
m = s.match('11/21/2017')
m

<_sre.SRE_Match object; span=(0, 10), match='11/21/2017'>

In [41]:
m.group(0)

'11/21/2017'

In [42]:
m.groups()

()