# 第二章 字符串和文本


## 2.1 使用多个界定符来分割字符串

你需要将一个字符串分割为多个字段，但是分隔符(还有周围的空格)并不是固定的。



In [1]:
line = 'asdf fjdk; afed, fjek,asdf, foo'
import re
re.split(r'[;,\s]\s*', line)

['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']

In [3]:
# 使用括号捕获分组
fields = re.split(r'(;|,|\s)\s*', line)
fields

['asdf', ' ', 'fjdk', ';', 'afed', ',', 'fjek', ',', 'asdf', ',', 'foo']

如果你不想保留分割字符串到结果列表中去，但仍然需要使用到括号来分组正则表达式的话， 确保你的分组是非捕获分组，形如 (?:...) 。比如：



In [4]:
re.split(r'(?:,|;|\s)\s*', line)

['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']

## 2.2 字符串或结尾匹配

你需要通过指定的文本模式去检查字符串的开头或者结尾，比如文件名后缀，URL Scheme等等。



In [5]:
filename = 'spam.txt'
filename.endswith('.txt')

True

In [6]:
url = 'http://www.python.org'
url.startswith('http:')

True

In [3]:
from urllib.request import urlopen

def read_data(name):
    if name.startswith(('http:', 'https:', 'ftp:')):
        return urlopen(name).read()
    else:
        with open(name) as f:
            return f.read()

这个方法必需输入一个元组作为参数。

In [4]:
choices = ['http:', 'ftp:']
url = 'htt[://www.python.org'
url.startswith(choices)

TypeError: startswith first arg must be str or a tuple of str, not list

In [5]:
url.startswith(tuple(choices))

False

## 2.3 用shell通配符匹配字符串

你想使用 Unix Shell 中常用的通配符(比如 `*.py` , `Dat[0-9]*.csv` 等)去匹配文本字符串



In [6]:
from fnmatch import fnmatch, fnmatchcase
fnmatch('foo.txt', '*.txt')

True

In [7]:
fnmatch('foo.txt', '?oo.txt')


True

In [8]:
fnmatch('Dat45.csv', 'Dat[0-9]*')

True

In [9]:
names = ['Dat1.csv', 'Dat2.csv', 'config.ini', 'foo.py']
[name for name in names if fnmatch(name, 'Dat*.csv')]

['Dat1.csv', 'Dat2.csv']

In [10]:
fnmatch('foo.txt', '*.TXT')

False

In [11]:
addresses = [
    '5412 N CLARK ST',
    '1060 W ADDISON ST',
    '1039 W GRANVILLE AVE',
    '2122 N CLARK ST',
    '4802 N BROADWAY',
]

In [12]:
from fnmatch import fnmatchcase
[addr for addr in addresses if fnmatchcase(addr, '* ST')]


['5412 N CLARK ST', '1060 W ADDISON ST', '2122 N CLARK ST']

In [13]:
[addr for addr in addresses if fnmatchcase(addr, '54[0-9][0-9] *CLARK*')]

['5412 N CLARK ST']