## 2.1使用多个界定符分割字符串

### 关于正则表达式可以看这个链接[正则表达式](https://deerchao.net/tutorials/regex/regex.htm#escape)

在Python的string前面加上‘r’， 是为了告诉编译器这个string是个raw string，不要转意backslash '\' 。 例如，\n 在raw string中，是两个字符，\和n， 而不会转意为换行符。由于正则表达式和 \ 会有冲突，因此，当一个字符串使用了正则表达式后，最好在前面加上'r'。

In [12]:
# 保留分割字符 重新构造原来的字符串
import re
line = 'asdf fjdk; afed, fjek,asdf, foo'
# python中()叫捕获分组 其中匹配的文本也会出现在结果列表中
fileds = re.split(r'(;|,|\s)\s*',line)
fileds

['asdf', ' ', 'fjdk', ';', 'afed', ',', 'fjek', ',', 'asdf', ',', 'foo']

In [10]:
fileds = re.split(r'[;,\s]\s*',line)
fileds

['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']

In [13]:
values = fileds[::2]
delimiters = fileds[1::2]

In [14]:
''.join(v+d for v,d in zip(values,delimiters))

'asdf fjdk;afed,fjek,asdf,'

## 2.2字符串开头或结尾匹配

In [None]:
检查字符串开头或结尾的一个简单方法是使用 str.startswith() 或者是 str.endswith() 方法。

In [19]:
import os
filename = os.listdir('.')
filename

['chapter2.ipynb', 'chapter 1.ipynb', '.ipynb_checkpoints']

In [25]:
# python any() 如果都为空、0、false，则返回false，如果不都为空、0、false，则返回true。
# python all() 如果iterable的所有元素不为0、''、False或者iterable为空，all(iterable)返回True，否则返回False；

In [33]:
print(any(name.endswith('.ipynb') for name in filename))
print(all(name.endswith('.ipynb') for name in filename))

True
False


但是这两个方法只能转入元组或`str`作为参数 `list`或`set`都会报错，必须先转化为元组或`str`

In [None]:
choice = ['http']
url = 'http://www.baidu.com'
try: 
    url.startswith(choice)
except:
    print("错误")

## 2.3 用Shell通配符匹配字符串

使用`Unix Shell`中的通配符如（`*.py`,`Dat[0-9]\*.csv`)，用`fnmatch`模块中的两个函数 `fnmathch()`和`fnamatchcase()`  
其中`fnmatch()`的大小写敏感规则和所用的操作系统一样
'fnamatchcase()'的完全根据提供的大小写匹配

In [54]:
from fnmatch import fnmatch, fnmatchcase
print(fnmatch('foo.txt','*.TXT')) # mac false windows true
print(fnmatchcase('foo.txt','*.txt'))
# 比较复杂的还是使用正则表达式

False
True


In [71]:
text = '11/27/2012'
if re.match(r'[1-9]+/\d+/\d',text):
    print("y")
else:
    print('n')

y


## 2.4 字符串匹配和搜索

如果你想使用同一个模式去做多次匹配，你应该先将模式字符串预编译为模式对象。使用`re.compile()`

In [76]:
import re
text1 = '11/27/2012 tomorrow is 11/28/2012'
text2 = 'nov 27, 2012'
datepat = re.compile(r'\d+/\d+/\d+')
def comparet(text):
    if datepat.match(text):
        print('yes')
    else:
        print('no')
comparet(text1)
comparet(text2)

yes
no


`match()`是从字符串开始去匹配，查找字符串任意部分的模式出现位置，使用`findall()`

In [77]:
datepat.findall(text1)

['11/27/2012', '11/28/2012']

若使用`()`去捕获分组，后面可以分别将每个分组的内容提取出来

In [96]:
datepat = re.compile(r'(\d+)/(\d+)/(\d+)')
m = datepat.match(text1)
print(m.group(0))
print(m.group(1))
print(m.group(2))
print(m.group(3))
print(m.groups())
month, day, year = m.groups()


11/27/2012
11
27
2012
('11', '27', '2012')


`findall()` 方法会搜索文本并以列表形式返回所有的匹配。 如果你想以迭代方式返回匹配，可以使用 `finditer()` 方法来代替

In [97]:
for m in datepat.finditer(text):
    print(m.groups())

('11', '27', '2012')


值得注意的是`re.match`仅仅检查字符串开始部分不能精确匹配

In [105]:
if datepat.match('11/27/2012abcdef'):
    print('y')
else:
    print('n')

if re.match(r'\d+/\d+/\d+$','11/27/2012abcdef'):
    print('y')
else:
    print('n')

y
n


## 2.5字符串搜索和替换