### 对于需要多种分隔符的字符串，可以基于正则表达式分割

In [2]:
import re
line = 'asdf fjdk; afed, fjek,asdf, foo'
print(re.split(r'[;,\s]\s*', line))

['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']


In [3]:
#如果使用括号来捕获分组，在输出的时候会将分隔符一并输出
print(re.split(r'(;|,|\s)\s*', line))

['asdf', ' ', 'fjdk', ';', 'afed', ',', 'fjek', ',', 'asdf', ',', 'foo']


In [25]:
#基于上面的效果可以实现提取分割符和内容
def values_and_delimiters(line):
    line_split = re.split(r'(;|,|\s)\s*', line)
    values = line_split[::2]
    delimiters = line_split[1::2]
    return {'delimiters':delimiters, 'values':values}

def reconstruct(d_v):
    delimiters = d_v['delimiters']
    values = d_v['values']

    #值是从第一个开始，分隔符从第二个开始，由于最后一个值后面没有对应的分隔符
    #所以values的长度要比delimiters大一，为了保证zip可用，后面嘉盛一个空字符
    delimiters.append('')
    return ''.join(v+d for v,d in zip(values, delimiters))

In [26]:
temp = values_and_delimiters(line)
print(reconstruct(temp))

asdf fjdk;afed,fjek,asdf,foo


In [32]:
#使用非捕获分组可以不显示匹配项 
#(?: ......)
line = 'asdf fjdk; afed, fjek,asdf, foo'
print(re.split(r'(;|,|\s)\s*', line))
print(re.split(r'(?:;|,|\s)\s*', line))

['asdf', ' ', 'fjdk', ';', 'afed', ',', 'fjek', ',', 'asdf', ',', 'foo']
['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']


### 简单的字符串开头结尾匹配，有自带的函数

1. str.startswith()
2. str.endswith()
3. 注意，如果需要加入多种可能，需要把结果转化为 *元组*
4. str.find() 返回第一次发现pattern的index

### 利用fnmatch使用Shell通配符匹配字符串

In [46]:
from fnmatch import fnmatch, fnmatchcase
#fnmatchcase:This is a version of fnmatch() which doesn't case-normalize its arguments.

In [35]:
fnmatch('foo.txt', '*.txt')

True

In [36]:
#对于unix系统由于底层对大小写敏感，这里的结果是False
fnmatch('foo.txt', '*.TXT')
#对于windows则是True

False

### 替换，str.replace() re.sub()

1. re.subn 返回的第二个参数指示匹配成功的次数

### 正则中带上flags
`re.findall('python', text, flags=re.IGNORECASE)`
> 加上flags

In [48]:
text = 'UPPER PYTHON, lower python, Mixed Python'
re.sub('python','snake', text, flags = re.IGNORECASE)

'UPPER snake, lower snake, Mixed snake'

In [50]:
#这里的忽略会导致所有的替换后的字符串和原来的大小写不一致
#加入这样一个回调函数
def matchcase(word):
    def replace(m):
        text = m.group()
        if text.isupper():
            return word.upper()
        elif text.islower():
            return word.lower()
        elif text[0].isupper():
            return word.capitalize()
        else:
            return word
    return replace

re.sub('python', matchcase('snake'), text, flags=re.IGNORECASE)

'UPPER SNAKE, lower snake, Mixed Snake'