In [5]:
"""字符串属于可迭代对象

可以使用unicodedata.normalize()对字符进行标准化处理
字符标准化对需要以一致的方式处理Unicode文本的程序非常重要

对文本字符串的大部分操作也适用于字节字符串
"""

msg_str = 'hello world'
print([c for c in msg_str])

['h', 'e', 'l', 'l', 'o', ' ', 'w', 'o', 'r', 'l', 'd']


In [6]:
"""字符串分割

简单字符串分割：str.split()
复杂字符串分割：re.split()
"""

date_str = '2020-06-01'
print(str.split(date_str, '-'))

import re
msg_str = 'hello, world; are you, ok'
print(re.split(r'[;,\s]\s*', msg_str))

['2020', '06', '01']
['hello', 'world', 'are', 'you', 'ok']


In [13]:
"""字符串匹配"""

# 开头和结尾匹配
file_name = 'hello_world.py'
print(file_name.startswith('hello'))
print(file_name.endswith('py'))

# 多项匹配，将匹配项放入元祖
files = ['test.py', 'readme.md', 'test.c', 'hello_world.py', 'test.h']
print([f for f in files if f.startswith(('test', 'hello'))])
print([f for f in files if f.endswith(('py', 'md'))])
print(any(f.startswith('test') and f.endswith(('py', 'c')) for f in files))
print([f for f in files if f.startswith('test') and f.endswith(('py', 'c'))])

# 用正则进行匹配
import re
url = 'http://www.abc.com'
print(re.match('http:|https:|ftp:', url))

True
True
['test.py', 'test.c', 'hello_world.py', 'test.h']
['test.py', 'readme.md', 'hello_world.py']
True
['test.py', 'test.c']
<re.Match object; span=(0, 5), match='http:'>


In [19]:
"""用通配符匹配字符串

*可以占位多个字符，?只能占位一个字符
fnmatch()函数匹配能力介于简单的字符串方法和正则方法之间
fnmatch()和fnmatchcase()并不局限于做文件名的匹配
"""

from fnmatch import fnmatch, fnmatchcase

print(fnmatch('test.py', '*.py'))
print(fnmatch('data1.py', 'data?.py'))

files = ['test.py', 'data1.csv', 'readme.md', 'data2.csv', 'data3.csv', 'hello.java']
print([f for f in files if fnmatch(f, 'data*.csv')])

# fnmatchcase()严格区分大小写，fnmatch()则根据当前系统规则
print(fnmatch('test.py', '*.PY'))
print(fnmatchcase('test.py', '*.PY'))

True
True
['data1.csv', 'data2.csv', 'data3.csv']
True
False


In [4]:
"""字符串模式匹配

首先使用re.compile()编译正则表达式
然后使用以下方法进行匹配：
match()从字符串开头进行匹配
findall()匹配全部内容
finditer()返回可迭代结果
"""

import re

date_str = 'Today is 2020/6/3, and tomorrow is 2020/6/4.'
date_pat = re.compile(r'\d+/\d+/\d+')

print(date_pat.match(date_str))
print(date_pat.findall(date_str))

for d in date_pat.finditer(date_str):
    print(d.group())

None
['2020/6/3', '2020/6/4']
2020/6/3
2020/6/4


In [9]:
"""字符串搜索和替换

简单的字面模式，直接使用str.replace()方法即可

对于较复杂的模式，可以使用re.sub()方法
第一个参数是被匹配的模式，第二个参数是替换模式
"""

hello_msg = 'Hello Kobe, Hello James, Hello Jordan'
print(hello_msg.replace('Hello', 'Hi'))

import re
date_str = 'Today is 3/6/2020, and tomorrow is 4/6/2020'
# 反斜杠数字（如\3）指向前面模式的捕获组号
print(re.sub(r'(\d+)/(\d+)/(\d+)', r'\3-\2-\1', date_str))

# 需要多次替换时，可以先编译来提高性能
date_pat = re.compile(r'(\d+)/(\d+)/(\d+)')
print(date_pat.sub(r'\3-\2-\1', date_str))

# 对于更加复杂的替换，可以传递一个回调函数参数
# 使用re.subn()方法来获取替换次数
new_date_str, replace_num = date_pat.subn(r'\3-\2-\1', date_str)
print(new_date_str)
print(replace_num)

Hi Kobe, Hi James, Hi Jordan
Today is 2020-6-3, and tomorrow is 2020-6-4
Today is 2020-6-3, and tomorrow is 2020-6-4
Today is 2020-6-3, and tomorrow is 2020-6-4
2


In [14]:
"""re模块

使用re.IGNORECASE标志参数忽略大小写
"""

import re

txt = 'UPPER PYTHON, lower python, Mixed Python'
print(re.findall('python', txt, flags=re.IGNORECASE))
print(re.sub('python', 'snake', txt, flags=re.IGNORECASE))


# 替换字符串不会自动跟匹配字符串的大小写保持一致
# 定义一个辅助函数，该函数返回一个回调函数
def matchcase(word):
    def replace(m):
        t = m.group()
        if t.isupper():
            return word.upper()
        elif t.islower():
            return word.lower()
        elif t[0].isupper():
            return word.capitalize()
        else:
            return word
        
    return replace

print(re.sub('python', matchcase('snake'), txt, flags=re.IGNORECASE))

['PYTHON', 'python', 'Python']
UPPER snake, lower snake, Mixed snake
UPPER SNAKE, lower snake, Mixed Snake


In [15]:
"""最短匹配模式

.点操作符可以匹配除换行符以外的所有字符
"""

import re

txt = 'Python says "YES", and PHP says "NO"'

pat1 = re.compile(r'\"(.*)\"')
pat2 = re.compile(r'\"(.*?)\"')

print(pat1.findall(txt))
print(pat2.findall(txt))

['YES", and PHP says "NO']
['YES', 'NO']
