In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
val = 'a,b,  guido'
val.split(',')  # 将字符串拆分为数组

['a', 'b', '  guido']

In [3]:
pieces = [x.strip() for x in val.split(',')]
pieces

['a', 'b', 'guido']

In [4]:
'::'.join(pieces)  # 将数组拼接为字符串

'a::b::guido'

In [5]:
val = 'a,b,  guido'
'guido' in val          # True
val.index(',')          # 1，如果找不到，抛异常
val.find(',')           # 1，如果找不到，返回-1
val.count(',')          # 2
val.replace(',', '::')  # 'a::b::  guido'

'a::b::  guido'

In [6]:
# Python内置的字符串方法
# 方法          说明
# count       返回子串在字符串中的出现次数（非重叠）
# endswith    如果字符串以某个后缀结尾，则返回True
# startswith  如果字符串以以某个前缀开头，则返回True
# join        将字符串用作连接其他字符串序列的分隔符
# index       如果在字符串中找到子串，则返回子串第一个字符所在的位置。如果没有找到，则引发ValueError。
# find        如果在字符串中找到子串，则返回第一个发现的子串的第一个字符所在的位置。如果没有找到，则返回-1
# rfind       如果在字符串中找到子串，则返回最后一个发现的子串的第一个字符所在的位置。如果没有找到，则返回-1
# replace     用另一个字符串替换指定子串
# strip、rstrip, lstrip  去除空白符（包括换行符）。相当于对各个元素执行x.strip()
# split       通过指定的分隔符将字符串拆分为一组子串
# lower、upper           分别将字母字符转换为小写或大写
# casefold    将字符转换为小写，并将任何特定区域的变量字符组合转换成一个通用的可比较形式
# ljust、rjust           用空格（或其他字符）填充字符串的空白侧以返回符合最低宽度的字符串

In [7]:
import re

text = "foo    bar\t baz  \tqux"
re.split('\s+', text)  # 正则表达式拆分

['foo', 'bar', 'baz', 'qux']

In [8]:
text = "foo    bar\t baz  \tqux"
regex = re.compile('\s+')  # 如果需要将相同的正则表达式应用到多个字符串，可以这样先自定编译一个可复用的正则表达式对象
regex.findall(text)  # 返回字符串中所有匹配到的项

['    ', '\t ', '  \t']

In [9]:
text = """Dave dave@google.com
Steve steve@gmail.com
Rob rob@gmail.com
Ryan ryan@yahoo.com
"""
pattern = r'[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}'

regex = re.compile(pattern, flags=re.IGNORECASE)

regex.findall(text)  # findall()返回字符串中所有匹配到的项

['dave@google.com', 'steve@gmail.com', 'rob@gmail.com', 'ryan@yahoo.com']

In [10]:
regex.search(text)  # search()只返回字符串中匹配到的第一项

<re.Match object; span=(5, 20), match='dave@google.com'>

In [11]:
regex.match(text)  # match()只从字符串的开头开始匹配

In [12]:
regex.sub('READCTED', text)  # sub()进行替换

'Dave READCTED\nSteve READCTED\nRob READCTED\nRyan READCTED\n'

In [13]:
pattern = r'([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\.([A-Z]{2,4})'
regex = re.compile(pattern, flags=re.IGNORECASE)

m = regex.match('wesm@bright.net')
m.groups()

('wesm', 'bright', 'net')

In [14]:
regex.findall(text)

[('dave', 'google', 'com'),
 ('steve', 'gmail', 'com'),
 ('rob', 'gmail', 'com'),
 ('ryan', 'yahoo', 'com')]

In [15]:
print(regex.sub(r'Username: \1, Domain: \2, Suffix: \3', text))

Dave Username: dave, Domain: google, Suffix: com
Steve Username: steve, Domain: gmail, Suffix: com
Rob Username: rob, Domain: gmail, Suffix: com
Ryan Username: ryan, Domain: yahoo, Suffix: com



In [16]:
# 正则表达式方法
# 方法                说明
# findall finditer  返回字符串中所有的非重叠匹配模式。findall返回的是由所有模式组成的列表，而finditer则通过一个迭代器逐个返回
# match             从字符串起始位置匹配模式，还可以对模式各部分进行分组。如果匹配到模式，则返回一个匹配项对象，否则返回None
# search            扫描整个字符串以匹配模式。如果找到则返回一个匹配项对象。跟match不同，其匹配项可以位于字符串的任意位置，
#                   而不仅仅是起始处
# split             根据找到的模式将字符串拆分为数段
# sub、subn         将字符串中所有的（sub）或前n个（subn）模式替换为指定表达式译注12。在替换字符串中可以通过\1、\2等符号表示各分组项