## 1. 字符串对象方法
- `y.split(x)`：以x将y拆分，返回列表
- `y.strip()`：去除字符串中的空白符（包括换行符），返回新字符串
- `x.join(list)`：将list中的元素组合成一个字符串，每个元素之间使用x分隔
- `x in y`：判断x是否在y中，返回布尔值
- `y.index(x)`：返回x在y中第一次出现的位置，若y中不存在x，抛出`ValueError`异常
- `y.find(x)`：返回x在y中第一次出现的位置，若y中不存在x，返回-1
- `y.count(x)`：返回x在y中出现的次数
- `y.replace(x,z)`：将y中的x替换为z，若z是空字符串则移除x，返回新字符串

In [1]:
import numpy as np
import pandas as pd

In [2]:
y = 'China,USA, UK'
y.split(',')  # 拆分字符串

['China', 'USA', ' UK']

In [3]:
countries = [x.strip() for x in y.split(',')]  # 去除空白符
countries

['China', 'USA', 'UK']

In [4]:
'::'.join(countries)  # 使用指定分隔符将列表元素组合成字符串

'China::USA::UK'

In [5]:
'UK' in y  # 判断字符串是否在另外个字符串中

True

In [6]:
'“S”出现的位置：'+str(y.index('S'))+',“K”出现的位置：' + \
    str(y.find('K'))+'，“U”出现次数：'+str(y.count('U'))

'“S”出现的位置：7,“K”出现的位置：12，“U”出现次数：2'

In [7]:
y.replace(',', '::')  # 替换指定内容

'China::USA:: UK'

In [8]:
y.replace(' ', '')  # 替换内容是空字符串相当于删除要替换的内容

'China,USA,UK'

![title](img/字符串对象方法.png)

## 2. 正则表达式
使用正则表达式调用字符串方法处理字符串时，一般要同时传入正则表达式和需处理的字符串，如`re.split([正则],text)`  
- `compile([正则])`：可以自己编译一个包含了正则表达式的可重用的regex对象，下次需要使用同样正则表达式调用其他方法的时候，直接使用编译后的对象进行调用，无需再次传入正则表达式。在需要大量调用同样正则表达式的情况下，建议先编译正则表达式，以节省CPU时间。
- `findall([正则],text)`：查找text里的所有匹配内容
- `search([正则],text)`：在text里查找第一个匹配的字符串，并返回一个匹配对象，包含匹配字符串的起始和结束位置，可以对text使用起始和结束位置进行切片获取匹配的结果
- `match([正则],text)`：从text起始位置开始匹配
- `sub([正则],repl,text)`：将text里匹配到的内容替换为repl字符串，返回新字符串

In [9]:
import re

In [10]:
text = 'China   USA  \t UK \t  Japen'
re.split('\s+', text)  # 运行时先编译正则表达式，然后再调用split方法

['China', 'USA', 'UK', 'Japen']

In [11]:
regex = re.compile('\s+')  # 将正则表达式编译进regex对象中
regex.split(text)  # 使用编译过的对象时，自动代入正则表达式

['China', 'USA', 'UK', 'Japen']

In [12]:
text = """Dave dave@google.com
Steve steve@gmail.com
Rob rob@gmail.com
Ryan ryan@yahoo.com
"""
pattern = r'[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}'  # 电子邮件格式的正则表达式

# re.IGNORECASE忽略大小写
regex = re.compile(pattern, flags=re.IGNORECASE)  # 编译正则表达式

In [13]:
regex.findall(text)

['dave@google.com', 'steve@gmail.com', 'rob@gmail.com', 'ryan@yahoo.com']

In [14]:
m = regex.search(text)
m  # search()找到第一个匹配内容并返回匹配对象，包含了匹配结果的起始和结束位置

<re.Match object; span=(5, 20), match='dave@google.com'>

In [15]:
text[m.start():m.end()]  # 切片方式获取匹配内容

'dave@google.com'

In [16]:
print(regex.match(text))  # match()只从字符串起始位置开始匹配，因此匹配不到结果

None


In [17]:
print(regex.sub('电子邮件', text))  # sub()替换匹配到的内容

Dave 电子邮件
Steve 电子邮件
Rob 电子邮件
Ryan 电子邮件



**分段模式**  
如果希望将正则表达式匹配的结果分段，可以在正则表达式里将需要分段的部分用圆括号包起来
- 匹配得到的是一个匹配对象，可使用该对象的`groups()`方法返回各分段组成的元组
- `findall()`返回一个元组列表
- `sub()`能通过诸如\1、\2之类的特殊符号访问分段匹配结果中的各分段

In [18]:
# 下面将邮件地址的用户名、域名和后缀所代表的正则表达式用圆括号包起来，实现分段模式
pattern = r'([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\.([A-Z]{2,4})'
regex = re.compile(pattern, flags=re.IGNORECASE)

In [19]:
m = regex.match('wesm@bright.net')  # 分段匹配结果是个匹配对象
m.groups()  # 使用groups()返回分段结果组成的元组

('wesm', 'bright', 'net')

In [20]:
regex.findall(text)  # findall()分段模式下返回元组列表

[('dave', 'google', 'com'),
 ('steve', 'gmail', 'com'),
 ('rob', 'gmail', 'com'),
 ('ryan', 'yahoo', 'com')]

In [21]:
# sub()使用\1,\2访问各分段
print(regex.sub(r'Username: \1, Domain: \2, Suffix: \3', text))

Dave Username: dave, Domain: google, Suffix: com
Steve Username: steve, Domain: gmail, Suffix: com
Rob Username: rob, Domain: gmail, Suffix: com
Ryan Username: ryan, Domain: yahoo, Suffix: com



![title](img/正则方法.png)

## 3. 矢量化数据中的字符串处理
经常会遇到需要对矢量化数据如DataFrame或Series中的字符串进行处理，比如规整化、缺失数据处理等。一般情况下，我们可以使用`data.map()`方法，传入一个字符串处理函数或者匿名函数来处理每个元素，但如果存在NaN值则会报错。这时我们可以使用Series的str属性来访问这些方法，并会跳过NaN值。对于元素内容的获取可以使用`str.get()`或`str[]`方法来获取，`str[]`还可以进行切片。

In [22]:
data = {'Dave': 'dave@google.com', 'Steve': 'steve@gmail.com',
        'Rob': 'rob@gmail.com', 'Wes': np.nan}
data = pd.Series(data)
data

Dave     dave@google.com
Steve    steve@gmail.com
Rob        rob@gmail.com
Wes                  NaN
dtype: object

In [23]:
# 要查找包含‘gmail’字符串内容
# 如果使用data.map(lambda x:'gmail' in x)，会因为存在NaN而报错
# 使用str.contains可以跳过NaN
data.str.contains('gmail')

Dave     False
Steve     True
Rob       True
Wes        NaN
dtype: object

In [24]:
# 把所有内容变成大写
# data.map(str.upper)会抛出TypeError错误
# 使用str属性调用upper方法可以跳过NaN
data.str.upper()

Dave     DAVE@GOOGLE.COM
Steve    STEVE@GMAIL.COM
Rob        ROB@GMAIL.COM
Wes                  NaN
dtype: object

In [25]:
# 正则表达式的方法同样适用
data.str.findall(pattern, flags=re.IGNORECASE)

Dave     [(dave, google, com)]
Steve    [(steve, gmail, com)]
Rob        [(rob, gmail, com)]
Wes                        NaN
dtype: object

In [26]:
matches = data.str.match(pattern, flags=re.IGNORECASE)
matches

Dave     True
Steve    True
Rob      True
Wes       NaN
dtype: object

In [27]:
# 使用字符串的索引号获取内容
data.str.get(1)

Dave       a
Steve      t
Rob        o
Wes      NaN
dtype: object

In [28]:
# str[]可以切片
data.str[-7:]

Dave     gle.com
Steve    ail.com
Rob      ail.com
Wes          NaN
dtype: object

**pandas字符串方法**
![title](img/矢量化字符串操作.png)