Pandas 提供了一系列向量化字符串操作（vectorized string operation），它们都是在处理（清洗）现实工作中的数据时不可或缺的功能。

# 1-Pandas字符串操作简介

In [1]:
import numpy as np

# 简便快速地对多个数组元素执行运算操作
x = np.array([2,3,5,7,11,13])
x * 2

array([ 4,  6, 10, 14, 22, 26])

向量化操作简化了纯数值的数组操作语法：不需要再担心数组的长度或维度，只需要关心需要的操作。

然而，由于 NumPy 并没有为字符串数组提供简单的接口，因此需要通过繁琐的 for 循环来解决问题。

In [2]:
# 对字符串使用循环解决问题
data = ['peter', 'Paul', 'MARY', 'gUIDO']
[s.capitalize() for s in data]

['Peter', 'Paul', 'Mary', 'Guido']

In [3]:
# 但是假如数据中出现了缺失值，那么这样做就会引起异常
data = ['peter', 'Paul', None, 'MARY', 'gUIDO']
[s.capitalize() for s in data]

AttributeError: 'NoneType' object has no attribute 'capitalize'

Pandas 为包含字符串的 Series 和 Index 对象提供的 str 属性，

它既可以满足向量化字符串操作的需求，又可以正确地处理缺失值。

In [4]:
import pandas as pd

# 利用前面的data创建一个 Pandas 的 Series
names = pd.Series(data)
names

0    peter
1     Paul
2     None
3     MARY
4    gUIDO
dtype: object

In [5]:
# 直接调用转换大写方法 capitalize() 将所有的字符串变成大写形式，缺失值会被跳过.
names.str.capitalize()

0    Peter
1     Paul
2     None
3     Mary
4    Guido
dtype: object

在 str 属性后面用 Tab 键，可以看到 Pandas 支持的所有向量化字符串方法。

# 2-Pandas 字符串方法列表

In [6]:
# 一些人名
monte = pd.Series(['Graham Chapman', 'John Cleese', 'Terry Gilliam', 
                   'Eric Idle', 'Terry Jones', 'Michael Palin'])

01--与 Python 字符串方法相似的方法

    len()      lower()        translate()    islower()
    ljust()    upper()        startswith()   isupper()
    rjust()    find()         endswith()     isnumeric() 
    center()   rfind()        isalnum()      isdecimal()
    zfill()    index()        isalpha()      split()
    strip()    rindex()       isdigit()      rsplit()
    rstrip()   capitalize()   isspace()      partition() 
    lstrip()   swapcase()     istitle()      rpartition()

需要注意的是，这些方法的返回值不同

In [7]:
# lower() 方法返回 一个字符串 Series
monte.str.lower()

0    graham chapman
1       john cleese
2     terry gilliam
3         eric idle
4       terry jones
5     michael palin
dtype: object

In [8]:
# 有些方法返回数值
monte.str.len()

0    14
1    11
2    13
3     9
4    11
5    13
dtype: int64

In [9]:
# 有些方法返回布尔值：
monte.str.startswith('T')

0    False
1    False
2     True
3    False
4     True
5    False
dtype: bool

In [10]:
# 有些方法返回列表或其他复合值
monte.str.split()

0    [Graham, Chapman]
1       [John, Cleese]
2     [Terry, Gilliam]
3         [Eric, Idle]
4       [Terry, Jones]
5     [Michael, Palin]
dtype: object

02--使用正则表达式的方法
    
    Pandas向量化字符串方法与Python标准库的re模块函数的对应关系
    
    方法        描述
    match()     对每个元素调用 re.match()，返回布尔类型值
    extract()   对每个元素调用 re.match()，返回匹配的字符串组（groups）
    findall()   对每个元素调用 re.findall()
    replace()   用正则模式替换字符串
    contains()  对每个元素调用 re.search()，返回布尔类型值
    count()     计算符合正则模式的字符串的数量
    split()     等价于 str.split()，支持正则表达式
    rsplit()    等价于 str.rsplit()，支持正则表达式

In [11]:
# 提取元素前面的连续字母作为每个人的名字（first name）
monte.str.extract('([A-Za-z]+)')

Unnamed: 0,0
0,Graham
1,John
2,Terry
3,Eric
4,Terry
5,Michael


In [12]:
# 找出所有开头和结尾都是辅音字母的名字
# 用正则表达式中的开始符号（^）与结尾符号（$）来实现
monte.str.findall(r'^[^AEIOU].*[^aeiou]$')

0    [Graham Chapman]
1                  []
2     [Terry Gilliam]
3                  []
4       [Terry Jones]
5     [Michael Palin]
dtype: object

将正则表达式应用到 Series 与 DataFrame 之中，能实现更多的数据分析与清洗方法

03--其他字符串
    
    方法             描述
    get()           获取元素索引位置上的值，索引从 0 开始
    slice()         对元素进行切片取值
    slice_replace() 对元素进行切片替换
    cat()           连接字符串（此功能比较复杂，建议阅读文档）
    repeat()        重复元素
    normalize()     将字符串转换为 Unicode 规范形式
    pad()           在字符串的左边、右边或两边增加空格
    wrap()          将字符串按照指定的宽度换行
    join()          用分隔符连接 Series 的每个元素
    get_dummies()   按照分隔符提取每个元素的 dummy 变量，转换为独热编码的 DataFrame

001--向量化字符串的取值与切片操作
    
    get() 与 slice() 操作可以从每个字符串数组中获取向量化元素。

In [13]:
# 通过 str.slice(0, 3) 获取每个字符串数组的前三个字符
monte.str[0:3]  # 等价于 monte.str.slice(0, 3)

0    Gra
1    Joh
2    Ter
3    Eri
4    Ter
5    Mic
dtype: object

In [14]:
# monte.str.get(i) 与 monte.str[i] 的按索引取值效果类似
monte.str[2]

0    a
1    h
2    r
3    i
4    r
5    c
dtype: object

get() 与 slice() 操作还可以在 split() 操作之后使用.

In [15]:
# 获取每个姓名的姓（last name），可以结合使用 split() 与 get()
monte.str.split().str.get(-1)

0    Chapman
1     Cleese
2    Gilliam
3       Idle
4      Jones
5      Palin
dtype: object

002--指标变量
    
     get_dummies()：
         当数据有一列包含了若干已被编码的指标时，这个方法就能派上用场了。

In [16]:
# 假设有一个包含 了某种编码信息的数据集，
    # 如 A= 出生在美国、B= 出生在英国、 C= 喜欢奶酪、D= 喜欢午餐肉
full_monte = pd.DataFrame({'name':monte,
                           'info':['B|C|D','B|D','A|C','B|D','B|D','B|C|D']})
full_monte

Unnamed: 0,name,info
0,Graham Chapman,B|C|D
1,John Cleese,B|D
2,Terry Gilliam,A|C
3,Eric Idle,B|D
4,Terry Jones,B|D
5,Michael Palin,B|C|D


get_dummies() 方法可以让你快速将这些指标变量分割成一个独热编码的 DataFrame（每个元素都是 0 或 1）

In [17]:
full_monte['info'].str.get_dummies('|')

Unnamed: 0,A,B,C,D
0,0,1,1,1
1,0,1,0,1
2,1,0,1,0
3,0,1,0,1
4,0,1,0,1
5,0,1,1,1
