In [1]:
import numpy as np
import pandas as pd

In [2]:
# NumPy没有为字符串数组提供简单的接口，需要for循环来操作
data = ['Peter','paul','MARY','gUIDo']
[s.capitalize() for s in data]

['Peter', 'Paul', 'Mary', 'Guido']

In [3]:
# 但是如果出现了缺失值，就会引发异常
data = ['peter','Paul',None,'MARY','gUIDo']
[s.capitalize() for s in data]

AttributeError: 'NoneType' object has no attribute 'capitalize'

In [5]:
# Pandas 处理会跳过缺失值
names = pd.Series(data)
names

0    peter
1     Paul
2     None
3     MARY
4    gUIDo
dtype: object

In [6]:
names.str.capitalize()     # 在str后用Tab，可以看到Pandas支持的所有向量化字符串的方法

0    Peter
1     Paul
2     None
3     Mary
4    Guido
dtype: object

In [7]:
# Pandas字符串方法列表

In [8]:
# 1，与Python字符串方法相似的方法（略）
# 注意它们不同的返回值类型

In [9]:
# 2, 使用正则表达式的方法
monte = pd.Series(['Graham Chapman','John Cleese','Terry Gilliam','Eric Idle','Terry Jones','Michael Palin'])
# 提取每个人的名字
monte.str.extract('([A-Za-z]+)')



0     Graham
1       John
2      Terry
3       Eric
4      Terry
5    Michael
dtype: object

In [10]:
# 3，其他字符串方法
# slice()切片，与Python标准切片一致
monte.str[0:3]

0    Gra
1    Joh
2    Ter
3    Eri
4    Ter
5    Mic
dtype: object

In [11]:
# get()和slice()还可以在split()之后使用
monte.str.split().str.get(-1)            # 获取姓名的姓

0    Chapman
1     Cleese
2    Gilliam
3       Idle
4      Jones
5      Palin
dtype: object

In [12]:
# 指标变量 get_dummies()
# 含有若干已被编码的指标，如A=出生在美国，B=出生在英国，C=喜欢奶酪，D=喜欢巧克力
full_monte = pd.DataFrame({'name':monte,'info':['B|C|D','B|D','A|C','B|D','B|C','A|C|D']})
full_monte

Unnamed: 0,info,name
0,B|C|D,Graham Chapman
1,B|D,John Cleese
2,A|C,Terry Gilliam
3,B|D,Eric Idle
4,B|C,Terry Jones
5,A|C|D,Michael Palin


In [13]:
full_monte['info'].str.get_dummies('|')

Unnamed: 0,A,B,C,D
0,0,1,1,1
1,0,1,0,1
2,1,0,1,0
3,0,1,0,1
4,0,1,1,0
5,1,0,1,1


In [14]:
# ------ 案例：食谱数据库 ------