In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Pandas 文本处理

Pandas的文本类型一般为 **object**, 文本的操作主要是通过 **访问器str** 来实现的，功能十分强大，但使用前也需要注意以下几点：

1. 访问器只能对 **Series数据结构** 使用。 除了常规列变量 df.col 以外，也可以对索引类型 df.Index 和 df.columns 使用
2. 确保访问的对象类型是字符串 str 类型。 如果不是需要先 **astype(str)** 转换类型，否则会报错
3. 访问器可以多个连接使用。 如 **df.col.str.lower().str.upper()**，这个和 Dataframe 中的一行操作是一个原理

接下来介绍文本处理各种操作，共8个场景：

**1 文本格式**
* 大小写变换：Series.str.lower()等
* 格式判断：Series.str.isalpha()等
* 对齐：Series.str.center()等
* 计数和编码：Series.str.count()等

**2 文本拆分**
* Series.str.split()

**3 文本替换**
* 常用替换：Series.str.replace()
* 切片替换：Series.str.slice_replace()
* 重复替换：Series.str.repeat()   

**4 文本拼接**
* Series.str.cat()    

**5 文本提取**
* Series.str.extract()   

**6 文本查询**
* Series.str.find()
* Series.str.findall()   

**7 文本包含**
* Series.str.contains()    
    
**8 文本的哑变量**
* Series.str.get_dummieis()
* 或者 pd.get_dummies(Series)

In [2]:
# 构建一份数据，用于Pandas的文本处理演示
df = pd.DataFrame({'name':['jordon', 'MIKE', 'Kelvin', 'xiaoLi', 'qiqi','Amei'],
                   'Age':[18, 30, 45, 23, 45, 62],
                   'level':['high','Low','M','L','middle',np.nan],
                   'Email':['jordon@sohu.com','Mike@126.cn','KelvinChai@gmail.com','xiaoli@163.com',np.nan,'amei@qq.com']})
df

Unnamed: 0,name,Age,level,Email
0,jordon,18,high,jordon@sohu.com
1,MIKE,30,Low,Mike@126.cn
2,Kelvin,45,M,KelvinChai@gmail.com
3,xiaoLi,23,L,xiaoli@163.com
4,qiqi,45,middle,
5,Amei,62,,amei@qq.com


## 1 文本格式

* 大小写变换：Series.str.lower()等
* 格式判断：Series.str.isalpha()等
* 对齐： Series.str.center()等
* 计数和编码：Series.str.count()等

### 1.1 大小写变换
* Series.str.lower()：字符全部变成小写
* Series.str.upper()：字符全部变成大写
* Series.str.title()：每个单词的首字母大写
* Series.str.capitalize()：字符串第一个字母大写
* Series.str.swapcase()：大小写字母转换

In [3]:
# 将所有列的名字变成小写
df.columns.str.lower()

Index(['name', 'age', 'level', 'email'], dtype='object')

### 1.2 格式判断

下面均为判断操作，返回值为布尔值。
* Series.str.isalpha() : 是否都为字母
* Series.str.isnumeric() : 是否都为数字0-9
* Series.str.isalnum() : 是否由字母和数字组成
* Series.str.isupper() : 是否为大写
* Series.str.islower() : 是否为小写
* Series.str.isdigit() : 是否为数字

In [4]:
# 检测邮箱列是否为小写
df['Email'].str.islower()

0     True
1    False
2    False
3     True
4      NaN
5     True
Name: Email, dtype: object

### 1.3 对齐

* Series.str.center(8, fillchar='*')
    * 居中对齐，宽度为8，其余用 '*’ 填充
    
    
* Series.str.ljust(8, fillchar='*')
    * 左对齐，宽度为8，其余用 '*' 填充
    
    
* Series.str.rjust(8, fillchar='*')
    * 右对齐，宽度为8，其余用 '*’填充
    
    
* Series.str.pad(width=8, side='both',fillchar='*')
    * 自定义对齐方式，参数可调整宽度、对齐方向、填充字符

In [5]:
# 使得名字列居中对齐
df['name'].str.center(8, fillchar='*')

0    *jordon*
1    **MIKE**
2    *Kelvin*
3    *xiaoLi*
4    **qiqi**
5    **Amei**
Name: name, dtype: object

### 1.4 计数和编码

* Series.str.count('b')
    * 字符串中，指定字母‘b’的数量
    
    
* Series.str.len() 
    * 字符串长度
    
    
* Series.str.encode('utf-8') 
    * 字符编码
    
    
* Series.str.decode('utf-8') 
    * 字符解码

In [6]:
# 检测邮箱出现字母'o'的数量
df['Email'].str.count('o')

0    4.0
1    0.0
2    1.0
3    2.0
4    NaN
5    1.0
Name: Email, dtype: float64

## 2 文本拆分

Series.str.split: 可以某个指定的字符作为分割点拆分文本。
* expand: 可以让拆分的内容展开，形成单独的列

In [7]:
# 将 ‘email’变量按照 ‘@’进行拆分
df['Email'].str.split('@')

0         [jordon, sohu.com]
1             [Mike, 126.cn]
2    [KelvinChai, gmail.com]
3          [xiaoli, 163.com]
4                        NaN
5             [amei, qq.com]
Name: Email, dtype: object

In [8]:
# expand可以将拆分的内容扩展成单独一列
df['Email'].str.split('@',expand=True)

Unnamed: 0,0,1
0,jordon,sohu.com
1,Mike,126.cn
2,KelvinChai,gmail.com
3,xiaoli,163.com
4,,
5,amei,qq.com


In [9]:
# 更复杂的可以借助正则表达式，比如根据 '@'和 '.' 进行拆分
df['Email'].str.split('\@|\.',expand=True)

Unnamed: 0,0,1,2
0,jordon,sohu,com
1,Mike,126,cn
2,KelvinChai,gmail,com
3,xiaoli,163,com
4,,,
5,amei,qq,com


## 3 文本替换

* 常用替换：Series.str.replace()
* 切片替换：Series.str.slice_replace()
* 重复替换：Series.str.repeat()

### 3.1 replace替换

replace方法是最常用的替换方法，参数如下：
* pal：原字符串，也可以为正则表达式
* repl：新内容字符串，也可以是一个被调用的函数
* regex：用于设置是否支持正则，默认是True


In [10]:
# 将email种的com都替换为cn
df['Email'].str.replace('com','cn')

0         jordon@sohu.cn
1            Mike@126.cn
2    KelvinChai@gmail.cn
3          xiaoli@163.cn
4                    NaN
5             amei@qq.cn
Name: Email, dtype: object

* 更复杂一点的，比如将旧内容写成正则表达式

In [11]:
# 将 @ 之前的名字都替换成xxx
df['Email'].str.replace("(.*?)@","xxx@")

0     xxx@sohu.com
1       xxx@126.cn
2    xxx@gmail.com
3      xxx@163.com
4              NaN
5       xxx@qq.com
Name: Email, dtype: object

* 或者将新内容写成被调用的函数

In [12]:
# 将正则匹配到的内容进行大写操作
df.Email.str.replace("(.*?)@", lambda x:x.group().upper())

0         JORDON@sohu.com
1             MIKE@126.cn
2    KELVINCHAI@gmail.com
3          XIAOLI@163.com
4                     NaN
5             AMEI@qq.com
Name: Email, dtype: object

### 3.2 切片替换

Series.str.slice_replace(): 通过切片的方式实现替换，通过切片可以保留或者删除指定的字符，参数如下:

* start：起始位置
* stop：结束位置
* repl：要替换用的新内容

对 start 切片位置之后和 stop 切片位置之前进行替换，如果没有设置 stop，那么 start 之后全部进行替换，同理如果没设置 start ，那么 stop 之前全部进行替换。

In [13]:
# 将第0位到底2位的字符替换成 'XXX'
df['Email'].str.slice_replace(start=0,stop=2,repl='XXX')

0         XXXrdon@sohu.com
1             XXXke@126.cn
2    XXXlvinChai@gmail.com
3          XXXaoli@163.com
4                      NaN
5             XXXei@qq.com
Name: Email, dtype: object

### 3.3 重复替换
Series.str.repeat(): 实现重复替换的功能
* repeats：设置重复的次数

In [14]:
# 将‘name’列的内容重复2次
df['name'].str.repeat(repeats=2)

0    jordonjordon
1        MIKEMIKE
2    KelvinKelvin
3    xiaoLixiaoLi
4        qiqiqiqi
5        AmeiAmei
Name: name, dtype: object

## 4 文本拼接

Series.str.cat(): 实现文本拼接
* others: 需要拼接的序列，如果为None不设置，就会自动把当前序列拼接为一个字符串
* sep: 拼接用的分隔符
* na_rep: 默认不对空值处理，这里设置空值的替换字符。
* join: 拼接的方向，包括left, right, outer, inner，默认为left

### 4.1 将单个序列拼接为一个完整字符串

如上所述，当没有设置ohters参数时，该方法会将当前序列合并为一个新的字符串。

In [15]:
# 把‘level’列的值进行拼接
df['level'].str.cat()

'highLowMLmiddle'

In [16]:
# 设置 'sep' 分隔符
df['level'].str.cat(sep= '-')

'high-Low-M-L-middle'

In [17]:
# 将缺失值赋值为`*`
df['level'].str.cat(sep= '-', na_rep='*')

'high-Low-M-L-middle-*'

### 4.2 拼接多个序列为新的序列

In [18]:
# 下面先将name列和*列拼接，再将level列拼接，形成一个新的序列
df['name'].str.cat(['*'] * 6).str.cat(df['level'])

0    jordon*high
1       MIKE*Low
2       Kelvin*M
3       xiaoLi*L
4    qiqi*middle
5            NaN
Name: name, dtype: object

In [19]:
# 也可以直接多列拼接
df['name'].str.cat([df['level'],df['Email']],na_rep='?',sep= '-')

0      jordon-high-jordon@sohu.com
1             MIKE-Low-Mike@126.cn
2    Kelvin-M-KelvinChai@gmail.com
3          xiaoLi-L-xiaoli@163.com
4                    qiqi-middle-?
5               Amei-?-amei@qq.com
Name: name, dtype: object

## 5 文本提取

Series.str.extract(): 实现文本提取
* pat : 通过正则表达式实现一个提取的pattern
* flags : 正则库re中的标识，比如re.IGNORECASE
* expand : 当正则只提取一个内容时，如果expand=True会展开返回一个DataFrame，否则返回一个Series

In [20]:
# 提取email中的两个内容
df['Email'].str.extract(pat='(.*?)@(.*).com')

Unnamed: 0,0,1
0,jordon,sohu
1,,
2,KelvinChai,gmail
3,xiaoli,163
4,,
5,amei,qq


## 6 文本查询

通过 find 和 findall 两个方法实现。

1. find 参数很简单，直接输入要查询的字符串即可，返回在原字符串中的位置，没查询到结果返回-1。


2. findall参数：
    * pat: 要查找的内容，支持正则表达式
    * flag: 正则库re中的标识，比如 re.IGNORECASE

findall 和 find 的区别是支持正则表达式，并返回具体内容。这个方法有点类似 extract ，也可以用于提取，但不如 extract 方便。

In [21]:
# 在数据中加一列，显示 ‘@’的位置
df['@position'] = df['Email'].str.find('@')
df[['Email','@position']]

Unnamed: 0,Email,@position
0,jordon@sohu.com,6.0
1,Mike@126.cn,4.0
2,KelvinChai@gmail.com,10.0
3,xiaoli@163.com,6.0
4,,
5,amei@qq.com,4.0


In [22]:
# 使用正则表达式查找内容
df['Email'].str.findall("(.*?)@(.*).com")

0         [(jordon, sohu)]
1                       []
2    [(KelvinChai, gmail)]
3          [(xiaoli, 163)]
4                      NaN
5             [(amei, qq)]
Name: Email, dtype: object

## 7 文本包含

Series.str.contains(): 实现文本包含功能，返回布尔值，一般和loc查询功能配合使用，参数：

* pat: 匹配字符串，支持正则表达式
* case: 是否区分大小写，True表示区别
* flags: 正则库re中的标识，比如re.IGNORECASE
* na: 对缺失值填充
* regex: 是否支持正则，默认True支持

In [23]:
# 判断‘Email’列是否包含‘com’
df['Email'].str.contains('com',na='*')

0     True
1    False
2     True
3     True
4        *
5     True
Name: Email, dtype: object

In [24]:
# 筛选出‘Email’列中包含‘com’中的数据
df.loc[df['Email'].str.contains('com', na=False)]

Unnamed: 0,name,Age,level,Email,@position
0,jordon,18,high,jordon@sohu.com,6.0
2,Kelvin,45,M,KelvinChai@gmail.com,10.0
3,xiaoLi,23,L,xiaoli@163.com,6.0
5,Amei,62,,amei@qq.com,4.0


* 这里需要注意一下，如果和loc配合使用，注意不能有缺失值，否则会报错。可以通过设置na=False忽略缺失值完成查询。

## 8 文本哑变量

Series.str.get_dummieis(): 实现 one-hot编码（哑变量），在特征工程中经常使用。
* 或者 pd.get_dummies(Series)

In [25]:
# 对‘name’列实现哑变量
df['name'].str.get_dummies()

Unnamed: 0,Amei,Kelvin,MIKE,jordon,qiqi,xiaoLi
0,0,0,0,1,0,0
1,0,0,1,0,0,0
2,0,1,0,0,0,0
3,0,0,0,0,0,1
4,0,0,0,0,1,0
5,1,0,0,0,0,0


In [26]:
# 也可使用pd.get_dummies()进行实现
pd.get_dummies(df['name'])

Unnamed: 0,Amei,Kelvin,MIKE,jordon,qiqi,xiaoLi
0,0,0,0,1,0,0
1,0,0,1,0,0,0
2,0,1,0,0,0,0
3,0,0,0,0,0,1
4,0,0,0,0,1,0
5,1,0,0,0,0,0
