# 第9篇：文本数据处理
pandas作为一款强大的数据处理和分析工具，其强大的原因之一就是针对各种常见类型的数据都提供了非常方便的接口，只需要修改指定类型的调用名称，而沿用pandas通用的调用方式，使其具有易学性、易用性、灵活性和可扩展性的特点，这也是为什么pandas如何火爆流行的原因。今天我们学习的就是在工作中最常见的数据类型——文本数据，看看pandas为这种类型的数据提供了哪些方便的功能。

## 第一部分：文本数据类型
object 和 StringDtype 是 Pandas 的两个文本类型，不过作为新的数据类型，官方推荐 StringDtype 的使用。

导入相关包

In [1]:
import pandas as pd
import numpy as np

### object
默认情况下，文本数据会被推断为 object 类型。

In [2]:
pd.Series(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"], name="name")

0      Tom
1      Bob
2     Mary
3    James
4     Andy
5    Alice
Name: name, dtype: object

### string
string 类型需要专门进行指定：

In [3]:
pd.Series(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"], name="name", dtype='string')

0      Tom
1      Bob
2     Mary
3    James
4     Andy
5    Alice
Name: name, dtype: string

In [4]:
pd.Series(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"], name="name", dtype=pd.StringDtype())

0      Tom
1      Bob
2     Mary
3    James
4     Andy
5    Alice
Name: name, dtype: string

### 类型转换

In [5]:
pd.Series(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"]).astype('string')

0      Tom
1      Bob
2     Mary
3    James
4     Andy
5    Alice
dtype: string

In [6]:
pd.Series(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"], name="name", dtype='str').astype('object')

0      Tom
1      Bob
2     Mary
3    James
4     Andy
5    Alice
Name: name, dtype: object

In [7]:
#pd.Series([1,'1.']).astype('string') #报错
#pd.Series([1,2]).astype('string') #报错
#pd.Series([True,False]).astype('string') #报错

当下正确的方法是分两部转换，先转为str型object，在转为string类型：

In [8]:
pd.Series([1,'1.']).astype('str').astype('string')

0     1
1    1.
dtype: string

In [9]:
pd.Series([1,2]).astype('str').astype('string')

0    1
1    2
dtype: string

In [10]:
pd.Series([True,False]).astype('str').astype('string')

0     True
1    False
dtype: string

### 字符操作
Series 和 Index 都用一些字符串处理方法，可以方便地进行操作，这些方法会自动排除丢失值和 NA 值。我们可以通过 str 属性访问它的方法，进行操作。

我们可以使用 .str.<method> 访问器（Accessors）来对内容进行字符操作：

在之前已经了解过，在对 Series 中每个元素处理时，我们可以使用 map 或 apply 方法。比如，我想要将每个城市都转为小写，可以使用如下的方式。

In [11]:
pd.Series(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"]).map(lambda x: x.lower())

0      tom
1      bob
2     mary
3    james
4     andy
5    alice
dtype: object

str属性可以直接用lower方法实现

In [12]:
pd.Series(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"]).str.lower()

0      tom
1      bob
2     mary
3    james
4     andy
5    alice
dtype: object

In [13]:
pd.Series(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"]).map(lambda x: len(x))

0    3
1    3
2    4
3    5
4    4
5    5
dtype: int64

In [14]:
pd.Series(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"]).str.len()

0    3
1    3
2    4
3    5
4    4
5    5
dtype: int64

如果对数据连续进行字符操作，则每个操作都要使用 .str 方法：

In [15]:
pd.Series(data=["Tom ", "B o b", "M ary ", "James ", "A ndy", "A lice"]).str.strip().str.lower().str.replace(' ', '_')

0       tom
1     b_o_b
2     m_ary
3     james
4     a_ndy
5    a_lice
dtype: object

对于返回布尔值的操作可以用到Series和DataFrame布尔查找中进行逻辑筛选。

In [16]:
name = pd.Series(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"])
name[name.str.contains('T')]

0    Tom
dtype: object

### object和string对比
string类型和object不同之处有三： 
- ① 字符存取方法（string accessor methods，如str.count）会返回相应数据的Nullable类型，而object会随缺失值的存在而改变返回类型
- ② 某些Series方法不能在string上使用，例如： Series.str.decode()，因为存储的是字符串而不是字节
- ③ string类型在缺失值存储或运算时，类型会广播为pd.NA，而不是浮点型np.nan

其余全部内容在当前版本下完全一致，但迎合Pandas的发展模式，我们仍然全部用string来操作字符串

In [17]:
pd.Series(data=["Tom", "Bob", None, "James", "Andy", "Alice"]).str.count('A')  # float64

0    0.0
1    0.0
2    NaN
3    0.0
4    1.0
5    1.0
dtype: float64

In [18]:
pd.Series(data=["Tom", "Bob", None, "James", "Andy", "Alice"], name="name", dtype=pd.StringDtype()).str.count('A')  # int64

0       0
1       0
2    <NA>
3       0
4       1
5       1
Name: name, dtype: Int64

In [19]:
pd.Series(data=["Tom", "Bob", None, "James", "Andy", "Alice"]).str.isdigit()

0    False
1    False
2     None
3    False
4    False
5    False
dtype: object

In [20]:
pd.Series(data=["Tom", "Bob", None, "James", "Andy", "Alice"], name="name", dtype=pd.StringDtype()).str.isdigit()

0    False
1    False
2     <NA>
3    False
4    False
5    False
Name: name, dtype: boolean

类似于 Series.str.decode() 在 StringDtype 上不可用，因为 StringArray 只保存字符串，而不是字节。在比较操作中，基于 StringArray 的 arrays.StringArray 和 Series 将返回一个 BooleanDtype 对象。
其余的方法 string 和 object 的操作都相同。

## 第二部分：文本处理方法

这里列出了一些常用的方法摘要。

- cat()   连接字符串
- split() 在分隔符上分割字符串
- rsplit()    从字符串末尾开始分隔字符串
- get()   索引到每个元素（检索第i个元素）
- join()  使用分隔符在系列的每个元素中加入字符串
- get_dummies()   在分隔符上分割字符串，返回虚拟变量的DataFrame
- contains()  如果每个字符串都包含pattern / regex，则返回布尔数组
- replace()   用其他字符串替换pattern / regex的出现
- repeat()    重复值（s.str.repeat(3)等同于x * 3 t2 >）
- pad()   将空格添加到字符串的左侧，右侧或两侧
- center()    相当于str.center
- ljust() 相当于str.ljust
- rjust() 相当于str.rjust
- zfill() 等同于str.zfill
- wrap()  将长长的字符串拆分为长度小于给定宽度的行
- slice() 切分Series中的每个字符串
- slice_replace() 用传递的值替换每个字符串中的切片
- count() 计数模式的发生
- startswith()    相当于每个元素的str.startswith(pat)
- endswith()  相当于每个元素的str.endswith(pat)
- findall()   计算每个字符串的所有模式/正则表达式的列表
- match() 在每个元素上调用re.match，返回匹配的组作为列表
- extract()   在每个元素上调用re.search，为每个元素返回一行DataFrame，为每个正则表达式捕获组返回一列
- extractall()    在每个元素上调用re.findall，为每个匹配返回一行DataFrame，为每个正则表达式捕获组返回一列
- len()   计算字符串长度
- strip() 相当于str.strip
- rstrip()    相当于str.rstrip
- lstrip()    相当于str.lstrip
- partition() 等同于str.partition
- rpartition()    等同于str.rpartition
- lower() 相当于str.lower
- upper() 相当于str.upper
- find()  相当于str.find
- rfind() 相当于str.rfind
- index() 相当于str.index
- rindex()    相当于str.rindex
- capitalize()    相当于str.capitalize
- swapcase()  相当于str.swapcase
- normalize() 返回Unicode标准格式。相当于unicodedata.normalize
- translate() 等同于str.translate
- isalnum()   等同于str.isalnum
- isalpha()   等同于str.isalpha
- isdigit()   相当于str.isdigit
- isspace()   等同于str.isspace
- islower()   相当于str.islower
- isupper()   相当于str.isupper
- istitle()   相当于str.istitle
- isnumeric() 相当于str.isnumeric
- isdecimal() 相当于str.isdecimal

数据准备

In [22]:
data = {
    "name": ["Tom", "Bob", "Mary", "James", "Yafei", "Alice"],
    "city": ["Bei Jing ", "Shang Hai ", "Guang Zhou", "Shen Zhen", "Jin Cheng", "Zhen Zhou"],
    "hobby": ['羽毛球;乒乓球', '棒球;橄榄球', '舞蹈', '慈善;做饭', '篮球;国学;编程', '跑步;篮球'],
    "birth": ["2000-02-10", "1988-10-17", "2000-01-01", "1978-08-08", "2008-08-08", "1988-10-17"]
}
user_info = pd.DataFrame(data=data)
user_info

Unnamed: 0,name,city,hobby,birth
0,Tom,Bei Jing,羽毛球;乒乓球,2000-02-10
1,Bob,Shang Hai,棒球;橄榄球,1988-10-17
2,Mary,Guang Zhou,舞蹈,2000-01-01
3,James,Shen Zhen,慈善;做饭,1978-08-08
4,Yafei,Jin Cheng,篮球;国学;编程,2008-08-08
5,Alice,Zhen Zhou,跑步;篮球,1988-10-17


### 文本分割
对文本的分隔和替换是最常用的文本处理方式。对文本分隔后会生成一个列表，我们对列表进行切片操作，可以找到我们想要的内容，分隔后还可以将分隔内容展开，形成单独的行。

#### str.split

In [23]:
user_info['birth'].str.split('-')

0    [2000, 02, 10]
1    [1988, 10, 17]
2    [2000, 01, 01]
3    [1978, 08, 08]
4    [2008, 08, 08]
5    [1988, 10, 17]
Name: birth, dtype: object

这里需要注意split后的类型是object，因为现在Series中的元素已经不是string，而包含了list，且string类型只能含有字符串
对于str方法可以进行元素的选择，如果该单元格元素是列表，那么str[i]表示取出第i个元素，如果是单个元素，则先把元素转为列表在取出

In [24]:
user_info['birth'].str.split('-').str[0]

0    2000
1    1988
2    2000
3    1978
4    2008
5    1988
Name: birth, dtype: object

In [25]:
user_info['birth'].str.split('-').str.get(1)

0    02
1    10
2    01
3    08
4    08
5    10
Name: birth, dtype: object

In [26]:
user_info['birth'].str.split('-').str[1:3]

0    [02, 10]
1    [10, 17]
2    [01, 01]
3    [08, 08]
4    [08, 08]
5    [10, 17]
Name: birth, dtype: object

**字符展开**  
expand参数控制了是否将列拆开，n参数代表最多分割多少次

In [27]:
user_info['birth'].str.split('-', expand=True)

Unnamed: 0,0,1,2
0,2000,2,10
1,1988,10,17
2,2000,1,1
3,1978,8,8
4,2008,8,8
5,1988,10,17


限制分隔的次数，从左开始，剩余的不分隔

In [28]:
user_info['birth'].str.split('-', n=1)

0    [2000, 02-10]
1    [1988, 10-17]
2    [2000, 01-01]
3    [1978, 08-08]
4    [2008, 08-08]
5    [1988, 10-17]
Name: birth, dtype: object

In [29]:
user_info['birth'].str.split('-', n=1, expand=True)

Unnamed: 0,0,1
0,2000,02-10
1,1988,10-17
2,2000,01-01
3,1978,08-08
4,2008,08-08
5,1988,10-17


**使用正则**  
对于规则比较复杂的，分隔符处可以传入正则表达式：

In [30]:
user_info.city.str.split(f'[A-z]\s[A-z]')

0     [Be, ing ]
1    [Shan, ai ]
2    [Guan, hou]
3     [She, hen]
4     [Ji, heng]
5     [Zhe, hou]
Name: city, dtype: object

#### str.rsplit
rsplit 和 split一样，只不过它是从右边开始分隔，如果没有n参数，rsplit和split的输出是相同的。

In [31]:
user_info['birth'].str.rsplit('-', n=1, expand=True)

Unnamed: 0,0,1
0,2000-02,10
1,1988-10,17
2,2000-01,1
3,1978-08,8
4,2008-08,8
5,1988-10,17


### 文本替换
对数据处理时我们可以使用替换功能剔除我们不想要的，换成想要的内容。这在数据处理中经常使用，因为经过人工整理的数据往往不理想，需要进行替换操作。广义上的替换，就是指str.replace函数的应用，fillna是针对缺失值的替换，之前已经提及。

#### str.replace

In [32]:
user_info['birth'].str.replace('-', '/')

0    2000/02/10
1    1988/10/17
2    2000/01/01
3    1978/08/08
4    2008/08/08
5    1988/10/17
Name: birth, dtype: object

第一个值写r开头的正则表达式，后一个写替换的字符串

In [35]:
user_info['city'].str.replace('\s$|^\s', '', regex=True)

0      Bei Jing
1     Shang Hai
2    Guang Zhou
3     Shen Zhen
4     Jin Cheng
5     Zhen Zhou
Name: city, dtype: object

使用函数

In [37]:
def func(text):
    return text.group(0)[::-1]
    
user_info['city'].str.replace('[A-z]+', func, regex=True)

0     ieB gniJ 
1    gnahS iaH 
2    gnauG uohZ
3     nehS nehZ
4     niJ gnehC
5     nehZ uohZ
Name: city, dtype: object

### 文本拼接

#### str.cat

cat方法对于不同对象的作用结果并不相同，其中的对象包括：单列、双列、多列  
① 对于单个Series而言，就是指所有的元素进行字符合并为一个字符串

In [38]:
user_info.hobby.str.cat()

'羽毛球;乒乓球棒球;橄榄球舞蹈慈善;做饭篮球;国学;编程跑步;篮球'

其中可选sep分隔符参数，和缺失值替代字符na_rep参数,na_rep='*'

In [39]:
user_info.hobby.str.cat(sep=';')

'羽毛球;乒乓球;棒球;橄榄球;舞蹈;慈善;做饭;篮球;国学;编程;跑步;篮球'

② 对于两个Series合并而言，是对应索引的元素进行合并

In [40]:
user_info.hobby.str.cat(user_info.name)

0       羽毛球;乒乓球Tom
1        棒球;橄榄球Bob
2           舞蹈Mary
3       慈善;做饭James
4    篮球;国学;编程Yafei
5       跑步;篮球Alice
Name: hobby, dtype: object

同样也有相应参数

In [41]:
③ 多列拼接

SyntaxError: invalid character in identifier (<ipython-input-41-aa972d0c4536>, line 1)

In [42]:
user_info.hobby.str.cat(user_info[['name', 'city']])

0       羽毛球;乒乓球TomBei Jing 
1       棒球;橄榄球BobShang Hai 
2          舞蹈MaryGuang Zhou
3       慈善;做饭JamesShen Zhen
4    篮球;国学;编程YafeiJin Cheng
5       跑步;篮球AliceZhen Zhou
Name: hobby, dtype: object

④对齐方式

In [43]:
s = pd.Series(['a', 'b', 'c', 'd'], dtype="string")

In [44]:
u = pd.Series(['b', 'd', 'a', 'c'],
              index=[1, 3, 0, 2],
              dtype="string")

In [45]:
# 以左边索的为主
s.str.cat(u)

0    aa
1    bb
2    cc
3    dd
dtype: string

In [46]:
s.str.cat(u, join='left')

0    aa
1    bb
2    cc
3    dd
dtype: string

In [47]:
# 以右边的索引为主
s.str.cat(u, join='right')

1    bb
3    dd
0    aa
2    cc
dtype: string

In [48]:
# 其他
t = pd.Series(['a', 'b', np.nan, 'd'], dtype="string")
s.str.cat(t, join='outer', na_rep='-')

0    aa
1    bb
2    c-
3    dd
dtype: string

In [49]:
s.str.cat(t, join='inner', na_rep='-')

0    aa
1    bb
2    c-
3    dd
dtype: string

### 文本匹配与提取
既然是在操作字符串，很自然，你可能会想到是否可以从一个长的字符串中提取出子串。答案是可以的。

#### str.extract

##### 提取第一个匹配的子串
　　extract 方法接受一个正则表达式并至少包含一个捕获组，指定参数 expand=True 可以保证每次都返回 DataFrame。
　　例如，现在想要匹配空字符串前面的所有的字母，可以使用如下操作：如果使用多个组提取正则表达式会返回一个 DataFrame，每个组只有一列。

In [50]:
user_info.city.str.extract("(\w+)\s+", expand=True)

Unnamed: 0,0
0,Bei
1,Shang
2,Guang
3,Shen
4,Jin
5,Zhen


想要匹配出空字符串前面和后面的所有字母，操作如下

In [51]:
user_info.city.str.extract("(\w+)\s+(\w+)", expand=True)

Unnamed: 0,0,1
0,Bei,Jing
1,Shang,Hai
2,Guang,Zhou
3,Shen,Zhen
4,Jin,Cheng
5,Zhen,Zhou


#### str.extractall
##### 匹配所有子串
extract 只能够匹配出第一个子串，使用 extractall 可以匹配出所有的子串。
例如，将所有组的空白字符串前面的字母都匹配出来，可以如下操作。

In [52]:
user_info.city.str.extractall("(\w+)\s+")

Unnamed: 0_level_0,Unnamed: 1_level_0,0
Unnamed: 0_level_1,match,Unnamed: 2_level_1
0,0,Bei
0,1,Jing
1,0,Shang
1,1,Hai
2,0,Guang
3,0,Shen
4,0,Jin
5,0,Zhen


#### str.contains

##### 测试是否包含子串
除了可以匹配出子串外，我们还可以使用 contains 来测试是否包含子串。例如，想要测试城市是否包含子串 “Zh”。

In [53]:
user_info.city.str.contains("Zh")

0    False
1    False
2     True
3     True
4    False
5     True
Name: city, dtype: bool

In [54]:
user_info.birth.str.contains(r"^2000")

0     True
1    False
2     True
3    False
4    False
5    False
Name: birth, dtype: bool

#### str.get_dummies
可以从字符串列中提取虚拟变量。 例如用“ |”分隔：

In [55]:
user_info.city.str.get_dummies(sep=" ")

Unnamed: 0,Bei,Cheng,Guang,Hai,Jin,Jing,Shang,Shen,Zhen,Zhou
0,1,0,0,0,0,1,0,0,0,0
1,0,0,0,1,0,0,1,0,0,0
2,0,0,1,0,0,0,0,0,0,1
3,0,0,0,0,0,0,0,1,1,0
4,0,1,0,0,1,0,0,0,0,0
5,0,0,0,0,0,0,0,0,1,1


### 其他常用方法

```python
文本格式
s = pd.Series(['lower', 'CAPITALS', 'this is a sentence', 'SwApCaSe'])
s.str.lower() # 转为小写
s.str.upper() # 转为大写
s.str.title() # 标题格式，每个单词大写
s.str.capitalize() # 首字母大写
s.str.swapcase() # 大小写互换
s.str.casefold() # 转为小写，支持其他语言如德语
对齐
# 居中对齐，宽度为10，用 - 填充
s.str.center(10, fillchar='-')
# 左对齐
s.str.ljust(10, fillchar='-')
# 右对齐
s.str.rjust(10, fillchar='-')
# 指定宽度，填充内容对齐方式，填充内容
# side{‘left’, ‘right’, ‘both’}, default ‘left’
s.str.pad(width=10, side='left', fillchar='-')
# 填充对齐
s.str.zfill(3) # 生成字符，不足3位的前边加0
计算
# 指定字母的数量
s.str.count('a')
# 支持正则，包含 abc 三个字母的总数
s.str.count(r'a|b|c')
# 字符长度
s.str.len()
编码
# 编码
s.str.encode('utf-8')
# 解码
s.str.decode('utf-8')
# 字符串的Unicode普通格式
# form{‘NFC’, ‘NFKC’, ‘NFD’, ‘NFKD’}
s.str.normalize('NFC')
类别判断
s.str.isalpha # 所有的是否字母
s.str.isnumeric # 所有是否数字 0-9
s.str.isalnum # 所有的是否字母数字
s.str.isdigit # 所有是否数字
s.str.isdecimal # 所有是否小数
s.str.isspace # 所有是否空格
s.str.islower # 所有是否小写
s.str.isupper # 所有是否大写
s.str.istitle # 所有是否标题格式
其他
# 类似 python str.translate() 翻译映射
s.str.translate(trantab)
# 将长文本拆分开指定宽度的字符，用换行连接
s.str.wrap(10)
```

## 第三部分：文本处理案例

数据集是黄同学精心为大家编造，只为了帮助大家学习到知识。数据集如下：

In [56]:
df ={'姓名':[' 黄同学','黄至尊','黄老邪 ','陈大美','孙尚香'],
     '英文名':['Huang tong_xue','huang zhi_zun','Huang Lao_xie','Chen Da_mei','sun shang_xiang'],
     '性别':['男','women','men','女','男'],
     '身份证':['463895200003128433','429475199912122345','420934199110102311','431085200005230122','420953199509082345'],
     '身高':['mid:175_good','low:165_bad','low:159_bad','high:180_verygood','low:172_bad'],
     '家庭住址':['湖北广水','河南信阳','广西桂林','湖北孝感','广东广州'],
     '电话号码':['13434813546','19748672895','16728613064','14561586431','19384683910'],
     '收入':['1.1万','8.5千','0.9万','6.5千','2.0万']}
df = pd.DataFrame(df)
df

Unnamed: 0,姓名,英文名,性别,身份证,身高,家庭住址,电话号码,收入
0,黄同学,Huang tong_xue,男,463895200003128433,mid:175_good,湖北广水,13434813546,1.1万
1,黄至尊,huang zhi_zun,women,429475199912122345,low:165_bad,河南信阳,19748672895,8.5千
2,黄老邪,Huang Lao_xie,men,420934199110102311,low:159_bad,广西桂林,16728613064,0.9万
3,陈大美,Chen Da_mei,女,431085200005230122,high:180_verygood,湖北孝感,14561586431,6.5千
4,孙尚香,sun shang_xiang,男,420953199509082345,low:172_bad,广东广州,19384683910,2.0万


观察上述数据，数据集是乱的。接下来，我们就用16个Pandas来对上述数据，进行数据清洗。

### ① cat函数：用于字符串的拼接

In [57]:
df["姓名"].str.cat(df["家庭住址"],sep='-'*3)

0     黄同学---湖北广水
1     黄至尊---河南信阳
2    黄老邪 ---广西桂林
3     陈大美---湖北孝感
4     孙尚香---广东广州
Name: 姓名, dtype: object

### ② contains：判断某个字符串是否包含给定字符

In [58]:
df["家庭住址"].str.contains("广")

0     True
1    False
2     True
3    False
4     True
Name: 家庭住址, dtype: bool

### ③ startswith/endswith：判断某个字符串是否以…开头/结尾

In [60]:
# 第一个行的“ 黄伟”是以空格开头的
df["姓名"].str.startswith("黄") 

0    False
1     True
2     True
3    False
4    False
Name: 姓名, dtype: bool

In [61]:
df["英文名"].str.endswith("e")

0     True
1    False
2     True
3    False
4    False
Name: 英文名, dtype: bool

### ④ count：计算给定字符在字符串中出现的次数

In [62]:
df["电话号码"].str.count("3")

0    3
1    0
2    1
3    1
4    2
Name: 电话号码, dtype: int64

### ⑤ get：获取指定位置的字符串

In [63]:
df["姓名"].str.get(-1)

0    学
1    尊
2     
3    美
4    香
Name: 姓名, dtype: object

In [64]:
df["身高"].str.split(":")

0         [mid, 175_good]
1          [low, 165_bad]
2          [low, 159_bad]
3    [high, 180_verygood]
4          [low, 172_bad]
Name: 身高, dtype: object

In [65]:
df["身高"].str.split(":").str.get(0)

0     mid
1     low
2     low
3    high
4     low
Name: 身高, dtype: object

### ⑥ len：计算字符串长度

In [66]:
df["性别"].str.len()

0    1
1    5
2    3
3    1
4    1
Name: 性别, dtype: int64

### ⑦ upper/lower：英文大小写转换

In [67]:
df["英文名"].str.upper()

0     HUANG TONG_XUE
1      HUANG ZHI_ZUN
2      HUANG LAO_XIE
3        CHEN DA_MEI
4    SUN SHANG_XIANG
Name: 英文名, dtype: object

In [68]:
df["英文名"].str.lower()

0     huang tong_xue
1      huang zhi_zun
2      huang lao_xie
3        chen da_mei
4    sun shang_xiang
Name: 英文名, dtype: object

### ⑧ pad+side参数/center：在字符串的左边、右边或左右两边添加给定字符

In [69]:
df["家庭住址"].str.pad(10,fillchar="*")      # 相当于ljust()

0    ******湖北广水
1    ******河南信阳
2    ******广西桂林
3    ******湖北孝感
4    ******广东广州
Name: 家庭住址, dtype: object

In [70]:
df["家庭住址"].str.pad(10,side="right",fillchar="*")    # 相当于rjust()

0    湖北广水******
1    河南信阳******
2    广西桂林******
3    湖北孝感******
4    广东广州******
Name: 家庭住址, dtype: object

In [71]:
df["家庭住址"].str.center(10,fillchar="*")

0    ***湖北广水***
1    ***河南信阳***
2    ***广西桂林***
3    ***湖北孝感***
4    ***广东广州***
Name: 家庭住址, dtype: object

### ⑨ repeat：重复字符串几次

In [72]:
df["性别"].str.repeat(3)

0                男男男
1    womenwomenwomen
2          menmenmen
3                女女女
4                男男男
Name: 性别, dtype: object

### ⑩ slice_replace：使用给定的字符串，替换指定的位置的字符

In [73]:
df["电话号码"].str.slice_replace(4,8,"*"*4)

0    1343****546
1    1974****895
2    1672****064
3    1456****431
4    1938****910
Name: 电话号码, dtype: object

### ⑪ replace：将指定位置的字符，替换为给定的字符串

In [74]:
df["身高"].str.replace(":","-")

0         mid-175_good
1          low-165_bad
2          low-159_bad
3    high-180_verygood
4          low-172_bad
Name: 身高, dtype: object

### ⑫ replace：将指定位置的字符，替换为给定的字符串(接受正则表达式)
replace中传入正则表达式，才叫好用；  
先不要管下面这个案例有没有用，你只需要知道，使用正则做数据清洗多好用；

In [76]:
df["收入"].str.replace("\d+\.\d+","正则", regex=True)

0    正则万
1    正则千
2    正则万
3    正则千
4    正则万
Name: 收入, dtype: object

### ⑬ split方法+expand参数：搭配join方法功能很强大

In [77]:
# 普通用法
df["身高"].str.split(":")

0         [mid, 175_good]
1          [low, 165_bad]
2          [low, 159_bad]
3    [high, 180_verygood]
4          [low, 172_bad]
Name: 身高, dtype: object

In [78]:
# split方法，搭配expand参数
df[["身高描述","final身高"]] = df["身高"].str.split(":",expand=True)
df

Unnamed: 0,姓名,英文名,性别,身份证,身高,家庭住址,电话号码,收入,身高描述,final身高
0,黄同学,Huang tong_xue,男,463895200003128433,mid:175_good,湖北广水,13434813546,1.1万,mid,175_good
1,黄至尊,huang zhi_zun,women,429475199912122345,low:165_bad,河南信阳,19748672895,8.5千,low,165_bad
2,黄老邪,Huang Lao_xie,men,420934199110102311,low:159_bad,广西桂林,16728613064,0.9万,low,159_bad
3,陈大美,Chen Da_mei,女,431085200005230122,high:180_verygood,湖北孝感,14561586431,6.5千,high,180_verygood
4,孙尚香,sun shang_xiang,男,420953199509082345,low:172_bad,广东广州,19384683910,2.0万,low,172_bad


In [79]:
# split方法搭配join方法
df["身高"].str.split(":").str.join("?"*5)

0         mid?????175_good
1          low?????165_bad
2          low?????159_bad
3    high?????180_verygood
4          low?????172_bad
Name: 身高, dtype: object

### ⑭ strip/rstrip/lstrip：去除空白符、换行符

In [80]:
df["姓名"].str.len()

0    4
1    3
2    4
3    3
4    3
Name: 姓名, dtype: int64

In [82]:
df["姓名"] = df["姓名"].str.strip()
df["姓名"].str.len()

0    3
1    3
2    3
3    3
4    3
Name: 姓名, dtype: int64

### ⑮ findall：利用正则表达式，去字符串中匹配，返回查找结果的列表
findall使用正则表达式，做数据清洗，真的很香！

In [83]:
df["身高"]

0         mid:175_good
1          low:165_bad
2          low:159_bad
3    high:180_verygood
4          low:172_bad
Name: 身高, dtype: object

In [84]:
df["身高"].str.findall("[a-zA-Z]+")

0         [mid, good]
1          [low, bad]
2          [low, bad]
3    [high, verygood]
4          [low, bad]
Name: 身高, dtype: object

### ⑯ extract/extractall：接受正则表达式，抽取匹配的字符串(一定要加上括号)

In [85]:
df["身高"].str.extract("([a-zA-Z]+)")

Unnamed: 0,0
0,mid
1,low
2,low
3,high
4,low


In [86]:
# extractall提取得到复合索引
df["身高"].str.extractall("([a-zA-Z]+)")

Unnamed: 0_level_0,Unnamed: 1_level_0,0
Unnamed: 0_level_1,match,Unnamed: 2_level_1
0,0,mid
0,1,good
1,0,low
1,1,bad
2,0,low
2,1,bad
3,0,high
3,1,verygood
4,0,low
4,1,bad


In [87]:
# extract搭配expand参数
df["身高"].str.extract("([a-zA-Z]+).*?([a-zA-Z]+)",expand=True)

Unnamed: 0,0,1
0,mid,good
1,low,bad
2,low,bad
3,high,verygood
4,low,bad


好了，今天的文章就到这里，我是张亚飞，一个山沟沟里的小人物。