# Pandas字符串处理

在使用pandas框架的DataFrame的过程中，如果需要处理一些字符串的特性，例如判断某列是否包含一些关键字，某列的字符长度是否小于3等等这种需求，如果掌握str列内置的方法，处理起来会方便很多。下面我们来详细了解一下，Series类的str自带的方法有哪些。

Pandas的字符串方法的调用方式：Series.str.function()，如：df.str.find('d')

In [2]:
#引入各种库，基本每次照搬就行
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
from pandas import DataFrame,Series
%matplotlib inline

## 常用的str函数

### cat() 拼接字符串

In [3]:
s1=Series(['a', 'b', 'c'])
s1

0    a
1    b
2    c
dtype: object

In [4]:
s2=Series(['A', 'B', 'C'])
s2

0    A
1    B
2    C
dtype: object

In [5]:
s1.str.cat(s2)

0    aA
1    bB
2    cC
dtype: object

### split() 切分字符串

split函数可以把字符串按照特定分隔符切割成列表

In [31]:
s=Series(['a_b_c_d', 'c_d_e_f', np.nan, 'f_g_h_i'])
s

0    a_b_c_d
1    c_d_e_f
2        NaN
3    f_g_h_i
dtype: object

In [7]:
s3=s.str.split('_')
s3

0    [a, b, c, d]
1    [c, d, e, f]
2             NaN
3    [f, g, h, i]
dtype: object

In [8]:
#第一个参数是分隔符，第二个参数代表分割的次数，默认全部分割
s.str.split('_',2)

0    [a, b, c_d]
1    [c, d, e_f]
2            NaN
3    [f, g, h_i]
dtype: object

In [9]:
#expand参数代表分割的结果是否以dataframe返回
s.str.split('_',expand=True)

Unnamed: 0,0,1,2,3
0,a,b,c,d
1,c,d,e,f
2,,,,
3,f,g,h,i


### get()获取指定位置的字符串

In [10]:
s

0    a_b_c_d
1    c_d_e_f
2        NaN
3    f_g_h_i
dtype: object

In [11]:
s.str.get(2)

0      b
1      d
2    NaN
3      g
dtype: object

### slice() 按给定的开始结束位置切割字符串

类似列表的切片

In [12]:
s.str.slice(1,3)

0     _b
1     _d
2    NaN
3     _g
dtype: object

### join()使用特定分隔符连接字符串

In [13]:
#对于dtype为列表的，会连接列表里的各个项
s3.str.join('_')

0    a_b_c_d
1    c_d_e_f
2        NaN
3    f_g_h_i
dtype: object

In [14]:
#对于dtype是字符串的，会在字符串的每一个字符间插入分隔符
s.str.join('*')

0    a*_*b*_*c*_*d
1    c*_*d*_*e*_*f
2              NaN
3    f*_*g*_*h*_*i
dtype: object

### contains()是否包含表达式

contains()函数可以判断字符串是否包含指定表达式，并返回布尔值，结合布尔索引可以达到数据筛选的效果

In [15]:
s.str.contains('d')

0     True
1     True
2      NaN
3    False
dtype: object

### replace()替换

如果直接调用Series的replace方法，函数的应用是以单元格为最小单位的

In [16]:
s.replace("-",".")

0    a_b_c_d
1    c_d_e_f
2        NaN
3    f_g_h_i
dtype: object

如果对Series.str调用replace方法，针对的是单元格内的内容

In [17]:
s.str.replace("_",".")

0    a.b.c.d
1    c.d.e.f
2        NaN
3    f.g.h.i
dtype: object

### find()查找给定字符串的所在位置

返回给定字符串所在位置，找不到返回-1，rfind()是从右边开始查找，用法与find()类似

In [18]:
s.str.find('d')

0    6.0
1    2.0
2    NaN
3   -1.0
dtype: float64

rfind()从右边开始，查找给定字符串的所在位置

### findall()查找所有符合正则表达式的字符，以列表形式返回

In [19]:
s.str.findall("[a-z]")

0    [a, b, c, d]
1    [c, d, e, f]
2             NaN
3    [f, g, h, i]
dtype: object

### match() 检测是否全部匹配给点的字符串或者表达式

In [20]:
s.str.match("[d-z]")

0    False
1    False
2      NaN
3     True
dtype: object

### extract() 抽取

分组抽取第一次匹配到规则表达，注意要加上括号，把你需要抽取的东西标注上

In [21]:
s5 = Series(['a1', 'b2', 'c3'])
s5

0    a1
1    b2
2    c3
dtype: object

In [22]:
s5.str.extract('([ab])?(\d)',expand=True)

Unnamed: 0,0,1
0,a,1
1,b,2
2,,3


### extractall()抽取全部

分组抽取所有匹配到规则表达

In [23]:
s = Series(["a1a2", "b1", "c1"], index=["A", "B", "C"])
s

A    a1a2
B      b1
C      c1
dtype: object

In [25]:
s.str.extractall("([ab])(\d)")

Unnamed: 0_level_0,Unnamed: 1_level_0,0,1
Unnamed: 0_level_1,match,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0,a,1
A,1,a,2
B,0,b,1


## Pandas其他字符串函数

In [39]:
zfc = pd.read_csv('zfc.csv',encoding='gbk')
zfc

Unnamed: 0,函数,作用,示例
0,repeat(),重复,s.str.repeat(3)
1,pad(),左右补齐,"s.str.pad(5,fillchar='*')"
2,center()?,中间补齐,"s.str.center(10, fillchar=""?"")"
3,ljust(),右边补齐,"s.str.ljust(10, fillchar=""?"")"
4,rjust(),左边补齐,"s.str.rjust(10, fillchar=""?"")"
5,zfill(),左边补0,s.str.zfill(10)
6,wrap(),指定位置加回车,s.str.wrap(3)
7,slice_replace(),指定位置替换,"s.str.slice_replace(1, 3, ""?"")"
8,count(),计算指定单词次数,"s.str.count(""a"")"
9,startswith(),判断是否以给定的字符串开头,"s.str.startswith(""a"")"
