# pandas——字符串处理
实验目的：熟练掌握pandas中字符串操作

在使用pandas框架的DataFrame的过程中，如果需要处理一些字符串的特性，例如判断某列是否包含一些关键字，某列的字符长度是否小于3等等这种需求，如果掌握str列内置的方法，处理起来会方便很多。

cat() 拼接字符串

In [3]:
import pandas as pd  
pd.Series(['a', 'b', 'c']).str.cat(['A', 'B', 'C'], sep='-')  

0    a-A
1    b-B
2    c-C
dtype: object

In [4]:
pd.Series(['a','b','c']).str.cat(sep=',')  

'a,b,c'

split()切片字符串

In [5]:
import numpy as np  
s=pd.Series(['a_b_c', 'c_d_e', np.nan, 'f_g_h'])  
print(s) 

0    a_b_c
1    c_d_e
2      NaN
3    f_g_h
dtype: object


In [6]:
s.str.split('_')  

0    [a, b, c]
1    [c, d, e]
2          NaN
3    [f, g, h]
dtype: object

In [10]:
s.str.split('_',-1) 

0    [a, b, c]
1    [c, d, e]
2          NaN
3    [f, g, h]
dtype: object

In [11]:
s.str.split('_',1)  

0    [a, b_c]
1    [c, d_e]
2         NaN
3    [f, g_h]
dtype: object

get() 获取指定位置的字符串

In [12]:
s.str.get(0)  

0      a
1      c
2    NaN
3      f
dtype: object

In [13]:
s.str.get(1)

0      _
1      _
2    NaN
3      _
dtype: object

In [14]:
s.str.get(2)  

0      b
1      d
2    NaN
3      g
dtype: object

join() 对每个字符都有用，将字符串拼接起来，不常用

In [15]:
s.str.join("!")  

0    a!_!b!_!c
1    c!_!d!_!e
2          NaN
3    f!_!g!_!h
dtype: object

In [16]:
s.str.join("?")  

0    a?_?b?_?c
1    c?_?d?_?e
2          NaN
3    f?_?g?_?h
dtype: object

In [17]:
s.str.join(".")  

0    a._.b._.c
1    c._.d._.e
2          NaN
3    f._.g._.h
dtype: object

contains() 是否包含表达式，返回True或False。

In [18]:
s.str.contains('d')

0    False
1     True
2      NaN
3    False
dtype: object

replace() 字符串替换

In [19]:
s.str.replace("_",'.')

0    a.b.c
1    c.d.e
2      NaN
3    f.g.h
dtype: object

repeat()重复

In [20]:
s.str.repeat(3)  

0    a_b_ca_b_ca_b_c
1    c_d_ec_d_ec_d_e
2                NaN
3    f_g_hf_g_hf_g_h
dtype: object

pad() 左右补齐

In [22]:
s.str.pad(10, fillchar="?") 

0    ?????a_b_c
1    ?????c_d_e
2           NaN
3    ?????f_g_h
dtype: object

In [23]:
s.str.pad(10, side="right", fillchar="?")  

0    a_b_c?????
1    c_d_e?????
2           NaN
3    f_g_h?????
dtype: object

center() 中间补齐

In [24]:
s.str.center(10, fillchar="?")

0    ??a_b_c???
1    ??c_d_e???
2           NaN
3    ??f_g_h???
dtype: object

ljust() 右边补齐

In [25]:
s.str.ljust(10, fillchar="?")

0    a_b_c?????
1    c_d_e?????
2           NaN
3    f_g_h?????
dtype: object

rjust() 左边补齐

In [26]:
s.str.rjust(10, fillchar="?") 

0    ?????a_b_c
1    ?????c_d_e
2           NaN
3    ?????f_g_h
dtype: object

zfill() 左边补0

In [27]:
s.str.zfill(10)

0    00000a_b_c
1    00000c_d_e
2           NaN
3    00000f_g_h
dtype: object

wrap() 在指定的位置插入回车符号

In [28]:
s.str.wrap(3)

0    a_b\n_c
1    c_d\n_e
2        NaN
3    f_g\n_h
dtype: object

slice() 按字符串下标的开始结束位置切割字符串。

In [29]:
s.str.slice(1,3)

0     _b
1     _d
2    NaN
3     _g
dtype: object

slice_replace()使用给定的字符串，替换指定位置的字符。

In [30]:
s.str.slice_replace(1,3,'?') 

0    a?_c
1    c?_e
2     NaN
3    f?_h
dtype: object

In [31]:
s.str.slice_replace(1, 3, "??")

0    a??_c
1    c??_e
2      NaN
3    f??_h
dtype: object

count() 计算给定单词出现的次数

In [32]:
s.str.count("a") 

0    1.0
1    0.0
2    NaN
3    0.0
dtype: float64

startswith()判断是否以给定的字符串开头，返回True或False。

In [33]:
s.str.startswith("a")

0     True
1    False
2      NaN
3    False
dtype: object

endswith()判断是否以给定的字符串结束，返回True或False。

In [34]:
s.str.endswith('e') 

0    False
1     True
2      NaN
3    False
dtype: object

findall() 查找所有符合正则表达式的字符，以数组形式返回

In [35]:
s.str.findall("[a-z]")

0    [a, b, c]
1    [c, d, e]
2          NaN
3    [f, g, h]
dtype: object

match() 检测是否全部匹配给定的字符串或者表达式。

In [36]:
s

0    a_b_c
1    c_d_e
2      NaN
3    f_g_h
dtype: object

In [37]:
s.str.match("[d-z]")

0    False
1    False
2      NaN
3     True
dtype: object

extract() 抽取匹配的字符串出来，注意要加上括号，把你需要抽取的东西标注上

In [38]:
s.str.extract("([d-z])") 

Unnamed: 0,0
0,
1,d
2,
3,f


len() 计算字符串的长度

In [39]:
s.str.len()

0    5.0
1    5.0
2    NaN
3    5.0
dtype: float64

strip()去除前后的空白字符

In [40]:
idx = pd.Series([' jack', 'jill   ', '  jesse  ', 'frank'])  
print(idx)  

0         jack
1      jill   
2      jesse  
3        frank
dtype: object


In [41]:
idx.str.strip() 

0     jack
1     jill
2    jesse
3    frank
dtype: object

rstrip() 去除后面的空白字符

In [42]:
idx.str.rstrip()

0       jack
1       jill
2      jesse
3      frank
dtype: object

partition() 把字符串数组切割称为DataFrame，注意切割只是切割成为三部分，分隔符前，分隔符，分隔符后.

In [43]:
s.str.partition('_')

Unnamed: 0,0,1,2
0,a,_,b_c
1,c,_,d_e
2,,,
3,f,_,g_h


rpartition() 从右切起

In [44]:
s.str.rpartition('_') 

Unnamed: 0,0,1,2
0,a_b,_,c
1,c_d,_,e
2,,,
3,f_g,_,h


lower() 全部小写

In [45]:
s.str.lower()

0    a_b_c
1    c_d_e
2      NaN
3    f_g_h
dtype: object

In [46]:
# upper() 全部大写
s.str.upper()  

0    A_B_C
1    C_D_E
2      NaN
3    F_G_H
dtype: object

In [47]:
# find() 从左边开始，查找给定字符串的所在位置，没有返回-1。
s.str.find('d')  

0   -1.0
1    2.0
2    NaN
3   -1.0
dtype: float64

In [48]:
# rfind() 从右边开始，查找给定字符串的所在位置
s.str.rfind('d') 

0   -1.0
1    2.0
2    NaN
3   -1.0
dtype: float64

In [49]:
# index() 查找给定字符串的位置，注意，如果不存在这个字符串，那么会报错！
s.str.index('_') 

0    1.0
1    1.0
2    NaN
3    1.0
dtype: float64

In [50]:
# rindex() 从右边开始查找，给定字符串的位置。
s.str.rindex("_") 

0    3.0
1    3.0
2    NaN
3    3.0
dtype: float64

In [51]:
# capitalize() 首字符大写
s.str.capitalize()

0    A_b_c
1    C_d_e
2      NaN
3    F_g_h
dtype: object

In [52]:
# swapcase()大小写互换
s.str.swapcase()

0    A_B_C
1    C_D_E
2      NaN
3    F_G_H
dtype: object

In [53]:
# isalnum()字符串至少包含一个字符且所有字符都是字母(汉字)或数字则返回True。
s.str.isalnum()  

0    False
1    False
2      NaN
3    False
dtype: object

In [54]:
# isalpha()字符串至少包含一个字符且所有字符都是字母(汉字)则返回True。
s.str.isalpha() 

0    False
1    False
2      NaN
3    False
dtype: object

In [55]:
# isdigit()是否全部是数字(可以是: Unicode, 全角字符, bytes(b'1'), 罗马数字)。
s.str.isdigit()

0    False
1    False
2      NaN
3    False
dtype: object

In [56]:
# isspace()是否只包含空白符。
s.str.isspace()

0    False
1    False
2      NaN
3    False
dtype: object

In [57]:
# islower()至少包含一个小写字符, 且不包含大写字符。
s.str.islower()

0    True
1    True
2     NaN
3    True
dtype: object

In [58]:
# isupper()至少包含一个大写字符, 且不包含小写字符。
s.str.isupper()

0    False
1    False
2      NaN
3    False
dtype: object

In [59]:
# istitle()判断是否只有首字母大写，其他都小写。
s.str.istitle()

0    False
1    False
2      NaN
3    False
dtype: object

In [60]:
# isnumeric()是否只包含数字字符
s.str.isnumeric()

0    False
1    False
2      NaN
3    False
dtype: object

In [61]:
# isdecimal()是否只包含数字(Unicode字符, 全角字符)。
s.str.isdecimal() 

0    False
1    False
2      NaN
3    False
dtype: object

In [62]:
# 把字符串按照指定分隔符分割, 并返回分割后的字符串出现的次数。
s.str.get_dummies(sep='_')  

Unnamed: 0,a,b,c,d,e,f,g,h
0,1,1,1,0,0,0,0,0
1,0,0,1,1,1,0,0,0
2,0,0,0,0,0,0,0,0
3,0,0,0,0,0,1,1,1
