从网络采集来的数据集往往是杂乱无章，而使用Python处理字符串往往是比较容易的，Pandas同样提供一系列向量化字符串操作。

# Pandas字符串操作

假设我们有以下的Series实例：

In [2]:
import  numpy as np
import pandas as pd

a=pd.Series(["make","join",np.nan,np.nan,"mary"])

如果我们用函数向量化的方法，对上面的Series中的字符串进行处理，比如所有单词的首写字母都转化为大写，是可行的。    
但是如果Series中的字符串包含缺失值，就需要进一步修改向量化的函数，比较繁琐。  
对字符串进行处理，最快速的是使用Pandas字符串操作方法。   

In [4]:
a=pd.Series(["make","join",np.nan,np.nan,"mary"])
a.str.capitalize()

0    Make
1    Join
2     NaN
3     NaN
4    Mary
dtype: object

# Pandas字符串方法列表

Pandas绝大多数字符串方法都跟Python字符串方法很相似：

- len()
  
----------------------------------------------------------------
- 字符检索
    - find()
    - rfind()
  
----------------------------------------------------------------
- 字符转换
    - lower()
    - upper()：
    - title：将每个单词的第一个字符转换为大写和保持小写。
    - capitalize()：将第一个字符转换为大写字母保持小写。
    - swapcase() ：将大写转换为小写，小写转换为大写。
    - translate()
  
----------------------------------------------------------------
- 字符类型判断
    - islower()
    - isupper()
    - isnumeric()
    - isalnum()
    - isdecimal()
    - isalpha()
    - isdigit()
    - isspace()
    - istitle()
  
----------------------------------------------------------------
- 字符调整
    - ljust()
    - rjust()
  
----------------------------------------------------------------
- 字符对齐与填充
    - startswith()
    - endswith()
    - center()
    - zfill()
  
--------------------------------------------------------------------------------------
- 字符检索
    - index()
    - rindex()
    - find()
  
----------------------------------------------------------------
- 字符切割
    - split()
    - rsplit()
    - partition()
    - rpartition()
  
----------------------------------------------------------------
- 字符整理
    - strip()
    - rstrip()
    - lstrip()

上面有一些方法，我们在Python字符串方法中没有学过，接下来演示一下：

## 字符转化
- .str.translate

补：
ord()函数主要用来返回对应字符的ascii码，chr()主要用来表示ascii码对应的字符他的输入时数字，可以用十进制，也可以用十六进制。

In [16]:
dic={ord("m"):ord("M"),ord("j"):ord("J"),ord("o"):None}  #如果要删除某个字符，映射到None即可

a
a.str.translate(dic)

0    make
1    join
2     NaN
3     NaN
4    mary
dtype: object

0    Make
1     Jin
2     NaN
3     NaN
4    Mary
dtype: object

## 字符调整
-  .str.ljust()
-  .str.rjust()

In [20]:
a.str.ljust(5,"*")

0    make*
1    join*
2      NaN
3      NaN
4    mary*
dtype: object

In [21]:
a.str.rjust(5,"*")

0    *make
1    *join
2      NaN
3      NaN
4    *mary
dtype: object

## 字符对齐与填充

In [23]:
a.str.startswith("m")

0     True
1    False
2      NaN
3      NaN
4     True
dtype: object

In [29]:
a.str.center(6,"*")

0    *make*
1    *join*
2       NaN
3       NaN
4    *mary*
dtype: object

In [33]:
a.str.zfill(6)

0    00make
1    00join
2       NaN
3       NaN
4    00mary
dtype: object

## 字符检索

In [50]:
a=pd.Series(["make","mary","james"])

a.str.index("m")

0    0
1    0
2    2
dtype: int64

In [53]:
a=pd.Series(["make","mary","james","jamesom"])

a.str.rindex("m")

0    0
1    0
2    2
3    6
dtype: int64

注意，如果.str.index()方法无法在series中找到包含字符的字符串或者出现缺失值，就会报错。

如果用.str.find()的话，找不到检索字符的话，将会返回-1。

In [57]:
a=pd.Series(["make","mary","james","jamesom","jack",None])

a.str.find("m")

0    0.0
1    0.0
2    2.0
3    2.0
4   -1.0
5    NaN
dtype: float64