#### Pandas提供了一组字符串函数，可以方便地对字符串数据进行操作。 最重要的是，这些函数忽略(或排除)丢失/NaN值
- lower() 将Series/Index中的字符串转换为小写
- upper() 大写 
- len() 字符串长度
- strip() 从两侧的系列/索引中的每个字符串中删除空格(包括换行符)
- split(' ') 用给定的模式拆分每个字符串
- cat(sep=' ')  使用给定的分隔符连接系列/索引元素
- get_dummies() 返回具有单热编码值的数据帧(DataFrame)
- contains(pattern) 如果元素中包含子字符串，则返回每个元素的布尔值True，否则为False
- replace(a,b) 将值a替换为值b
- repeat(value) 重复每个元素指定的次数
- count(pattern) 返回模式中每个元素的出现总数
- startswith(pattern) 如果系列/索引中的元素以模式开始，则返回true
- endswith(pattern)
- find(pattern) 返回模式第一次出现的位置
- findall(pattern) 返回模式的所有出现的列表。
- swapcase  变换字母大小写。
- islower() 检查系列/索引中每个字符串中的所有字符是否小写，返回布尔值
- isupper() 检查系列/索引中每个字符串中的所有字符是否为数字，返回布尔值。

##### 易忘
- cat
- get_dummies
- contains


In [2]:
import pandas as pd
import numpy as np

s = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t', np.nan, '1234','SteveMinsu'])
s

0             Tom
1    William Rick
2            John
3         Alber@t
4             NaN
5            1234
6      SteveMinsu
dtype: object

In [3]:
# lower
print(s.str.lower())

0             tom
1    william rick
2            john
3         alber@t
4             NaN
5            1234
6      steveminsu
dtype: object


In [4]:
# upper
print(s.str.upper())

0             TOM
1    WILLIAM RICK
2            JOHN
3         ALBER@T
4             NaN
5            1234
6      STEVEMINSU
dtype: object


In [5]:
# len
print(s.str.len())

0     3.0
1    12.0
2     4.0
3     7.0
4     NaN
5     4.0
6    10.0
dtype: float64


In [7]:
# strip
s = pd.Series(['    Tom ', ' William Rick   ', '  John', 'Alber@t    '])
print(s)
print(s.str.strip())

0                Tom 
1     William Rick   
2                John
3         Alber@t    
dtype: object
0             Tom
1    William Rick
2            John
3         Alber@t
dtype: object


In [9]:
# split
print(s.str.split(' '))

0            [, , , , Tom, ]
1    [, William, Rick, , , ]
2                 [, , John]
3          [Alber@t, , , , ]
dtype: object


In [11]:
# cat(sep='')    使用给定的分隔符连接系列/索引元素
print(s)
print(s.str.cat(sep='<+>'))

0                Tom 
1     William Rick   
2                John
3         Alber@t    
dtype: object
    Tom <+> William Rick   <+>  John<+>Alber@t    


In [12]:
# get_dummies()
print(s.str.get_dummies())

       Tom     John   William Rick     Alber@t    
0         1       0                 0            0
1         0       0                 1            0
2         0       1                 0            0
3         0       0                 0            1


In [14]:
# contains
print(s.str.contains('l'))

0    False
1     True
2    False
3     True
dtype: bool


In [15]:
# replace
print(s.str.replace('o','<+>'))

0              T<+>m 
1     William Rick   
2              J<+>hn
3         Alber@t    
dtype: object


In [16]:
# repeat
print(s.str.repeat(3))

0                                Tom     Tom     Tom 
1     William Rick    William Rick    William Rick   
2                                    John  John  John
3                   Alber@t    Alber@t    Alber@t    
dtype: object


In [17]:
# count startswith    endswith
print(s.str.count('i'))

0    0
1    3
2    0
3    0
dtype: int64


In [19]:
# find(pattern)
# -1表示元素中没有这样的模式可用
print(s)
print(s.str.find('o'))

0                Tom 
1     William Rick   
2                John
3         Alber@t    
dtype: object
0    5
1   -1
2    3
3   -1
dtype: int64


In [21]:
# findall
# 所有出现的列表
print(s.str.findall('o'))

0    [o]
1     []
2    [o]
3     []
dtype: object


In [22]:
# swapcase
print(s.str.swapcase())

0                tOM 
1     wILLIAM rICK   
2                jOHN
3         aLBER@T    
dtype: object


In [23]:
# islower     issupper
print(s.str.islower())

0    False
1    False
2    False
3    False
dtype: bool
