# Pandas 字符串和文本数据

Pandas 提供了一组字符串函数，可以方便地对字符串数据进行操作，最重要的是，这些函数忽略(或排除)丢失/NaN值。如下:

| 编号 | 函数 | 描述 |
| :--: | :--: | :--: |
| 1 | lower() | 将 Series/Index 中的字符串转换为小写 |
| 2 | upper() | 将 Series/Index 中的字符串转换为大写 |
| 3 | len() | 计算字符串长度 |
| 4 | strip() | 去掉 Series/Index 中的每个字符串中的空白字符包括换行符 |
| 5 | split(' ') | 用给定的模式拆分字符串 |
| 6 | cat(sep=' ') | 使用给定的分隔符连接 Series/Index 元素 |
| 7 | get_dummies() | 返回具有单热编码值得数据帧(DataFrame) |
| 8 | contains(pattern) | 如果元素中包含字符串，则返回每个元素的布尔值 True,反之 False|
| 9 | replace(a, b) | 将值 a 替换为值 b |
| 10| repeat(value) | 重复每个元素指定的次数 |
| 11| count(pattern) | 返回出现的次数 |
| 12| startswith(pattern) | 如果 Series/Index 中的元素以 pattern 开头,则返回True |
| 13| endswith(pattern) | 如果 Series/Index 中的元素以 pattern 结束, 则返回 True
| 14| find(pattern) | 返回 pattern 第一次出现的位置 |
| 15| findall(pattern) | 返回 pattern 的所有出现的列表 |
| 16| swapcase | 变换字母大小写 |
| 17| islower() | 检查 Series/Index 中每个字符串中的所有字符是否小写, 返回布尔值 |
| 18| isupper() | 检查 Series/Index 中每个字符串中的所有字符是否大写, 返回布尔值 |
| 19| isnumeric() | 检查 Series/Index 中每个字符串中的所有字符是否为数字, 返回布尔值 |

In [1]:
import pandas as pd
import numpy as np

s = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t', np.nan, '1234','SteveMinsu'])
print(s)

0             Tom
1    William Rick
2            John
3         Alber@t
4             NaN
5            1234
6      SteveMinsu
dtype: object


In [3]:
# lower() 应该先调用 str
print(s.str.lower())

0             tom
1    william rick
2            john
3         alber@t
4             NaN
5            1234
6      steveminsu
dtype: object


In [4]:
# upper()
print(s.str.upper())

0             TOM
1    WILLIAM RICK
2            JOHN
3         ALBER@T
4             NaN
5            1234
6      STEVEMINSU
dtype: object


In [5]:
# len()
print(s.str.len())

0     3.0
1    12.0
2     4.0
3     7.0
4     NaN
5     4.0
6    10.0
dtype: float64


In [9]:
# strip()
s = pd.Series(['Tom  ', ' William Rick', 'John', 'Alber@t'])
print(s)
print(s.str.strip())

0            Tom  
1     William Rick
2             John
3          Alber@t
dtype: object
0             Tom
1    William Rick
2            John
3         Alber@t
dtype: object


In [10]:
# split(pattern)
print(s)
print(s.str.split(' '))

0            Tom  
1     William Rick
2             John
3          Alber@t
dtype: object
0            [Tom, , ]
1    [, William, Rick]
2               [John]
3            [Alber@t]
dtype: object


In [11]:
# cat(sep=pattern)
print(s.str.cat(sep=' <=> '))

Tom   <=>  William Rick <=> John <=> Alber@t


In [12]:
# get_dummies()
print(s.str.get_dummies())

    William Rick  Alber@t  John  Tom  
0              0        0     0      1
1              1        0     0      0
2              0        0     1      0
3              0        1     0      0


In [14]:
# contain()
print(s.str.contains(' '))

0     True
1     True
2    False
3    False
dtype: bool


In [15]:
# replace(a, b)
print(s.str.replace('@', '$'))

0            Tom  
1     William Rick
2             John
3          Alber$t
dtype: object


In [16]:
# repeat(value)
print(s.str.repeat(2))

0                    Tom  Tom  
1     William Rick William Rick
2                      JohnJohn
3                Alber@tAlber@t
dtype: object


In [17]:
# count(pattern)
print(s.str.count('m'))

0    1
1    1
2    0
3    0
dtype: int64


In [18]:
# startswith(pattern)
print(s.str.startswith('T'))

0     True
1    False
2    False
3    False
dtype: bool


In [19]:
# endswith(pattern)
print(s.str.endswith('t'))

0    False
1    False
2    False
3     True
dtype: bool


In [21]:
# find(pattern)
print(s.str.find('e')) # -1 表示元素中匹配不到

0   -1
1   -1
2   -1
3    3
dtype: int64


In [23]:
# findall(pattern)  空列表[]  表示匹配不到
print(s.str.findall('e'))

0     []
1     []
2     []
3    [e]
dtype: object


In [24]:
# swapcase()
print(s.str.swapcase())

0            tOM  
1     wILLIAM rICK
2             jOHN
3          aLBER@T
dtype: object


In [25]:
# islower()
print(s.str.islower())

0    False
1    False
2    False
3    False
dtype: bool


In [26]:
# isupper()
print(s.str.isupper())

0    False
1    False
2    False
3    False
dtype: bool


In [27]:
# isnumeric()
print(s.str.isnumeric())

0    False
1    False
2    False
3    False
dtype: bool
