In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

In [2]:
import pandas as pd
from pandas import DataFrame,Series
import matplotlib.pyplot as plt
import numpy as np

# Pandas私房手册-处理文本数据

## `Pandas`字符串处理基础

`Series`和`Index`都配备了一组字符串处理方法，可以方便地对数组的每个元素进行操作。最重要的是，这些方法自动排除了缺失的`NA`值。这些方法可以通过`str`属性访问（`str`属性相当于一个访问器（accessor）），而且一般情况下，他们的名称和Python的内置字符串方法相同。  
另外，要注意的是，方法返回的是处理后的`Series`或者`Index`，所以可以方便的利用链式一次性得到最终的结果。举个例子：

In [5]:
df = pd.DataFrame(
    np.random.randn(3, 2),
    columns=[' Column A ', ' Column B '],
    index=range(3))
df.columns
df.columns = df.columns.str.strip().str.lower().str.replace(' ', '_')
df.columns

Index([' Column A ', ' Column B '], dtype='object')

Index(['column_a', 'column_b'], dtype='object')

这里有个优化技巧，如果你的`Series`有大量的重复的元素，那么把这个`Series`转换成`Category`类型，会减少内存同时加快计算的速度。因为此时仅仅只是对`categories`属性进行计算，还不用对`Series`的每个元素进行计算了。

In [25]:
s1 = Series(['A', 'B', 'C', 'D']*10000)
s2 = s1.astype('category')
s2.dtype
s2.cat.categories

CategoricalDtype(categories=['A', 'B', 'C', 'D'], ordered=False)

Index(['A', 'B', 'C', 'D'], dtype='object')

In [26]:
# 可见，转换成category后，内存减少了将近8倍
s1.memory_usage()
s2.memory_usage()

320080

40272

In [27]:
# 同样的操作，categories类型的Series快了将近6倍
%timeit s1.str.lower()
%timeit s2.str.lower()

13.1 ms ± 637 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
2.07 ms ± 86.6 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


但是要注意，不是所有的字符串方法都适用于`categories`类别类型的`Series`，比如，s + " " + s将不起作用。另外，也不能使用`.str`方法对`list`类型的元素进行操作。

In [39]:
try:
    s2 + s2
except Exception as e:
    print(f"{e.__class__.__name__}: {e}")

TypeError: Series cannot perform the operation +


## 分割（split）

和原生Python一样，`split`方法用来分割字符串，返回元素是列表的`Series`：

In [161]:
s2 = pd.Series(['a_b_c', 'c_d_e', np.nan, 'f_g_h'])
s2.str.split('_')

0    [a, b, c]
1    [c, d, e]
2          NaN
3    [f, g, h]
dtype: object

注意，估计知道的人不是很多，可以通过`.str.get()`方法或者`.str[]`获取返回列表中固定位置的元素：

In [42]:
s2.str.split('_').str.get(0)

0      a
1      c
2    NaN
3      f
dtype: object

In [45]:
s2.str.split('_').str[0]

0      a
1      c
2    NaN
3      f
dtype: object

`expand`参数直接把分割后的结果分成几列而不是返回一个列表，`n`参数可以限制分割的数量：

In [47]:
s2.str.split('_', expand=True, n=1)

Unnamed: 0,0,1
0,a,b_c
1,c,d_e
2,,
3,f,g_h


另外`rsplit`和`split`相似，只不过它从右到左分割，而不是从左到右。

## 替换（replace）

`series.str.replace()`方法用来替换字符串，它实际上在底层对每一个元素调用`re.sub()`函数，它是一个`accessor`，注意：`series`和`dataframe`都有实例方法`replace`，注意两者之间的区别，另外`dataframe`没有`.str`的`accessor`访问器。  
它的函数签名为：
```python
replace(pat, repl, n=-1, case=None, flags=0, regex=True)
```
和`re.sub()`基本一致，具体参数的意义可以看官方文档，这里举几个例子：

In [48]:
# 例子1：这是官网的一个例子，有疑问，和re.sub()返回结果不同，如果是正则表达式的话，$应该是表示结束，但是这里的结果明显是代表$字符
dollars = pd.Series(['12', '-$10', '$10,000'])
dollars.str.replace('$', '')

0        12
1       -10
2    10,000
dtype: object

In [81]:
# 例子2：匹配字符串中的每个单词，然后从后往前颠倒单词
pat = r'[a-z]+'
def repl(m):
    return m.group(0)[::-1]
pd.Series(['foo 123', 'bar baz', np.nan]).str.replace(pat, repl)

0    oof 123
1    rab zab
2        NaN
dtype: object

In [82]:
# 例子3：使用分组进行匹配，只返回第二个单词并且大小写转换
pat = r"(?P<one>\w+) (?P<two>\w+) (?P<three>\w+)"
def repl(m):
    return m.group('two').swapcase()
pd.Series(['Foo Bar Baz', np.nan]).str.replace(pat, repl)

0    bAR
1    NaN
dtype: object

## 连接（Concatenation）

### 将单个的`Series`连接成一个字符串

单个`Series`直接调用`str.cat()`可以把`Series`连接成一个字符串，`sep`参数设定分割符，默认为'',`nan`会被跳过，`na_rep`参数指定`nan`的替换值：

In [87]:
t = pd.Series(['a', 'b', np.nan, 'd'])
t.str.cat(sep=',', na_rep='-')

'a,b,-,d'

### 将`Series`和类似列表的序列连接成一个`Series`

`cat()`的第一个参数`others`如果是类似列表的序列，则会连接成一个`Series`（简单的两者相加也是一样的效果），两者需要一样的长度，任何一方的值缺失都会导致结果的值缺失，除非`na_rep`参数指定了替代值：

In [93]:
s = pd.Series(['a', 'b', 'c', 'd'])
s.str.cat(t, na_rep='-')

0    aa
1    bb
2    c-
3    dd
dtype: object

### 将`Series`和二维数组连接成一个`Series`

`others`参数也可以是一个二维数组，同样的，只要是长度一样，就可以进行连接：

In [94]:
d = pd.concat([t, s], axis=1)
s.str.cat(d, na_rep='-')

0    aaa
1    bbb
2    c-c
3    ddd
dtype: object

### 将`Series`和有`Index`索引的对象连接成一个`Series`

上面的例子中，`s`和`d`只是简单的连接起来，但是如果传入一个`join`参数，则可以按照索引进行连接：

In [101]:
d.index = [0, 3, 2, 1]
s.str.cat(d, join='left', na_rep='-')

0    aaa
1    bdd
2    c-c
3    dbb
dtype: object

`join`可以是`inner`，`outer`，`left`，`right`，意味着按照哪一个索引对齐：

In [103]:
# 按照others的索引进行对齐，缺失值用-进行填补
v = pd.Series(['z', 'a', 'b', 'd', 'e'], index=[-1, 0, 1, 3, 4])
s.str.cat(v, join='right', na_rep='-')

-1    -z
 0    aa
 1    bb
 3    dd
 4    -e
dtype: object

### 将`Series`和多个对象连接成一个`Series`

`others`也可以是类似列表的容器（包括迭代器、dict-view等）中组合几个类似数组的项（具体地说:`Series`、`Index`和`np.ndarray`的一维变体）。要注意两点：
1. 列表容器中不能包含二维的数组（二维的`np.ndarry`或者`dataframe`）,否则会报错。
2. 列表容器中没有索引的所有元素（例如np.ndarray）的长度必须与调用的`Series`（或`Index`）一致，但是`Series`和`Index`可以具有任意长度（只要没有使用`join=None`禁用对齐）。
3. 如果列表容易中有多个有索引的序列，且设置`join='right'`，则将使用这些索引的并集作为最终连接的基础。

In [108]:
s.str.cat([t, v], join='left', na_rep='_')

0    aaa
1    bbb
2    c__
3    ddd
dtype: object

In [110]:
try:
    s.str.cat([d])
except Exception as e:
    print(f"{e.__class__.__name__}: {e}")

TypeError: others must be Series, Index, DataFrame, np.ndarrary or list-like (either containing only strings or containing only objects of type Series/Index/list-like/np.ndarray)


In [121]:
s.str.cat([v.loc[-1:1], v.loc[[4]]], join='right', na_rep='_')

-1    _z_
 0    aa_
 1    bb_
 4    __e
dtype: object

### 使用`.str`进行索引选取

可以使用`[]`符号按位置对字符串直接索引（也可以使用`get`方法），如果索引超过字符串的末尾，结果将是`NaN`:

In [124]:
s = pd.Series(['A', np.nan, 'Aaba'])
s.str[0]
s.str.get(1)

0      A
1    NaN
2      A
dtype: object

0    NaN
1    NaN
2      a
dtype: object

## 提取子字符串

### 提取第一个匹配项

提取子字符串，主要利用`.str.extract`和`.str.extractall`两个方法，`extract`只能提取第一个匹配项，`extractall`可以提取所有匹配项。先来看`extract`的使用方法：
1. `extract`方法接受具有至少一个捕获组的正则表达式，提取包含多个组的正则表达式将返回每个组包含一列的`DataFrame`，即使`expand`参数设置为`False`。
2. 不匹配的元素返回一个填充`NaN`的行。因此，可以将一系列杂乱的字符串转换为类似索引的序列或更有用的字符串的`DataFrame`，而不需要`get()`访问元组或`re.match`对象。
3. 结果的dtype总是object，即使没有找到匹配项，并且结果只包含NaN。
4. 如果是命名的捕获组，则名称将成为返回的`dataframe`的`column`的名称，否则将使用捕获组号。
5. 使用只有一个捕获组的正则表达式，如果`expand=True`，则返回一个带一列的`DataFrame`，如果是`False`，`Series`类型返回`Series`，`Index`类型返回`Index`。下图是`expand`参数与返回值的对应关系：
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

In [130]:
# 有2个捕获分组，则返回2列，且只提取第一个匹配项，捕获组的名称成了列的名称
pd.Series(['a1a2', 'b2', 'c3']).str.extract(
    r'(?P<col1>[ab])(?P<col2>\d)', expand=False)

Unnamed: 0,col1,col2
0,a,1.0
1,b,2.0
2,,


In [141]:
# [ab]?未能匹配上，所以返回NaN
d = pd.Series(['a1', 'b2', '3']).str.extract(r'([ab])?(\d)', expand=False)
# 返回的结果的dtype都是object，即使看起来全部都是整数
d.dtypes
d

0    object
1    object
dtype: object

Unnamed: 0,0,1
0,a,1
1,b,2
2,,3


In [142]:
# 只有一个捕获组的情况下，如果expand参数是True，则返回dataframe
pd.Series(['a1', 'b2', 'c3']).str.extract(r'[ab](\d)', expand=True)

Unnamed: 0,0
0,1.0
1,2.0
2,


In [143]:
# 如果返回值只有一列，如果expand是False，则调用的序列是Series，则返回Series，是Index则返回Index，如果expand是True，则返回的都是dataframe
s = pd.Series(["a1", "b2", "c3"], ["A11", "B22", "C33"])
s.index.str.extract("(?P<letter>[a-zA-Z])", expand=False)

Index(['A', 'B', 'C'], dtype='object', name='letter')

In [144]:
# 返回两列，但是expand又是False，则会抛出ValueError
try:
    s.index.str.extract("(?P<letter>[a-zA-Z])([0-9]+)", expand=False)
except Exception as e:
    print(f"{e.__class__.__name__}: {e}")

ValueError: only one regex group is supported with Index


### 提取所有的匹配项

`extractall`方法返回每个匹配项。`extractall`的结果总是一个`dataframe`，其行上有一个多索引。`MultiIndex`的最后一层名为`match`，表示匹配的顺序。

In [146]:
s = pd.Series(["a1a2", "b1", "c1"], index=["A", "B", "C"])
two_groups = '(?P<letter>[a-z])(?P<digit>[0-9])'
s.str.extractall(two_groups)

Unnamed: 0_level_0,Unnamed: 1_level_0,letter,digit
Unnamed: 0_level_1,match,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0,a,1
A,1,a,2
B,0,b,1
C,0,c,1


如果只有一个匹配项的话，那么`.str.extractall(pat).xs(0, level='match')`的结果和`.str.extract(pat)`的结果是一样的：

In [147]:
s = pd.Series(['a1', 'a2', 'a3'], index=['A', 'B', 'C'])
two_groups = '(?P<letter>[a-z])(?P<digit>[0-9])'
s.str.extractall(two_groups).xs(0, level='match')

Unnamed: 0,letter,digit
A,a,1
B,a,2
C,a,3


## 测试字符串是否匹配或者包含某个模式

可以使用`.str.match()`和`.str.contains()`方法来测试字符串是否匹配或者包含某个模式，`match`和`contains`区别在于：`match`在底层使用`re.match`方法进行判断，而`contains`使用`re.search`方法进行判断。  
像`match`、`contains`、`startswith`和`endswith`这样的方法都接受一个额外的`na`参数，用来设置缺失的值为真还是假。

In [148]:
pattern = r'[0-9][a-z]'
# 区别在于03c，如果是contains，则为True，如果是match，从首字符开始匹配，则为False
pd.Series(['1', '2', '3a', '3b', '03c']).str.contains(pattern)
pd.Series(['1', '2', '3a', '3b', '03c']).str.match(pattern)

0    False
1    False
2     True
3     True
4     True
dtype: bool

0    False
1    False
2     True
3     True
4    False
dtype: bool

## 创建哑变量

可以通过`.str.get_dummies()`将字符串转换成哑变量，这里要强调一下和顶层的`get_dummies()`方法有什么不同。看个例子：

In [155]:
# 假设有一个这样的Series对象
s = Series(['a', 'a|c', np.nan, 'c|d'])
# 普通的get_dummies方法得到的结果是这样的，显然不附和我们的预期
pd.get_dummies(s)
# 使用.str.get_dummies，通过sep参数传递分隔符，得到的结果正是我们想要的
s.str.get_dummies(sep='|')

Unnamed: 0,a,a|c,c|d
0,1,0,0
1,0,1,0
2,0,0,0
3,0,0,1


Unnamed: 0,a,c,d
0,1,0,0
1,1,1,0
2,0,0,0
3,0,1,1


## `.str`方法汇总

本文主要参考[官方文档](https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html)，增加了一些个人的理解和补充。

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

In [171]:
s = Series([[1, 2], ['A', 'B', 'C']])

In [172]:
DataFrame(s.to_list())

Unnamed: 0,0,1,2
0,1,2,
1,A,B,C


In [173]:
s.str.join(sep='-').str.split(pat='-', expand=True)

Unnamed: 0,0,1,2
0,,,
1,A,B,C
