In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

In [2]:
import pandas as pd
from pandas import DataFrame,Series
import matplotlib.pyplot as plt
import numpy as np

# Pandas私房手册-替换（replace）

## 字符串的替换

`dataframe`和`series`都有实例方法`replace`用于替换操作，`replace`支持正则表达式，以`dataframe`为例，它的函数签名是：
```python
DataFrame.replace(self, to_replace=None, value=None, inplace=False, limit=None, regex=False, method='pad')
```
注意在使用上和`series.str.replace`的区别，后者的签名是：
```python
replace(pat, repl, n=-1, case=None, flags=0, regex=True)
```
`series.str.replace`着眼于字符串的替换，和`re.sub`是类似的，`pat`参数是字符串或者正则表达式的`pat`对象，`repl`参数是字符串或者可调用对象。`series`和`dataframe`实例方法的`replace`，`to_replace`和`value`参数可以是标量、列表、字典以及他们的组合，不能是可调用对象。

In [42]:
d = {'A': list(range(4)), 'B': list('ab..'), 'C': ['a', 'b', np.nan, 'd']}
df = pd.DataFrame(d)
df

Unnamed: 0,A,B,C
0,0,a,a
1,1,b,b
2,2,.,
3,3,.,d


### `to_replace`和`value`参数的各种组合

#### 标量->标量

现在看使用正则和不使用正则的情况下将“.”替换成`NaN`：

In [43]:
df.replace('.', np.nan)
df.replace(r'\s*\.\s*', np.nan, regex=True)

Unnamed: 0,A,B,C
0,0,a,a
1,1,b,b
2,2,,
3,3,,d


Unnamed: 0,A,B,C
0,0,a,a
1,1,b,b
2,2,,
3,3,,d


#### 列表->标量

列表和标量的组合表示把符合列表里所有正则式的值全部替换成指定的标量：

In [63]:
df.replace(['a', r'\s*\.\s*'], np.nan, regex=True)

Unnamed: 0,A,B,C
0,0,,
1,1,b,b
2,2,,
3,3,,d


#### 列表->列表

`to_replace`和`value`可以都是列表，两者长度必须相等，与`zip`一样，一对一进行配对：

In [44]:
df.replace(['a', r'\s*\.\s*'], ['b', np.nan], regex=True)

Unnamed: 0,A,B,C
0,0,b,b
1,1,b,b
2,2,,
3,3,,d


#### 字典->字典

`to_replace`和`value`还可以是字典，指定对某一列或者几列进行替换，字典的值仍然可以是列表：

In [53]:
# 表示B列下的a替换成b，.替换成NaN
df.replace({'B':['a', r'\s*\.\s*']}, {'B':['b', np.nan]}, regex=True)

Unnamed: 0,A,B,C
0,0,b,a
1,1,b,b
2,2,,
3,3,,d


#### 嵌套字典

甚至直接传递嵌套字典给`to_place`，表示对哪一列下的哪个值进行替换，这样就不用传递`value`参数了：

In [55]:
# 表示将B列的a替换成b，.替换成NaN
df.replace({'B': {'a': 'b', r'\s*\.\s*': np.nan}}, regex=True)

Unnamed: 0,A,B,C
0,0,b,a
1,1,b,b
2,2,,
3,3,,d


### 引用匹配的组

可以在替换时使用正则表达式匹配组，注意，`value`参数中引用`to_place`中匹配到的组时，记得加上`r`前缀或者使用`\\1`来引用，否则得不到想要的结果：

In [62]:
df.replace(r'\s*(\.)\s*', r'\1ty', regex=True)

Unnamed: 0,A,B,C
0,0,a,a
1,1,b,b
2,2,.ty,
3,3,.ty,d


### 通过`regex`传递要被替换的对象

也可以不使用`to_replace`参数，直接把要被替换的正则式传递给`regex`参数，不过这样的话，`value`参数必须通过显示的名称传递，而不能是位置参数传递，这相当于是一种简便的写法，当然也可以使用前面提到的任意一种组合：

In [67]:
df.replace(regex={'B': ['a', r'\s*(\.)\s*']}, value={'B': ['b', np.nan]})

Unnamed: 0,A,B,C
0,0,b,a
1,1,b,b
2,2,,
3,3,,d


## 数字的替换

数字的替换`replace`和`fillna`很相似：

In [78]:
df = pd.DataFrame(np.random.randn(5, 2))
df[np.random.rand(df.shape[0]) > 0.5] = 1.5
df
df.replace(1.5, np.nan)

Unnamed: 0,0,1
0,-0.031759,-1.352412
1,1.5,1.5
2,1.5,1.5
3,-0.222884,-0.010058
4,1.5,1.5


Unnamed: 0,0,1
0,-0.031759,-1.352412
1,,
2,,
3,-0.222884,-0.010058
4,,


同样可以是列表，字典等的组合：

In [79]:
df00 = df.iloc[0, 0]
df.replace([1.5, df00], [np.nan, 'a'])

Unnamed: 0,0,1
0,a,-1.35241
1,,
2,,
3,-0.222884,-0.0100581
4,,
