## 检测和过滤异常值
该操作类似与DataFrame的选取和过滤操作  
经常会遇到这样的需求，要从表格中选取出包含符合条件数据的行/列，可以这样操作：
1. 根据条件进行布尔运算，得到布尔型DataFrame
2. 对布尔型DataFrame使用`any()`方法，得到对于行/列的布尔型Series
3. 将布尔型Series代入DataFrame中，得到包含符合条件数据的行/列
  
`any()` 对布尔型DataFrame在指定轴方向上进行布尔运算，得到关于行/列的布尔型Series  
参数  
`axis` 默认0/'index'，表示在行方向运算，即对每列上的行进行布尔运算，1/'columnes'则反之

In [1]:
import numpy as np
import pandas as pd

In [2]:
data = pd.DataFrame(np.random.randint(-60, 60, size=25).reshape(5, 5), index=list('abcde'), columns=list('ABCDE'))
data

Unnamed: 0,A,B,C,D,E
a,3,-41,-18,-57,-10
b,-14,40,3,57,41
c,-34,17,10,-24,-57
d,-40,-7,9,-23,-20
e,51,1,3,48,-58


In [3]:
# 找出指定列中有符合条件数据的行，如B列中绝对值>20的行
data[np.abs(data['B'])>20]

Unnamed: 0,A,B,C,D,E
a,3,-41,-18,-57,-10
b,-14,40,3,57,41


In [4]:
# 下面找出包含绝对值>50数据的行
# 先根据条件进行布尔运算，得到布尔型DataFrame
np.abs(data)>50

Unnamed: 0,A,B,C,D,E
a,False,False,False,True,False
b,False,False,False,True,False
c,False,False,False,False,True
d,False,False,False,False,False
e,True,False,False,False,True


In [5]:
# 对布尔型DataFrame使用any()方法，得到关于行的布尔型Series
# 参数1表示列方向运算，即对每行上的列进行布尔运算
(np.abs(data)>50).any(1)

a     True
b     True
c     True
d    False
e     True
dtype: bool

In [6]:
# 将行的布尔型Series代入DataFrame中，得到符合条件的行组成的DataFrame
data[(np.abs(data)>50).any(1)]

Unnamed: 0,A,B,C,D,E
a,3,-41,-18,-57,-10
b,-14,40,3,57,41
c,-34,17,10,-24,-57
e,51,1,3,48,-58


In [7]:
# 如果要找出符合条件的列，any()的参数需要是0
# 另外布尔型Series不能直接代入DataFrame中，而要通过loc方法实现
data.loc[:,(np.abs(data) > 50).any(0)]

Unnamed: 0,A,D,E
a,3,-57,-10
b,-14,57,41
c,-34,-24,-57
d,-40,-23,-20
e,51,48,-58


In [8]:
# 找出符合条件的数据后，可以对值进行设置，使其符合需要，如绝对值>50的均设置为+/-50
data[(np.abs(data)>50)]=np.sign(data)*50
data

Unnamed: 0,A,B,C,D,E
a,3,-41,-18,-50,-10
b,-14,40,3,50,41
c,-34,17,10,-24,-50
d,-40,-7,9,-23,-20
e,50,1,3,48,-50


> `np.sign(n)` 根据n的正负情况，生成1和-1