In [3]:
import numpy as np
import pandas as pd

In [4]:
def make_df(indexs, columns):    
    data = [[str(j)+str(i) for j in columns] for i in indexs]
    df = pd.DataFrame(data=data, index=indexs, columns=columns)
    return df

## 七、Pandas处理重复值和异常值
### 1. 删除重复行

- 使用duplicated()函数检测重复的行，返回元素为布尔类型的Series对象
- 每个元素对应一行，如果该行不是第一次出现，则元素为True
- 使用drop_duplicates()函数删除重复的行

### 2. 映射

映射的含义：创建一个映射关系列表，把values元素和一个特定的标签或者字符串绑定

包含三种操作：

- replace()函数：替换元素
- map()函数：处理某一单独的列或者整个DataFrame, 最重要
- rename()函数：替换索引
- apply()函数：既支持 Series，也支持 DataFrame
- transform()函数

### 3. 异常值检测和过滤

- describe(): 查看每一列的描述性统计量
- df.std() : 可以求得DataFrame对象每一列的标准差
- df.drop(): 删除特定索引
- unique() : 唯一,去重
- query() : 按条件查询
- df.sort_values(): 根据值排序
- df.sort_index(): 根据索引排序
- df.info(): 查看数据信息

### 4. 抽样

- 使用.take()函数排序

- 可以借助np.random.permutation()函数随机排序

### 1. 删除重复行

- 使用duplicated()函数检测重复的行，返回元素为布尔类型的Series对象
- 每个元素对应一行，如果该行不是第一次出现，则元素为True
- 使用drop_duplicates()函数删除重复的行

In [6]:
df = make_df([1,2,3,4],list('ABCD'))
df

Unnamed: 0,A,B,C,D
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4


In [8]:
df.loc[1] = df.loc[2]
df

Unnamed: 0,A,B,C,D
1,A2,B2,C2,D2
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4


In [14]:
# 判断是否和前面的行重复，表示第二行数据与前面的行有重复
display(df.duplicated())
# keep：first（默认值）：保留重复的第一行，last：保留最后一行，False：都不保留，所有存在重复的行都为True
display(df.duplicated(keep='first'))
display(df.duplicated(keep=False))

1    False
2     True
3    False
4    False
dtype: bool

1    False
2     True
3    False
4    False
dtype: bool

1     True
2     True
3    False
4    False
dtype: bool

In [15]:
df.loc[1,'D'] = 'D1'
df

Unnamed: 0,A,B,C,D
1,A2,B2,C2,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4


In [19]:
# 默认只要改行任意一个值不相同，那么就判定为不重复
display(df.duplicated())
# subset：子集，判断子集指定的列，如果指定的列数据都重复，那么就判定是重复行
# 判断A列是否重复
display(df.duplicated(subset=['A','B']))

1    False
2    False
3    False
4    False
dtype: bool

1    False
2     True
3    False
4    False
dtype: bool

In [21]:
# 使用drop_duplicates()函数删除重复的行
df.drop_duplicates(subset=['A','B'],keep='last')

Unnamed: 0,A,B,C,D
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4


### 2. 映射

映射的含义：创建一个映射关系列表，把values元素和一个特定的标签或者字符串绑定

包含三种操作：

- replace()函数：替换元素
- map()函数：处理某一单独的列, 最重要
- rename()函数：替换索引
- apply()函数：既支持 Series，也支持 DataFrame
- transform()函数

#### 1) replace()函数：替换元素

使用replace()函数，对values进行替换操作

In [22]:
index = ['张三','张三丰','李白','杜甫']
columns = ['Python','Java','H5','UI']
data = np.random.randint(0,100,size=(4,4))
df = pd.DataFrame(data=data,index=index,columns=columns)
df

Unnamed: 0,Python,Java,H5,UI
张三,72,87,14,41
张三丰,91,6,8,3
李白,24,83,98,42
杜甫,10,32,79,65


In [23]:
# 替换元素
df.replace({6:66,10:100,8:88,3:33})

Unnamed: 0,Python,Java,H5,UI
张三,72,87,14,41
张三丰,91,66,88,33
李白,24,83,98,42
杜甫,100,32,79,65


#### 2) map()函数: 适合处理某一单独的列，df.map()用于处理DataFrame数据
map()函数中可以使用lambda函数

In [24]:
df2 = df.copy()
df2

Unnamed: 0,Python,Java,H5,UI
张三,72,87,14,41
张三丰,91,6,8,3
李白,24,83,98,42
杜甫,10,32,79,65


In [61]:
# map一般用于Series数据结构，也可以用于DataFrame
# 一般处理DataFrame中一列数据
# 例如，python成绩如果小于30则加50
df2['Python'].map(lambda i: i + 50 if i < 30 else i)
# 将计算后的结果替换原有的结果
df2['Python'] = df2['Python'].map(lambda i: i + 50 if i < 30 else i)
df2

Unnamed: 0,Python,Java,H5,UI,Java是否及格,UI是否及格
张三,72,87,14,41,及格,不及格
张三丰,91,6,8,3,不及格,不及格
李白,74,83,98,42,及格,不及格
杜甫,60,32,79,65,不及格,及格


In [32]:
# 新增列：判断Java的成绩是否及格
df2['Java是否及格'] = df2['Java'].map(lambda i: '及格' if i >= 60 else '不及格')
df2

Unnamed: 0,Python,Java,H5,UI,Java是否及格
张三,72,87,14,41,及格
张三丰,91,6,8,3,不及格
李白,74,83,98,42,及格
杜甫,60,32,79,65,不及格


In [34]:
# 使用普通函数
# 新增一列：判断UI成绩
# x<60 不及格
# 60<=x<80 及格
# x>=80 优秀
def fn(n):
    if n<60:
        return '不及格'
    elif n<80:
         return '及格'
    else:
         return '优秀'
df2['UI是否及格'] = df2['UI'].map(fn)
df2

Unnamed: 0,Python,Java,H5,UI,Java是否及格,UI是否及格
张三,72,87,14,41,及格,不及格
张三丰,91,6,8,3,不及格,不及格
李白,74,83,98,42,及格,不及格
杜甫,60,32,79,65,不及格,及格


#### 3) rename()函数：替换索引

In [35]:
df3 = df.copy()
df3

Unnamed: 0,Python,Java,H5,UI
张三,72,87,14,41
张三丰,91,6,8,3
李白,24,83,98,42
杜甫,10,32,79,65


In [42]:
# 默认修改行索引名称，inplace=True：修改原数据，默认为False
display(df3.rename({'张三':'Mr zhang'}))
# axis=1，修改列索引名称
display(df3.rename({'Python':'派森'}, axis=1))
# 使用index、columns关键字参数
display(df3.rename(index={'张三':'Mr zhang2'}))
display(df3.rename(columns={'Python':'派森2'}))

Unnamed: 0,Python,Java,H5,UI
Mr zhang,72,87,14,41
张三丰,91,6,8,3
李白,24,83,98,42
杜甫,10,32,79,65


Unnamed: 0,派森,Java,H5,UI
Mr zhang,72,87,14,41
张三丰,91,6,8,3
李白,24,83,98,42
杜甫,10,32,79,65


Unnamed: 0,Python,Java,H5,UI
Mr zhang,72,87,14,41
张三丰,91,6,8,3
李白,24,83,98,42
杜甫,10,32,79,65


Unnamed: 0,派森2,Java,H5,UI
Mr zhang,72,87,14,41
张三丰,91,6,8,3
李白,24,83,98,42
杜甫,10,32,79,65


In [44]:
# 重置索引。原来的显示索引就会变成一列数据
df3.reset_index()

Unnamed: 0,index,Python,Java,H5,UI
0,Mr zhang,72,87,14,41
1,张三丰,91,6,8,3
2,李白,24,83,98,42
3,杜甫,10,32,79,65


In [46]:
# 指定某列作为行索引
df3.set_index(keys=['H5'])

Unnamed: 0_level_0,Python,Java,UI
H5,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
14,72,87,41
8,91,6,3
98,24,83,42
79,10,32,65


#### 4) apply()函数：既支持 Series，也支持 DataFrame

In [65]:
df = pd.DataFrame(data=np.random.randint(0,10,size=(5,3)),
                 index=list('ABCDE'),
                 columns=['Python','Numpy','Pandas'])
df

Unnamed: 0,Python,Numpy,Pandas
A,5,4,0
B,1,4,9
C,5,5,2
D,5,6,2
E,1,3,4


In [66]:
# 用于Series，其中 i 表示Series中的元素
df['Python'].apply(lambda i: i > 5)

A    False
B    False
C    False
D    False
E    False
Name: Python, dtype: bool

In [67]:
# 用于DataFrame，其中i表示DataFrame中某列或某行的Series数据
# 求每一列数据的平均值（求Python列对应的所有行额平均值）
display(df.apply(lambda i: i.mean(), axis=0))
# 求每一行的平均值
display(df.apply(lambda i: i.mean(), axis=1))

Python    3.4
Numpy     4.4
Pandas    3.4
dtype: float64

A    3.000000
B    4.666667
C    4.000000
D    4.333333
E    2.666667
dtype: float64

In [68]:
# 自定义函数
def fn2(x):
    return (np.round(x.mean(),1), x.max())
display(df.apply(fn2,axis=1))

A    (3.0, 5)
B    (4.7, 9)
C    (4.0, 5)
D    (4.3, 6)
E    (2.7, 4)
dtype: object

In [69]:
# applymap()：只能用于DataFrame，其中i是每个元素（已废弃，建议使用df.map()）
display(df)
df.map(lambda i: i + 5 if i<3 else i)

Unnamed: 0,Python,Numpy,Pandas
A,5,4,0
B,1,4,9
C,5,5,2
D,5,6,2
E,1,3,4


Unnamed: 0,Python,Numpy,Pandas
A,5,4,5
B,6,4,9
C,5,5,7
D,5,6,7
E,6,3,4


#### 5) transform()函数

In [70]:
df = pd.DataFrame(data=np.random.randint(0,10,size=(5,3)),
                 index=list('ABCDE'),
                 columns=['Python','Numpy','Pandas'])
df

Unnamed: 0,Python,Numpy,Pandas
A,9,4,3
B,8,8,5
C,2,9,2
D,2,3,4
E,6,8,2


In [72]:
# Series中使用transform
# 可以执行多项计算
df['Python'].transform([np.sqrt,np.exp])

Unnamed: 0,sqrt,exp
A,3.0,8103.083928
B,2.828427,2980.957987
C,1.414214,7.389056
D,1.414214,7.389056
E,2.44949,403.428793


In [91]:
# DataFrame中使用 transform，x默认是每一列数据：Series，如果axis=1，x就是每一行数据
def convert(x):
    if x.mean() > 5:
        return x * 5
    return x * (-10)
# 处理每一列
display(df.transform(convert))
# 处理每一行
display(df.transform(convert,axis=1))

Unnamed: 0,Python,Numpy,Pandas
A,45,20,-30
B,40,40,-50
C,10,45,-20
D,10,15,-40
E,30,40,-20


Unnamed: 0,Python,Numpy,Pandas
A,45,20,15
B,40,40,25
C,-20,-90,-20
D,-20,-30,-40
E,30,40,10


In [114]:
# 多列执行不同计算
display(df.transform({'Python': convert}))
# np的聚合函数直接写函数名称即可
df.transform({'Python':convert, 'Numpy':"exp", 'Pandas':"sqrt"})

Unnamed: 0,Python
A,45
B,40
C,10
D,10
E,30


Unnamed: 0,Python,Numpy,Pandas
A,45,54.59815,1.732051
B,40,2980.957987,2.236068
C,10,8103.083928,1.414214
D,10,20.085537,2.0
E,30,2980.957987,1.414214


### 3. 异常值检测和过滤

- describe(): 查看每一列的描述性统计量
- df.std() : 可以求得DataFrame对象每一列的标准差
- df.drop(): 删除特定索引
- unique() : 唯一,去重
- query() : 按条件查询
- df.sort_values(): 根据值排序
- df.sort_index(): 根据索引排序
- df.info(): 查看数据信息


In [118]:
df

Unnamed: 0,Python,Numpy,Pandas
A,9,4,3
B,8,8,5
C,2,9,2
D,2,3,4
E,6,8,2


In [124]:
# describe(): 查看每一列的描述性统计量
display(df.describe())
display(df.describe([0.3,0.4,0.9,0.99]).T)

Unnamed: 0,Python,Numpy,Pandas
count,5.0,5.0,5.0
mean,5.4,6.4,3.2
std,3.286335,2.701851,1.30384
min,2.0,3.0,2.0
25%,2.0,4.0,2.0
50%,6.0,8.0,3.0
75%,8.0,8.0,4.0
max,9.0,9.0,5.0


Unnamed: 0,count,mean,std,min,30%,40%,50%,90%,99%,max
Python,5.0,5.4,3.286335,2.0,2.8,4.4,6.0,8.6,8.96,9.0
Numpy,5.0,6.4,2.701851,3.0,4.8,6.4,8.0,8.6,8.96,9.0
Pandas,5.0,3.2,1.30384,2.0,2.2,2.6,3.0,4.6,4.96,5.0


In [125]:
# df.std() : 可以求得DataFrame对象每一列的标准差
df.std()

Python    3.286335
Numpy     2.701851
Pandas    1.303840
dtype: float64

In [126]:
# df.drop(): 删除特定索引
df2 = df.copy()
df2

Unnamed: 0,Python,Numpy,Pandas
A,9,4,3
B,8,8,5
C,2,9,2
D,2,3,4
E,6,8,2


In [135]:
# 删除行
display(df2.drop('A'))
display(df2.drop(index='A'))
# 删除列
display(df2.drop('Python',axis=1))
display(df2.drop(columns='Python'))
# 删除多列
display(df2.drop(columns=['Python','Pandas']))

Unnamed: 0,Python,Numpy,Pandas
B,8,8,5
C,2,9,2
D,2,3,4
E,6,8,2


Unnamed: 0,Python,Numpy,Pandas
B,8,8,5
C,2,9,2
D,2,3,4
E,6,8,2


Unnamed: 0,Numpy,Pandas
A,4,3
B,8,5
C,9,2
D,3,4
E,8,2


Unnamed: 0,Numpy,Pandas
A,4,3
B,8,5
C,9,2
D,3,4
E,8,2


Unnamed: 0,Numpy
A,4
B,8
C,9
D,3
E,8


In [137]:
df

Unnamed: 0,Python,Numpy,Pandas
A,9,4,3
B,8,8,5
C,2,9,2
D,2,3,4
E,6,8,2


In [139]:
# unique() : 唯一,去重，DataFrame没有该方法，Series调用
df['Python'].unique()

array([9, 8, 2, 6], dtype=int32)

In [145]:
# query() : 按条件查询
df.query('Python==2') # 找到Python等于2的所有行
df.query('Python < 8')

df.query('Python==2 and Numpy==9')
df.query('Python==2 & Numpy==9')
df.query('Python<5 or Pandas<3')
df.query('Python>5 | Pandas>=5')

Unnamed: 0,Python,Numpy,Pandas
A,9,4,3
B,8,8,5
E,6,8,2


In [146]:
# 使用变量
n = 5
df.query('Python > @n')  # @n 使用变量
df.query('Python in [3, 4, 5, 6]')
m = [3, 4, 5, 6]
df.query('Python in @m')

Unnamed: 0,Python,Numpy,Pandas
E,6,8,2


In [147]:
df

Unnamed: 0,Python,Numpy,Pandas
A,9,4,3
B,8,8,5
C,2,9,2
D,2,3,4
E,6,8,2


In [152]:
# df.sort_values(): 根据值排序，默认升序，默认按照列排序
# 现根据Python 排序，再根据Pandas 排序
# 升序
df.sort_values(['Python', 'Pandas'])
# 降序
df.sort_values(['Python', 'Pandas'], ascending=False)
# 按照行排序
df.sort_values('A', ascending=False, axis=1)

Unnamed: 0,Python,Numpy,Pandas
A,9,4,3
B,8,8,5
C,2,9,2
D,2,3,4
E,6,8,2


In [156]:
# df.sort_index(): 根据索引排序，默认按行降序排序，
df.sort_index(ascending=False)
# 列索引升序排序
df.sort_index(axis=1)

Unnamed: 0,Numpy,Pandas,Python
A,4,3,9
B,8,5,8
C,9,2,2
D,3,4,2
E,8,2,6


In [157]:
# df.info(): 查看数据信息
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, A to E
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   Python  5 non-null      int32
 1   Numpy   5 non-null      int32
 2   Pandas  5 non-null      int32
dtypes: int32(3)
memory usage: 272.0+ bytes


练习:

新建一个形状为10000*3的标准正态分布的DataFrame，去除掉所有满足以下情况的行：

- 其中任一元素绝对值大于3倍标准差

In [158]:
df = pd.DataFrame(np.random.randn(10000, 3))
df.head()

Unnamed: 0,0,1,2
0,0.066941,0.242767,0.250655
1,-0.811072,1.766342,1.083712
2,1.633994,-0.923148,-0.87557
3,-0.380157,0.674737,-0.998719
4,1.456181,-0.157537,0.380719


In [166]:
# 过滤掉存在大于绝对值大于3倍标准差的元素所在行
# 标准差 df.std()
# 绝对值 df.abs()
cond = df.abs() > 3 * df.std()
cond2 = cond.any(axis=1)
# bool值索引，过滤异常值
df.loc[~cond2]

Unnamed: 0,0,1,2
0,0.066941,0.242767,0.250655
1,-0.811072,1.766342,1.083712
2,1.633994,-0.923148,-0.875570
3,-0.380157,0.674737,-0.998719
4,1.456181,-0.157537,0.380719
...,...,...,...
9995,-1.577098,-0.276372,-0.348959
9996,0.826828,2.851924,0.134671
9997,-1.277381,0.002028,2.591675
9998,1.287254,0.881946,0.774601


### 4. 抽样

- 使用.take()函数排序

- 可以借助np.random.permutation()函数随机排序

In [167]:
df2

Unnamed: 0,Python,Numpy,Pandas
A,9,4,3
B,8,8,5
C,2,9,2
D,2,3,4
E,6,8,2


In [177]:
# 默认是行排列，参数是隐式行索引
display(df2.take([1,0,2,3]))
# 列排列
display(df2.take([1,0,2], axis=1))
# 随机排序
r = np.random.permutation([0,1,2,3])
# 无放回抽样：依次随机取出，没有重复值
display(df2.take(r))

Unnamed: 0,Python,Numpy,Pandas
B,8,8,5
A,9,4,3
C,2,9,2
D,2,3,4


Unnamed: 0,Numpy,Python,Pandas
A,4,9,3
B,8,8,5
C,9,2,2
D,3,2,4
E,8,6,2


Unnamed: 0,Python,Numpy,Pandas
B,8,8,5
C,2,9,2
D,2,3,4
A,9,4,3


In [194]:
# 有放回抽样：可能有重复值
display(df2.take(np.random.randint(0,4,size=4)))

Unnamed: 0,Python,Numpy,Pandas
C,2,9,2
D,2,3,4
D,2,3,4
D,2,3,4
