# pandas数据处理

## 1、删除重复元素

使用duplicated()函数检测重复的行，返回元素为布尔类型的Series对象，每个元素对应一行，如果该行不是第一次出现，则元素为True（是重复的）

- 使用drop_duplicates()函数删除重复的行

- 使用duplicate()函数查看重复的行

In [407]:
import numpy as np
import pandas as pd
from pandas import Series,DataFrame

In [408]:
# 示例数据 不要删!!!!!!!!!!!
data = [[100,100,100],[90,90,88],[100,100,100],[90,90,87],[100,100,100]]
columns = ['python','c++','java']
index = list('ABCDE')
df = DataFrame(data=data,index=index,columns=columns)
df

Unnamed: 0,python,c++,java
A,100,100,100
B,90,90,88
C,100,100,100
D,90,90,87
E,100,100,100


In [410]:
df.duplicated(keep="first") # 告诉我们 当前行是否重复
# 参数默认是 keep="first" 保留开始的 意思是如果发现很多重复的元素 第一个不算重复的 后面的才是
# 某一行重复 就返回True

A    False
B    False
C     True
D    False
E     True
dtype: bool

In [411]:
df.duplicated(keep="last") # keep last 如果遇到重复的元素 最后一个不算重复的 前面的才算重复
# 这一行重复了 就是True

A     True
B    False
C     True
D    False
E    False
dtype: bool

In [413]:
df.duplicated(keep=False) # 只要有和别人完全一样的 不管在开头还是结尾 都算重复
# 这一行如果是重复的就返回 True

A     True
B    False
C     True
D    False
E     True
dtype: bool

In [415]:
df

Unnamed: 0,python,c++,java
A,100,100,100
B,90,90,88
C,100,100,100
D,90,90,87
E,100,100,100


In [419]:
df.drop_duplicates() # {'first', 'last', False}, default 'first'
df.drop_duplicates(keep="first") # 默认就是keep first
df.drop_duplicates(keep="last") 
df.drop_duplicates(keep=False) 

Unnamed: 0,python,c++,java
B,90,90,88
D,90,90,87


## 2. 映射

映射的含义：创建一个映射关系列表，把values元素和一个特定的标签或者字符串绑定

包含三种操作：

- replace()函数：替换元素
- 最重要：map()函数：新建一列
- rename()函数：替换索引

### 1) replace()函数：替换元素

使用replace()函数，对values进行替换操作

#### Series替换操作

- 单值替换
    - 普通替换
    - 字典替换(推荐）
- 多值替换
    - 列表替换
    - 字典替换（推荐）

In [421]:
# 展示数据 不要删 !!!
s1 = Series(data = [100,'peppa',np.nan,'chengdu'])
s1

0        100
1      peppa
2        NaN
3    chengdu
dtype: object

In [422]:
# 单值替换 普通替换
s1.replace(to_replace="peppa",value="佩琪")

0        100
1         佩琪
2        NaN
3    chengdu
dtype: object

In [423]:
# 单值替换 字典替换（ ）
s1.replace({"chengdu":"成都"})

0      100
1    peppa
2      NaN
3       成都
dtype: object

In [425]:
# 多值替换 列表替换 s1.replace([要替换的值1,要替换的值2,.....],[替换成什么1,替换成什么2,....])
s1.replace([100,np.nan],["满分","空值"])

0         满分
1      peppa
2         空值
3    chengdu
dtype: object

In [426]:
s1

0        100
1      peppa
2        NaN
3    chengdu
dtype: object

In [427]:
# 多值替换 字典替换（ { 要替换的值:替换成什么,要替换的值:替换成什么 } ）
s1.replace({100:"满分","peppa":"佩琪"})

0         满分
1         佩琪
2        NaN
3    chengdu
dtype: object

0         满分
1      peppa
2        NaN
3    chengdu
dtype: object

Series参数说明：

- method：对指定的值使用相邻的值填充
- limit：设定填充次数

In [428]:
s2 = Series(data=np.array([80,100,100,100,89,78]))
s2

0     80
1    100
2    100
3    100
4     89
5     78
dtype: int32

In [431]:
# 如果指定value不好 还可以找值来填充
s2.replace(to_replace=100,method="bfill") # 从后面找值来替换当前值
s2.replace(to_replace=100,method="ffill") # 从前面找
s2.replace(to_replace=100,method="ffill",limit=1) # limit 指定是最多往前或者往后 找几个 如果找不到就不填充了 # limit 默认是None不限制


0     80
1     80
2    100
3    100
4     89
5     78
dtype: int32

#### DataFrame替换操作

- 单值替换
    - 普通替换
    - 按列指定单值替换{列标签：目标值}
    
    
- 多值替换
    - 列表替换
    - 单字典替换（推荐）

In [437]:
df = pd.read_excel("../data/data.xls",sheet_name=0)
df

Unnamed: 0,0,1,2,3,4
A,甲,,,,Beijing
B,乙,69.0,142.0,29,Beijing
C,丙,111.0,7.0,2,Beijing
D,丁,139.0,19.0,125,shanghai
E,戊,12.0,66.0,Beijing,shanghai


In [434]:
# 普通的单值替换
df.replace(to_replace='Beijing',value='北京')

Unnamed: 0,0,1,2,3,4
A,甲,,,,北京
B,乙,69.0,142.0,29,北京
C,丙,111.0,7.0,2,北京
D,丁,139.0,19.0,125,shanghai
E,戊,12.0,66.0,北京,shanghai


In [435]:
df

Unnamed: 0,0,1,2,3,4
A,甲,,,,Beijing
B,乙,69.0,142.0,29,Beijing
C,丙,111.0,7.0,2,Beijing
D,丁,139.0,19.0,125,shanghai
E,戊,12.0,66.0,北京,shanghai


In [438]:
# 按列指定单值换目标值 ({列索引,待替换值},目标值)
df.replace({4:'Beijing'},'首都')

Unnamed: 0,0,1,2,3,4
A,甲,,,,首都
B,乙,69.0,142.0,29,首都
C,丙,111.0,7.0,2,首都
D,丁,139.0,19.0,125,shanghai
E,戊,12.0,66.0,Beijing,shanghai


In [439]:
df

Unnamed: 0,0,1,2,3,4
A,甲,,,,Beijing
B,乙,69.0,142.0,29,Beijing
C,丙,111.0,7.0,2,Beijing
D,丁,139.0,19.0,125,shanghai
E,戊,12.0,66.0,Beijing,shanghai


In [274]:
# 多值替换 列表进替换
# replace([要替换的1，要替换的2...],[替换成1，替换成2])
df.replace([66,'甲','shanghai'],[100,'first','上海'])

Unnamed: 0,0,1,2,3,4
A,first,,,,Beijing
B,乙,69.0,142.0,29,Beijing
C,丙,111.0,7.0,2,Beijing
D,丁,139.0,19.0,125,上海
E,戊,12.0,100.0,北京,上海


In [441]:
df

Unnamed: 0,0,1,2,3,4
A,甲,,,,Beijing
B,乙,69.0,142.0,29,Beijing
C,丙,111.0,7.0,2,Beijing
D,丁,139.0,19.0,125,shanghai
E,戊,12.0,66.0,Beijing,shanghai


In [440]:
# replace({要替换的1：替换成的值1，要替换的2：替换成的值2，...}) 可以将没有的值也放在这里 不会报错 将来可以整个项目使用一个过滤器
df.replace({66:100,'乙':'second','Beijing':'BEIJING','没有的值':'也可以放'})
# 我们可以在 字典里面写很多值 字典中的值即使找不到也不会报错


Unnamed: 0,0,1,2,3,4
A,甲,,,,BEIJING
B,second,69.0,142.0,29,BEIJING
C,丙,111.0,7.0,2,BEIJING
D,丁,139.0,19.0,125,shanghai
E,戊,12.0,100.0,BEIJING,shanghai


**注意**：DataFrame中，无法使用method和limit参数

============================================

练习19：

    假设张三李四的成绩单里有满分的情况，老师认为是作弊，把所有满分的情况（包括150,300分）都记0分，如何实现？

============================================

In [443]:
data = [[150,300],[150,300]]
index = ["张三","李四"]
columns = ["数学","理综"]
df = DataFrame(data,index,columns)
df

Unnamed: 0,数学,理综
张三,150,300
李四,150,300


In [453]:
# 替换多个
# df.replace({150:0,300:0})
# df.replace([150,300],[0,0])
# 单值替换
# df1 = df.replace(to_replace=150,value=0)
# df1.replace(to_replace=300,value=0)
# df1 = df.replace({"数学":150},0)
# df1.replace({"理综":300},0)

Unnamed: 0,数学,理综
张三,0,0
李四,0,0


### 2) map()函数：新建一列








- map(字典) 字典的键要足以匹配所有的数据，否则出现NaN
- map()可以映射新一列数据
- map()中可以使用lambd表达式
- map()中可以使用方法，可以是自定义的方法


**注意** map()中不能使用sum之类的函数，for循环

In [454]:
score = pd.read_excel('../data/data.xls',sheet_name=1)
score

Unnamed: 0,姓名,语文,数学,python,php
0,小明,90,98,90,98
1,小红,44,89,44,89
2,小芳,98,90,90,98
3,小李,89,44,44,89
4,李元芳,78,98,98,87
5,狄仁杰,66,44,44,89


In [456]:
# 映射字典
map_dic = {'小明':'北京','小红':'上海','小芳':'北京',
           '小李':'广州','李元芳':'成都','狄仁杰':'成都'}

In [458]:
score["姓名"]

0     小明
1     小红
2     小芳
3     小李
4    李元芳
5    狄仁杰
Name: 姓名, dtype: object

In [459]:
# map函数不是DataFrame的方法，而是Sereis对象的方法
# 可以传入映射字典
score["姓名"].map(map_dic)

0    北京
1    上海
2    北京
3    广州
4    成都
5    成都
Name: 姓名, dtype: object

In [461]:
score["所在城市"] = score["姓名"].map(map_dic) # 可以传入字典
score

Unnamed: 0,姓名,语文,数学,python,php,所在城市
0,小明,90,98,90,98,北京
1,小红,44,89,44,89,上海
2,小芳,98,90,90,98,北京
3,小李,89,44,44,89,广州
4,李元芳,78,98,98,87,成都
5,狄仁杰,66,44,44,89,成都


In [466]:
# 还可以传入 拉姆达表达式 如 lambda x:x+10
score["python"]= score["python"].map(lambda x:x+10)


In [467]:
score

Unnamed: 0,姓名,语文,数学,python,php,所在城市
0,小明,90,98,100,98,北京
1,小红,44,89,54,89,上海
2,小芳,98,90,100,98,北京
3,小李,89,44,54,89,广州
4,李元芳,78,98,108,87,成都
5,狄仁杰,66,44,54,89,成都


In [468]:
# 还可以传入自定义函数
def fn(x):
    return x-20

In [472]:

score["php"]= score["php"].map(fn) #这里一定要注意 是把函数名传入 千万不要加小括号去调用
score

Unnamed: 0,姓名,语文,数学,python,php,所在城市
0,小明,90,98,100,18,北京
1,小红,44,89,54,9,上海
2,小芳,98,90,100,18,北京
3,小李,89,44,54,9,广州
4,李元芳,78,98,108,7,成都
5,狄仁杰,66,44,54,9,成都


Unnamed: 0,姓名,语文,数学,python,php,地址
0,小明,70,98,110,98,北京
1,小红,24,89,64,89,上海
2,小芳,78,90,110,98,北京
3,小李,69,44,64,89,广州
4,李元芳,58,98,118,87,成都
5,狄仁杰,46,44,64,89,成都


============================================

练习20：

    给已有的考试成绩表新增一列成绩状态，如果分数低于90，则为"failed"，如果分数高于120，则为"excellent"，其他则为"pass"
    
    【提示】使用函数作为map的参数

============================================

In [484]:
data = np.random.randint(0,150,size=(5,3))
columns = ['python','java','php']
index = ['peppa','mery','tom','jack','rose']
df = DataFrame(data,index,columns)
df

Unnamed: 0,python,java,php
peppa,18,57,95
mery,29,4,142
tom,102,138,59
jack,138,130,79
rose,68,137,69


In [479]:
def map_score(x):
    if x>120:
        return "exellent"
    elif x<90:
        return "failed"
    else:
        return "pass"

In [483]:
df["phpx"]= df["php"].map(map_score)
df

Unnamed: 0,python,java,php,phpx
peppa,60,1,102,pass
mery,32,100,95,pass
tom,38,11,60,failed
jack,4,15,146,exellent
rose,7,74,49,failed


### 3) rename()函数：替换索引

对DataFrame的索引名进行更改

仍然是新建一个字典

In [485]:
# 展示示例 别删!!!
score = pd.concat((df,df),keys=['A','B'],axis=1)
score

Unnamed: 0_level_0,A,A,A,B,B,B
Unnamed: 0_level_1,python,java,php,python,java,php
peppa,18,57,95,18,57,95
mery,29,4,142,29,4,142
tom,102,138,59,102,138,59
jack,138,130,79,138,130,79
rose,68,137,69,68,137,69


In [488]:
# 展示示例 别删!!!
map_dic = {'peppa':'帅气','mery':'美丽','python':'蟒蛇',
           'java':'咖啡','php':'拍黄片','A':'上','B':'下'}

In [489]:
score.rename(map_dic) # 默认是替换 行的名称

Unnamed: 0_level_0,A,A,A,B,B,B
Unnamed: 0_level_1,python,java,php,python,java,php
帅气,18,57,95,18,57,95
美丽,29,4,142,29,4,142
tom,102,138,59,102,138,59
jack,138,130,79,138,130,79
rose,68,137,69,68,137,69


In [493]:
score.rename(columns=map_dic) # 指定columns可以对列名称进行替换
score.rename(columns=map_dic,level=0) # 通过level参数 可以指定具体对哪一层级进行替换  
score.rename(columns=map_dic,level=1) # 0 是最外层 
score.rename(columns=map_dic,level=-1)

Unnamed: 0_level_0,A,A,A,B,B,B
Unnamed: 0_level_1,蟒蛇,咖啡,拍黄片,蟒蛇,咖啡,拍黄片
peppa,18,57,95,18,57,95
mery,29,4,142,29,4,142
tom,102,138,59,102,138,59
jack,138,130,79,138,130,79
rose,68,137,69,68,137,69


使用rename()函数替换行索引

- index 替换行索引
- columns 替换列索引
- level 指定多维索引的维度

## 3. 使用聚合操作对数据异常值检测和过滤

使用 df.describe() 函数查看每一列的描述性统计量

In [509]:
# 别删
data = np.random.randn(1000,5)
df = DataFrame(data)
df

Unnamed: 0,0,1,2,3,4
0,0.534387,-1.356542,0.509096,-1.132251,0.597609
1,0.557609,0.377489,-1.386734,-0.569041,1.158023
2,1.031163,3.342800,-0.951155,0.879417,0.775101
3,-0.011083,-0.080496,0.626789,-0.639133,0.816877
4,0.915207,0.079409,0.246896,-1.751419,-1.067632
5,0.708463,0.946452,-0.726427,0.070167,1.115384
6,-0.437465,0.020174,-0.115318,0.579176,-0.292002
7,-0.792845,-1.064578,0.308437,-1.087241,0.184374
8,-0.637296,1.055860,-0.358939,-0.107202,-0.407318
9,-0.300596,0.005117,0.027386,0.366758,-0.765794


In [497]:
df.describe() 

Unnamed: 0,0,1,2,3,4
count,1000.0,1000.0,1000.0,1000.0,1000.0
mean,0.019615,0.008978,0.002853,0.014141,-0.008822
std,0.988672,1.013836,1.010433,1.020105,1.023155
min,-2.842544,-3.892657,-2.630116,-3.175475,-3.860242
25%,-0.679723,-0.656524,-0.695306,-0.675029,-0.665006
50%,0.025267,-0.005455,-0.053128,-0.030491,-0.016477
75%,0.718051,0.732615,0.701169,0.702746,0.660637
max,2.832537,3.205288,3.456829,3.537849,3.125329


使用std()函数可以求得DataFrame对象每一列的标准差

In [498]:
df.std()

0    0.988672
1    1.013836
2    1.010433
3    1.020105
4    1.023155
dtype: float64

根据每一列或行的标准差，对DataFrame元素进行过滤。

借助any()或all()函数, 测试是否有True，有一个或以上返回True，反之返回False

对每一列应用筛选条件,去除标准差太大的数据

In [510]:
# 寻找异常数据 太大的 或者 太小的
df.mean() # 各个列的平均值 是一个Series
df - df.mean() # DataFrame - Series DataFrame中的每一行都和Series做减法 对应的列相减
df - df.mean() > 3*df.std()
(df - df.mean() > 3*df.std()).any()
(df - df.mean() > 3*df.std()).any(axis=1)
df[(df - df.mean() > 3*df.std()).any(axis=1)] #找到异常的行

Unnamed: 0,0,1,2,3,4
2,1.031163,3.3428,-0.951155,0.879417,0.775101
27,0.293161,0.996596,-0.921322,1.026759,3.12523
89,-0.574413,3.278781,0.927381,0.785391,-0.202599
448,-0.063992,3.065781,0.527608,-1.437081,-1.338915
718,-0.721761,-1.553252,3.376908,1.616187,0.484057
720,0.169187,1.18916,0.950916,0.484301,3.434112
739,3.083713,-0.795726,-1.669864,-1.7376,-0.620702
949,-0.54686,3.082299,0.196674,0.324997,0.096944
971,3.12769,1.149779,1.222424,-0.628777,-0.024324
988,4.398187,0.09511,-0.321007,0.378016,1.166681


删除特定索引df.drop(labels,inplace = True)

In [513]:
drop_idx = df[(df - df.mean() > 3*df.std()).any(axis=1)].index

In [516]:
df.drop(drop_idx).shape

(990, 5)

In [515]:
df.shape

(1000, 5)

(1000, 5)

(997, 5)

(993, 5)

In [165]:
# 异常数据对于 ML模型训练的危害

============================================

练习：

    新建一个形状为10000*3的标准正态分布的DataFrame(np.random.randn)，去除掉所有满足以下情况的行：其中任一元素绝对值大于3倍标准差

============================================

## 4. 排序

#### 使用.take()函数排序

    - take()函数接受一个索引列表，用数字表示
    - eg:df.take([1,3,4,2,5])

可以借助np.random.permutation()函数随机排序

In [517]:
# 别删
data = np.random.randint(0,100,size=(5,5))
index = list('ABCDE')
columns = list('甲乙丙丁戊')
df = DataFrame(data=data,index=index,columns=columns)
df

Unnamed: 0,甲,乙,丙,丁,戊
A,27,11,28,69,12
B,46,15,31,19,28
C,22,76,3,17,98
D,28,91,73,72,65
E,18,46,22,40,64


In [521]:
df.take([3,2,1]) # 按照索引去取行 顺序随意 还可以重复 还可以不完全
df.take([3,3,3,3]) 

Unnamed: 0,甲,乙,丙,丁,戊
D,28,91,73,72,65
D,28,91,73,72,65
D,28,91,73,72,65
D,28,91,73,72,65


In [523]:
np.random.permutation(2)
np.random.permutation(5)

array([4, 2, 3, 0, 1])

In [533]:
df.take(np.random.permutation(5)) # 随机排序 （行不会少 也不会重复 只是顺序随机变换）

Unnamed: 0,甲,乙,丙,丁,戊
D,28,91,73,72,65
B,46,15,31,19,28
A,27,11,28,69,12
E,18,46,22,40,64
C,22,76,3,17,98


#### 随机抽样

当DataFrame规模足够大时，直接使用np.random.randint()函数，就配合take()函数实现随机抽样

In [538]:
np.random.randint(0,5,size=2)

array([2, 1])

In [545]:
df.take(np.random.randint(0,5,size=2)) # 随机抽样

Unnamed: 0,甲,乙,丙,丁,戊
D,28,91,73,72,65
C,22,76,3,17,98


============================================


练习22：

   假设有张三李四王老五的期中考试成绩ddd2，对着三名同学随机排序

============================================

## 5. 数据分类处理【重点】

数据聚合是数据处理的最后一步，通常是要使每一个数组生成一个单一的数值。

数据分类处理：

 - 分组：先把数据分为几组
 - 用函数处理：为不同组的数据应用不同的函数以转换数据
 - 合并：把不同组得到的结果合并起来
 
数据分类处理的核心：
     - groupby()函数
     - groups属性查看分组情况

In [547]:
# 示例数据 不要删！！！
df = DataFrame({'item':['苹果','香蕉','橘子','香蕉','橘子','苹果','苹果'],
                'price':[4,3,3,2.5,4,2,2.8],
               'color':['red','yellow','yellow','green','green','green','yello'],
               'weight':[12,20,50,30,20,44,37]})
df

Unnamed: 0,item,price,color,weight
0,苹果,4.0,red,12
1,香蕉,3.0,yellow,20
2,橘子,3.0,yellow,50
3,香蕉,2.5,green,30
4,橘子,4.0,green,20
5,苹果,2.0,green,44
6,苹果,2.8,yello,37


- 根据item分组,通过groups属性查看结果

In [549]:
df.groupby("item").groups

{'橘子': Int64Index([2, 4], dtype='int64'),
 '苹果': Int64Index([0, 5, 6], dtype='int64'),
 '香蕉': Int64Index([1, 3], dtype='int64')}

- 获取weight的总和

In [552]:
df

Unnamed: 0,item,price,color,weight
0,苹果,4.0,red,12
1,香蕉,3.0,yellow,20
2,橘子,3.0,yellow,50
3,香蕉,2.5,green,30
4,橘子,4.0,green,20
5,苹果,2.0,green,44
6,苹果,2.8,yello,37


In [553]:
df.groupby("item")["weight"].sum() #各类水果的总重量

item
橘子    70
苹果    93
香蕉    50
Name: weight, dtype: int64

- 把总和跟df进行merge合并

In [555]:
df2 = DataFrame(df.groupby("item")["weight"].sum())
df2

Unnamed: 0_level_0,weight
item,Unnamed: 1_level_1
橘子,70
苹果,93
香蕉,50


In [556]:
df

Unnamed: 0,item,price,color,weight
0,苹果,4.0,red,12
1,香蕉,3.0,yellow,20
2,橘子,3.0,yellow,50
3,香蕉,2.5,green,30
4,橘子,4.0,green,20
5,苹果,2.0,green,44
6,苹果,2.8,yello,37


In [560]:
pd.merge(df,df2,on="item",how="outer",suffixes=["","_total"])

Unnamed: 0,item,price,color,weight,weight_total
0,苹果,4.0,red,12,93
1,苹果,2.0,green,44,93
2,苹果,2.8,yello,37,93
3,香蕉,3.0,yellow,20,50
4,香蕉,2.5,green,30,50
5,橘子,3.0,yellow,50,70
6,橘子,4.0,green,20,70
