# pandas数据处理

## 1、删除重复元素

使用duplicated()函数检测重复的行，返回元素为布尔类型的Series对象，每个元素对应一行，如果该行不是第一次出现，则元素为True

    - keep参数：指定保留哪一重复的行数据
    - True 重复的行

- 创建具有重复元素行的DataFrame

In [78]:
from pandas import Series,DataFrame
import numpy as np
import pandas as pd

In [2]:
#创建一个df
np.random.seed(10)
df = DataFrame(data=np.random.randint(0,100,size=(3,5)),index=['A','B','C'],columns=['a','b','c','d','e'])
df

Unnamed: 0,a,b,c,d,e
A,9,15,64,28,89
B,93,29,8,73,0
C,40,36,16,11,54


In [4]:
df.loc['B'] = ['22','22','22','22','22']
df.loc['C'] = ['22','22','22','22','22']
df

Unnamed: 0,a,b,c,d,e
A,9,15,64,28,89
B,22,22,22,22,22
C,22,22,22,22,22


In [5]:
#手动将df的某几行设置成相同的内容
df.duplicated()

A    False
B    False
C     True
dtype: bool

In [7]:
df.duplicated(keep='last')

A    False
B     True
C    False
dtype: bool

In [9]:
df.duplicated(keep=False)

A    False
B     True
C     True
dtype: bool

In [11]:
df.loc[df.duplicated(keep='last')]

Unnamed: 0,a,b,c,d,e
B,22,22,22,22,22


- 使用duplicated查看所有重复元素行

- 删除重复元素的行

- 使用drop_duplicates()函数删除重复的行
    - drop_duplicates(keep='first/last'/False)

In [13]:
df.drop_duplicates(inplace=True)

In [14]:
df

Unnamed: 0,a,b,c,d,e
A,9,15,64,28,89
B,22,22,22,22,22


## 2. 映射:指定替换

### 1) replace()函数：替换元素

使用replace()函数，对values进行映射操作

#### Series替换操作

- 单值替换
    - 普通替换
    - 字典替换(推荐）
- 多值替换
    - 列表替换
    - 字典替换（推荐）
- 参数
    - to_replace:被替换的元素
     

单值普通替换

In [16]:
s = Series([1,2,3,4,5])
s

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [20]:
s.replace(to_replace=2,value='two',inplace=True)

In [21]:
s

0      1
1    two
2      3
3      4
4      5
dtype: object

In [28]:
s.replace(to_replace={3:'three',4:'four'},inplace=True)
s

0        1
1      two
2    three
3     four
4        5
dtype: object

In [30]:
s.replace(to_replace=[1,5],value=['one','five'])

0      one
1      two
2    three
3     four
4     five
dtype: object

单值字典替换

多值列表替换

多值字典替换

replace参数说明：

- method：对指定的值使用相邻的值填充替换
- limit：设定填充次数

#### DataFrame替换操作

- 单值替换
    - 普通替换：  替换所有符合要求的元素:to_replace=15,value='e'
    - 按列指定单值替换： to_replace={列标签：替换值} value='value'
    
    
- 多值替换
    - 列表替换: to_replace=[]  value=[]
    - 字典替换（推荐）  to_replace={to_replace:value,to_replace:value}

In [34]:
np.random.seed(10)
df = DataFrame(data=np.random.randint(0,100,size=(3,5)))
df

Unnamed: 0,0,1,2,3,4
0,9,15,64,28,89
1,93,29,8,73,0
2,40,36,16,11,54


In [35]:
df.replace(to_replace=64,value='aaa')

Unnamed: 0,0,1,2,3,4
0,9,15,aaa,28,89
1,93,29,8,73,0
2,40,36,16,11,54


In [36]:
df.replace(to_replace=[9,0],value=['a','b'])

Unnamed: 0,0,1,2,3,4
0,a,15,64,28,89
1,93,29,8,73,b
2,40,36,16,11,54


In [38]:
#to_replace={列标签：替换值} value='value'
df.replace(to_replace={2:8},value='eight')

Unnamed: 0,0,1,2,3,4
0,9,15,64,28,89
1,93,29,eight,73,0
2,40,36,16,11,54


**注意**：DataFrame中，无法使用method和limit参数

============================================

练习19：

    假设张三李四的课表里有满分的情况，老师认为是作弊，把所有满分的情况（包括150,300分）都记0分，如何实现？

============================================

### 2) map()函数：新建一列 ，   map函数并不是df的方法，而是series的方法

- map是Series的一个函数
- map()可以映射新一列数据
- map()中可以使用lambd表达式
- map()中可以使用方法，可以是自定义的方法

    eg:map({to_replace:value})
- **注意** map()中不能使用sum之类的函数，for循环

- 新增一列：给df中，添加一列，该列的值为中文名对应的英文名

In [61]:
#3 3
df = DataFrame(data=[['zhangsan',1000,'sale'],['lisi',2000,'dev'],['wangwu',3333,'dev']],columns=['name','salary','dep'])


In [62]:
s = df['name']
e_s = s.map({'lisi':'Tony','zhangsan':'Tom','wangwu':'Jerry'})
df['e_name'] = e_s
df

Unnamed: 0,name,salary,dep,e_name
0,zhangsan,1000,sale,Tom
1,lisi,2000,dev,Tony
2,wangwu,3333,dev,Jerry


#### map当做一种运算工具，至于执行何种运算，是由map函数的参数决定的（参数：lambda，函数）
- 使用自定义函数

In [63]:
#声明一个函数：计算税后工资，并且返回
def after_salary(salary):
    if salary >= 2000:
        return salary-(salary-2000)*0.5
    else:
        return salary

In [64]:
#超过2000部分的钱缴纳50%的税
df['salary'].map(after_salary)

0    1000.0
1    2000.0
2    2666.5
Name: salary, dtype: float64

In [65]:
df['after_salary'] = df['salary'].map(after_salary)
df

Unnamed: 0,name,salary,dep,e_name,after_salary
0,zhangsan,1000,sale,Tom,1000.0
1,lisi,2000,dev,Tony,2000.0
2,wangwu,3333,dev,Jerry,2666.5


- 使用lambda表达式

### 注意：并不是任何形式的函数都可以作为map的参数。只有当一个函数具有一个参数且有返回值，那么该函数才可以作为map的参数。

============================================

练习20：

    新增两列，分别为张三、李四的成绩状态，如果分数低于90，则为"failed"，如果分数高于120，则为"excellent"，其他则为"pass"
    
    【提示】使用函数作为map的参数

============================================

## 3. 使用聚合操作对数据异常值检测和过滤

使用df.std()函数可以求得DataFrame对象每一列的标准差

- 创建一个1000行3列的df 范围（0-1），求其每一列的标准差

In [52]:
df=DataFrame(data=np.random.random(size=(1000,3)))
df.head()

Unnamed: 0,0,1,2
0,0.692866,0.277226,0.733242
1,0.895717,0.529584,0.743175
2,0.948999,0.62159,0.472716
3,0.641261,0.058438,0.811806
4,0.40243,0.450521,0.729454


In [56]:
df[1].std() * 2

0.5787939090844124

In [57]:
df[1]  > df[1].std() * 2

0      False
1      False
2       True
3      False
4      False
5      False
6       True
7      False
8      False
9      False
10     False
11     False
12      True
13     False
14      True
15      True
16     False
17     False
18     False
19      True
20      True
21     False
22      True
23      True
24     False
25     False
26      True
27     False
28     False
29      True
       ...  
970     True
971    False
972     True
973    False
974    False
975    False
976    False
977     True
978    False
979    False
980     True
981    False
982    False
983     True
984     True
985     True
986     True
987    False
988     True
989     True
990    False
991    False
992     True
993    False
994    False
995    False
996    False
997     True
998     True
999    False
Name: 1, Length: 1000, dtype: bool

对df应用筛选条件,去除标准差太大的数据:假设过滤条件为 1列数据大于两倍的1列标准差

============================================

练习21：

    新建一个形状为10000*3的标准正态分布的DataFrame(np.random.randn)，去除掉所有满足以下情况的行：其中任一元素绝对值(np.abs(df))大于3倍标准差

============================================

## 4. 排序

#### 使用.take()函数排序

    - take()函数接受一个索引列表，用数字表示,使得df根据列表中索引的顺序进行排序
    - eg:df.take([1,3,4,2,5])

可以借助np.random.permutation()函数随机排序

In [68]:
df

Unnamed: 0,name,salary,dep,e_name,after_salary
0,zhangsan,1000,sale,Tom,1000.0
1,lisi,2000,dev,Tony,2000.0
2,wangwu,3333,dev,Jerry,2666.5


In [69]:
df.take([1,2,0],axis=0)

Unnamed: 0,name,salary,dep,e_name,after_salary
1,lisi,2000,dev,Tony,2000.0
2,wangwu,3333,dev,Jerry,2666.5
0,zhangsan,1000,sale,Tom,1000.0


In [71]:
df.take([4,2,3,1,0],axis=1)

Unnamed: 0,after_salary,dep,e_name,salary,name
0,1000.0,sale,Tom,1000,zhangsan
1,2000.0,dev,Tony,2000,lisi
2,2666.5,dev,Jerry,3333,wangwu


- np.random.permutation(x)可以生成x个从0-(x-1)的随机数列

In [76]:
arr = np.random.permutation(5)
df.take(arr,axis=1)

Unnamed: 0,dep,salary,after_salary,e_name,name
0,sale,1000,1000.0,Tom,zhangsan
1,dev,2000,2000.0,Tony,lisi
2,dev,3333,2666.5,Jerry,wangwu


#### 随机抽样

当DataFrame规模足够大时，直接使用np.random.permutation(x)函数，就配合take()函数实现随机抽样

## 5. 数据分类处理【重点】

数据聚合是数据处理的最后一步，通常是要使每一个数组生成一个单一的数值。

数据分类处理：

 - 分组：先把数据分为几组
 - 用函数处理：为不同组的数据应用不同的函数以转换数据
 - 合并：把不同组得到的结果合并起来
 
数据分类处理的核心：
     - groupby()函数
     - groups属性查看分组情况
     - eg: df.groupby(by='item').groups

### 分组

In [77]:
df = DataFrame({'item':['Apple','Banana','Orange','Banana','Orange','Apple'],
                'price':[4,3,3,2.5,4,2],
               'color':['red','yellow','yellow','green','green','green'],
               'weight':[12,20,50,30,20,44]})
df

Unnamed: 0,color,item,price,weight
0,red,Apple,4.0,12
1,yellow,Banana,3.0,20
2,yellow,Orange,3.0,50
3,green,Banana,2.5,30
4,green,Orange,4.0,20
5,green,Apple,2.0,44


- 使用groupby实现分组

In [79]:
df.groupby(by='item')

<pandas.core.groupby.DataFrameGroupBy object at 0x000000000C186978>

In [80]:
df.groupby(by='item').groups

{'Apple': Int64Index([0, 5], dtype='int64'),
 'Banana': Int64Index([1, 3], dtype='int64'),
 'Orange': Int64Index([2, 4], dtype='int64')}

- 使用groups查看分组情况

In [72]:
#该函数可以进行数据的分组，但是不显示分组情况


In [73]:
#使用goups属性查看分组情况


- 分组后的聚合操作：分组后的成员中可以被进行运算的值会进行运算，不能被运算的值不进行运算

In [82]:
df.groupby(by='item').groups

{'Apple': Int64Index([0, 5], dtype='int64'),
 'Banana': Int64Index([1, 3], dtype='int64'),
 'Orange': Int64Index([2, 4], dtype='int64')}

In [76]:
#给df创建一个新列，内容为各个水果的平均价格


In [83]:
df.groupby(by='item').mean()

Unnamed: 0_level_0,price,weight
item,Unnamed: 1_level_1,Unnamed: 2_level_1
Apple,3.0,28
Banana,2.75,25
Orange,3.5,35


In [88]:
df.groupby(by='item').mean()['price']

item
Apple     3.00
Banana    2.75
Orange    3.50
Name: price, dtype: float64

In [86]:
df['meanPrice'] = df.groupby(by='item').mean()['price']

In [89]:
df['item'].map({'Apple':3,'Banana':2.75,'Orange':3.5})

0    3.00
1    2.75
2    3.50
3    2.75
4    3.50
5    3.00
Name: item, dtype: float64

In [90]:
df['meanPrice'] = df['item'].map({'Apple':3,'Banana':2.75,'Orange':3.5})

In [91]:
df

Unnamed: 0,color,item,price,weight,meanPrice
0,red,Apple,4.0,12,3.0
1,yellow,Banana,3.0,20,2.75
2,yellow,Orange,3.0,50,3.5
3,green,Banana,2.5,30,2.75
4,green,Orange,4.0,20,3.5
5,green,Apple,2.0,44,3.0


In [93]:
df.groupby(by='item')['price'].mean()

item
Apple     3.00
Banana    2.75
Orange    3.50
Name: price, dtype: float64

计算出苹果的平均价格

In [96]:
df.groupby(by='item')['price'].mean()

item
Apple     3.00
Banana    2.75
Orange    3.50
Name: price, dtype: float64

In [97]:
df.groupby(by='item')['price'].mean()['Apple']

3.0

In [99]:
df.groupby(by='item').mean()

Unnamed: 0_level_0,price,weight,meanPrice
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Apple,3.0,28,3.0
Banana,2.75,25,2.75
Orange,3.5,35,3.5


In [98]:
#简易写法：
df.groupby(by='item').mean().loc['Apple','price']

3.0

按颜色查看各种颜色的水果的平均价格

In [104]:
df.groupby(by='color')['price'].mean()

color
green     2.833333
red       4.000000
yellow    3.000000
Name: price, dtype: float64

In [108]:
df['color_mean'] = df['color'].map({'red':4,'yellow':3,'green':2.83})
df

Unnamed: 0,color,item,price,weight,meanPrice,color_mean
0,red,Apple,4.0,12,3.0,4.0
1,yellow,Banana,3.0,20,2.75,3.0
2,yellow,Orange,3.0,50,3.5,3.0
3,green,Banana,2.5,30,2.75,2.83
4,green,Orange,4.0,20,3.5,2.83
5,green,Apple,2.0,44,3.0,2.83


汇总:将各种颜色水果的平均价格和df进行汇总