# pandas数据处理

In [1]:
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt 
from pandas import Series,DataFrame
%matplotlib inline

## 1、删除重复元素

In [2]:
df = DataFrame({'color':['red','green','yellow','cyan','red','green'],
               'weight':[10,20,30,40,10,20]})
df

Unnamed: 0,color,weight
0,red,10
1,green,20
2,yellow,30
3,cyan,40
4,red,10
5,green,20


In [3]:
df.duplicated()

0    False
1    False
2    False
3    False
4     True
5     True
dtype: bool

使用duplicated()函数检测重复的行，返回元素为布尔类型的Series对象，每个元素对应一行，如果该行不是第一次出现，则元素为True

In [5]:
# 取反的方法
np.logical_not(df.duplicated())

0     True
1     True
2     True
3     True
4    False
5    False
dtype: bool

使用drop_duplicates()函数删除重复的行

In [4]:
df.drop_duplicates()

Unnamed: 0,color,weight
0,red,10
1,green,20
2,yellow,30
3,cyan,40


## 2. 映射

映射的含义：创建一个映射关系列表，把values元素和一个特定的标签或者字符串绑定

需要使用字典：

`map = {
    'label1':'value1',
    'label2':'value2',
    ...
    }
`

包含三种操作：

- replace()函数：替换元素
- 最重要：map()函数：新建一列
- rename()函数：替换索引

In [6]:
df

Unnamed: 0,color,weight
0,red,10
1,green,20
2,yellow,30
3,cyan,40
4,red,10
5,green,20


### 1) replace()函数：替换元素

使用replace()函数，对values进行替换操作

首先定义一个字典

In [7]:
dic = {'red':10,'green':20,'cyan':40}
df.replace(dic)

Unnamed: 0,color,weight
0,10,10
1,20,20
2,yellow,30
3,40,40
4,10,10
5,20,20


调用.replace()

replace还经常用来替换NaN元素

In [9]:
df.loc[[2]] = np.nan

In [10]:
df

Unnamed: 0,color,weight
0,red,10.0
1,green,20.0
2,,
3,cyan,40.0
4,red,10.0
5,green,20.0


In [11]:
df.replace({np.nan:0.1})

Unnamed: 0,color,weight
0,red,10.0
1,green,20.0
2,0.1,0.1
3,cyan,40.0
4,red,10.0
5,green,20.0


============================================

练习19：

    假设张三李四的课表里有满分的情况，老师认为是作弊，把所有满分的情况（包括150,300分）都记0分，如何实现？

============================================

In [12]:
data = {'语文':[150,130],'数学':[140,150],'英语':[145,145]}
columns = ['语文','数学','英语']
index = ['张三','李四']
soc = DataFrame(data=data,columns=columns,index=index)
soc

Unnamed: 0,语文,数学,英语
张三,150,140,145
李四,130,150,145


In [15]:
soc.replace({150:0})

Unnamed: 0,语文,数学,英语
张三,0,140,145
李四,130,0,145


### 2) map()函数：新建一列

In [16]:
df

Unnamed: 0,color,weight
0,red,10.0
1,green,20.0
2,,
3,cyan,40.0
4,red,10.0
5,green,20.0


使用map()函数，由已有的列生成一个新列

适合处理某一单独的列。

In [22]:
dic = {'red':9,'green':8,'cyan':6}

In [23]:
# 新建一列   ,但是不知道怎么去对应值  ,所以定义一个字典,作为一个映射
df['price'] = df['color'].map(dic)

In [24]:
df

Unnamed: 0,color,weight,price,price2
0,red,10.0,9.0,99.0
1,green,20.0,8.0,16.0
2,,,,
3,cyan,40.0,6.0,66.0
4,red,10.0,9.0,99.0
5,green,20.0,8.0,16.0


仍然是新建一个字典

map()函数中可以使用lambda函数

In [25]:
# 传入一个x   返回一个两倍
# 意味着可以传一个函数
df['price2'] = df['price'].map(lambda x: x*2)
df

Unnamed: 0,color,weight,price,price2
0,red,10.0,9.0,18.0
1,green,20.0,8.0,16.0
2,,,,
3,cyan,40.0,6.0,12.0
4,red,10.0,9.0,18.0
5,green,20.0,8.0,16.0


In [27]:
def socre(x):
    if x > 9 :
        return '超贵'
    if x > 8 :
        return '好贵'
    else:
        return '一般'

In [28]:
# map第三种使用方法,传函数
df['评价'] = df['price'].map(socre)
df

Unnamed: 0,color,weight,price,price2,评价
0,red,10.0,9.0,18.0,好贵
1,green,20.0,8.0,16.0,一般
2,,,,,一般
3,cyan,40.0,6.0,12.0,一般
4,red,10.0,9.0,18.0,好贵
5,green,20.0,8.0,16.0,一般


transform()和map()类似

In [29]:
df['评价2'] = df['price'].transform(socre)
df

Unnamed: 0,color,weight,price,price2,评价,评价2
0,red,10.0,9.0,18.0,好贵,好贵
1,green,20.0,8.0,16.0,一般,一般
2,,,,,一般,一般
3,cyan,40.0,6.0,12.0,一般,一般
4,red,10.0,9.0,18.0,好贵,好贵
5,green,20.0,8.0,16.0,一般,一般


使用map()函数新建一个新列

In [30]:
# 用map来修改值
dic = {18:28,16:30,12:60}

In [31]:
# 修改值
df['price2'] = df['price2'].map(dic)
df

Unnamed: 0,color,weight,price,price2,评价,评价2
0,red,10.0,9.0,28.0,好贵,好贵
1,green,20.0,8.0,30.0,一般,一般
2,,,,,一般,一般
3,cyan,40.0,6.0,60.0,一般,一般
4,red,10.0,9.0,28.0,好贵,好贵
5,green,20.0,8.0,30.0,一般,一般


============================================

练习20：

    新增两列，分别为张三、李四的成绩状态，如果分数低于90，则为"failed"，如果分数高于120，则为"excellent"，其他则为"pass"
    
    【提示】使用函数作为map的参数

============================================

### 3) rename()函数：替换索引

In [32]:
df

Unnamed: 0,color,weight,price,price2,评价,评价2
0,red,10.0,9.0,28.0,好贵,好贵
1,green,20.0,8.0,30.0,一般,一般
2,,,,,一般,一般
3,cyan,40.0,6.0,60.0,一般,一般
4,red,10.0,9.0,28.0,好贵,好贵
5,green,20.0,8.0,30.0,一般,一般


仍然是新建一个字典

In [33]:
# 传字典修改索引
dic = {'weight':'一餐吃..kg','price2':'一斤/rmb'}
df.rename(columns=dic)

Unnamed: 0,color,一餐吃..kg,price,一斤/rmb,评价,评价2
0,red,10.0,9.0,28.0,好贵,好贵
1,green,20.0,8.0,30.0,一般,一般
2,,,,,一般,一般
3,cyan,40.0,6.0,60.0,一般,一般
4,red,10.0,9.0,28.0,好贵,好贵
5,green,20.0,8.0,30.0,一般,一般


使用rename()函数替换行索引

## 3. 异常值检测和过滤

In [34]:
df

Unnamed: 0,color,weight,price,price2,评价,评价2
0,red,10.0,9.0,28.0,好贵,好贵
1,green,20.0,8.0,30.0,一般,一般
2,,,,,一般,一般
3,cyan,40.0,6.0,60.0,一般,一般
4,red,10.0,9.0,28.0,好贵,好贵
5,green,20.0,8.0,30.0,一般,一般


In [38]:
df.loc[2] = np.random.randint(0,150,size=6)
df

Unnamed: 0,color,weight,price,price2,评价,评价2
0,red,10.0,9.0,28.0,好贵,好贵
1,green,20.0,8.0,30.0,一般,一般
2,119,146.0,121.0,39.0,41,61
3,cyan,40.0,6.0,60.0,一般,一般
4,red,10.0,9.0,28.0,好贵,好贵
5,green,20.0,8.0,30.0,一般,一般


使用describe()函数查看每一列的描述性统计量

In [42]:
df = df.drop(columns = ['评价','评价2'])

In [44]:
df.loc[0:5] = np.random.randint(0,150,size=(6,4))
df

Unnamed: 0,color,weight,price,price2
0,111,6,60,20
1,7,116,121,47
2,85,109,148,141
3,122,40,17,66
4,21,114,132,110
5,68,66,80,105


In [45]:
df.describe()

Unnamed: 0,color,weight,price,price2
count,6.0,6.0,6.0,6.0
mean,69.0,75.166667,93.0,81.5
std,46.85723,45.661435,49.727256,44.98333
min,7.0,6.0,17.0,20.0
25%,32.75,46.5,65.0,51.75
50%,76.5,87.5,100.5,85.5
75%,104.5,112.75,129.25,108.75
max,122.0,116.0,148.0,141.0


使用std()函数可以求得DataFrame对象每一列的标准差

根据每一列的标准差，对DataFrame元素进行过滤。

借助any()函数, 测试是否有True，有一个或以上返回True，反之返回False

对每一列应用筛选条件,去除标准差太大的数据

删除特定索引df.drop(labels,inplace = True)

============================================

练习21：

    新建一个形状为10000*3的标准正态分布的DataFrame(np.random.randn)，
    去除掉所有满足以下情况的行：其中任一元素绝对值大于3倍标准差

============================================

In [50]:
num = DataFrame(np.random.randn(10000,3))
num.head()

Unnamed: 0,0,1,2
0,0.603867,1.875546,-0.478127
1,2.015265,0.250642,2.269977
2,2.01303,-0.620042,0.318687
3,-2.441028,2.686381,-1.044566
4,-0.591202,-1.360859,-1.111793


In [58]:
cond = np.abs(num) > num.std() *3
cond.sum(axis=0)

0    25
1    33
2    27
dtype: int64

In [67]:
# 找到符合条件的索引
drop_index = num[cond.any(axis=1)].index
drop_index

Int64Index([ 221,  303,  399,  526,  560,  576,  738,  889,  916, 1089, 1155,
            1258, 1289, 1535, 1843, 1951, 1971, 1973, 2179, 2247, 2306, 2406,
            2441, 2563, 2673, 2758, 2799, 2808, 2960, 3061, 3304, 3337, 3488,
            3496, 3632, 3715, 3732, 3826, 3978, 4032, 4046, 4050, 4171, 4307,
            4400, 4542, 4607, 4675, 4693, 5094, 5121, 5194, 5591, 5709, 5766,
            5790, 6086, 6656, 6690, 6788, 6851, 6930, 7175, 7207, 7326, 7360,
            7390, 7516, 7531, 7675, 7724, 7745, 7762, 7964, 8163, 8311, 8568,
            8733, 8862, 9168, 9576, 9648, 9899, 9918, 9921],
           dtype='int64')

In [69]:
# 删除掉不满足的条件
num_end = num.drop(index=drop_index)
num_end.shape

(9915, 3)

## 4. 排序

使用.take()函数排序

可以借助np.random.permutation()函数随机排序

In [70]:
df

Unnamed: 0,color,weight,price,price2
0,111,6,60,20
1,7,116,121,47
2,85,109,148,141
3,122,40,17,66
4,21,114,132,110
5,68,66,80,105


In [81]:
np.random.permutation(np.arange(4))

array([1, 2, 0, 3])

In [85]:
# take放的是隐式索引,随机抽样
df.take(np.random.permutation(np.arange(4)))

Unnamed: 0,color,weight,price,price2
0,111,6,60,20
1,7,116,121,47
2,85,109,148,141
3,122,40,17,66


### 随机抽样

当DataFrame规模足够大时，直接使用np.random.randint()函数，就配合take()函数实现随机抽样

============================================
练习22：

   假设有张三李四王老五的期中考试成绩ddd2，对着三名同学随机排序

============================================

## 5. 数据聚合【重点】

数据聚合是数据处理的最后一步，通常是要使每一个数组生成一个单一的数值。

数据分类处理：

 - 分组：先把数据分为几组
 - 用函数处理：为不同组的数据应用不同的函数以转换数据
 - 合并：把不同组得到的结果合并起来
 
数据分类处理的核心：
     groupby()函数

In [86]:
df = DataFrame({'color':['red','white','red','cyan','cyan','green','white','cyan'],
               'price':np.random.randint(0,8,size=8),
               'weight':np.random.randint(50,55,size=8)})
df

Unnamed: 0,color,price,weight
0,red,2,52
1,white,3,52
2,red,6,52
3,cyan,2,54
4,cyan,1,50
5,green,3,50
6,white,7,51
7,cyan,0,51


如果想使用color列索引，计算price1的均值，可以先获取到price1列，然后再调用groupby函数，用参数指定color这一列

In [92]:
# 指定以颜色列来分组,返回的一个分组对象,当成dataFrema来使用就可以
group_co = df.groupby('color')
group_co

<pandas.core.groupby.groupby.DataFrameGroupBy object at 0x00000251425B6048>

使用.groups属性查看各行的分组情况：

In [90]:
 # 可以查看分组情况
group_co.groups  

{'cyan': Int64Index([3, 4, 7], dtype='int64'),
 'green': Int64Index([5], dtype='int64'),
 'red': Int64Index([0, 2], dtype='int64'),
 'white': Int64Index([1, 6], dtype='int64')}

In [93]:
# 求平均值
df.mean()

price      3.0
weight    51.5
dtype: float64

In [94]:
# 分组后的平均值
group_co.mean()

Unnamed: 0_level_0,price,weight
color,Unnamed: 1_level_1,Unnamed: 2_level_1
cyan,1.0,51.666667
green,3.0,50.0
red,4.0,52.0
white,5.0,51.5


In [95]:
# 分组后的求和
group_co.sum()

Unnamed: 0_level_0,price,weight
color,Unnamed: 1_level_1,Unnamed: 2_level_1
cyan,3,155
green,3,50
red,8,104
white,10,103


============================================

练习23：

   假设菜市场张大妈在卖菜，有以下属性：
   
   菜品(item)：萝卜，白菜，辣椒，冬瓜
   
   颜色(color)：白，青，红
   
   重量(weight)
   
   价格(price)
   
1. 要求以属性作为列索引，新建一个ddd
2. 对ddd进行聚合操作，求出颜色为白色的价格总和
3. 对ddd进行聚合操作，求出萝卜的所有重量(包括白萝卜，胡萝卜，青萝卜）以及平均价格
4. 使用merge合并总重量及平均价格

============================================

In [101]:
data = {'item':['萝卜','辣椒','白菜','白菜','辣椒','辣椒','冬瓜','冬瓜'],'color':['白','青','红','白','白','红','青','红'],'weight':np.random.randint(0,10,size=8),'price':np.random.randint(3,10,size=8)}
columns = ['item','color','weight','price']
index = np.arange(8)
market = DataFrame(data=data,columns=columns,index=index)
market

Unnamed: 0,item,color,weight,price
0,萝卜,白,6,6
1,辣椒,青,1,4
2,白菜,红,1,8
3,白菜,白,7,7
4,辣椒,白,1,6
5,辣椒,红,5,6
6,冬瓜,青,8,8
7,冬瓜,红,6,4


In [108]:
# 要求以属性作为列索引，新建一个ddd
market_it = market.set_index('item')
market_it

Unnamed: 0_level_0,color,weight,price
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
萝卜,白,6,6
辣椒,青,1,4
白菜,红,1,8
白菜,白,7,7
辣椒,白,1,6
辣椒,红,5,6
冬瓜,青,8,8
冬瓜,红,6,4


In [114]:
# 对ddd进行聚合操作，求出颜色为白色的价格总和
price_sum = market_it.groupby('color').sum()
price_sum.loc['白'].loc['price']

19

In [127]:
# 对ddd进行聚合操作，求出辣椒的所有重量(包括白辣椒，红辣椒，青辣椒）以及平均价格
pepper_w = market_it.groupby('item')
# 重量
# pepper_w.sum().loc['辣椒'].loc['weight']
# 平均价格
pepper_w.mean().loc['辣椒'].loc['price']

5.333333333333333

## 6.0 高级数据聚合

可以使用pd.merge()函数将聚合操作的计算结果添加到df的每一行  
使用groupby分组后调用加和等函数进行运算，让后最后可以调用add_prefix()，来修改列名

### 可以使用transform和apply实现相同功能

在transform或者apply中传入函数即可

In [97]:
df_sum = df.groupby('color').sum()

In [98]:
# 可以用transform和apply实现同样的功能
df.groupby('color').transform(sum)

Unnamed: 0,price,weight
0,8,104
1,10,103
2,8,104
3,3,155
4,3,155
5,3,50
6,10,103
7,3,155


In [99]:
# apply会求和,但是字符串也是一样会做运算
df.groupby('color').apply(sum)

Unnamed: 0_level_0,color,price,weight
color,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
cyan,cyancyancyan,3,155
green,green,3,50
red,redred,8,104
white,whitewhite,10,103


In [100]:
# 去掉color,切片
df.groupby('color').apply(sum)[['price','weight']]

Unnamed: 0_level_0,price,weight
color,Unnamed: 1_level_1,Unnamed: 2_level_1
cyan,3,155
green,3,50
red,8,104
white,10,103


### transform()与apply()函数还能传入一个函数或者lambda

`
df = DataFrame({'color':['white','black','white','white','black','black'],
               'status':['up','up','down','down','down','up'],
               'value1':[12.33,14.55,22.34,27.84,23.40,18.33],
               'value2':[11.23,31.80,29.99,31.18,18.25,22.44]})
`

apply的操作对象，也就是传给lambda的参数是整列的数组

============================================

练习24：

   使用transform与apply实现练习23的功能

============================================