# pandas数据处理

## 1、删除重复元素

In [1]:
import numpy as np
import pandas as pd
from pandas import DataFrame, Series


In [2]:
def mk_df(inds, cols):
    data = {col: [col + str(i) for i in inds]  for col in cols}
    return DataFrame(data=data, index=inds, columns=cols)

使用duplicated()函数检测重复的行，返回元素为布尔类型的Series对象，每个元素对应一行，如果该行不是第一次出现，则元素为True

In [3]:
df1 = mk_df([1,2,3,4], list('ABCD'))
df1

Unnamed: 0,A,B,C,D
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4


In [4]:
# 生成重复行
df1.loc[1] = df1.loc[2]
df1

Unnamed: 0,A,B,C,D
1,A2,B2,C2,D2
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4


In [5]:
# 使用duplicated检查是否有重复的行
df1.duplicated()

1    False
2     True
3    False
4    False
dtype: bool

In [6]:
# keep 从后往前检查是否有重复行
df1.duplicated(keep='last')

1     True
2    False
3    False
4    False
dtype: bool

使用drop_duplicates()函数删除重复的行

In [8]:
df1.drop_duplicates(keep='last')

Unnamed: 0,A,B,C,D
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4


In [11]:
# 使用原生方法来删除重复行
# 使用 numpy提供的逻辑运算
# np.logical

df1[np.logical_not(df1.duplicated())]

Unnamed: 0,A,B,C,D
1,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4


In [14]:
df1[~df1.duplicated()]

Unnamed: 0,A,B,C,D
1,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4


## 2. 映射

映射的含义：创建一个映射关系列表，把values元素和一个特定的标签或者字符串绑定

需要使用字典：

`map = {
    'label1':'value1',
    'label2':'value2',
    ...
    }
`

包含三种操作：

- replace()函数：替换元素
- 最重要：map()函数：新建一列
- rename()函数：替换索引

### 1) replace()函数：替换元素

使用replace()函数，对values进行替换操作

In [57]:
data = np.random.randint(0,150,size=(4,4))
index = ['张三', '李四', '王五', '赵六']
columns = ['语文', '数学', '英语', 'python']
ddd = DataFrame(data=data,index=index, columns=columns)
ddd

Unnamed: 0,语文,数学,英语,python
张三,61,146,13,45
李四,89,68,121,128
王五,89,13,42,2
赵六,129,139,95,98


首先定义一个字典

In [18]:
# 定义一个映射的字典
dic = {8: 80, 12: 120, 17: 71, 19:91}


调用.replace()

In [19]:
ddd.replace(dic)

Unnamed: 0,语文,数学,英语,python
张三,80,144,106,21
李四,78,22,37,82
王五,71,80,29,75
赵六,84,120,134,91


replace还经常用来替换NaN元素

In [20]:
dic = {80: np.nan, 71:np.nan, 91:np.nan}
ddd.replace(dic)

Unnamed: 0,语文,数学,英语,python
张三,,144.0,106.0,21.0
李四,78.0,22.0,37.0,82.0
王五,17.0,8.0,29.0,75.0
赵六,84.0,12.0,134.0,19.0


In [22]:
ddd.loc['张三', '语文'] = np.nan

In [23]:
ddd

Unnamed: 0,语文,数学,英语,python
张三,,144,106,21
李四,78.0,22,37,82
王五,17.0,8,29,75
赵六,84.0,12,134,19


In [24]:
# 链式索引,不推荐.
ddd.loc['李四']['数学'] = np.nan

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


In [25]:
ddd

Unnamed: 0,语文,数学,英语,python
张三,,144,106,21
李四,78.0,22,37,82
王五,17.0,8,29,75
赵六,84.0,12,134,19


In [26]:
dic = {np.nan: 0}
ddd.replace(dic)

Unnamed: 0,语文,数学,英语,python
张三,0.0,144,106,21
李四,78.0,22,37,82
王五,17.0,8,29,75
赵六,84.0,12,134,19


============================================

练习19：

    假设张三李四的课表里有满分的情况，老师认为是作弊，把所有满分的情况（包括150,300分）都记0分，如何实现？

============================================

In [27]:
ddd

Unnamed: 0,语文,数学,英语,python
张三,,144,106,21
李四,78.0,22,37,82
王五,17.0,8,29,75
赵六,84.0,12,134,19


In [28]:
ddd.iloc[1,0] = 150
ddd.iloc[2,3] = 300
ddd

Unnamed: 0,语文,数学,英语,python
张三,,144,106,21
李四,150.0,22,37,82
王五,17.0,8,29,300
赵六,84.0,12,134,19


In [29]:
dic = {150: 0, 300:0}
ddd.replace(dic)

Unnamed: 0,语文,数学,英语,python
张三,,144,106,21
李四,0.0,22,37,82
王五,17.0,8,29,0
赵六,84.0,12,134,19


### 2) map()函数：新建一列

使用map()函数，由已有的列生成一个新列

适合处理某一单独的列。

In [30]:
ddd

Unnamed: 0,语文,数学,英语,python
张三,,144,106,21
李四,150.0,22,37,82
王五,17.0,8,29,300
赵六,84.0,12,134,19


In [None]:
ddd['理综'] = 

仍然是新建一个字典

In [31]:
dic = {144: 144*2, 22:22*2, 8: 8*2, 12: 12*2}


In [32]:
ddd['理综'] = ddd['数学'].map(dic)

In [33]:
ddd

Unnamed: 0,语文,数学,英语,python,理综
张三,,144,106,21,288
李四,150.0,22,37,82,44
王五,17.0,8,29,300,16
赵六,84.0,12,134,19,24


In [38]:
dic = {np.nan: 0, 150.0: 250, 17: 17*2, 48:84}

In [39]:
ddd['文综'] = ddd['语文'].map(dic)

In [40]:
ddd

Unnamed: 0,语文,数学,英语,python,理综,文综
张三,,144,106,21,,0.0
李四,150.0,22,37,82,,250.0
王五,17.0,8,29,300,,34.0
赵六,84.0,12,134,19,,


map()函数中可以使用lambda函数

In [41]:
# 使用已有的值,修改已有的列 ,map不光可以新建一列,也可以修改已有列的数据
ddd['理综'] = ddd['数学'].map(lambda item: item*2)

In [42]:
ddd

Unnamed: 0,语文,数学,英语,python,理综,文综
张三,,144,106,21,288,0.0
李四,150.0,22,37,82,44,250.0
王五,17.0,8,29,300,16,34.0
赵六,84.0,12,134,19,24,


In [46]:
# 给map传一个函数
def convert(item):
    if item > 200:
        return '优秀'
    elif item > 80:
        return '及格'
    else:
        return '不及格'

In [47]:
ddd['理综成绩'] = ddd['python'].map(convert)

In [48]:
ddd

Unnamed: 0,语文,数学,英语,python,理综,文综,python成绩,理综成绩
张三,,144,106,21,288,0.0,不及格,不及格
李四,150.0,22,37,82,44,250.0,及格,及格
王五,17.0,8,29,300,16,34.0,及格,优秀
赵六,84.0,12,134,19,24,,不及格,不及格


transform()和map()类似

In [51]:
# 给map传一个函数
def convert(item):
    if item > 120:
        return '优秀'
    elif item > 80:
        return '及格'
    else:
        return '不及格'

In [52]:
ddd['数学成绩'] = ddd['数学'].transform(convert)

In [53]:
ddd

Unnamed: 0,语文,数学,英语,python,理综,文综,python成绩,理综成绩,数学成绩
张三,,144,106,21,288,0.0,不及格,不及格,优秀
李四,150.0,22,37,82,44,250.0,及格,及格,不及格
王五,17.0,8,29,300,16,34.0,及格,优秀,不及格
赵六,84.0,12,134,19,24,,不及格,不及格,不及格


使用map()函数新建一个新列

============================================

练习20：

    新增两列，分别为张三、李四的成绩状态，如果分数低于90，则为"failed"，如果分数高于120，则为"excellent"，其他则为"pass"
    
    【提示】使用函数作为map的参数

============================================

In [58]:
ddd

Unnamed: 0,语文,数学,英语,python
张三,61,146,13,45
李四,89,68,121,128
王五,89,13,42,2
赵六,129,139,95,98


In [59]:
def score(item):
    if item > 120:
        return 'excellent'
    elif item < 90:
        return 'failed'
    else:
        return 'pass'

In [60]:
ddd['score'] = ddd['python'].map(score)

In [61]:
ddd

Unnamed: 0,语文,数学,英语,python,score
张三,61,146,13,45,failed
李四,89,68,121,128,excellent
王五,89,13,42,2,failed
赵六,129,139,95,98,pass


### 3) rename()函数：替换索引

仍然是新建一个字典

In [62]:
ddd

Unnamed: 0,语文,数学,英语,python,score
张三,61,146,13,45,failed
李四,89,68,121,128,excellent
王五,89,13,42,2,failed
赵六,129,139,95,98,pass


In [63]:
dic = {'语文': 'Chinese', '数学': 'Math', '英语': 'English'}

In [64]:
ddd.rename(dic, axis=1)

Unnamed: 0,Chinese,Math,English,python,score
张三,61,146,13,45,failed
李四,89,68,121,128,excellent
王五,89,13,42,2,failed
赵六,129,139,95,98,pass


In [65]:
ddd.rename(columns=dic)

Unnamed: 0,Chinese,Math,English,python,score
张三,61,146,13,45,failed
李四,89,68,121,128,excellent
王五,89,13,42,2,failed
赵六,129,139,95,98,pass


使用rename()函数替换行索引

In [66]:
ddd

Unnamed: 0,语文,数学,英语,python,score
张三,61,146,13,45,failed
李四,89,68,121,128,excellent
王五,89,13,42,2,failed
赵六,129,139,95,98,pass


In [69]:
dic = {'张三': 'Zhangs Sir', '李四': 'Li Sir', '王五': 'LaoWang', '赵六': 'Mr Six'}

In [70]:
ddd.rename(index=dic)

Unnamed: 0,语文,数学,英语,python,score
Zhangs Sir,61,146,13,45,failed
Li Sir,89,68,121,128,excellent
LaoWang,89,13,42,2,failed
Mr Six,129,139,95,98,pass


In [71]:
ddd.rename(dic, axis=0)

Unnamed: 0,语文,数学,英语,python,score
Zhangs Sir,61,146,13,45,failed
Li Sir,89,68,121,128,excellent
LaoWang,89,13,42,2,failed
Mr Six,129,139,95,98,pass


## 3. 异常值检测和过滤

使用describe()函数查看每一列的描述性统计量

In [73]:
ddd

Unnamed: 0,语文,数学,英语,python,score
张三,61,146,13,45,failed
李四,89,68,121,128,excellent
王五,89,13,42,2,failed
赵六,129,139,95,98,pass


In [72]:
# 描述性的统计量
ddd.describe()

Unnamed: 0,语文,数学,英语,python
count,4.0,4.0,4.0,4.0
mean,92.0,91.5,67.75,68.25
std,27.97618,63.089883,49.121448,55.930761
min,61.0,13.0,13.0,2.0
25%,82.0,54.25,34.75,34.25
50%,89.0,103.5,68.5,71.5
75%,99.0,140.75,101.5,105.5
max,129.0,146.0,121.0,128.0


使用std()函数可以求得DataFrame对象每一列的标准差

In [74]:
ddd.std()

语文        27.976180
数学        63.089883
英语        49.121448
python    55.930761
dtype: float64

根据每一列的标准差，对DataFrame元素进行过滤。

借助any()函数, 测试是否有True，有一个或以上返回True，反之返回False

对每一列应用筛选条件,去除标准差太大的数据

In [77]:
ddd.drop(columns='score', inplace=True)

In [80]:
ddd

Unnamed: 0,语文,数学,英语,python
张三,61,146,13,45
李四,89,68,121,128
王五,89,13,42,2
赵六,129,139,95,98


In [82]:
ddd > 2 * ddd.std(axis=1)

Unnamed: 0,python,张三,数学,李四,王五,英语,语文,赵六
张三,False,False,False,False,False,False,False,False
李四,False,False,False,False,False,False,False,False
王五,False,False,False,False,False,False,False,False
赵六,False,False,False,False,False,False,False,False


In [81]:
ddd.std(axis=1)

张三    56.788350
李四    28.053520
王五    38.854429
赵六    22.066188
dtype: float64

In [79]:
ddd.std()

语文        27.976180
数学        63.089883
英语        49.121448
python    55.930761
dtype: float64

In [86]:
(ddd > 2 * ddd.std(axis=0)).any(axis=1)

张三    True
李四    True
王五    True
赵六    True
dtype: bool

In [89]:
ddd > 3.5 * ddd.std(axis=0)

Unnamed: 0,语文,数学,英语,python
张三,False,False,False,False
李四,False,False,False,False
王五,False,False,False,False
赵六,True,False,False,False


In [90]:
ddd

Unnamed: 0,语文,数学,英语,python
张三,61,146,13,45
李四,89,68,121,128
王五,89,13,42,2
赵六,129,139,95,98


In [92]:
cond = (ddd > 3.5 * ddd.std(axis=0)).any(axis=1)

In [94]:
ddd[~cond]

Unnamed: 0,语文,数学,英语,python
张三,61,146,13,45
李四,89,68,121,128
王五,89,13,42,2


删除特定索引df.drop(labels,inplace = True)

============================================

练习21：

    新建一个形状为10000*3的标准正态分布的DataFrame(np.random.randn)，去除掉所有满足以下情况的行：其中任一元素绝对值大于3倍标准差

============================================

In [95]:
data = np.random.randn(10000,3)
df = DataFrame(data)
df.head()

Unnamed: 0,0,1,2
0,-0.530079,1.132881,1.270286
1,-1.437953,1.041064,1.085919
2,-0.386254,0.83819,-1.209631
3,-0.617716,0.858345,0.254137
4,0.387163,1.098706,-1.397235


In [99]:
(df.abs() > 3 * df.std()).any(axis=1).sum()

84

In [100]:
(df.abs() > 3 * df.std()).any(axis=1)

0       False
1       False
2       False
3       False
4       False
5       False
6       False
7       False
8       False
9       False
10      False
11      False
12      False
13      False
14      False
15      False
16      False
17      False
18      False
19      False
20      False
21      False
22      False
23      False
24      False
25      False
26      False
27      False
28      False
29      False
        ...  
9970    False
9971    False
9972    False
9973    False
9974    False
9975    False
9976    False
9977    False
9978    False
9979    False
9980    False
9981    False
9982    False
9983    False
9984    False
9985    False
9986    False
9987    False
9988    False
9989    False
9990    False
9991    False
9992    False
9993    False
9994    False
9995    False
9996    False
9997    False
9998    False
9999    False
Length: 10000, dtype: bool

In [101]:
df[~(df.abs() > 3 * df.std()).any(axis=1)]

Unnamed: 0,0,1,2
0,-0.530079,1.132881,1.270286
1,-1.437953,1.041064,1.085919
2,-0.386254,0.838190,-1.209631
3,-0.617716,0.858345,0.254137
4,0.387163,1.098706,-1.397235
5,-0.158718,-0.215500,-2.667554
6,-0.925104,-2.449503,-0.640900
7,0.457039,0.725521,-2.094570
8,-0.076980,-1.390081,1.657352
9,-0.643929,-1.248563,-1.514801


## 4. 排序

使用.take()函数排序

可以借助np.random.permutation()函数随机排序

In [102]:
ddd

Unnamed: 0,语文,数学,英语,python
张三,61,146,13,45
李四,89,68,121,128
王五,89,13,42,2
赵六,129,139,95,98


In [103]:
# take就是按照我们给定的index顺序来显示数据.
ddd.take([3,2,1,0])

Unnamed: 0,语文,数学,英语,python
赵六,129,139,95,98
王五,89,13,42,2
李四,89,68,121,128
张三,61,146,13,45


In [104]:
ddd.take([3,2])

Unnamed: 0,语文,数学,英语,python
赵六,129,139,95,98
王五,89,13,42,2


In [105]:
# 通过axis来控制拿的数据是行还是列.
ddd.take([3,2], axis=1)

Unnamed: 0,python,英语
张三,45,13
李四,128,121
王五,2,42
赵六,98,95


In [116]:
np.random.permutation(4)

array([1, 0, 3, 2])

In [125]:
# 数据没有重复, 叫做无放回抽样.
ddd.take(np.random.permutation(4))

Unnamed: 0,语文,数学,英语,python
赵六,129,139,95,98
李四,89,68,121,128
王五,89,13,42,2
张三,61,146,13,45


### 随机抽样

当DataFrame规模足够大时，直接使用np.random.randint()函数，就配合take()函数实现随机抽样

In [136]:
# np.random.randint 配合take()实现的是有放回抽样.
ddd.take(np.random.randint(0,4, size=4))

Unnamed: 0,语文,数学,英语,python
赵六,129,139,95,98
王五,89,13,42,2
张三,61,146,13,45
赵六,129,139,95,98


In [133]:
np.random.randint(0,4, size=4)

array([3, 3, 2, 0])

============================================
练习22：

   假设有张三李四王老五的期中考试成绩ddd2，对着三名同学随机排序

============================================

In [137]:
ddd

Unnamed: 0,语文,数学,英语,python
张三,61,146,13,45
李四,89,68,121,128
王五,89,13,42,2
赵六,129,139,95,98


In [146]:
ddd.take(np.random.permutation(4)[0:3])

Unnamed: 0,语文,数学,英语,python
李四,89,68,121,128
张三,61,146,13,45
赵六,129,139,95,98


## 5. 数据聚合【重点】

数据聚合是数据处理的最后一步，通常是要使每一个数组生成一个单一的数值。

数据分类处理：

 - 分组：先把数据分为几组
 - 用函数处理：为不同组的数据应用不同的函数以转换数据
 - 合并：把不同组得到的结果合并起来
 
数据分类处理的核心：
     groupby()函数

如果想使用color列索引，计算price1的均值，可以先获取到price1列，然后再调用groupby函数，用参数指定color这一列

In [147]:
df = DataFrame({'color':['red','white','red','cyan','cyan','green','white','cyan'],
                'price':np.random.randint(0,8,size = 8),
                'weight':np.random.randint(50,55,size = 8)})
df

Unnamed: 0,color,price,weight
0,red,2,54
1,white,6,50
2,red,3,50
3,cyan,0,51
4,cyan,5,52
5,green,5,51
6,white,2,54
7,cyan,7,53


In [148]:
# 使用颜色对df进行分组
# 第一步,进行分组
df.groupby(by='color')
# 返回的对象,你就把它当成一个DataFrame

<pandas.core.groupby.groupby.DataFrameGroupBy object at 0x00000000081ED470>

使用.groups属性查看各行的分组情况：

In [149]:
df.groupby(by='color').groups

{'cyan': Int64Index([3, 4, 7], dtype='int64'),
 'green': Int64Index([5], dtype='int64'),
 'red': Int64Index([0, 2], dtype='int64'),
 'white': Int64Index([1, 6], dtype='int64')}

In [153]:
# 第二步使用聚合函数对分组之后的数据进行处理.
# 先计算,再从计算的结果中取数据.
df.groupby(by='color').sum()[['price']]

Unnamed: 0_level_0,price
color,Unnamed: 1_level_1
cyan,12
green,5
red,5
white,8


In [155]:
# 这种方式先取数据,再计算. 推荐先取数据,在计算,会性能高一些,更快一些.
price_sum = df.groupby(by='color')[['price']].sum()
price_sum

Unnamed: 0_level_0,price
color,Unnamed: 1_level_1
cyan,12
green,5
red,5
white,8


In [154]:
df

Unnamed: 0,color,price,weight
0,red,2,54
1,white,6,50
2,red,3,50
3,cyan,0,51
4,cyan,5,52
5,green,5,51
6,white,2,54
7,cyan,7,53


In [157]:
df.merge(price_sum, left_on='color', right_index=True, suffixes=['', '_sum'])

Unnamed: 0,color,price,weight,price_sum
0,red,2,54,5
2,red,3,50,5
1,white,6,50,8
6,white,2,54,8
3,cyan,0,51,12
4,cyan,5,52,12
7,cyan,7,53,12
5,green,5,51,5


============================================

练习23：

   假设菜市场张大妈在卖菜，有以下属性：
   
   菜品(item)：萝卜，白菜，辣椒，冬瓜
   
   颜色(color)：白，青，红
   
   重量(weight)
   
   价格(price)
   
1. 要求以属性作为列索引，新建一个ddd
2. 对ddd进行聚合操作，求出颜色为白色的价格总和
3. 对ddd进行聚合操作，求出萝卜的所有重量(包括白萝卜，胡萝卜，青萝卜）以及平均价格
4. 使用merge合并总重量及平均价格

============================================

In [2]:

ddd = DataFrame({'item': ['萝卜', '萝卜', '萝卜', '白菜', '白菜', '辣椒', '辣椒','辣椒','冬瓜', '冬瓜'], 'color':
                ['白', '红', '青', '青', '白', '红', '青', '白', '白', '青'],
                'weight': [30,50, 20, 40, 60, 70, 60, 20, 80, 60],
                'price': [2.98, 3.98, 4.98, 1.98, 2.58, 6.98, 4.98, 9.98, 1.08, 1.28]})
ddd

Unnamed: 0,item,color,weight,price
0,萝卜,白,30,2.98
1,萝卜,红,50,3.98
2,萝卜,青,20,4.98
3,白菜,青,40,1.98
4,白菜,白,60,2.58
5,辣椒,红,70,6.98
6,辣椒,青,60,4.98
7,辣椒,白,20,9.98
8,冬瓜,白,80,1.08
9,冬瓜,青,60,1.28


In [161]:
# 对ddd进行聚合操作，求出颜色为白色的价格总和
ddd.groupby(by='color')[['price']].sum()

Unnamed: 0_level_0,price
color,Unnamed: 1_level_1
白,16.62
红,10.96
青,13.22


In [8]:
# 求出萝卜的所有重量(包括白萝卜，胡萝卜，青萝卜）以及平均价格
weight_sum = ddd.groupby(by='item')[['weight']].sum()

In [7]:
price_mean = ddd.groupby(by='item')[['price']].mean()

In [10]:
display(weight_sum, price_mean)

Unnamed: 0_level_0,weight
item,Unnamed: 1_level_1
冬瓜,140
白菜,100
萝卜,100
辣椒,150


Unnamed: 0_level_0,price
item,Unnamed: 1_level_1
冬瓜,1.18
白菜,2.28
萝卜,3.98
辣椒,7.313333


In [167]:
ddd

Unnamed: 0,item,color,weight,price
0,萝卜,白,30,2.98
1,萝卜,红,50,3.98
2,萝卜,青,20,4.98
3,白菜,青,40,1.98
4,白菜,白,60,2.58
5,辣椒,红,70,6.98
6,辣椒,青,60,4.98
7,辣椒,白,20,9.98
8,冬瓜,白,80,1.08
9,冬瓜,青,60,1.28


In [169]:
# 使用merge合并总重量及平均价格
ddd = ddd.merge(weight_sum, left_on='item', right_index=True, suffixes=['', '_sum'])
ddd

Unnamed: 0,item,color,weight,price,weight_sum
0,萝卜,白,30,2.98,100
1,萝卜,红,50,3.98,100
2,萝卜,青,20,4.98,100
3,白菜,青,40,1.98,100
4,白菜,白,60,2.58,100
5,辣椒,红,70,6.98,150
6,辣椒,青,60,4.98,150
7,辣椒,白,20,9.98,150
8,冬瓜,白,80,1.08,140
9,冬瓜,青,60,1.28,140


In [11]:
price_mean

Unnamed: 0_level_0,price
item,Unnamed: 1_level_1
冬瓜,1.18
白菜,2.28
萝卜,3.98
辣椒,7.313333


In [172]:
ddd.merge(price_mean, left_on='item', right_index=True, suffixes=['', '_mean'])

Unnamed: 0,item,color,weight,price,weight_sum,price_mean
0,萝卜,白,30,2.98,100,3.98
1,萝卜,红,50,3.98,100,3.98
2,萝卜,青,20,4.98,100,3.98
3,白菜,青,40,1.98,100,2.28
4,白菜,白,60,2.58,100,2.28
5,辣椒,红,70,6.98,150,7.313333
6,辣椒,青,60,4.98,150,7.313333
7,辣椒,白,20,9.98,150,7.313333
8,冬瓜,白,80,1.08,140,1.18
9,冬瓜,青,60,1.28,140,1.18


## 6.0 高级数据聚合

可以使用pd.merge()函数将聚合操作的计算结果添加到df的每一行  
使用groupby分组后调用加和等函数进行运算，让后最后可以调用add_prefix()，来修改列名

In [176]:
# 加前缀
price_mean = ddd.groupby(by='item')[['price']].mean().add_prefix('mean_')
price_mean

Unnamed: 0_level_0,mean_price
item,Unnamed: 1_level_1
冬瓜,1.18
白菜,2.28
萝卜,3.98
辣椒,7.313333


In [None]:
ddd.add_prefix()

In [177]:
price_mean = ddd.groupby(by='item')[['price']].mean().add_suffix('_mean')
price_mean

Unnamed: 0_level_0,price_mean
item,Unnamed: 1_level_1
冬瓜,1.18
白菜,2.28
萝卜,3.98
辣椒,7.313333


### 可以使用transform和apply实现相同功能

在transform或者apply中传入函数即可

In [179]:
# 
weight_sum = ddd.groupby(by='item').apply(sum)
weight_sum

Unnamed: 0_level_0,item,color,weight,price,weight_sum
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
冬瓜,冬瓜冬瓜,白青,140,2.36,280
白菜,白菜白菜,青白,100,4.56,200
萝卜,萝卜萝卜萝卜,白红青,100,11.94,300
辣椒,辣椒辣椒辣椒,红青白,150,21.94,450


In [180]:
weight_sum = ddd.groupby(by='item').transform(sum)
weight_sum

Unnamed: 0,color,weight,price,weight_sum
0,白红青,100,11.94,300
1,白红青,100,11.94,300
2,白红青,100,11.94,300
3,青白,100,4.56,200
4,青白,100,4.56,200
5,红青白,150,21.94,450
6,红青白,150,21.94,450
7,红青白,150,21.94,450
8,白青,140,2.36,280
9,白青,140,2.36,280


============================================

练习24：

   使用transform与apply实现练习23的功能

============================================