# Grouping and Sorting

In [1]:
import pandas as pd
import numpy as np

In [2]:
data = pd.read_csv('TempFolder/groupdata.csv',encoding='gb2312')
data.head()

Unnamed: 0,货号,平台,销量
0,A,淘宝,1
1,B,淘宝,2
2,B,京东,3
3,A,京东,4
4,B,淘宝,5


先来看一下 goupby 之后产生的数据类型

In [3]:
data.groupby('平台')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001F3BC6767C0>

temp 等价于将 data 根据不一样的平台分成了两个group，第一部分全是货号为 A 的，第二部分货号全部都为 B，可以理解为:

`temp = [('A',DataFrameA),('B',DataFrameB)]`

In [4]:
temp = data.groupby('货号')
for Name,Data in temp:
    print(Name)
    print(Data,end='\n\n')

A
  货号  平台  销量
0  A  淘宝   1
3  A  京东   4

B
  货号  平台  销量
1  B  淘宝   2
2  B  京东   3
4  B  淘宝   5



每一个group，使用了 sum 函数之后就会压缩，压缩销量然后对每一个货号为 A 和 B 的求和，也就是聚合的一个过程

In [5]:
print(data.groupby('货号').sum())
print(data.groupby('货号').mean())

    销量
货号    
A    5
B   10
          销量
货号          
A   2.500000
B   3.333333


transform 转换，将按照货号进行筛选过后，需要再挑选出某一列来使用sum函数，注意到，transform没有将每一个group进行压缩，而是直接返回一个和DataFrame等大的一个Series

In [6]:
data.groupby('货号')['销量'].transform('sum')

0     5
1    10
2    10
3     5
4    10
Name: 销量, dtype: int64

In [7]:
tempdata = data.copy()
tempdata['Sum'] = tempdata.groupby('货号')['销量'].transform('sum')
tempdata

Unnamed: 0,货号,平台,销量,Sum
0,A,淘宝,1,5
1,B,淘宝,2,10
2,B,京东,3,10
3,A,京东,4,5
4,B,淘宝,5,10


filter 可以根据表达式进行过滤

In [8]:
temp = data.groupby('货号').filter(lambda x: x['销量'].sum()>9)
temp

Unnamed: 0,货号,平台,销量
1,B,淘宝,2
2,B,京东,3
4,B,淘宝,5


可以在同一个 Series 上同时运行不同的函数

In [11]:
data.groupby(['平台'])['销量'].agg([len,min,max,sum])

Unnamed: 0_level_0,len,min,max,sum
平台,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
京东,2,3,4,7
淘宝,3,1,5,8


接下来就是排序函数，默认是递增排序的，$a[1]<a[2]<a[3]...<a[n]$， `ascending=False` 设置单调递减排序

In [23]:
data.sort_values(by=['销量'],ascending=False)

Unnamed: 0,货号,平台,销量
4,B,淘宝,5
3,A,京东,4
2,B,京东,3
1,B,淘宝,2
0,A,淘宝,1


In [26]:
tempdata = pd.DataFrame({'Name':['A','B','C','D','E','F','G'],'col1':[3,2,2,4,2,1,5],'col2':[4,5,2,3,5,2,3]})
tempdata

Unnamed: 0,Name,col1,col2
0,A,3,4
1,B,2,5
2,C,2,2
3,D,4,3
4,E,2,5
5,F,1,2
6,G,5,3


可以设置多个变量，按照不同的规则进行排序

In [28]:
tempdata.sort_values(by=['col1','col2'],ascending=[True,False])

Unnamed: 0,Name,col1,col2
5,F,1,2
1,B,2,5
4,E,2,5
2,C,2,2
0,A,3,4
3,D,4,3
6,G,5,3
