# Pandas中的分组(groupby)
任何groupby操作都涉及原始对象的以下操作之一：
- **分割**对象
- **应用**函数
- **联系**结果

在许多情况下，我们将数据分成多个集合，并在每个子集上应用一些功能。在应用功能中，我们可以执行以下操作：
- **聚合** - 计算总结统计 
- **转换** - 执行一些特定集合的操作 
- **过滤** - 在某些情况下丢弃数据  

groupby的官方文档请点击[这里](https://pandas.pydata.org/pandas-docs/stable/groupby.html)

### 1. 将数据拆分成组
在Pandas中，对象可以分成任何对象。有多种方式来对一个对象进行分组（以DataFrame为例）：
- df.groupby('key') —— 按列名为'key'的一组元素对df进行分组
- df.groupby(['key1','key2']) —— 按列名为['key1','key2']的两组元素所有组合形式分组

In [15]:
import pandas as pd
import numpy as np

ipl_data = {'Team': ['Riders', 'Riders', 'Devils', 'Devils', 'Kings',
         'Kings', 'Kings', 'Kings', 'Riders', 'Royals', 'Royals', 'Riders'],
         'Rank': [1, 2, 2, 3, 3,4 ,1 ,1,2 , 4,1,2],
         'Year': [2014,2015,2014,2015,2014,2015,2016,2017,2016,2014,2015,2017],
         'Points':[876,789,863,673,741,812,756,788,694,701,804,690]}

df = pd.DataFrame(ipl_data)

print df,'\n'

# df.groupby()返回的是一个DataFrameGroupBy对象
print df.groupby('Rank'),'\n'

# 如果想看到分组结果，还需要调用groups属性
print df.groupby('Rank').groups,'\n'

print df.groupby('Team').groups



    Points  Rank    Team  Year
0      876     1  Riders  2014
1      789     2  Riders  2015
2      863     2  Devils  2014
3      673     3  Devils  2015
4      741     3   Kings  2014
5      812     4   Kings  2015
6      756     1   Kings  2016
7      788     1   Kings  2017
8      694     2  Riders  2016
9      701     4  Royals  2014
10     804     1  Royals  2015
11     690     2  Riders  2017 

<pandas.core.groupby.DataFrameGroupBy object at 0x00000000138DECC0> 

{1: Int64Index([0, 6, 7, 10], dtype='int64'), 2: Int64Index([1, 2, 8, 11], dtype='int64'), 3: Int64Index([3, 4], dtype='int64'), 4: Int64Index([5, 9], dtype='int64')} 

{'Kings': Int64Index([4, 5, 6, 7], dtype='int64'), 'Riders': Int64Index([0, 1, 8, 11], dtype='int64'), 'Royals': Int64Index([9, 10], dtype='int64'), 'Devils': Int64Index([2, 3], dtype='int64')}


#### 按多列分组

In [2]:
print df.groupby(['Team','Year']).groups

{('Royals', 2014L): Int64Index([9], dtype='int64'), ('Kings', 2014L): Int64Index([4], dtype='int64'), ('Kings', 2015L): Int64Index([5], dtype='int64'), ('Riders', 2014L): Int64Index([0], dtype='int64'), ('Riders', 2015L): Int64Index([1], dtype='int64'), ('Kings', 2016L): Int64Index([6], dtype='int64'), ('Riders', 2016L): Int64Index([8], dtype='int64'), ('Riders', 2017L): Int64Index([11], dtype='int64'), ('Devils', 2014L): Int64Index([2], dtype='int64'), ('Kings', 2017L): Int64Index([7], dtype='int64'), ('Royals', 2015L): Int64Index([10], dtype='int64'), ('Devils', 2015L): Int64Index([3], dtype='int64')}


### 3. 按组进行迭代
使用groupby对象，我们可以遍历类似itertools.obj的对象。

In [3]:
grouped = df.groupby('Year')

for name,group in grouped:
    print name
    print group
    print '\n'

2014
   Points  Rank    Team  Year
0     876     1  Riders  2014
2     863     2  Devils  2014
4     741     3   Kings  2014
9     701     4  Royals  2014


2015
    Points  Rank    Team  Year
1      789     2  Riders  2015
3      673     3  Devils  2015
5      812     4   Kings  2015
10     804     1  Royals  2015


2016
   Points  Rank    Team  Year
6     756     1   Kings  2016
8     694     2  Riders  2016


2017
    Points  Rank    Team  Year
7      788     1   Kings  2017
11     690     2  Riders  2017




### 4. 选择一个组

In [4]:
grouped = df.groupby('Year')

print grouped.groups,'\n'
print grouped.get_group(2014)

{2016: Int64Index([6, 8], dtype='int64'), 2017: Int64Index([7, 11], dtype='int64'), 2014: Int64Index([0, 2, 4, 9], dtype='int64'), 2015: Int64Index([1, 3, 5, 10], dtype='int64')} 

   Points  Rank    Team  Year
0     876     1  Riders  2014
2     863     2  Devils  2014
4     741     3   Kings  2014
9     701     4  Royals  2014


### 5. groupby中的DataFrame列选择
从1.3节中对groupby对象迭代的结果可以看出，对象当中每个项包含name和group两部分。Name就是选择用于分组的那一组的所有去重后的元素值，比如'Year'当中的(2014,2015,2016,2017)。而group可以看作是DataFrame的结构，仍然可以进行行或列的选择等操作。这就是官网当中介绍到的[这一节](https://pandas.pydata.org/pandas-docs/stable/groupby.html#dataframe-column-selection-in-groupby)我个人的理解。下面通过示例说明：

In [23]:
grouped = df.groupby('Year')

for name,group in grouped:
    print name
    print group,'\n'
    print group['Team'],'\n','*'*30
    

2014
   Points  Rank    Team  Year  TeamPoints
0     876     1  Riders  2014        3049
2     863     2  Devils  2014        1536
4     741     3   Kings  2014        3097
9     701     4  Royals  2014        1505 

0    Riders
2    Devils
4     Kings
9    Royals
Name: Team, dtype: object 
******************************
2015
    Points  Rank    Team  Year  TeamPoints
1      789     2  Riders  2015        3049
3      673     3  Devils  2015        1536
5      812     4   Kings  2015        3097
10     804     1  Royals  2015        1505 

1     Riders
3     Devils
5      Kings
10    Royals
Name: Team, dtype: object 
******************************
2016
   Points  Rank    Team  Year  TeamPoints
6     756     1   Kings  2016        3097
8     694     2  Riders  2016        3049 

6     Kings
8    Riders
Name: Team, dtype: object 
******************************
2017
    Points  Rank    Team  Year  TeamPoints
7      788     1   Kings  2017        3097
11     690     2  Riders  2017        3

### 6. 聚合
聚合函数为每个组返回单个聚合值。一旦创建了组合对象，就可以对分组数据执行多个聚合操作。
一个显而易见的是通过聚合或等效的agg方法聚合。

In [16]:
grouped = df.groupby('Year')
# 求每组的均值
print grouped['Points'].agg(np.mean),'\n'

grouped1 = df.groupby('Team')
# 求每组元素个数
print grouped1.agg(np.size),'\n'

# 通过分组系列，还可以传递函数的列表或字典来进行聚合，并生成DataFrame作为输出
print grouped1['Points'].agg([np.sum,np.mean,np.std])


Year
2014    795.25
2015    769.50
2016    725.00
2017    739.00
Name: Points, dtype: float64 

        Points  Rank  Year
Team                      
Devils       2     2     2
Kings        4     4     4
Riders       4     4     4
Royals       2     2     2 

         sum    mean         std
Team                            
Devils  1536  768.00  134.350288
Kings   3097  774.25   31.899582
Riders  3049  762.25   88.567771
Royals  1505  752.50   72.831998


### 7. 转换
组或列上的转换返回索引大小与被分组的索引相同的对象。因此，转换应该返回与组块大小相同的结果。Pandas中的transform不是很容易，引用[其他](https://www.jianshu.com/p/509d7b97088c)优秀博客内容如下：
> aggregation会返回数据的缩减版本，而transformation能返回完整数据的某一变换版本供我们重组。这样的transformation，输出的形状和输入一致。一个常见的例子是通过减去分组平均值来居中数据。

按照引用博文思路，为表格添加一列TeamPoints，记录所有队伍累计得分情况。举例如下：

In [22]:
print df,'\n'

# 按团队'Team'计算每一队得分数'Points'之和
print df.groupby('Team')['Points'].agg(sum),'\n'

# 添加一列'TeamPoints'
# 利用transform，可以将每一队的累计得分与输入数据对应
df['TeamPoints'] = df.groupby('Team')['Points'].transform(sum)
print df

    Points  Rank    Team  Year
0      876     1  Riders  2014
1      789     2  Riders  2015
2      863     2  Devils  2014
3      673     3  Devils  2015
4      741     3   Kings  2014
5      812     4   Kings  2015
6      756     1   Kings  2016
7      788     1   Kings  2017
8      694     2  Riders  2016
9      701     4  Royals  2014
10     804     1  Royals  2015
11     690     2  Riders  2017 

Team
Devils    1536
Kings     3097
Riders    3049
Royals    1505
Name: Points, dtype: int64 

    Points  Rank    Team  Year  TeamPoints
0      876     1  Riders  2014        3049
1      789     2  Riders  2015        3049
2      863     2  Devils  2014        1536
3      673     3  Devils  2015        1536
4      741     3   Kings  2014        3097
5      812     4   Kings  2015        3097
6      756     1   Kings  2016        3097
7      788     1   Kings  2017        3097
8      694     2  Riders  2016        3049
9      701     4  Royals  2014        1505
10     804     1  Royals  20

In [8]:
score = lambda x: (x - x.mean()) / x.std()*10
print grouped.transform(score)


       Points       Rank
0    9.235007 -11.618950
1    2.998345  -3.872983
2    7.748256  -3.872983
3  -14.837962   3.872983
4   -6.204323   3.872983
5    6.534854  11.618950
6    7.071068  -7.071068
7    7.071068  -7.071068
8   -7.071068   7.071068
9  -10.778940  11.618950
10   5.304763 -11.618950
11  -7.071068   7.071068


### 8. 过滤
过滤根据定义的标准过滤数据并返回数据的子集。filter()函数用于过滤数据。

In [9]:
import pandas as pd
import numpy as np
ipl_data = {'Team': ['Riders', 'Riders', 'Devils', 'Devils', 'Kings',
         'kings', 'Kings', 'Kings', 'Riders', 'Royals', 'Royals', 'Riders'],
         'Rank': [1, 2, 2, 3, 3,4 ,1 ,1,2 , 4,1,2],
         'Year': [2014,2015,2014,2015,2014,2015,2016,2017,2016,2014,2015,2017],
         'Points':[876,789,863,673,741,812,756,788,694,701,804,690]}
df = pd.DataFrame(ipl_data)
print df.groupby('Team').filter(lambda x: len(x) >= 3)

    Points  Rank    Team  Year
0      876     1  Riders  2014
1      789     2  Riders  2015
4      741     3   Kings  2014
6      756     1   Kings  2016
7      788     1   Kings  2017
8      694     2  Riders  2016
11     690     2  Riders  2017


在上面的过滤条件中，我们需要返回那些在IPL比赛中参加三次及以上的队伍。