# 数据聚合与分组运算

## GroupBy机制

Hadley Wickham（许多热门R语言包的作者）创造了一个用于表示分组运算的术语"split-apply-combine"（拆分－应用－合并）。
- 第一个阶段，pandas对象（无论是Series、DataFrame还是其他的）中的数据会根据你所提供的一个或多个键被拆分（split）为多组。
- 然后，将一个函数应用（apply）到各个分组并产生一个新值。
- 最后，所有这些函数的执行结果会被合并（combine）到最终的结果对象中.

![](拆分-应用-合并.jpg)

分组键可以有多种形式，且类型不必相同：
- 列表或数组，其长度与待分组的轴一样。
- 表示DataFrame某个列名的值。
- 字典或Series，给出待分组轴上的值与分组名之间的对应关系。
- 函数，用于处理轴索引或索引中的各个标签。

In [1]:
import pandas as pd
import numpy as np

C:\code\Anaconda\lib\site-packages\numpy\.libs\libopenblas.CSRRD7HKRKC3T3YXA7VY7TAZGLSWDKW6.gfortran-win_amd64.dll
C:\code\Anaconda\lib\site-packages\numpy\.libs\libopenblas.IPBC74C7KURV7CB2PKT5Z5FNR3SIBV4J.gfortran-win_amd64.dll
  stacklevel=1)


In [2]:
df = pd.DataFrame({'key1' : ['a', 'a', 'b', 'b', 'a'],
....: 'key2' : ['one', 'two', 'one', 'two', 'one'],
....: 'data1' : np.random.randn(5),
....: 'data2' : np.random.randn(5)})

In [3]:
df

Unnamed: 0,key1,key2,data1,data2
0,a,one,2.044307,-0.908875
1,a,two,-1.200727,-0.192203
2,b,one,2.271757,1.636323
3,b,two,2.13804,-0.466811
4,a,one,-0.760955,1.176814


In [4]:
grouped = df['data1'].groupby(df['key1'])

In [5]:
grouped

<pandas.core.groupby.generic.SeriesGroupBy object at 0x000001CA8147BEB8>

In [6]:
grouped.mean()

key1
a    0.027542
b    2.204898
Name: data1, dtype: float64

非数值数据会在应用时被排除

GroupBy的size方法，它可以返回一个含有分组大小的Series

In [7]:
df.groupby(['key1', 'key2']).size()

key1  key2
a     one     2
      two     1
b     one     1
      two     1
dtype: int64

>**注意**，任何分组关键词中的缺失值，都会被从结果中除去。

### 对分组进行迭代

GroupBy对象支持迭代，可以产生一组二元元组（由分组名和数据块组成）

In [9]:
for name, group in df.groupby('key1'):
    print(name)
    print(group)

a
  key1 key2     data1     data2
0    a  one  2.044307 -0.908875
1    a  two -1.200727 -0.192203
4    a  one -0.760955  1.176814
b
  key1 key2     data1     data2
2    b  one  2.271757  1.636323
3    b  two  2.138040 -0.466811


In [11]:
for (k1, k2), group in df.groupby(['key1', 'key2']):
    print((k1, k2))
    print(group)

('a', 'one')
  key1 key2     data1     data2
0    a  one  2.044307 -0.908875
4    a  one -0.760955  1.176814
('a', 'two')
  key1 key2     data1     data2
1    a  two -1.200727 -0.192203
('b', 'one')
  key1 key2     data1     data2
2    b  one  2.271757  1.636323
('b', 'two')
  key1 key2    data1     data2
3    b  two  2.13804 -0.466811


In [12]:
pieces = dict(list(df.groupby('key1')))

In [13]:
pieces

{'a':   key1 key2     data1     data2
 0    a  one  2.044307 -0.908875
 1    a  two -1.200727 -0.192203
 4    a  one -0.760955  1.176814, 'b':   key1 key2     data1     data2
 2    b  one  2.271757  1.636323
 3    b  two  2.138040 -0.466811}

还可以根据dtype对列进行分组

In [14]:
grouped = df.groupby(df.dtypes, axis=1)

In [15]:
grouped

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001CA8B194DD8>

### 选取一列或列的子集

对于由DataFrame产生的GroupBy对象，如果用一个（单个字符串）或一组（字符串数组）列名对其进行索引，就能实现选取部分列进行聚合的目的。

```python
df.groupby('key1')['data1']
df.groupby('key1')[['data2']]
```
是以下代码的语法糖：
```python
df['data1'].groupby(df['key1'])
df[['data2']].groupby(df['key1'])
```

### 通过字典或Series进行分组

In [16]:
people = pd.DataFrame(np.random.randn(5, 5),
....: columns=['a', 'b', 'c', 'd', 'e'],
....: index=['Joe', 'Steve', 'Wes', 'Jim', 'Travis'])

In [17]:
people.iloc[2:3, [1, 2]] = np.nan

In [18]:
people

Unnamed: 0,a,b,c,d,e
Joe,0.279102,1.751539,-0.525977,0.13443,-0.353569
Steve,1.012936,0.382937,-1.215779,-0.15112,0.125696
Wes,-0.312394,,,-1.052184,-0.148808
Jim,-0.293661,0.408015,0.967441,-1.609444,1.173213
Travis,0.033306,0.453117,-1.644279,-0.177236,-1.653239


In [19]:
mapping = {'a': 'red', 'b': 'red', 'c': 'blue',
....: 'd': 'blue', 'e': 'red', 'f' : 'orange'}

In [20]:
by_column = people.groupby(mapping, axis=1)

In [22]:
by_column.sum()

Unnamed: 0,blue,red
Joe,-0.391547,1.677073
Steve,-1.366899,1.52157
Wes,-1.052184,-0.461202
Jim,-0.642003,1.287567
Travis,-1.821516,-1.166816


### 通过函数进行分组

任何被当做分组键的函数都会在各个索引值上被调用一次，其返回值就会被用作分组名称

In [23]:
people.groupby(len).mean()

Unnamed: 0,a,b,c,d,e
3,-0.108984,1.079777,0.220732,-0.842399,0.223612
5,1.012936,0.382937,-1.215779,-0.15112,0.125696
6,0.033306,0.453117,-1.644279,-0.177236,-1.653239


In [24]:
key_list = ['one', 'one', 'one', 'two', 'two']

In [25]:
people.groupby([len, key_list]).min()

Unnamed: 0,Unnamed: 1,a,b,c,d,e
3,one,-0.312394,1.751539,-0.525977,-1.052184,-0.353569
3,two,-0.293661,0.408015,0.967441,-1.609444,1.173213
5,one,1.012936,0.382937,-1.215779,-0.15112,0.125696
6,two,0.033306,0.453117,-1.644279,-0.177236,-1.653239


### 根据索引级别分组

层次化索引数据集最方便的地方就在于它能够根据轴索引的一个级别进行聚合

In [26]:
columns = pd.MultiIndex.from_arrays([['US', 'US', 'US','JP', 'JP'],
....: [1, 3, 5, 1, 3]],
....: names=['cty', 'tenor'])

In [28]:
hier_df = pd.DataFrame(np.random.randn(4, 5), columns=columns)

In [29]:
hier_df

cty,US,US,US,JP,JP
tenor,1,3,5,1,3
0,0.862064,0.089688,-1.393148,2.04116,1.188883
1,0.148482,0.721192,0.039554,2.00149,0.314908
2,-0.154213,0.724528,0.794561,0.528674,0.15959
3,-0.22217,-0.663695,0.757852,-2.19798,0.508336


要根据级别分组，使用level关键字传递级别序号或名字：

In [32]:
hier_df.groupby(level='cty', axis=1).count()

cty,JP,US
0,2,3
1,2,3
2,2,3
3,2,3


## 数据聚合

聚合指的是任何能够从数组产生**标量值**的数据转换过程。

![](GroupBy聚合方法.jpg)

如果要使用你自己的聚合函数，只需将其传入aggregate或agg方法即可：

In [33]:
grouped = df.groupby('key1')

In [34]:
def peak_to_peak(arr):
    return arr.max() - arr.min()

In [35]:
grouped.agg(peak_to_peak)

Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
a,3.245034,2.085689
b,0.133718,2.103134


>笔记：自定义聚合函数比表中经过优化的函数慢得多。
>
>这是因为在构造中间分组数据块时存在非常大的开销（函数调用、数据重排等）。

### 面向列的多函数应用

希望对不同的列使用不同的聚合函数，或一次应用多个函数。

- 可以将函数名以字符串的形式传入
- 如果传入一组函数或函数名，得到的DataFrame的列就会以相应的函数命名
- 如果传入的是一个由(name,function)元组组成的列表，则各元组的第一个元素就会被用作DataFrame的列名（可以将这种二元元组列表看做一个有序映射）
- 想要对一个列或不同的列应用不同的函数。具体的办法是向agg传入一个从列名映射到函数的字典

### 以“没有行索引”的形式返回聚合数据

可以向groupby传入as_index=False,禁用聚合数据索引由唯一的分组键组成

>对结果调用reset_index也能得到这种形式的结果。使用as_index=False方法可以避免一些不必要的计算。

## apply：一般性的“拆分－应用－合并”

apply会将待处理的对象拆分成多个片段，然后对各片段调用传入的函数，最后尝试将各片段组合到一起。

如果传给apply的函数能够接受其他参数或关键字，则可以将这些内容放在函数名后面一并传入

### 禁止分组键

将group_keys=False传入groupby即可禁止分组键会跟原始对象的索引共同构成结果对象中的层次化索引。

### 分位数和桶分析

pandas有一些能根据指定面元或样本分位数将数据拆分成多块的工具（比如cut和qcut）。将这些函数跟groupby结合起来，就能非常轻松地实现对数据集的桶（bucket）或分位数（quantile）分析了。

In [40]:
frame = pd.DataFrame({'data1': np.random.randn(1000),
....: 'data2': np.random.randn(1000)})

In [42]:
frame.head()

Unnamed: 0,data1,data2
0,0.827992,-1.375997
1,-1.136359,-0.745464
2,0.145548,1.091734
3,0.822883,0.349133
4,-1.285443,0.050727


In [43]:
quartiles = pd.cut(frame.data1, 4)

In [44]:
quartiles.head()

0     (-0.183, 1.477]
1    (-1.843, -0.183]
2     (-0.183, 1.477]
3     (-0.183, 1.477]
4    (-1.843, -0.183]
Name: data1, dtype: category
Categories (4, interval[float64]): [(-3.51, -1.843] < (-1.843, -0.183] < (-0.183, 1.477] < (1.477, 3.137]]

由cut返回的Categorical对象可直接传递到groupby。

In [46]:
def get_stats(group):
....:  return {'min': group.min(), 'max': group.max(),
....: 'count': group.count(), 'mean': group.mean()}

In [47]:
grouped = frame.data2.groupby(quartiles)

In [48]:
grouped.apply(get_stats).unstack()

Unnamed: 0_level_0,count,max,mean,min
data1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
"(-3.51, -1.843]",30.0,2.60466,0.308231,-1.607058
"(-1.843, -0.183]",389.0,3.062258,-0.082087,-2.809612
"(-0.183, 1.477]",509.0,2.863425,0.003438,-2.889355
"(1.477, 3.137]",72.0,2.163965,-0.009906,-3.306023


要根据样本分位数得到大小相等的桶，使用qcut即可。传入labels=False即可只获取分位数的编号

## 透视表和交叉表

透视表（pivot table）是各种电子表格程序和其他数据分析软件中一种常见的数据汇总工具。它根据一个或多个键对数据进行聚合，并根据行和列上的分组键将数据分配到各个矩形区域中。

DataFrame有一个pivot_table方法，此外还有一个顶级的pandas.pivot_table函数

除能为groupby提供便利之外，pivot_table还可以添加分项小计，也叫做margins。

## 交叉表：crosstab

交叉表（cross-tabulation，简称crosstab）是一种用于计算分组频率的特殊透视表。