In [1]:
%%HTML
<style type='text/css'>
    *{
        # background-color:#E3EDCD;
        # background-color:black;
        # color:white;
        
    }
    h1{
        color:#1976d2;
    }
    h2{
        color:#f57c00;
    }
    h3{
        color:#ba37ff;
    }
    h4{
        color:green;
    }
    table{
        border:1px solid black !important;
        border-collapse:collapse !important;
    }
    th{
        background-color:blueviolet !important;
        text-align:center;
        color:white;
    }
    th,td{
        border:0.1px solid black !important;
        transition:0.2s all liner;
        
    }
    td:hover{
        transform:scale(1.1) 0.3s all liner !important;
        background-color:orange;
        color:blueviolet;
    }
    .raw{
        white-space:pre;
        color:green;
    }
    #imp{
        color:red;
    }
    #ct{
        text-align:center;
    }
    
</style>

In [2]:
import numpy as np
import pandas as pd

## 3.9 累计与分组

在对较大的数据进行分析时，一项基本的工作就是有效的数据累计
（summarization）：计算累计（aggregation）指标，如
sum()、mean()、median()、min() 和 max()，其中每一个指标都呈
现了大数据集的特征。在这一节中，我们将探索 Pandas 的累计功能，
从类似前面 NumPy 数组中的简单操作，到基于 groupby 实现的复杂操
作。

### 3.9.1 行星数据

我们将通过 Seaborn 程序库（http://seaborn.pydata.org，详情请参见 4.16
节）用一份行星数据来进行演示，其中包含天文学家观测到的围绕恒星
运转的行星数据（通常简称为太阳系外行星或外行星）。行星数据可以
直接通过 Seaborn 下载：


In [3]:
import seaborn as sns
planets = sns.load_dataset('planets')
planets.shape

(1035, 6)

In [4]:
planets.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


数据中包含了截至 2014 年已被发现的一千多颗外行星的资料。

### 3.9.2 Pandas的简单累计功能

之前我们介绍过 NumPy 数组的一些数据累计指标（详情请参见 2.4
节）。与一维 NumPy 数组相同，Pandas 的 Series 的累计函数也会返
回一个统计值：

In [5]:
rng = np.random.RandomState(42)
ser = pd.Series(rng.rand(5))
ser

0    0.374540
1    0.950714
2    0.731994
3    0.598658
4    0.156019
dtype: float64

In [6]:
ser.sum()

np.float64(2.811925491708157)

In [7]:
ser.mean()

np.float64(0.5623850983416314)

DataFrame 的累计函数默认对每列进行统计：

In [8]:
df = pd.DataFrame({'A':rng.rand(5),'B':rng.rand(5)})
df

Unnamed: 0,A,B
0,0.155995,0.020584
1,0.058084,0.96991
2,0.866176,0.832443
3,0.601115,0.212339
4,0.708073,0.181825


In [9]:
df.mean()

A    0.477888
B    0.443420
dtype: float64

设置 axis 参数，你就可以对每一行进行统计了：

<p class='raw'>
理解下面的一行代码,我们指定了axis=columns,
也就是说,我么这样是为了保存列数据,列不坍缩,
那么就是每行数据平着加起来然后求均值
</p>

In [10]:
df.mean(axis='columns')

0    0.088290
1    0.513997
2    0.849309
3    0.406727
4    0.444949
dtype: float64

Pandas 的 Series 和 DataFrame 支持所有 2.4 节中介绍的常用累计函
数。另外，还有一个非常方便的 describe() 方法可以计算每一列的若
干常用统计值。让我们在行星数据上试验一下，首先丢弃有缺失值的
行：

In [11]:
planets.dropna().describe()

Unnamed: 0,number,orbital_period,mass,distance,year
count,498.0,498.0,498.0,498.0,498.0
mean,1.73494,835.778671,2.50932,52.068213,2007.37751
std,1.17572,1469.128259,3.636274,46.596041,4.167284
min,1.0,1.3283,0.0036,1.35,1989.0
25%,1.0,38.27225,0.2125,24.4975,2005.0
50%,1.0,357.0,1.245,39.94,2009.0
75%,2.0,999.6,2.8675,59.3325,2011.0
max,6.0,17337.5,25.0,354.0,2014.0


这是一种理解数据集所有统计属性的有效方法。例如，从年份 year 列  
中可以看出，1989 年首次发现外行星，而且一半的已知外行星都是在  
2010 年及以后的年份被发现的。这主要得益于开普勒计划——一个通  
过激光望远镜发现恒星周围椭圆轨道行星的太空计划。    
  
Pandas 内置的一些累计方法如表 3-3 所示。

#### 表3-3：Pandas的累计方法 

<table>
    <tr>
        <th>指标</th>
        <th>描述</th>
    </tr>
    <tr>
        <td>count()</td>
        <td>计数项</td>
    </tr>
    <tr>
        <td>first()、last()</td>
        <td>第一项与最后一项</td>
    </tr>
    <tr>
        <td>mean()、median()</td>
        <td>均值与中位数</td>
    </tr>
    <tr>
        <td>min()、max()</td>
        <td>最小值与最大值</td>
    </tr>
    <tr>
        <td>std()、var()</td>
        <td>标准差与方差</td>
    </tr>
    <tr>
        <td>mad()</td>
        <td>均值绝对偏差（mean absolute deviation）</td>
    </tr>
    <tr>
        <td>prod() </td>
        <td>所有项乘积</td>
    </tr>
    <tr>
        <td>sum</td>
        <td>所有项求和</td>
    </tr>
</table>

DataFrame 和 Series 对象支持以上所有方法。

但若想深入理解数据，仅仅依靠累计函数是远远不够的。数据累计的下
一级别是 groupby 操作，它可以让你快速、有效地计算数据各子集的累
计值。


### 3.9.3 GroupBy：分割、应用和组合

简单的累计方法可以让我们对数据集有一个笼统的认识，但是我们经常
还需要对某些标签或索引的局部进行累计分析，这时就需要用到
groupby 了。虽然“分组”（group by）这个名字是借用 SQL 数据库语言
的命令，但其理念引用发明 R 语言 frame 的 Hadley Wickham 的观点可
能更合适：分割（split）、应用（apply）和组合（combine）。

01. 分割、应用和组合

一个经典分割 - 应用 - 组合操作示例如图 3-1 所示，其中“apply”的
是一个求和函数。

图 3-1 清晰地描述了 GroupBy 的过程。
- 分割步骤将 DataFrame 按照指定的键分割成若干组。  
- 应用步骤对每个组应用函数，通常是累计、转换或过滤函数。  
- 组合步骤将每一组的结果合并成一个输出数组。  


<img src='../imgs/gropby_.png'></img>

<p id='ct'>图 3-1：groupby 操作的可视化过程</p>

虽然我们也可以通过前面介绍的一系列的掩码、累计与合并操作来  
实现，但是意识到中间分割过程不需要显式地暴露出来这一点十  
分重要。而且 GroupBy（经常）只需要一行代码，就可以计算每组  
的和、均值、计数、最小值以及其他累计值。GroupBy 的用处就是  
将这些步骤进行抽象：用户不需要知道在底层如何计算，只要把操   
作看成一个整体就够了。 
  
用 Pandas 进行图 3-1 所示的计算作为具体的示例。从创建输入  
DataFrame 开始：  



In [12]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
'data': range(6)}, columns=['key', 'data'])
df

Unnamed: 0,key,data
0,A,0
1,B,1
2,C,2
3,A,3
4,B,4
5,C,5


我们可以用 DataFrame 的 groupby() 方法进行绝大多数常见的分
割 - 应用 - 组合操作，将需要分组的列名传进去即可：

In [13]:
df.groupby('key')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001DC7B8886D0>

需要注意的是，<span id='imp'>这里的返回值不是一个 DataFrame 对象，而是一  
个 DataFrameGroupBy 对象。这个对象的魔力在于，你可以将它  
看成是一种特殊形式的 DataFrame，里面隐藏着若干组数据，但是  
在没有应用累计函数之前不会计算。</span>这种“延迟计算”（lazy  
evaluation）的方法使得大多数常见的累计操作可以通过一种对用户 
而言几乎是透明的（感觉操作仿佛不存在）方式非常高效地实现。 
   
为了得到这个结果，可以对 DataFrameGroupBy 对象<span id='imp'>应用累计函 
数，它会完成相应的应用 / 组合步骤并生成结果： </span> 

In [14]:
df.groupby('key').sum()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,3
B,5
C,7


sum() 只是众多可用方法中的一个。你可以用 Pandas 或 NumPy 的
任意一种累计函数，也可以用任意有效的 DataFrame 对象。下面
就会介绍。

02. GroupBy对象

GroupBy 对象是一种非常灵活的抽象类型。在大多数场景中，你可  
以将它看成是 DataFrame 的集合，在底层解决所有难题。让我们  
用行星数据来做一些演示。    

GroupBy 中最重要的操作可能就是 aggregate、filter、transform  
和 apply（累计、过滤、转换、应用）了，后文将详细介绍这些内  
容，现在先来介绍一些 GroupBy 的基本操作方法。  


(1) 按列取值。GroupBy 对象与 DataFrame 一样，也支持按列取
值，并返回一个修改过的 GroupBy 对象，例如：

In [15]:
planets.groupby('method')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001DC7B648160>

In [16]:
planets.groupby('method')['orbital_period']

<pandas.core.groupby.generic.SeriesGroupBy object at 0x000001DC7B6482E0>

这里从原来的 DataFrame 中取某个列名作为一个 Series 组。<span id='imp'>与
GroupBy 对象一样，直到我们运行累计函数，才会开始计算：</span>


In [17]:
planets.groupby('method')['orbital_period'].median()

method
Astrometry                         631.180000
Eclipse Timing Variations         4343.500000
Imaging                          27500.000000
Microlensing                      3300.000000
Orbital Brightness Modulation        0.342887
Pulsar Timing                       66.541900
Pulsation Timing Variations       1170.000000
Radial Velocity                    360.200000
Transit                              5.714932
Transit Timing Variations           57.011000
Name: orbital_period, dtype: float64

这样就可以获得不同方法下所有行星公转周期（按天计算）的中位
数。

(2) 按组迭代。GroupBy 对象支持直接按组进行迭代，返回的每一
组都是 Series 或 DataFrame：

In [18]:
for (method,group) in planets.groupby('method'):
    print(f"{method:30s} shape={group.shape}")

Astrometry                     shape=(2, 6)
Eclipse Timing Variations      shape=(9, 6)
Imaging                        shape=(38, 6)
Microlensing                   shape=(23, 6)
Orbital Brightness Modulation  shape=(3, 6)
Pulsar Timing                  shape=(5, 6)
Pulsation Timing Variations    shape=(1, 6)
Radial Velocity                shape=(553, 6)
Transit                        shape=(397, 6)
Transit Timing Variations      shape=(4, 6)


尽管通常还是使用内置的 apply 功能速度更快，但这种方式在手
动处理某些问题时非常有用，后面会详细介绍。

(3) 调用方法。借助 Python 类的魔力（@classmethod<span id='imp'>类方法</span>），可以让
任何不由 GroupBy 对象直接实现的方法直接应用到每一组，无论
是 DataFrame 还是 Series 对象都同样适用。例如，你可以用
DataFrame 的 describe() 方法进行累计，对每一组数据进行描述
性统计

In [19]:
planets.groupby('method')['year'].describe().unstack()

       method                       
count  Astrometry                          2.0
       Eclipse Timing Variations           9.0
       Imaging                            38.0
       Microlensing                       23.0
       Orbital Brightness Modulation       3.0
                                         ...  
max    Pulsar Timing                    2011.0
       Pulsation Timing Variations      2007.0
       Radial Velocity                  2014.0
       Transit                          2014.0
       Transit Timing Variations        2014.0
Length: 80, dtype: float64

这张表可以帮助我们对数据有更深刻的认识，例如大多数行星都是  
通过 Radial Velocity 和 Transit 方法发现的，而且后者在近十年变得  
越来越普遍（得益于更新、更精确的望远镜）。最新的 Transit  
Timing Variation 和 Orbital Brightness Modulation 方法在 2011 年之
后才有新的发现。    
这只是演示 Pandas 调用方法的示例之一。方法首先会应用到每组  
数据上，然后结果由 GroupBy 组合后返回。另外，任意      
DataFrame / Series 的方法都可以由 GroupBy 方法调用，从而实 
现非常灵活强大的操作。 

03. 累计、过滤、转换和应用

虽然前面的章节只重点介绍了组合操作，但是还有许多操作没有介
绍，尤其是 GroupBy 对象的
aggregate()、filter()、transform() 和 apply() 方法，在数
据组合之前实现了大量高效的操作。  
为了方便后面内容的演示，使用下面这个 DataFrame：  

In [20]:
rng = np.random.RandomState(0)
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
'data1': range(6),
'data2': rng.randint(0, 10, 6)},
columns = ['key', 'data1', 'data2'])
df

Unnamed: 0,key,data1,data2
0,A,0,5
1,B,1,0
2,C,2,3
3,A,3,3
4,B,4,7
5,C,5,9


(1) 累计。我们目前比较熟悉的 GroupBy 累计方法只有 sum() 和
median() 之类的简单函数，但是 aggregate() 其实可以支持更复
杂的操作，比如字符串、函数或者函数列表，并且能一次性计算所
有累计值。下面来快速演示一个例子：

In [21]:
df.groupby('key').aggregate(['min', 'median', 'max'])

Unnamed: 0_level_0,data1,data1,data1,data2,data2,data2
Unnamed: 0_level_1,min,median,max,min,median,max
key,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,0,1.5,3,3,4.0,5
B,1,2.5,4,0,3.5,7
C,2,3.5,5,3,6.0,9


另一种用法就是<span id='imp'>通过 Python 字典指定不同列</span>需要累计的函数

<p class='raw'>
简单理解下面的代码:
可以看到显进行了组合操作,按照键'key'分组,
然后使用组合操作
指定的是字典,data1这一列的最小值data2这一列的最大值
</p>

In [22]:
df.groupby('key').aggregate({
    'data1':'min',
    'data2':'max'
})

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,5
B,1,7
C,2,9


<img src='../imgs/ag1.png'></img>

(2) 过滤。过滤操作可以让你按照分组的属性丢弃若干数据。例
如，我们可能只需要保留标准差超过某个阈值的组：

<p class='raw'>
    简单理解下面的代码,
    定义了一个函数,返回的是传入的数据的
    'data2'这一列的数据的标准差且是大于4的标准差,
    学习filter时候,回顾之前学的python中的filter
</p>

In [23]:
def filter_func(x):
    return x['data2'].std() > 4

In [24]:
print(df); print(df.groupby('key').std());
print(df.groupby('key').filter(filter_func))

  key  data1  data2
0   A      0      5
1   B      1      0
2   C      2      3
3   A      3      3
4   B      4      7
5   C      5      9
       data1     data2
key                   
A    2.12132  1.414214
B    2.12132  4.949747
C    2.12132  4.242641
  key  data1  data2
1   B      1      0
2   C      2      3
4   B      4      7
5   C      5      9


filter() 函数会返回一个布尔值，表示每个组是否通过过滤。由
于 A 组 'data2' 列的标准差不大于 4，所以被丢弃了。


(3) 转换。累计操作返回的是对组内全量数据缩减过的结果，而转
换操作会返回一个新的全量数据。数据经过转换之后，其形状与原
来的输入数据是一样的。常见的例子就是将每一组的样本数据减去
各组的均值，实现数据标准化：

In [25]:
df.groupby('key').transform(lambda x: x - x.mean())

Unnamed: 0,data1,data2
0,-1.5,1.0
1,-1.5,-3.5
2,-1.5,-3.0
3,1.5,-1.0
4,1.5,3.5
5,1.5,3.0


(4) apply() 方法。apply() 方法让你可以在每个组上应用任意方  
法。这个函数输入一个 DataFrame，返回一个 Pandas 对象  
（DataFrame 或 Series）或一个标量（scalar，单个数值）。组合    
操作会适应返回结果类型。     
 
下面的例子就是用 apply() 方法将第一列数据以第二列的和为基   
数进行标准化： 


In [26]:
def norm_by_data2(x):
    # x是一个分组数据的DataFrame
    x['data1'] /= x['data2'].sum()
    return x

In [28]:
print(df)
print(df.groupby('key').apply(norm_by_data2))

  key  data1  data2
0   A      0      5
1   B      1      0
2   C      2      3
3   A      3      3
4   B      4      7
5   C      5      9
      key     data1  data2
key                       
A   0   A  0.000000      5
    3   A  0.375000      3
B   1   B  0.142857      0
    4   B  0.571429      7
C   2   C  0.166667      3
    5   C  0.416667      9


  print(df.groupby('key').apply(norm_by_data2))


GroupBy 里的 apply() 方法非常灵活，唯一需要注意的地方是它
总是输入分组数据的 DataFrame，返回 Pandas 对象或标量。具体
如何选择需要视情况而定。

04. 设置分割的键

前面的简单例子一直在用列名分割 DataFrame。这只是众多分组操  
作中的一种，下面将继续介绍更多的分组方法。    
(1) 将列表、数组、Series 或索引作为分组键。分组键可以是长度  
与 DataFrame 匹配的任意 Series 或列表，例如：

In [29]:
L = [0, 1, 0, 1, 2, 0]
print(df); print(df.groupby(L).sum())

  key  data1  data2
0   A      0      5
1   B      1      0
2   C      2      3
3   A      3      3
4   B      4      7
5   C      5      9
   key  data1  data2
0  ACC      7     17
1   BA      4      3
2    B      4      7


因此，还有一种比前面直接用列名更啰嗦的表示方法
df.groupby('key')：

In [30]:
print(df)
print(df.groupby(df['key']).sum())

  key  data1  data2
0   A      0      5
1   B      1      0
2   C      2      3
3   A      3      3
4   B      4      7
5   C      5      9
     data1  data2
key              
A        3      8
B        5      7
C        7     12


(2) 用字典或 Series 将索引映射到分组名称。另一种方法是提供一
个字典，将索引映射到分组键：

In [31]:
df2 = df.set_index('key') #设置多级索引名称为‘key’
mapping = {'A': 'vowel', 'B': 'consonant', 'C': 'consonant'}
print(df2); print(df2.groupby(mapping).sum())


     data1  data2
key              
A        0      5
B        1      0
C        2      3
A        3      3
B        4      7
C        5      9
           data1  data2
key                    
consonant     12     19
vowel          3      8


(3) 任意 Python 函数。与前面的字典映射类似，你可以将任意
Python 函数传入 groupby，函数映射到索引，然后新的分组输出：

In [32]:
print(df2)
print(df2.groupby(str.lower).mean())

     data1  data2
key              
A        0      5
B        1      0
C        2      3
A        3      3
B        4      7
C        5      9
     data1  data2
key              
a      1.5    4.0
b      2.5    3.5
c      3.5    6.0


(4) 多个有效键构成的列表。此外，任意之前有效的键都可以组合
起来进行分组，从而返回一个多级索引的分组结果：

In [33]:
df2.groupby([str.lower,mapping]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data2
key,key,Unnamed: 2_level_1,Unnamed: 3_level_1
a,vowel,1.5,4.0
b,consonant,2.5,3.5
c,consonant,3.5,6.0


05. 分组案例
通过下例中的几行 Python 代码，我们就可以运用上述知识，获取
不同方法和不同年份发现的行星数量：

In [35]:
decade = 10*(planets['year']//10)
decade = decade.astype(str) + 's'
decade.name = 'decade'
planets.\
groupby(['method', decade])['number'].sum().unstack().fillna(0)

decade,1980s,1990s,2000s,2010s
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Astrometry,0.0,0.0,0.0,2.0
Eclipse Timing Variations,0.0,0.0,5.0,10.0
Imaging,0.0,0.0,29.0,21.0
Microlensing,0.0,0.0,12.0,15.0
Orbital Brightness Modulation,0.0,0.0,0.0,5.0
Pulsar Timing,0.0,9.0,1.0,1.0
Pulsation Timing Variations,0.0,0.0,1.0,0.0
Radial Velocity,1.0,52.0,475.0,424.0
Transit,0.0,0.0,64.0,712.0
Transit Timing Variations,0.0,0.0,0.0,9.0


此例足以展现 GroupBy 在探索真实数据集时快速组合多种操作的
能力——只用寥寥几行代码，就可以让我们立即对过去几十年里不
同年代的行星发现方法有一个大概的了解。
我建议你花点时间分析这几行代码，确保自己真正理解了每一行代
码对结果产生了怎样的影响。虽然这个例子的确有点儿复杂，但是
理解这几行代码的含义可以帮你掌握分析类似数据的方法。