# 聚合操作(Aggregation)與群聚(Grouping)

對大量資料進行總結主要利用聚合操作：如`sum（）``，``mean（）``，``median（）``，``min（）``和`` max（）``，其中數字可以深入了解潛在大型資料集的性質。

In [1]:
import numpy as np
import pandas as pd

class display(object):
    """Display HTML representation of multiple objects"""
    template = """<div style="float: left; padding: 10px;">
    <p style='font-family:"Courier New", Courier, monospace'>{0}</p>{1}
    </div>"""
    def __init__(self, *args):
        self.args = args
        
    def _repr_html_(self):
        return '\n'.join(self.template.format(a, eval(a)._repr_html_())
                         for a in self.args)
    
    def __repr__(self):
        return '\n\n'.join(a + '\n' + repr(eval(a))
                           for a in self.args)

## 行星資料

在此使用行星資料集，H可通過[Seaborn軟件包]（http://seaborn.pydata.org/）獲得。它提供了天文學家在其他恆星周圍發現的行星信息（稱為*太陽系外行星*或簡稱*系外行星*）。 可以使用簡單的Seaborn命令下載它，由此可以獲得超過1000個太陽系外行星資料：

In [2]:
import seaborn as sns
planets = sns.load_dataset('planets')
planets.shape

(1035, 6)

In [3]:
planets.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


## Pandas簡單聚合操作

In [4]:
rng = np.random.RandomState(42)
ser = pd.Series(rng.rand(5))
ser

0    0.374540
1    0.950714
2    0.731994
3    0.598658
4    0.156019
dtype: float64

In [5]:
ser.sum()

2.811925491708157

In [6]:
ser.mean()

0.5623850983416314

對於``DataFrame``預設情況下聚合返回每列中的結果：

In [7]:
df = pd.DataFrame({'A': rng.rand(5),
                   'B': rng.rand(5)})
df

Unnamed: 0,A,B
0,0.155995,0.020584
1,0.058084,0.96991
2,0.866176,0.832443
3,0.601115,0.212339
4,0.708073,0.181825


In [8]:
df.mean()

A    0.477888
B    0.443420
dtype: float64

通過指定``axis``參數，可以在每行內進行聚合操作：

In [9]:
df.mean(axis='columns')

0    0.088290
1    0.513997
2    0.849309
3    0.406727
4    0.444949
dtype: float64

Pandas 中``Series`` 與``DataFrame``包含所有常用的聚合操作[包括Min, Max, ...]，甚至還有一個 ``describe()`` 指令提供最常用的敘述統計結果:

In [10]:
planets.dropna().describe()

Unnamed: 0,number,orbital_period,mass,distance,year
count,498.0,498.0,498.0,498.0,498.0
mean,1.73494,835.778671,2.50932,52.068213,2007.37751
std,1.17572,1469.128259,3.636274,46.596041,4.167284
min,1.0,1.3283,0.0036,1.35,1989.0
25%,1.0,38.27225,0.2125,24.4975,2005.0
50%,1.0,357.0,1.245,39.94,2009.0
75%,2.0,999.6,2.8675,59.3325,2011.0
max,6.0,17337.5,25.0,354.0,2014.0


這可以是開始了解資料集的整體屬性的有用方法。 例如，我們在年份欄中看到，雖然早在1989年就發現了系外行星，但是直到2010年或之後才發現了一半已知的系外行星。 這主要歸功於開普勒計畫提供了一種專門設計用於尋找其他恆星周圍的遮蔽行星的太空望遠鏡。.

下表總結了其他一些內置的Pandas聚合操作方法：

| 聚合操作| 說明|
|--------------------------|---------------------------------|
| ``count（）``| 項目總數|
| ``first（）``，``last（）``| 第一個和最後一個項目|
| ``mean（）``，``median（）``| 平均值和中位數|
| ``min（）``，``max（）``| 最小值和最大值|
| ``std（）``，``var（）``| 標準差和變異數|
| ``mad（）``| 平均絕對偏差|
| ``prod（）``| 所有項目的乘積|
| ``sum（）``| 所有項目的總和|

這些都是``DataFrame``和``Series``對象的方法。

## GroupBy: Split, Apply, Combine

簡單的聚合可以為您提供數據集的風格，但我們通常更願意在某些標籤或索引上有條件地聚合：這是在所謂的``groupby``操作中實現。

### Split, apply, combine

A canonical example of this split-apply-combine operation, where the "apply" is a summation aggregation, is illustrated in this figure:

![](figures/03.08-split-apply-combine.png)
[figure source in Appendix](06.00-Figure-Code.ipynb#Split-Apply-Combine)

``groupby``可以進行下列功能：

- * split *步驟涉及根據指定鍵的值分解和``DataFrame``。分組
- * apply *步驟涉及計算單個組內的某些功能，通常是聚合，轉換或過濾。
- * combine *步驟將這些操作的結果合併到輸出陣列中。

In [11]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data': range(6)}, columns=['key', 'data'])
df

Unnamed: 0,key,data
0,A,0
1,B,1
2,C,2
3,A,3
4,B,4
5,C,5


最基本的split-apply-combine操作可以使用``DataFrame``的``groupby（）``方法計算，傳遞所需鍵列的名稱：

In [12]:
df.groupby('key')

<pandas.core.groupby.groupby.DataFrameGroupBy object at 0x00000203130DE710>

請注意，返回的不是一組``DataFrame``，而是一個``DataFrameGroupBy``物件。
這個物件就是神奇的地方：你可以把它想像成``DataFrame``的特殊視圖，它可以深入挖掘群組，但在應用聚合操作之前不會進行實際計算。
為了產生結果，我們可以將聚合應用於這個``DataFrameGroupBy``對象，該對象將執行適當的應用/組合步驟以產生所需的結果：

In [13]:
df.groupby('key').sum()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,3
B,5
C,7


`sum（）``方法只是這裡的一種可能性; 可以應用幾乎任何常見的Pandas或NumPy聚合函數，以及幾乎任何有效的``DataFrame``操作，我們將在下面的討論中看到。

### GroupBy物件


``GroupBy``物件是一個非常靈活的抽象。在許多方面，你可以簡單地將它視為“DataFrame”的集合，它可以解決困難的問題。 讓我們看一些使用Planets數據的例子。也許由``GroupBy``提供的最重要的操作是* aggregate *，* filter *，* transform *和* apply *。
我們將在[“聚合，過濾，轉換，應用”]（＃Aggregate，-Filter，-Transform，-Apply）中更全面地討論這些內容，但在此之前，我們將介紹一些可以與之配合使用的其他功能。 基本的``GroupBy``操作。

#### 行索引(Column indexing)

`GroupBy``物件以與``DataFrame``相同的方式支持行索引，並返回修改後的``GroupBy``物件。
例如：

In [14]:
planets.groupby('method')

<pandas.core.groupby.groupby.DataFrameGroupBy object at 0x00000203130DE780>

In [15]:
planets.groupby('method')['orbital_period']

<pandas.core.groupby.groupby.SeriesGroupBy object at 0x0000020313108DA0>

在這裡，我們通過引用其列名從原始的``DataFrame``組中選擇了一個特定的``Series``組。與``GroupBy``物件一樣，在我們呼叫物件上的聚合之前，不會進行任何計算：

In [16]:
planets.groupby('method')['orbital_period'].median()

method
Astrometry                         631.180000
Eclipse Timing Variations         4343.500000
Imaging                          27500.000000
Microlensing                      3300.000000
Orbital Brightness Modulation        0.342887
Pulsar Timing                       66.541900
Pulsation Timing Variations       1170.000000
Radial Velocity                    360.200000
Transit                              5.714932
Transit Timing Variations           57.011000
Name: orbital_period, dtype: float64

這給出了每種方法對其敏感的軌道周期（以天為單位）的一般尺度的概念。

#### 群組迭代(Iteration over groups)

``GroupBy``物件支持對群組進行直接迭代，將每個群組作為``Series``或``DataFrame``返回：

In [17]:
for (method, group) in planets.groupby('method'):
    print("{0:30s} shape={1}".format(method, group.shape))

Astrometry                     shape=(2, 6)
Eclipse Timing Variations      shape=(9, 6)
Imaging                        shape=(38, 6)
Microlensing                   shape=(23, 6)
Orbital Brightness Modulation  shape=(3, 6)
Pulsar Timing                  shape=(5, 6)
Pulsation Timing Variations    shape=(1, 6)
Radial Velocity                shape=(553, 6)
Transit                        shape=(397, 6)
Transit Timing Variations      shape=(4, 6)


#### Dispatch方法

通過一些Python類別魔術，任何未由``GroupBy``物件顯式實現的方法都將被傳遞並呼叫群組，無論它們是``DataFrame``還是``Series``物件。
例如，您可以使用``DataFrame``的``describe（）``方法來執行一組聚合來描述資料中的每個群組：

In [18]:
planets.groupby('method')['year'].describe().unstack()

       method                       
count  Astrometry                          2.000000
       Eclipse Timing Variations           9.000000
       Imaging                            38.000000
       Microlensing                       23.000000
       Orbital Brightness Modulation       3.000000
       Pulsar Timing                       5.000000
       Pulsation Timing Variations         1.000000
       Radial Velocity                   553.000000
       Transit                           397.000000
       Transit Timing Variations           4.000000
mean   Astrometry                       2011.500000
       Eclipse Timing Variations        2010.000000
       Imaging                          2009.131579
       Microlensing                     2009.782609
       Orbital Brightness Modulation    2011.666667
       Pulsar Timing                    1998.400000
       Pulsation Timing Variations      2007.000000
       Radial Velocity                  2007.518987
       Transit             

查看此表有助於我們更好地理解數據：例如，絕大多數行星都是通過徑向速度和運輸方法發現的，儘管後者在過去十年中變得普遍（由於新的，更精確的望遠鏡）。最新的方法似乎是Transit Timing Variation和Orbital Brightness Modulation，它們直到2011年才被用於發現新的行星。

這只是調度方法效用的一個例子。
請注意，它們被應用於每個單獨的組*，然後將結果組合在“GroupBy”中並返回。
同樣，任何有效的``DataFrame`` /``Series``方法都可以用在相應的``GroupBy``對像上，這允許一些非常靈活和強大的操作！

### Aggregate, filter, transform, apply

前面的討論主要關注合併操作的聚合，但還有更多選擇。
特別是``GroupBy``對像有``aggregate（）``，``filter（）``，``transform（）``和``apply（）``有效實現各種有用的方法 組合分組數據之前的操作。

出於以下小節的目的，我們將使用這個``DataFrame``：

In [19]:
rng = np.random.RandomState(0)
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data1': range(6),
                   'data2': rng.randint(0, 10, 6)},
                   columns = ['key', 'data1', 'data2'])
df

Unnamed: 0,key,data1,data2
0,A,0,5
1,B,1,0
2,C,2,3
3,A,3,3
4,B,4,7
5,C,5,9


#### 聚合操作(Aggregation)

我們現在熟悉``GroupBy``聚合與`sum（）``，``median（）``等，但``aggregate（）``方法允許更多的靈活性。
它可以採用字符串，函數或其列表，並一次計算所有聚合。
這是一個結合所有這些的快速示例：

In [20]:
df.groupby('key').aggregate(['min', np.median, max])

Unnamed: 0_level_0,data1,data1,data1,data2,data2,data2
Unnamed: 0_level_1,min,median,max,min,median,max
key,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,0,1.5,3,3,4.0,5
B,1,2.5,4,0,3.5,7
C,2,3.5,5,3,6.0,9


另一個有用的模式是將字典映射行名稱映射到要應用於該行的操作：

In [21]:
df.groupby('key').aggregate({'data1': 'min',
                             'data2': 'max'})

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,5
B,1,7
C,2,9


#### 過濾操作(Filtering)
過濾操作允許您根據群組屬性刪除資料。例如，我們可能希望保留標準偏差大於某個臨界值的所有組：

In [22]:
def filter_func(x):
    return x['data2'].std() > 4

display('df', "df.groupby('key').std()", "df.groupby('key').filter(filter_func)")

Unnamed: 0,key,data1,data2
0,A,0,5
1,B,1,0
2,C,2,3
3,A,3,3
4,B,4,7
5,C,5,9

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,2.12132,1.414214
B,2.12132,4.949747
C,2.12132,4.242641

Unnamed: 0,key,data1,data2
1,B,1,0
2,C,2,3
4,B,4,7
5,C,5,9


filter函數應返回一個布林值，指定群組是否通過過濾。 這裡因為群組A沒有大於4的標準差，所以從結果中刪除它。

#### 轉換(Transformation)

雖然聚合必須返回資料的簡化版本，但轉換可以返回完整數據的某些轉換版本以重新組合。對於這種變換，輸出與輸入的形狀相同。一個常見的例子是通過減去分組均值來使數據居中：

In [23]:
df.groupby('key').transform(lambda x: x - x.mean())

Unnamed: 0,data1,data2
0,-1.5,1.0
1,-1.5,-3.5
2,-1.5,-3.0
3,1.5,-1.0
4,1.5,3.5
5,1.5,3.0


#### apply() 方法

``apply（）``方法允許您將任意函數應用於群組結果。該函數應該採用``DataFrame``，並返回一個Pandas物件（例如，``DataFrame``，``Series``）或一個純量; 組合操作將根據返回的輸出類型進行調整。
例如，這裡是一個``apply（）``，它將第一行標準化為第二行的總和：

In [24]:
def norm_by_data2(x):
    # x is a DataFrame of group values
    x['data1'] /= x['data2'].sum()
    return x

display('df', "df.groupby('key').apply(norm_by_data2)")

Unnamed: 0,key,data1,data2
0,A,0,5
1,B,1,0
2,C,2,3
3,A,3,3
4,B,4,7
5,C,5,9

Unnamed: 0,key,data1,data2
0,A,0.0,5
1,B,0.142857,0
2,C,0.166667,3
3,A,0.375,3
4,B,0.571429,7
5,C,0.416667,9


``apply()`` within a ``GroupBy`` is quite flexible: the only criterion is that the function takes a ``DataFrame`` and returns a Pandas object or scalar; what you do in the middle is up to you!

### Specifying the split key

在之前介紹的簡單示例中，我們將``DataFrame``拆分為單個行名。
這只是可以定義組的眾多選項之一，我們將在此處介紹群組規範的其他選項。

#### A list, array, series, or index providing the grouping keys

key可以是任何系列或列表，其長度與“DataFrame”的長度相匹配。 例如：

In [25]:
L = [0, 1, 0, 1, 2, 0]
display('df', 'df.groupby(L).sum()')

Unnamed: 0,key,data1,data2
0,A,0,5
1,B,1,0
2,C,2,3
3,A,3,3
4,B,4,7
5,C,5,9

Unnamed: 0,data1,data2
0,7,17
1,4,3
2,4,7


當然，這意味著還有另一種更冗長的方式來實現之前的``df.groupby（'key'）``

In [26]:
display('df', "df.groupby(df['key']).sum()")

Unnamed: 0,key,data1,data2
0,A,0,5
1,B,1,0
2,C,2,3
3,A,3,3
4,B,4,7
5,C,5,9

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,3,8
B,5,7
C,7,12


#### 字典或系列映射索引到組

另一種方法是提供將索引值映射到組鍵的字典：

In [27]:
df2 = df.set_index('key')
mapping = {'A': 'vowel', 'B': 'consonant', 'C': 'consonant'}
display('df2', 'df2.groupby(mapping).sum()')

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,5
B,1,0
C,2,3
A,3,3
B,4,7
C,5,9

Unnamed: 0,data1,data2
consonant,12,19
vowel,3,8


#### 任何Python函數

與映射類似，您可以傳遞任何將輸入索引值並輸出組的Python函數：

In [28]:
display('df2', 'df2.groupby(str.lower).mean()')

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,5
B,1,0
C,2,3
A,3,3
B,4,7
C,5,9

Unnamed: 0,data1,data2
a,1.5,4.0
b,2.5,3.5
c,3.5,6.0


#### 有效鍵串列

此外，任何前面的鍵選擇可以組合在一個多索引上分組：

In [29]:
df2.groupby([str.lower, mapping]).mean()

Unnamed: 0,Unnamed: 1,data1,data2
a,vowel,1.5,4.0
b,consonant,2.5,3.5
c,consonant,3.5,6.0


### Grouping實例

下面這個例子可以在幾行Python代碼中將所有這些放在一起，並通過方法計算每十年發現的行星：

In [30]:
decade = 10 * (planets['year'] // 10)
decade = decade.astype(str) + 's'
decade.name = 'decade'
planets.groupby(['method', decade])['number'].sum().unstack().fillna(0)

decade,1980s,1990s,2000s,2010s
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Astrometry,0.0,0.0,0.0,2.0
Eclipse Timing Variations,0.0,0.0,5.0,10.0
Imaging,0.0,0.0,29.0,21.0
Microlensing,0.0,0.0,12.0,15.0
Orbital Brightness Modulation,0.0,0.0,0.0,5.0
Pulsar Timing,0.0,9.0,1.0,1.0
Pulsation Timing Variations,0.0,0.0,1.0,0.0
Radial Velocity,1.0,52.0,475.0,424.0
Transit,0.0,0.0,64.0,712.0
Transit Timing Variations,0.0,0.0,0.0,9.0


這顯示了在查看真實資料集時，結合我們討論過的許多操作的強大功能。我們立即大致了解過去幾十年內行星何時以及如何被發現！

在這裡，我建議深入研究這幾行代碼，並評估各個步驟，以確保您確切了解它們對結果的作用。這當然是一個有點複雜的例子，但理解這些部分將為您提供類似地探索自己的數據的方法。