## 關於 df.groupby() 的延伸說明
### 000  Pandas 的指令，所以要先匯入 Pandas，順便把常用套件一併匯入

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


#### 在我們的課程範本中，用 groupby() 處理原始流水帳，產製出 RFM 結構的數據表
#### 其作用，與 Excel 的樞紐分析 Pivot 非常類似
### 001 產生測試資料
#### 首先，產生三個數列

In [2]:
id=['A001','A002','A001','A003','A001','A003','A002']
size=['M','L','M','S','L','S','M']
amount=np.random.randint(100,1000,7)

#### 用我們前面學過的進階函數功能，產生 Dataframe

In [3]:
def sales(**kwargs):
    import pandas as pd
    return pd.DataFrame(kwargs)

df=sales(ID=id,Size=size,Amount=amount)

df

Unnamed: 0,ID,Size,Amount
0,A001,M,505
1,A002,L,422
2,A001,M,989
3,A003,S,417
4,A001,L,891
5,A003,S,991
6,A002,M,733


## 002 groupby() 語法邏輯
#### df.groupby() 只會產生一個 Object，不會形成資料表

In [4]:
table=df.groupby(['ID'])

table

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000150A422B198>

#### 還要以 agg() 指令，將選定欄位之各種不同運算結果，聚合 (Aggregate) 產生新欄位，才會形成資料表 

In [5]:
table=table.agg(
                {
                'Size':['count','unique','nunique'],
                'Amount':['sum','max','min','mean','median','std']
                }
                ).round(2)

table

Unnamed: 0_level_0,Size,Size,Size,Amount,Amount,Amount,Amount,Amount,Amount
Unnamed: 0_level_1,count,unique,nunique,sum,max,min,mean,median,std
ID,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
A001,3,"[M, L]",2,2385,989,505,795.0,891.0,255.88
A002,2,"[L, M]",2,1155,733,422,577.5,577.5,219.91
A003,2,[S],1,1408,991,417,704.0,704.0,405.88


#### 檢視以上結果，分辨 count、unique、nunique 的功能差別；
#### sum(加總)、max(最大值)、min(最小值_、mean(平均值)、median(中位數)、std(標準差) 用法比較統一，應該沒有問題。

## 003 處理多層欄標題
#### 多層標題通常是為人工閱讀，所呈現的最終報表格式
#### 數據處理階段，我們比較喜歡單層標題
#### 以 df.columns 取出欄標題
#### 雙層欄標題是一個 MultiIIndex 物件，各欄的多層標題，分別存放在 tuple 內

In [6]:
table.columns

MultiIndex([(  'Size',   'count'),
            (  'Size',  'unique'),
            (  'Size', 'nunique'),
            ('Amount',     'sum'),
            ('Amount',     'max'),
            ('Amount',     'min'),
            ('Amount',    'mean'),
            ('Amount',  'median'),
            ('Amount',     'std')],
           )

#### 以列表推導式，將雙層欄標題，轉換為 "第一層-第二層" 的形式，並取代原報表之雙層欄標題

In [7]:
table.columns=[i[0]+'-'+(i[1].capitalize()) for i in table.columns]

table

Unnamed: 0_level_0,Size-Count,Size-Unique,Size-Nunique,Amount-Sum,Amount-Max,Amount-Min,Amount-Mean,Amount-Median,Amount-Std
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
A001,3,"[M, L]",2,2385,989,505,795.0,891.0,255.88
A002,2,"[L, M]",2,1155,733,422,577.5,577.5,219.91
A003,2,[S],1,1408,991,417,704.0,704.0,405.88


#### 最後，將分組依據 (ID)欄位，由 index 欄，恢復為資料欄

In [8]:
table=table.reset_index()

table

Unnamed: 0,ID,Size-Count,Size-Unique,Size-Nunique,Amount-Sum,Amount-Max,Amount-Min,Amount-Mean,Amount-Median,Amount-Std
0,A001,3,"[M, L]",2,2385,989,505,795.0,891.0,255.88
1,A002,2,"[L, M]",2,1155,733,422,577.5,577.5,219.91
2,A003,2,[S],1,1408,991,417,704.0,704.0,405.88


## The End