## Data aggregation และ Grouping

เป็นขั้นตอนสำคัญสำหรับ data analysis workflow ซึ่งเกิดหลังจากการ loading, preparing และ merging ข้อมูล

จากนั้นจึงทำการ grouping ตามค่าสถิติต่าง ๆ การทำ pivot table สำหรับการทำรายงาน และ visualization ออกมา

โดยที่ Pandas library ได้เตรียม groupby interface ไว้ให้ใช้งาน

(เทียบได้กับ aggregation function และ group by ใน SQL )

## 1. ขั้นตอนการทำงานของ GroupBy

![alt text](pyda_0901.png "Flow")

In [1]:
import pandas as pd
import numpy as np

In [3]:
data = pd.DataFrame( { 'key1': ['a','b','b','b','a'],
                       'key2': ['one','two','one','two','one'],
                       'data1': np.random.randn(5),
                       'data2': np.random.randn(5)
                     } )
data

Unnamed: 0,data1,data2,key1,key2
0,0.453406,-0.112818,a,one
1,0.167646,-0.868377,b,two
2,-0.418887,1.629293,b,one
3,1.057466,-0.001176,b,two
4,-0.368687,0.811231,a,one


### ถ้าต้องการหาค่า mean ของข้อมูล data1 โดยแบ่งกลุ่มจาก key1
สามารถทำได้หลายวิธี ยกตัวอย่างเช่น

* https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.groupby.html
* https://pandas.pydata.org/pandas-docs/stable/api.html#id32

### ทำการ groupby ผ่าน Series

In [4]:
group_data = data['data1'].groupby(data['key1'])
group_data

<pandas.core.groupby.SeriesGroupBy object at 0x106d128d0>

In [6]:
group_data.mean()

key1
a    0.042359
b    0.268742
Name: data1, dtype: float64

สามารถทำการแบ่งกลุ่มด้วย key1 และ key2

In [10]:
means = data['data1'].groupby([data['key1'], data['key2']]).mean()
means

key1  key2
a     one     0.042359
b     one    -0.418887
      two     0.612556
Name: data1, dtype: float64

In [11]:
type(means)

pandas.core.series.Series

In [13]:
# Convert Series to DataFrame
means.unstack()

key2,one,two
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
a,0.042359,
b,-0.418887,0.612556


### ทำการ groupby ผ่าน DataFrame

https://pandas.pydata.org/pandas-docs/stable/api.html#id32

In [20]:
data

Unnamed: 0,data1,data2,key1,key2
0,0.453406,-0.112818,a,one
1,0.167646,-0.868377,b,two
2,-0.418887,1.629293,b,one
3,1.057466,-0.001176,b,two
4,-0.368687,0.811231,a,one


In [14]:
data.groupby(['key1', 'key2']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,one,0.042359,0.349206
b,one,-0.418887,1.629293
b,two,0.612556,-0.434777


In [16]:
data.groupby(['key1', 'key2'])['data1'].mean()

key1  key2
a     one     0.042359
b     one    -0.418887
      two     0.612556
Name: data1, dtype: float64

In [17]:
data.groupby(['key1', 'key2'])['data2'].mean()

key1  key2
a     one     0.349206
b     one     1.629293
      two    -0.434777
Name: data2, dtype: float64

In [19]:
data.groupby(['key1', 'key2']).size()

key1  key2
a     one     2
b     one     1
      two     2
dtype: int64