## Data aggregation และ Grouping

เป็นขั้นตอนสำคัญสำหรับ data analysis workflow ซึ่งเกิดหลังจากการ loading, preparing และ merging ข้อมูล

จากนั้นจึงทำการ grouping ตามค่าสถิติต่าง ๆ การทำ pivot table สำหรับการทำรายงาน และ visualization ออกมา

โดยที่ Pandas library ได้เตรียม groupby interface ไว้ให้ใช้งาน

(เทียบได้กับ aggregation function และ group by ใน SQL )

## 1. ขั้นตอนการทำงานของ GroupBy

![alt text](pyda_0901.png "Flow")

In [1]:
import pandas as pd
import numpy as np

In [3]:
data = pd.DataFrame( { 'key1': ['a','b','b','b','a'],
                       'key2': ['one','two','one','two','one'],
                       'data1': np.random.randn(5),
                       'data2': np.random.randn(5)
                     } )
data

Unnamed: 0,data1,data2,key1,key2
0,0.453406,-0.112818,a,one
1,0.167646,-0.868377,b,two
2,-0.418887,1.629293,b,one
3,1.057466,-0.001176,b,two
4,-0.368687,0.811231,a,one


### ถ้าต้องการหาค่า mean ของข้อมูล data1 โดยแบ่งกลุ่มจาก key1
สามารถทำได้หลายวิธี ยกตัวอย่างเช่น

* https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.groupby.html
* https://pandas.pydata.org/pandas-docs/stable/api.html#id32

### ทำการ groupby ผ่าน Series

In [4]:
group_data = data['data1'].groupby(data['key1'])
group_data

<pandas.core.groupby.SeriesGroupBy object at 0x106d128d0>

In [6]:
group_data.mean()

key1
a    0.042359
b    0.268742
Name: data1, dtype: float64

สามารถทำการแบ่งกลุ่มด้วย key1 และ key2

In [10]:
means = data['data1'].groupby([data['key1'], data['key2']]).mean()
means

key1  key2
a     one     0.042359
b     one    -0.418887
      two     0.612556
Name: data1, dtype: float64

In [11]:
type(means)

pandas.core.series.Series

In [13]:
# Convert Series to DataFrame
means.unstack()

key2,one,two
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
a,0.042359,
b,-0.418887,0.612556


### ทำการ groupby ผ่าน DataFrame

https://pandas.pydata.org/pandas-docs/stable/api.html#id32

In [20]:
data

Unnamed: 0,data1,data2,key1,key2
0,0.453406,-0.112818,a,one
1,0.167646,-0.868377,b,two
2,-0.418887,1.629293,b,one
3,1.057466,-0.001176,b,two
4,-0.368687,0.811231,a,one


In [14]:
data.groupby(['key1', 'key2']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,one,0.042359,0.349206
b,one,-0.418887,1.629293
b,two,0.612556,-0.434777


In [16]:
data.groupby(['key1', 'key2'])['data1'].mean()

key1  key2
a     one     0.042359
b     one    -0.418887
      two     0.612556
Name: data1, dtype: float64

In [17]:
data.groupby(['key1', 'key2'])['data2'].mean()

key1  key2
a     one     0.349206
b     one     1.629293
      two    -0.434777
Name: data2, dtype: float64

In [19]:
data.groupby(['key1', 'key2']).size()

key1  key2
a     one     2
b     one     1
      two     2
dtype: int64

## ดูข้อมูลของแต่ละกลุ่ม

In [24]:
for name, group in data.groupby('key1'):
    print('Group Name : %s' %name)
    print(group)


Group Name : a
      data1     data2 key1 key2
0  0.453406 -0.112818    a  one
4 -0.368687  0.811231    a  one
Group Name : b
      data1     data2 key1 key2
1  0.167646 -0.868377    b  two
2 -0.418887  1.629293    b  one
3  1.057466 -0.001176    b  two


### ในกรณีถ้าการจัดกลุ่มเป็นแบบ multiple key นั้น

การ iterate ข้อมูลจะ return tuple ของ key ออกมา กับข้อมูล ดังนี้

In [26]:
for (key1, key2), group in data.groupby(['key1','key2']):
    print((key1, key2))
    print(group)

('a', 'one')
      data1     data2 key1 key2
0  0.453406 -0.112818    a  one
4 -0.368687  0.811231    a  one
('b', 'one')
      data1     data2 key1 key2
2 -0.418887  1.629293    b  one
('b', 'two')
      data1     data2 key1 key2
1  0.167646 -0.868377    b  two
3  1.057466 -0.001176    b  two


### โดยปกติการ groupby จะทำในแต่ละ row (axis=0)

แต่เราสามารถเปลี่ยนเป็น column ได้ (axis=1)

In [28]:
data

Unnamed: 0,data1,data2,key1,key2
0,0.453406,-0.112818,a,one
1,0.167646,-0.868377,b,two
2,-0.418887,1.629293,b,one
3,1.057466,-0.001176,b,two
4,-0.368687,0.811231,a,one


### ทำการ group ข้อมูลด้วยชนิดของข้อมูล

In [27]:
data.dtypes

data1    float64
data2    float64
key1      object
key2      object
dtype: object

In [30]:
grouped = data.groupby(data.dtypes, axis=1)
grouped

<pandas.core.groupby.DataFrameGroupBy object at 0x107d3d080>

In [31]:
for dtype, group in grouped:
    print(dtype)
    print(group)

float64
      data1     data2
0  0.453406 -0.112818
1  0.167646 -0.868377
2 -0.418887  1.629293
3  1.057466 -0.001176
4 -0.368687  0.811231
object
  key1 key2
0    a  one
1    b  two
2    b  one
3    b  two
4    a  one


## 2. Data Aggregation

ซึ่งมาจาก groupby นั่นเอง มี function ต่าง ๆ มากมาย เช่น count, sum, mean, median, str, var, min, max, prod, first และ last

In [32]:
data

Unnamed: 0,data1,data2,key1,key2
0,0.453406,-0.112818,a,one
1,0.167646,-0.868377,b,two
2,-0.418887,1.629293,b,one
3,1.057466,-0.001176,b,two
4,-0.368687,0.811231,a,one


In [33]:
grouped = data.groupby('key1')
grouped

<pandas.core.groupby.DataFrameGroupBy object at 0x106e90828>

In [41]:
grouped['data1'].quantile(0.9)

key1
a    0.371197
b    0.879502
Name: data1, dtype: float64

In [37]:
def peak_to_peak(arr):
    return arr.max() - arr.min()

grouped.agg(peak_to_peak)

Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
a,0.822094,0.924049
b,1.476353,2.49767


### สามารถใช้ function describe() สำหรับดูข้อมูลเชิงสถิติได้เช่นกัน

In [42]:
grouped.describe()

Unnamed: 0_level_0,data1,data1,data1,data1,data1,data1,data1,data1,data2,data2,data2,data2,data2,data2,data2,data2
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
key1,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
a,2.0,0.042359,0.581308,-0.368687,-0.163164,0.042359,0.247883,0.453406,2.0,0.349206,0.653401,-0.112818,0.118194,0.349206,0.580219,0.811231
b,3.0,0.268742,0.74335,-0.418887,-0.12562,0.167646,0.612556,1.057466,3.0,0.253247,1.268124,-0.868377,-0.434777,-0.001176,0.814058,1.629293


In [43]:
grouped['data1'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
key1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
a,2.0,0.042359,0.581308,-0.368687,-0.163164,0.042359,0.247883,0.453406
b,3.0,0.268742,0.74335,-0.418887,-0.12562,0.167646,0.612556,1.057466


In [44]:
grouped['data2'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
key1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
a,2.0,0.349206,0.653401,-0.112818,0.118194,0.349206,0.580219,0.811231
b,3.0,0.253247,1.268124,-0.868377,-0.434777,-0.001176,0.814058,1.629293
