# Data Aggregation in Pandas

In [1]:
import pandas as pd
import numpy as np

เริ่มต้นจากสร้าง DataFrame ที่จะใช้เป็นตัวอย่างใน tutorial นี้ขึ้นมา 

โดยเราจะสร้าง Table จำลอง Transaction ของ ID ที่มีค่า 0-499 ทั้งหมด 500 ID

โดยแต่ละ Transaction จะมี Category สองประเภทคือ 

1. main_category: [a,b,c]
2. subcategory: [0 - 9]

จากนั้นสร้างข้อมูลแบบสุ่มนี้ขึ้นมาทั้งหมด 10,000 rows

In [2]:
id_choice = range(500)

cat_1_choice = ['a','b','c']
cat_2_choice = range(10)

df = pd.DataFrame({
    'ID'           :np.random.choice(id_choice,int(1e5)),
    'main_category':np.random.choice(cat_1_choice,int(1e5)),
    'subcategory'  :np.random.choice(cat_2_choice,int(1e5)),
    'value'        :np.random.randn(int(1e5))
})
df.head(10)

Unnamed: 0,ID,main_category,subcategory,value
0,469,a,2,-0.866408
1,91,b,6,1.510478
2,376,a,7,0.683205
3,402,c,5,0.445383
4,73,b,0,-1.356077
5,359,a,3,-1.691061
6,97,c,8,0.167644
7,386,c,8,-0.981429
8,149,c,9,1.178111
9,251,c,7,1.796626


## การใช้ method ต่างๆ ใน pandas เพื่อ aggregate ข้อมูล

### crosstab
การใช้ crosstab จะต้องเรียก method นี้จาก library pandas โดยตรง เนื่องจากไม่ได้อยู่ใน method ของ DataFrame object

วิธีการใช้ คือ
1. กำหนด column ที่จะใช้เป็น index เช่น เราต้องการสรุปข้อมูลต่อ 1 id เราก็ต้องกำหนดให้ id เป็น index
2. กำหนด column ที่จะใช้เป็น column ใน crosstab ซึ่งค่าที่อยู่ในแต่ละ column ที่เราเลือกมานี้ ก็จะกลายมาเป็น group ของข้อมูล ใน crosstab นั่นเอง ซึ่งเราสามารถกำหนด group ที่ประกอบกันขึ้นมาจากหลายๆ column ได้
3. กำหนด value ที่จะนำมา aggregate ตาม index และ column ที่กำหนด ในข้อ 1 และ 2
4. กำหนด aggregate function ในลักษณะ list

### สรุป
จำนวน row ทั้งหมดจะเท่ากับค่าที่ unique ทั้งหมด (n-unique) ของ column ที่ใช้เป็น index
จำนวน column ทั้งหมดจะเท่ากับค่าที่ unique ทั้งหมด (n-unique) ของทุก column ที่ถูกเลือกมาเป็น group ของข้อมูลคูณกัน แล้วคูณกับจำนวน aggregate function ที่เราใส่ลงไป

In [3]:
pd.crosstab(
    index=df['ID'],
    columns=df['main_category'],
    values =df['value'],
    aggfunc=['min','max','median','mean','std']
).head()

Unnamed: 0_level_0,min,min,min,max,max,max,median,median,median,mean,mean,mean,std,std,std
main_category,a,b,c,a,b,c,a,b,c,a,b,c,a,b,c
ID,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2
0,-2.40015,-2.179927,-2.609228,2.135698,1.7872,2.002459,-0.069726,0.188432,0.108104,-0.104373,0.097286,0.003916,1.018591,0.951577,1.100246
1,-2.176749,-1.961265,-2.637867,2.473474,2.418801,2.030404,-0.032084,-0.009224,0.168792,0.117193,0.00958,0.068039,1.080905,0.932773,0.920321
2,-2.228741,-1.788287,-2.506825,3.015792,3.376234,2.167947,0.092533,0.008879,-0.058084,0.100112,0.138447,-0.180826,0.994252,0.99743,1.036165
3,-1.598299,-2.019866,-2.397298,2.543073,2.801873,2.303079,0.104235,0.022796,0.127728,0.235182,-0.048066,0.131544,0.974048,0.971998,1.013142
4,-1.78183,-2.20039,-2.303689,2.042897,3.109149,2.554939,0.089659,-0.22488,0.197942,0.065792,-0.084413,0.099029,0.973901,1.077824,1.055089


## Pivot Table
เราสามารถใช้ pivot table ได้เหมือนกับ crosstab แตกต่างกันแค่สามารถเรียกจาก DataFrame object ได้โดยตรง

In [4]:
df.pivot_table(
    values='value',
    index='ID',
    columns=['main_category'],
    aggfunc=['min','max','median','mean','std']
).head()

Unnamed: 0_level_0,min,min,min,max,max,max,median,median,median,mean,mean,mean,std,std,std
main_category,a,b,c,a,b,c,a,b,c,a,b,c,a,b,c
ID,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2
0,-2.40015,-2.179927,-2.609228,2.135698,1.7872,2.002459,-0.069726,0.188432,0.108104,-0.104373,0.097286,0.003916,1.018591,0.951577,1.100246
1,-2.176749,-1.961265,-2.637867,2.473474,2.418801,2.030404,-0.032084,-0.009224,0.168792,0.117193,0.00958,0.068039,1.080905,0.932773,0.920321
2,-2.228741,-1.788287,-2.506825,3.015792,3.376234,2.167947,0.092533,0.008879,-0.058084,0.100112,0.138447,-0.180826,0.994252,0.99743,1.036165
3,-1.598299,-2.019866,-2.397298,2.543073,2.801873,2.303079,0.104235,0.022796,0.127728,0.235182,-0.048066,0.131544,0.974048,0.971998,1.013142
4,-1.78183,-2.20039,-2.303689,2.042897,3.109149,2.554939,0.089659,-0.22488,0.197942,0.065792,-0.084413,0.099029,0.973901,1.077824,1.055089


## Group by

การใช้ group by จะแตกต่างจาก **crosstab** หรือ **pivot table** ตรงที่ group ของข้อมูล จะอยู่ในแกนเดียวกับ row ของ table (axis=0) แทนที่จะอยู่ในแกนเดียวกับ column ของ table (axis=1) ซึ่งก็แล้วแต่เราว่าต้องการใช้แบบไหน

การใช้ group by สามารถระบุเพียง column ที่จะใช้ group (ก็คือ column สำหรับ index + columns ใน crosstab หรือ pivot table) และ aggregate function ที่จะใช้... ก็จะได้ค่า aggregate สำหรับทุก column ที่เป็นประเภท numeric (ข้อมูลตัวเลข) ซึ่งสามารถหาค่าทางสถิติได้

In [5]:
df.groupby(['ID','main_category','subcategory']).agg(['min','max','median','mean','std']).head(20)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,value,value,value,value,value
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,min,max,median,mean,std
ID,main_category,subcategory,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
0,a,0,-1.901792,0.466108,-0.191567,-0.297657,0.870897
0,a,1,-1.62444,2.135698,-0.280168,-0.219306,1.364606
0,a,2,-1.413301,1.362263,-0.028252,0.038489,0.831808
0,a,3,-1.151731,1.643798,0.628433,0.533184,1.161232
0,a,4,-1.383349,1.699755,0.006598,0.053888,1.0788
0,a,5,-2.040527,0.47442,0.376104,-0.396668,1.424473
0,a,6,-2.40015,0.215394,-0.186059,-0.647177,0.952507
0,a,7,-0.900372,1.155742,-0.392145,-0.112852,0.838458
0,a,8,-2.008104,1.114854,0.354234,-0.046196,1.359909
0,a,9,-0.159147,0.49423,0.083115,0.125328,0.329983


ใน method .agg ที่มักจะใช้กับ DataFrame ที่ถูก group มาแล้ว ถ้าเราใส่ input ไปเป็น list ก็จะได้ ค่า aggregate ของทุก column ที่เป็นข้อมูลประเภท numeric

แต่ถ้าเราใส่ input ไปเป็น dict และใช้ key เป็นชื่อ column ที่เราต้องการ และ value เป็น list ของ aggregation function

เราก็สามารถกำหนด ค่าสถิติที่เราต้องการ สำหรับแต่ละ column ได้แล้ว

In [6]:
df.groupby(['ID','main_category','subcategory']).agg({'value':['min','max','median','mean','std']}).head(20)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,value,value,value,value,value
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,min,max,median,mean,std
ID,main_category,subcategory,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
0,a,0,-1.901792,0.466108,-0.191567,-0.297657,0.870897
0,a,1,-1.62444,2.135698,-0.280168,-0.219306,1.364606
0,a,2,-1.413301,1.362263,-0.028252,0.038489,0.831808
0,a,3,-1.151731,1.643798,0.628433,0.533184,1.161232
0,a,4,-1.383349,1.699755,0.006598,0.053888,1.0788
0,a,5,-2.040527,0.47442,0.376104,-0.396668,1.424473
0,a,6,-2.40015,0.215394,-0.186059,-0.647177,0.952507
0,a,7,-0.900372,1.155742,-0.392145,-0.112852,0.838458
0,a,8,-2.008104,1.114854,0.354234,-0.046196,1.359909
0,a,9,-0.159147,0.49423,0.083115,0.125328,0.329983


## Rename ชื่อ column ให้เหลือชั้นเดียว

In [7]:
df_agg = pd.crosstab(
    index=df['ID'],
    columns=[df['main_category'],df['subcategory']],
    values =df['value'],
    aggfunc=['min','max','median','mean','std']
)
df_agg.head()

Unnamed: 0_level_0,min,min,min,min,min,min,min,min,min,min,...,std,std,std,std,std,std,std,std,std,std
main_category,a,a,a,a,a,a,a,a,a,a,...,c,c,c,c,c,c,c,c,c,c
subcategory,0,1,2,3,4,5,6,7,8,9,...,0,1,2,3,4,5,6,7,8,9
ID,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3,Unnamed: 14_level_3,Unnamed: 15_level_3,Unnamed: 16_level_3,Unnamed: 17_level_3,Unnamed: 18_level_3,Unnamed: 19_level_3,Unnamed: 20_level_3,Unnamed: 21_level_3
0,-1.901792,-1.62444,-1.413301,-1.151731,-1.383349,-2.040527,-2.40015,-0.900372,-2.008104,-0.159147,...,1.282463,1.308777,0.728505,0.65927,1.1999,1.229963,1.03084,1.408792,1.094378,0.995329
1,-1.750096,-1.290903,-2.176749,-0.782792,-0.46927,-0.89416,-1.601484,-0.600356,-0.871609,-0.782354,...,0.993493,0.997205,0.548941,0.623926,0.75475,1.360968,0.854654,,1.007698,0.985986
2,-0.708232,-2.228741,-1.303958,-1.232149,-1.955979,-0.454813,-0.880063,-0.350476,-0.812785,-0.652086,...,1.258833,0.726849,0.662369,1.34552,1.39228,0.894691,0.510448,1.190876,1.000799,1.018783
3,-0.401927,-0.297442,-0.659654,-1.296843,-0.934106,-1.137877,-0.825154,-1.375723,-1.598299,-0.456413,...,0.766194,0.864336,1.378871,0.866394,0.361079,0.835669,1.009647,0.992321,1.064466,0.868662
4,-1.354697,-0.912806,-1.455611,-0.678913,-0.640732,-0.988604,-1.172366,-1.473289,-1.30108,-1.78183,...,1.236466,1.139342,1.069111,1.274566,0.605838,1.33731,0.700282,1.514086,1.241702,0.503192


เช็คดูโครง column ของ DataFrame จาก .columns

In [8]:
df_agg.columns

MultiIndex(levels=[['min', 'max', 'median', 'mean', 'std'], ['a', 'b', 'c'], [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]],
           labels=[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1

จะเห็นว่า .column ของ DataFrame object ที่มี column ซ้อนกันหลายๆ ชั้น return object ออกมาเป็นลักษณะ dictionary 

ให้เราสามารถเข้าไปเอาค่าต่างๆ ในแต่ละชั้นได้ตาม key ที่เห็นใน dict ด้านบน

In [9]:
# ทดสอบ (ใช้ list comprehension *3)
columns = [
    maincat + '_' + str(subcat) + '_' + agg_func for agg_func in df_agg.columns.levels[0]\
    for maincat in df_agg.columns.levels[1]\
    for subcat  in df_agg.columns.levels[2]
]
columns[:20]

['a_0_min',
 'a_1_min',
 'a_2_min',
 'a_3_min',
 'a_4_min',
 'a_5_min',
 'a_6_min',
 'a_7_min',
 'a_8_min',
 'a_9_min',
 'b_0_min',
 'b_1_min',
 'b_2_min',
 'b_3_min',
 'b_4_min',
 'b_5_min',
 'b_6_min',
 'b_7_min',
 'b_8_min',
 'b_9_min']

หน้าตา DataFrame หลัง rename ชื่อ column เรียบร้อย

In [10]:
df_agg.columns = columns
df_agg.head()

Unnamed: 0_level_0,a_0_min,a_1_min,a_2_min,a_3_min,a_4_min,a_5_min,a_6_min,a_7_min,a_8_min,a_9_min,...,c_0_std,c_1_std,c_2_std,c_3_std,c_4_std,c_5_std,c_6_std,c_7_std,c_8_std,c_9_std
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0,-1.901792,-1.62444,-1.413301,-1.151731,-1.383349,-2.040527,-2.40015,-0.900372,-2.008104,-0.159147,...,1.282463,1.308777,0.728505,0.65927,1.1999,1.229963,1.03084,1.408792,1.094378,0.995329
1,-1.750096,-1.290903,-2.176749,-0.782792,-0.46927,-0.89416,-1.601484,-0.600356,-0.871609,-0.782354,...,0.993493,0.997205,0.548941,0.623926,0.75475,1.360968,0.854654,,1.007698,0.985986
2,-0.708232,-2.228741,-1.303958,-1.232149,-1.955979,-0.454813,-0.880063,-0.350476,-0.812785,-0.652086,...,1.258833,0.726849,0.662369,1.34552,1.39228,0.894691,0.510448,1.190876,1.000799,1.018783
3,-0.401927,-0.297442,-0.659654,-1.296843,-0.934106,-1.137877,-0.825154,-1.375723,-1.598299,-0.456413,...,0.766194,0.864336,1.378871,0.866394,0.361079,0.835669,1.009647,0.992321,1.064466,0.868662
4,-1.354697,-0.912806,-1.455611,-0.678913,-0.640732,-0.988604,-1.172366,-1.473289,-1.30108,-1.78183,...,1.236466,1.139342,1.069111,1.274566,0.605838,1.33731,0.700282,1.514086,1.241702,0.503192


## การกำหนด Function เอง
ตัวอย่างการกำหนด function เองสำหรับทำ aggregation โดยใช้ crosstab

In [11]:
def p30(x): return np.percentile(x,30)
def p50(x): return np.percentile(x,50)
def p70(x): return np.percentile(x,70)

pd.crosstab(
    index  =df['ID'],
    columns=[df['main_category'],df['subcategory']],
    values =df['value'],
    aggfunc=[p30,p50,p70]
).head()

Unnamed: 0_level_0,p30,p30,p30,p30,p30,p30,p30,p30,p30,p30,...,p70,p70,p70,p70,p70,p70,p70,p70,p70,p70
main_category,a,a,a,a,a,a,a,a,a,a,...,c,c,c,c,c,c,c,c,c,c
subcategory,0,1,2,3,4,5,6,7,8,9,...,0,1,2,3,4,5,6,7,8,9
ID,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3,Unnamed: 14_level_3,Unnamed: 15_level_3,Unnamed: 16_level_3,Unnamed: 17_level_3,Unnamed: 18_level_3,Unnamed: 19_level_3,Unnamed: 20_level_3,Unnamed: 21_level_3
0,-0.381782,-1.189008,-0.365275,-0.123058,-0.645451,-0.590549,-1.078749,-0.717896,0.007322,-0.148393,...,0.91565,1.218681,0.454771,0.441733,-0.005994,0.457457,0.618314,0.582943,0.448268,0.026199
1,-0.063499,-0.975952,-1.676068,-0.053861,-0.262849,-0.493309,0.528852,0.074518,-0.574122,-0.655066,...,-0.312794,0.122708,-0.084398,0.455055,0.377262,0.720498,0.543002,,0.783063,0.881425
2,0.002148,-1.006558,-1.155631,-0.221033,-0.578877,-0.147219,0.148089,-0.099701,-0.700529,-0.401481,...,0.668607,-0.388005,0.485361,0.360358,0.73581,0.707953,0.148144,0.373582,0.212861,0.146403
3,-0.401927,-0.055399,-0.495834,-1.020189,0.0039,-0.383934,-0.356528,-0.132414,-0.76254,0.202051,...,0.458615,-0.79136,0.904684,0.101994,0.075733,0.964647,-0.396459,0.827555,0.243084,0.888325
4,-0.522882,-0.052682,-0.49231,-0.177898,-0.116669,0.056377,0.228552,-0.278772,-0.499718,-1.222297,...,0.651991,0.605917,0.681205,1.112582,0.699733,0.145372,0.527827,0.942017,0.695823,0.584605


ตัวอย่างการกำหนด function เองโดยใช้ group by จะเห็นว่าถ้าเราเขียน lambda function 

เราสามารถตั้งชื่อให้กับ aggregation function นั้นโดยใช้ dictionary ได้ 

(key คือ ชื่อ, value คือ lambda function และจึงเอา dict ดังกล่าว ซ้อนเข้าไปใน dict ของ numeric column ที่เราเลือกอีกที)

In [12]:
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)

In [13]:
df.groupby(['ID']).agg({
    'main_category':{'n_unique':lambda x:len(x.unique()),'n_total':len},
    'subcategory'  :{'n_unique':lambda x:len(x.unique()),'n_total':len},
    'value':{
        'p30':lambda x:np.percentile(x,30),
        'p50':lambda x:np.percentile(x,50),
        'p70':lambda x:np.percentile(x,70)
    }
}).head(10)

Unnamed: 0_level_0,main_category,main_category,subcategory,subcategory,value,value,value
Unnamed: 0_level_1,n_unique,n_total,n_unique,n_total,p30,p50,p70
ID,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
0,3,195,10,195,-0.438126,0.024674,0.482372
1,3,200,10,200,-0.417484,0.031494,0.535009
2,3,199,10,199,-0.486731,0.026039,0.467929
3,3,200,10,200,-0.398205,0.087341,0.537518
4,3,187,10,187,-0.551912,-0.002152,0.488975
5,3,205,10,205,-0.542155,-0.024478,0.574304
6,3,202,10,202,-0.452254,0.051418,0.555277
7,3,209,10,209,-0.494434,-0.048136,0.504141
8,3,210,10,210,-0.556813,0.079823,0.527704
9,3,232,10,232,-0.682974,-0.210243,0.335992
