# **Aggregation & GroupBy**

**Pendahuluan**

Teknik agregasi diperlukan ketika mau melihat dataset dengan view yang berbeda, bisa set data tersebut akan dikelompokkan seperti apa, yang kemudian juga bisa menerapkan beberapa fungsi atau metode statistik ke hasil group dataset itu untuk mengetahui behavior dari data tersebut secara summary/overview.

**Basic Concept of Groupby & Aggregation**


# **SPLIT --> APPLY --> COMBINE**

Groupby memiliki konsep untuk:

- **Split**: melakukan indexing/multi-indexing dengan apa yang di specify as groupby menjadi kelompok
- **Apply**: menerapkan fungsi pada masing-masing kelompok tersebut
- **Combine**: mengumpulkan semua hasil fungsi dari tiap kelompok kembali menjadi dataframe

# **Review Inspeksi Data**

Mari review kembali terkait dengan inspeksi data yang pernah dilakukan pada modul sebelumnya. Akan menggunakan dataset https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/LO4/global_air_quality_4000rows.csv


In [None]:
import pandas as pd

# Load data global_air_quality.csv
global_air_quality = pd.read_csv('https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/LO4/global_air_quality_4000rows.csv')
print('Lima data teratas:\n', global_air_quality.head())

Lima data teratas:
                           location  ... averaged_over_in_hours
0                  MOBILE-KICKAPOO  ...                   1.00
1                  Oxford St Ebbes  ...                   1.00
2                 BROADWAY (South)  ...                   1.00
3  Deen Dayal Nagar, Sagar - MPPCB  ...                   0.25
4                        Manglerud  ...                   1.00

[5 rows x 11 columns]


In [None]:
# Melakukan pengecekan terhadap data
print('Info global_air_quality:\n', global_air_quality.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4000 entries, 0 to 3999
Data columns (total 11 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   location                3997 non-null   object 
 1   city                    3966 non-null   object 
 2   country                 4000 non-null   object 
 3   pollutant               4000 non-null   object 
 4   value                   4000 non-null   float64
 5   timestamp               4000 non-null   object 
 6   unit                    4000 non-null   object 
 7   source_name             4000 non-null   object 
 8   latitude                4000 non-null   float64
 9   longitude               4000 non-null   float64
 10  averaged_over_in_hours  3634 non-null   float64
dtypes: float64(4), object(7)
memory usage: 343.9+ KB
Info global_air_quality:
 None


In [None]:
# Melakukan count tanpa groupby
print('Count tanpa groupby:\n', global_air_quality.count())

Count tanpa groupby:
 location                  3997
city                      3966
country                   4000
pollutant                 4000
value                     4000
timestamp                 4000
unit                      4000
source_name               4000
latitude                  4000
longitude                 4000
averaged_over_in_hours    3634
dtype: int64


In [None]:
# Melakukan count dengan groupby 
gaq_groupby_count = global_air_quality.groupby('source_name').count()
print('Count dengan groupby (5 data teratas):\n', gaq_groupby_count.head())

Count dengan groupby (5 data teratas):
              location  city  ...  longitude  averaged_over_in_hours
source_name                  ...                                   
ARPALAZIO          72    72  ...         72                      72
Agaar.mn           27    27  ...         27                       0
AirNow           1712  1681  ...       1715                    1715
Andalucia          71    71  ...         71                      71
Anqing              4     4  ...          4                       4

[5 rows x 10 columns]


Terdapat perbedaan antara melakukan count dengan groupby dan tanpa groupby,

- Terdapat index apa yang di specify as groupby
- Perhitungan jadi berdasarkan apa yang di specify as groupby
- Overall, lebih mudah untuk membaca data summary yang telah di groupby

### **Groupby dan Aggregasi dengan Fungsi Statistik Dasar**

Pada bagian ini akan menerapkan groupby dan fungsi aggregasi mean dan std untuk menentukan nilai rata-rata dan standar deviasi dari masing-masing kelompok data dari dataset https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/LO4/global_air_quality_4000rows.csv dan diassign sebagai variabel df_gaq.

Akan buat variabel pollutant 

In [None]:
# Load data global_air_quality.csv
gaq = pd.read_csv('https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/LO4/global_air_quality_4000rows.csv')
gaq.head()

Unnamed: 0,location,city,country,pollutant,value,timestamp,unit,source_name,latitude,longitude,averaged_over_in_hours
0,MOBILE-KICKAPOO,LINCOLN,US,pm10,7.0,2017-01-18 16:00:00 UTC,µg/m³,AirNow,35.4884,-97.09028,1.0
1,Oxford St Ebbes,Oxford,GB,no2,30.0,2020-04-07 20:00:00 UTC,µg/m³,DEFRA,51.744804,-1.260278,1.0
2,BROADWAY (South),St. Louis,US,pm25,6.1,2020-04-07 19:00:00 UTC,µg/m³,AirNow,38.5425,-90.26361,1.0
3,"Deen Dayal Nagar, Sagar - MPPCB",Sagar,IN,pm25,23.67,2020-04-07 18:30:00 UTC,µg/m³,caaqm,23.864016,78.802895,0.25
4,Manglerud,Oslo,NO,pm10,27.06,2020-04-07 20:00:00 UTC,µg/m³,Norway,59.89869,10.81495,1.0


In [None]:
# Create variabel pollutant 
pollutant = gaq[['country','city','pollutant','value']].pivot_table(index=['country','city'],columns='pollutant').fillna(0)
print('Data pollutant (5 teratas):\n',pollutant.head())

Data pollutant (5 teratas):
                      value                                     
pollutant               bc      co   no2   o3   pm10  pm25  so2
country city                                                   
AR      Buenos Aires   0.0     0.0   0.0  0.0    0.0  18.1  0.0
AU      Townsville     0.0     0.0   0.0  0.0    0.0   3.9  0.0
BA      Goražde        0.0   141.0  19.0  8.0    0.0   0.0  0.0
        Ilijaš         0.0     0.0   0.0  0.0  100.0   0.0  0.0
        Jajce          0.0  1508.0  25.0  6.0    9.0   0.0  0.0


[1] Group berdasarkan country dan terapkan aggregasi mean, method .mean() setelah penerapan method .groupby() digunakan untuk mencari rata-rata dari tiap kelompok

In [None]:
# [1] Group berdasarkan country dan terapkan aggregasi mean
pollutant_mean = pollutant.groupby('country').mean()
print('Rata-rata pollutant (5 teratas):\n',pollutant_mean.head())

Rata-rata pollutant (5 teratas):
           value                         ...                                 
pollutant    bc          co        no2  ...       pm10       pm25        so2
country                                 ...                                 
AR          0.0    0.000000   0.000000  ...   0.000000  18.100000   0.000000
AU          0.0    0.000000   0.000000  ...   0.000000   3.900000   0.000000
BA          0.0  475.833333  19.500000  ...  40.333333   0.000000  18.000000
CA          0.0    0.036818   0.000355  ...   0.836364   3.433601   0.000091
CL          0.0    0.000000  21.000000  ...   0.000000   0.000000   0.000000

[5 rows x 7 columns]


[2] Group berdasarkan country dan terapkan aggregasi std, method .std() setelah penerapan method .groupby() digunakan untuk mencari standard deviasi (penyimpangan) dari tiap kelompok

In [None]:
# [2] Group berdasarkan country dan terapkan aggregasi std
pollutant_std = pollutant.groupby('country').std()
print('Standar deviasi pollutant (5 teratas):\n',pollutant_std.head())

Standar deviasi pollutant (5 teratas):
         value                                                                 
           bc          co        no2        o3       pm10      pm25        so2
country                                                                       
AR        NaN         NaN        NaN       NaN        NaN       NaN        NaN
AU        NaN         NaN        NaN       NaN        NaN       NaN        NaN
BA        0.0  536.925476  11.945711  8.207720  46.701891  0.000000  30.403947
CA        0.0    0.089841   0.000750  0.019323   1.713052  2.286509   0.000302
CL        NaN         NaN        NaN       NaN        NaN       NaN        NaN


Untuk nilai standard deviasi yang berupa `NaN`, ganti dengan `0` dengan menggunakan `.fillna(0)`

In [None]:
# [2a] Mengganti hasil aggregasi std yang berupa NaN menjadi 0
pollutant_std = pollutant.groupby('country').std().fillna(0)
print('Standar deviasi pollutant (5 teratas):\n',pollutant_std.head())

Standar deviasi pollutant (5 teratas):
         value                                                                 
           bc          co        no2        o3       pm10      pm25        so2
country                                                                       
AR        0.0    0.000000   0.000000  0.000000   0.000000  0.000000   0.000000
AU        0.0    0.000000   0.000000  0.000000   0.000000  0.000000   0.000000
BA        0.0  536.925476  11.945711  8.207720  46.701891  0.000000  30.403947
CA        0.0    0.089841   0.000750  0.019323   1.713052  2.286509   0.000302
CL        0.0    0.000000   0.000000  0.000000   0.000000  0.000000   0.000000


Selanjutnya, kita akan melanjutkan untuk fungsi statistik lainnya yaitu `.sum()` dan`.nunique()` untuk mengaggregasi dataset pollutant setelah di groupby.


[3] Group berdasarkan country dan terapkan aggregasi sum, method `.sum()` setelah penerapan method `.groupby()` digunakan untuk mencari total nilai dari tiap kelompok

 

In [None]:
# [3] Group berdasarkan country dan terapkan aggregasi sum
pollutant_sum = pollutant.groupby('country').sum()
print('Total pollutant (5 teratas):\n', pollutant_sum.head())

Total pollutant (5 teratas):
           value                                                          
pollutant    bc        co       no2         o3   pm10       pm25      so2
country                                                                  
AR          0.0     0.000    0.0000   0.000000    0.0  18.100000    0.000
AU          0.0     0.000    0.0000   0.000000    0.0   3.900000    0.000
BA          0.0  2855.000  117.0000  35.000000  242.0   0.000000  108.000
CA          0.0     0.405    0.0039   0.285593    9.2  37.769608    0.001
CL          0.0     0.000   21.0000   0.000000    0.0   0.000000    0.000


In [None]:
# [4] Group berdasarkan country dan terapkan aggregasi nunique
pollutant_nunique = pollutant.groupby('country').nunique()
print('Jumlah unique value pollutant (5 teratas):\n', pollutant_nunique.head())

Jumlah unique value pollutant (5 teratas):
           value                        
pollutant    bc co no2 o3 pm10 pm25 so2
country                                
AR            1  1   1  1    1    1   1
AU            1  1   1  1    1    1   1
BA            1  6   6  4    5    1   4
CA            1  3   4  9    4   10   2
CL            1  1   1  1    1    1   1


Selanjutnya, kita akan melanjutkan untuk fungsi statistik .min() dan .max() untuk mengaggregasi dataset pollutant setelah di groupby.

[5] Group berdasarkan country dan terapkan aggregasi min, method .min() setelah penerapan method .groupby() digunakan untuk memunculkan nilai terkecil dari tiap kelompok

In [None]:
# [5] Group berdasarkan country dan terapkan aggregasi min
pollutant_min= pollutant.groupby('country').min()
print('Nilai min pollutant (5 teratas):\n', pollutant_min.head())

Nilai min pollutant (5 teratas):
           value                                
pollutant    bc   co   no2   o3 pm10  pm25  so2
country                                        
AR          0.0  0.0   0.0  0.0  0.0  18.1  0.0
AU          0.0  0.0   0.0  0.0  0.0   3.9  0.0
BA          0.0  0.0   0.0  0.0  0.0   0.0  0.0
CA          0.0  0.0   0.0  0.0  0.0   0.0  0.0
CL          0.0  0.0  21.0  0.0  0.0   0.0  0.0


[6] Group berdasarkan country dan terapkan aggregasi max, method .max() setelah penerapan method .groupby() digunakan untuk memunculkan nilai terbesar dari tiap kelompok

In [None]:
# [6] Group berdasarkan country dan terapkan aggregasi max
pollutant_max = pollutant.groupby('country').max()
print('Nilai max pollutant (5 teratas):\n', pollutant_max.head())

Nilai max pollutant (5 teratas):
           value                                                   
pollutant    bc        co      no2         o3   pm10  pm25     so2
country                                                           
AR          0.0     0.000   0.0000   0.000000    0.0  18.1   0.000
AU          0.0     0.000   0.0000   0.000000    0.0   3.9   0.000
BA          0.0  1508.000  32.0000  21.000000  100.0   0.0  78.000
CA          0.0     0.285   0.0024   0.048333    5.2   6.0   0.001
CL          0.0     0.000  21.0000   0.000000    0.0   0.0   0.000


Kemudian, kita akan menggunakan method `.first()` dan `.last()` untuk aggregasi setelah penerapan `.groupby() `yang masing-masingnya bertujuan untuk memunculkan item pertama dan item terakhir dari tiap kelompok.

In [None]:
# [7] Group berdasarkan country dan terapkan aggregasi first
pollutant_first = pollutant.groupby('country').first()
print('Item pertama pollutant (5 teratas):\n', pollutant_first.head())

Item pertama pollutant (5 teratas):
           value                                            
pollutant    bc       co      no2        o3 pm10  pm25  so2
country                                                    
AR          0.0    0.000   0.0000  0.000000  0.0  18.1  0.0
AU          0.0    0.000   0.0000  0.000000  0.0   3.9  0.0
BA          0.0  141.000  19.0000  8.000000  0.0   0.0  0.0
CA          0.0    0.285   0.0024  0.048333  0.0   3.9  0.0
CL          0.0    0.000  21.0000  0.000000  0.0   0.0  0.0


In [None]:
# [8] Group berdasarkan country dan terapkan aggregasi last
pollutant_last = pollutant.groupby('country').last()
print('Item terakhir pollutant (5 teratas):\n', pollutant_last.head())

Item terakhir pollutant (5 teratas):
           value                                      
pollutant    bc     co   no2     o3  pm10  pm25   so2
country                                              
AR          0.0    0.0   0.0  0.000   0.0  18.1   0.0
AU          0.0    0.0   0.0  0.000   0.0   3.9   0.0
BA          0.0  292.0  29.0  0.000  96.0   0.0  78.0
CA          0.0    0.0   0.0  0.036   3.0   0.0   0.0
CL          0.0    0.0  21.0  0.000   0.0   0.0   0.0


### **Groupby dengan Multiple Aggregations**

Kita juga dapat membuat sebuah Python function (user defined) dan dapat menggunakan sebagai custom aggregation pada dataframe yang telah digroupby.

In [None]:
# Group berdasarkan country dan terapkan aggregasi: min, median, mean, max
multiagg = pollutant.groupby('country').agg(['min','median','mean','max'])
print('Multiple aggregations (5 teratas):\n', multiagg.head())

Multiple aggregations (5 teratas):
         value                        ...                                     
           bc                    co  ...  pm25  so2                          
          min median mean  max  min  ...   max  min median       mean     max
country                              ...                                     
AR        0.0    0.0  0.0  0.0  0.0  ...  18.1  0.0    0.0   0.000000   0.000
AU        0.0    0.0  0.0  0.0  0.0  ...   3.9  0.0    0.0   0.000000   0.000
BA        0.0    0.0  0.0  0.0  0.0  ...   0.0  0.0    5.5  18.000000  78.000
CA        0.0    0.0  0.0  0.0  0.0  ...   6.0  0.0    0.0   0.000091   0.001
CL        0.0    0.0  0.0  0.0  0.0  ...   0.0  0.0    0.0   0.000000   0.000

[5 rows x 28 columns]


Groupby dengan Custom Aggregations

In [None]:
# Create sebuah function: iqr
def iqr(series):
	Q1 = series.quantile(0.25)
	Q3 = series.quantile(0.75)
	return Q3-Q1

In [None]:
# Group berdasarkan country dan terapkan aggregasi dari function: iqr
custom_agg = pollutant.groupby('country').agg(iqr)
print('Custom aggregation (5 teratas):\n', custom_agg.head())

Custom aggregation (5 teratas):
         value                                                  
           bc      co       no2        o3  pm10      pm25   so2
country                                                        
AR        0.0    0.00   0.00000  0.000000   0.0  0.000000   0.0
AU        0.0    0.00   0.00000  0.000000   0.0  0.000000   0.0
BA        0.0  297.75  14.25000  7.500000  79.0  0.000000  17.0
CA        0.0    0.00   0.00025  0.035708   0.5  3.876471   0.0
CL        0.0    0.00   0.00000  0.000000   0.0  0.000000   0.0


**Groupby dengan Custom Aggregations by dict**

Penggunaan custom aggregation lainnya pada dataframe yang telah digroupby dapat dilakukan dengan mem-pass-kan sebuah dict yang berisi 'key' dict berupa nama kolom dan 'value' dict adalah fungsi untuk aggregasi. Cara ini dapat digunakan baik untuk user defined function atau untuk fuction yang telah tersedia.

Kita telah memiliki dataset yang akan diaplikasikan teknik custom aggregation dengan menggunakan dict ini yaitu:

In [None]:
# Load data https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/LO4/global_air_quality_4000rows.csv
gaq = pd.read_csv('https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/LO4/global_air_quality_4000rows.csv')

# Create variabel pollutant 
pollutant = gaq[['country','city','pollutant','value']].pivot_table(index=['country','city'],columns='pollutant').fillna(0)
print('Data pollutant (5 teratas):\n', pollutant.head())

Data pollutant (5 teratas):
                      value                                     
pollutant               bc      co   no2   o3   pm10  pm25  so2
country city                                                   
AR      Buenos Aires   0.0     0.0   0.0  0.0    0.0  18.1  0.0
AU      Townsville     0.0     0.0   0.0  0.0    0.0   3.9  0.0
BA      Goražde        0.0   141.0  19.0  8.0    0.0   0.0  0.0
        Ilijaš         0.0     0.0   0.0  0.0  100.0   0.0  0.0
        Jajce          0.0  1508.0  25.0  6.0    9.0   0.0  0.0


Selanjutnya, kita akan apply teknik custom aggregation untuk mencari **median** untuk kolom 'pm10' serta **iqr** untuk kolom `'pm25'` dan `'so2'`. Fungsi `'data_range'` ini merupakan fungsi yang didefinisikan sendiri (user-defined) yang digunakan untuk menentukan jangkauan (range) data.

In [None]:
# Function IQR
def iqr(series):
	return series.quantile(0.75)- series.quantile(0.25)

In [None]:
# Create custom aggregation using dict
custom_agg_dict = pollutant['value'][['pm10','pm25','so2']].groupby('country').agg({
   'pm10':'median',
   'pm25':iqr,
   'so2':iqr
})
print('\nCetak 5 data teratas custom_agg_dict:\n', custom_agg_dict.head())


Cetak 5 data teratas custom_agg_dict:
          pm10      pm25   so2
country                      
AR        0.0  0.000000   0.0
AU        0.0  0.000000   0.0
BA       23.0  0.000000  17.0
CA        0.0  3.876471   0.0
CL        0.0  0.000000   0.0


## **Short Exploration**

Diberikan file 'global_air_quality.csv' jika kode berikut dieksekusi:

In [None]:
# Load data https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/LO4/global_air_quality_4000rows.csv
gaq = pd.read_csv('https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/LO4/global_air_quality_4000rows.csv')

In [None]:
# ekplorasi data
gaq.head()

Unnamed: 0,location,city,country,pollutant,value,timestamp,unit,source_name,latitude,longitude,averaged_over_in_hours
0,MOBILE-KICKAPOO,LINCOLN,US,pm10,7.0,2017-01-18 16:00:00 UTC,µg/m³,AirNow,35.4884,-97.09028,1.0
1,Oxford St Ebbes,Oxford,GB,no2,30.0,2020-04-07 20:00:00 UTC,µg/m³,DEFRA,51.744804,-1.260278,1.0
2,BROADWAY (South),St. Louis,US,pm25,6.1,2020-04-07 19:00:00 UTC,µg/m³,AirNow,38.5425,-90.26361,1.0
3,"Deen Dayal Nagar, Sagar - MPPCB",Sagar,IN,pm25,23.67,2020-04-07 18:30:00 UTC,µg/m³,caaqm,23.864016,78.802895,0.25
4,Manglerud,Oslo,NO,pm10,27.06,2020-04-07 20:00:00 UTC,µg/m³,Norway,59.89869,10.81495,1.0


**Pollutant manakah yang mempunyai rata-rata nilai emisi tertinggi di dunia?**

Asumsi: negara yang termasuk di file tersebut sudah semua negara di dunia.

In [None]:
gaq.dtypes

location                   object
city                       object
country                    object
pollutant                  object
value                     float64
timestamp                  object
unit                       object
source_name                object
latitude                  float64
longitude                 float64
averaged_over_in_hours    float64
dtype: object

In [None]:
gaq['timestamp'] = pd.to_datetime(gaq['timestamp'])

In [None]:
gaq.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4000 entries, 0 to 3999
Data columns (total 11 columns):
 #   Column                  Non-Null Count  Dtype              
---  ------                  --------------  -----              
 0   location                3997 non-null   object             
 1   city                    3966 non-null   object             
 2   country                 4000 non-null   object             
 3   pollutant               4000 non-null   object             
 4   value                   4000 non-null   float64            
 5   timestamp               4000 non-null   datetime64[ns, UTC]
 6   unit                    4000 non-null   object             
 7   source_name             4000 non-null   object             
 8   latitude                4000 non-null   float64            
 9   longitude               4000 non-null   float64            
 10  averaged_over_in_hours  3634 non-null   float64            
dtypes: datetime64[ns, UTC](1), float64(4), obje

In [None]:
gaq = gaq.set_index('timestamp')

In [None]:
gaq.head()

Unnamed: 0_level_0,location,city,country,pollutant,value,unit,source_name,latitude,longitude,averaged_over_in_hours
timestamp,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2017-01-18 16:00:00+00:00,MOBILE-KICKAPOO,LINCOLN,US,pm10,7.0,µg/m³,AirNow,35.4884,-97.09028,1.0
2020-04-07 20:00:00+00:00,Oxford St Ebbes,Oxford,GB,no2,30.0,µg/m³,DEFRA,51.744804,-1.260278,1.0
2020-04-07 19:00:00+00:00,BROADWAY (South),St. Louis,US,pm25,6.1,µg/m³,AirNow,38.5425,-90.26361,1.0
2020-04-07 18:30:00+00:00,"Deen Dayal Nagar, Sagar - MPPCB",Sagar,IN,pm25,23.67,µg/m³,caaqm,23.864016,78.802895,0.25
2020-04-07 20:00:00+00:00,Manglerud,Oslo,NO,pm10,27.06,µg/m³,Norway,59.89869,10.81495,1.0


In [None]:
# Mencari pollutant dengan rata-rata nilai emisi tertinggi didunia
pollutant = gaq.groupby('pollutant')['value'].mean().sort_values(ascending=False)
pollutant.head()

pollutant
pm10    28.423373
pm25    18.796388
bc      13.020309
so2      6.117118
no2     -2.715310
Name: value, dtype: float64

dapat dilihat bahwa **pm10** merupakan  pollutant dengan rata-rata nilai emisi tertinggi di dunia.