**Inclass material for Week 2: Exploratory Data Analysis**

This notebook was made based on main materials `2_Exploratory_Data_Analysis.ipynb`

Version: Qoppa - December 2021

___

# Exploratory Data Analysis (EDA)

## Training Objectives

The coursebook focuses on:
- Why and What: Exploratory Data Analysis
- Date Time objects
- Categorical data types
- Cross Tabulation and Pivot Table
- Treating Duplicates and Missing Values 

## Apa itu EDA?

Exploratory Data Analysis (EDA) adalah suatu proses untuk melakukan eksplorasi lebih jauh terhadap data, seperti:

- melihat struktur data, 
- melihat sebaran data,
- menyesuaikan bentuk tipe data untuk analisis lebih lanjut.

Ini juga dapat membantu menentukan apakah teknik statistik yang Anda pertimbangkan untuk analisis data sudah sesuai. Awalnya dikembangkan oleh matematikawan Amerika John Tukey pada 1970-an, teknik EDA terus menjadi metode yang banyak digunakan dalam proses penemuan data saat ini.

## Mengapa EDA penting?

Tujuan utama EDA adalah untuk membantu melihat data sebelum membuat asumsi apa pun.

- Ini dapat membantu mengidentifikasi kesalahan yang jelas,
- serta lebih memahami pola dalam data,
- mendeteksi outlier atau kejadian anomali,
- menemukan hubungan yang menarik antara variabel.

Ilmuwan data dan Analis Data dapat menggunakan analisis eksplorasi untuk:

- memastikan hasil valid dan berlaku untuk tujuan bisnis yang diinginkan,
- membantu pemangku kepentingan mengambil keputusan yang tepat,
- pengetahuan dari EDA dapat digunakan untuk analisis lanjut, misalnya pemodelan machine learning.

## Tools EDA

Pada course sebelumnya, kami memiliki beberapa teknik umum:

- `.head()` dan `.tail()` --> inspeksi data
- `.describe()` --> mendeskripsikan data secara statistik
- `.shape` dan `.size` --> dimensi data
- `.axes` --> label index kolom dan baris
- `.dtypes` --> cek tipe data

Dalam course ini, kita akan memperluas pemahaman EDA dengan teknik berikut:

- Tables
- Cross-table and aggregates
- Pivot Tables

## Problem Statement

🔻 Anda merupakan seorang analis data yang bekerja di sebuah perusahaan retail. Anda diminta untuk melakukan eksplorasi terhadap data transaksi hingga mendapatkan insight-insight bisnis yang dapat Anda ceritakan kepada rekan atau atasan Anda.

___

# Data Preparation

## Load Data

🔻 Data transaksi terletak di dalam folder `data_input` dengan nama **`household.csv`**. Dengan bantuan library `pandas` bacalah data tersebut.

In [317]:
import pandas as pd

# mengatur tampilan float pada dataframe
# , -> pemisah ribuan
# .2f -> dua angka di belakang koma
pd.options.display.float_format = '{:,.2f}'.format

In [318]:
# code here
household = pd.read_csv('../material_2_eda-main/data_input/household.csv')

In [319]:
household.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
0,9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
1,9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
2,9470290,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07
3,9643416,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07
4,9692093,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.0,0,1,2018-07


## Data Description

Dataset ini merupakan data transaksi pembelian barang kebutuhan rumah tangga. Informasi kolom:

- `receipt_id`: Unique buyer ID
- `receipts_item_id` : Unique transaction ID
- `purchase_time` : Waktu melakukan pembelian
- `category` : Kategori item
- `sub_category` : Sub-kategori item
- `format` : Jenis pasar tempat membeli barang (supermarket', 'minimarket', 'hypermarket')
- `unit_price` : Harga per unit
- `diskon` : Diskon
- `quantity` : Jumlah barang yang dibeli
- `yearmonth` : Informasi tahun dan bulan

🔻 Lakukan investigasi awal untuk melihat struktur data terhadap object DataFrame dengan menggunakan method `.info()`

In [320]:
household.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72000 entries, 0 to 71999
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   receipt_id        72000 non-null  int64  
 1   receipts_item_id  72000 non-null  int64  
 2   purchase_time     72000 non-null  object 
 3   category          72000 non-null  object 
 4   sub_category      72000 non-null  object 
 5   format            72000 non-null  object 
 6   unit_price        72000 non-null  float64
 7   discount          72000 non-null  int64  
 8   quantity          72000 non-null  int64  
 9   yearmonth         72000 non-null  object 
dtypes: float64(1), int64(4), object(5)
memory usage: 5.5+ MB


💡 Dengan menggunakan method `.info()`, kita dapat memeriksa **informasi** lengkap dari DataFrame kita:

- Dimensi data: jumlah baris dan kolom (`.shape`)
- Nama kolom dan jumlah nilai bukan nol (`.columns`)
- Tipe data setiap kolom (`.dtypes`)
- Penggunaan memori

# Data Pre-processing and Feature Engineering

## Working with Datetime

🔻 Tahap selanjutnya anda perlu menyesuaikan tipe data untuk dapat melakukan proses analisis lanjutan

Beberapa column yang perlu diganti:

- `purchase_time` tipenya `datetime64`
- `category` tipenya `category`
- `sub_category` tipenya `category`
- `format` tipenya `category`
- `yearmonth` tipenya `category`

In [321]:
# code here
# household["purchase_time"] = household["purchase_time"].astype("datetime64")
household[["category", "sub_category", "format", "yearmonth"]] = household[["category", "sub_category", "format", "yearmonth"]].astype("category")

**❓ Kolom manakah yang seharusnya memiliki format tipe data date time?**

> Jawaban: `purchase_time`

In [322]:
household.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72000 entries, 0 to 71999
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype   
---  ------            --------------  -----   
 0   receipt_id        72000 non-null  int64   
 1   receipts_item_id  72000 non-null  int64   
 2   purchase_time     72000 non-null  object  
 3   category          72000 non-null  category
 4   sub_category      72000 non-null  category
 5   format            72000 non-null  category
 6   unit_price        72000 non-null  float64 
 7   discount          72000 non-null  int64   
 8   quantity          72000 non-null  int64   
 9   yearmonth         72000 non-null  category
dtypes: category(4), float64(1), int64(4), object(1)
memory usage: 3.6+ MB


### Convert to Datetime

Ada tiga cara untuk mengubah sebuah kolom menjadi tipe data `datetime64`:

- Method **`.astype()`**
- Parameter **`parse_dates`** dalam `pd.read_csv()`
- Method **`pd.to_datetime()`**

#### 1️⃣ Method `.astype()`

🔻 Mari kita buat salinan `household` agar data aslinya tetap tidak berubah.

In [323]:
df_1 = household.copy()

Ubah menggunakan `.astype()`

In [324]:
# code here
df_1["purchase_time"] = df_1["purchase_time"].astype("datetime64")

⚠️**Warning**: Jangan lupa untuk melakukan assignment hasilnya ke kolom aslinya.

#### 2️⃣ Parameter `parse_dates`

Digunakan ketika ***read*** data, dengan asumsi kita sudah tahu kolom mana yang seharusnya `datetime64`.

In [325]:
df_2 = pd.read_csv('../material_2_eda-main/data_input/household.csv', parse_dates=["purchase_time"])

In [326]:
df_2.dtypes

receipt_id                   int64
receipts_item_id             int64
purchase_time       datetime64[ns]
category                    object
sub_category                object
format                      object
unit_price                 float64
discount                     int64
quantity                     int64
yearmonth                   object
dtype: object

#### 3️⃣ Method `pd.to_datetime()`

In [327]:
df_3 = household.copy()
df_3.dtypes

receipt_id             int64
receipts_item_id       int64
purchase_time         object
category            category
sub_category        category
format              category
unit_price           float64
discount               int64
quantity               int64
yearmonth           category
dtype: object

Ubah menggunakan method `pd.to_datetime()`

In [328]:
df_3["purchase_time"] = pd.to_datetime(df_3["purchase_time"])

In [329]:
df_3.dtypes

receipt_id                   int64
receipts_item_id             int64
purchase_time       datetime64[ns]
category                  category
sub_category              category
format                    category
unit_price                 float64
discount                     int64
quantity                     int64
yearmonth                 category
dtype: object

💬 **Diskusi**: Jadi, apa yang membedakan `.astype()` dengan `pd.to_datetime()`?

Pada `pd.to_datetime()` terdapat lebih banyak **parameter** yang dapat digunakan dalam mengatur pengkonversian sebuah kolom menjadi datetime. Dengan demikian, `pd.to_datetime()` lebih memberikan **fleksibilitas** daripada `.astype()`.

Misalkan kita memiliki kolom yang menyimpan data penjualan harian dari **akhir Januari hingga awal Februari**

In [330]:
sales_date = pd.Series(['30-Jan-2021', '31/01/2021', '01-02-2021', '02-02-21'])
sales_date

0    30-Jan-2021
1     31/01/2021
2     01-02-2021
3       02-02-21
dtype: object

Contoh di atas menunjukkan bagaimana orang Indonesia biasanya menulis tanggal, menggunakan format **tanggal-bulan-tahun**. Mari kita lihat apa yang akan terjadi ketika kita mengonversi tipe data `sales_date` menjadi `datetime64`:

In [331]:
# code here
sales_date.astype("datetime64")

0   2021-01-30
1   2021-01-31
2   2021-01-02
3   2021-02-02
dtype: datetime64[ns]

⚠️ **Warning**: Untuk tanggal dengan beberapa representasi, `pandas` secara default akan menyimpulkannya **bulan** sebagai urutan pertama.

#### Parameter `dayfirst`

Solusi: Menggunakan parameter `dayfirst=True` untuk memberitahu bahwa `sales_date` diawali dengan hari, bukan bulan.

In [332]:
sales_date = pd.to_datetime(sales_date, dayfirst=True)

**📝 Optional**

Cara mengubah representasi kolom `datetime64` dari yyyy-mm-dd menjadi format lain

> Sebuah kolom `datetime64` memiliki method `.dt.strftime()` (string format time) untuk mengubah `datetime64` menjadi string. 
[Dokumentasi format strftime](https://strftime.org/).

In [333]:
sales_date.dt.strftime('%d %B %Y')

0     30 January 2021
1     31 January 2021
2    01 February 2021
3    02 February 2021
dtype: object

**✏️ Quick Summary:**

Kapan waktu yang tepat untuk menggunakan 3 cara tersebut?

- `.astype('datetime64')`: ketika tidak ada lagi parameter yang ingin digunakan, atau data dengan format tanggalnya berupa bulan-tanggal-tahun
- `pd.to_datetime()`: ketika ada parameter yang ingin kita tambahkan, atau yang format tanggalnya adalah **selain** bulan-tanggal-tahun
- `parse_dates=['kolom']`: merupakan parameter `pd.read_csv()`, digunakan ketika kita sudah kenal atau terbiasa dengan data kita dan tahu kolom mana yang ingin diubah menjadi `datetime64`

___

### Object Datetime Partition

Ketika sebuah kolom sudah menjadi `datetime64`, kita dapat melakukan partisi untuk menggali informasi yang lebih spesifik seperti tahun, bulan, hari, dan jam.

**Date component (numeric)**
- `.dt.year` -> partisi tahun
- `.dt.month` -> partisi bulan (angka)
- `.dt.day` -> partisi day/tanggal (dalam angka)
- `.dt.dayofweek`

**Date component (string)**
- `.dt.month_name()`-> partisi bulan (nama)
- `.dt.day_name()`-> partisi hari (nama)

**Time component**
- `.dt.hour` -> partisi jam
- `.dt.minute` -> partisi menit
- `.dt.second` -> partisi detik

[Dokumentasi: datetime properties](https://pandas.pydata.org/pandas-docs/stable/reference/series.html#datetimelike-properties)

**🔻 Namun pertama-tama mari kita ubah kolom `purchase_time` menjadi `datetime64`**

In [334]:
# code here
household["purchase_time"] = pd.to_datetime(household["purchase_time"])

In [335]:
household.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07
3,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07
4,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07


**📆 Attribute pada `.dt`**

Untuk mengekstrak komponen datetime dalam nilai numerik, kita dapat menggunakan **atribut**

In [336]:
# contoh: ekstrak tahun dari purchase_time
household["purchase_time"].dt.year

0        2018
1        2018
2        2018
3        2018
4        2018
         ... 
71995    2017
71996    2017
71997    2017
71998    2017
71999    2017
Name: purchase_time, Length: 72000, dtype: int64

In [337]:
# contoh: ekstrak jam dari purchase_time
household['purchase_time'].dt.hour

0        21
1        16
2        12
3         8
4        11
         ..
71995     9
71996    19
71997     8
71998    12
71999    18
Name: purchase_time, Length: 72000, dtype: int64

**Partisi `dt.dayofweek`**

Ekstrak index hari dalam seminggu ( nilainya 0-6 )

- 0 menunjukkan hari Senin
- 6 menunjukkan hari Minggu

In [338]:
household['purchase_time'].dt.dayofweek

0        6
1        6
2        6
3        1
4        3
        ..
71995    2
71996    2
71997    2
71998    3
71999    1
Name: purchase_time, Length: 72000, dtype: int64

**📆 Method pada `.dt`**

Untuk mengekstrak nama (teks) dari komponen datetime, kita dapat menggunakan **method** (dengan tanda kurung)

In [339]:
household['purchase_time'].dt.day_name()

0           Sunday
1           Sunday
2           Sunday
3          Tuesday
4         Thursday
           ...    
71995    Wednesday
71996    Wednesday
71997    Wednesday
71998     Thursday
71999      Tuesday
Name: purchase_time, Length: 72000, dtype: object

In [340]:
household['purchase_time'].dt.month_name()

0            July
1            July
2            July
3            July
4            July
           ...   
71995    December
71996    December
71997    December
71998    December
71999    December
Name: purchase_time, Length: 72000, dtype: object

___

### Object Datetime Transformation

Selain digunakan untuk melakukan partisi, kita juga dapat melakukan transformasi object `datetime64` ke dalam format periode menggunakan syntax `to_period()`.

- `.dt.to_period('D')` -> mengubah ke format **D**aily (tanggal lengkap)
- `.dt.to_period('W')` -> mengubah ke format **W**eekly (awal dan akhir minggu)
- `.dt.to_period('M')` -> mengubah ke format **M**onthly (year-month)
- `.dt.to_period('Q')` -> mengubah ke format **Q**uarterly (year-quarter)

In [341]:
household["purchase_time"].dt.to_period("D")

0        2018-07-22
1        2018-07-15
2        2018-07-15
3        2018-07-24
4        2018-07-26
            ...    
71995    2017-12-27
71996    2017-12-13
71997    2017-12-27
71998    2017-12-07
71999    2017-12-19
Name: purchase_time, Length: 72000, dtype: period[D]

In [342]:
household["purchase_time"].dt.to_period("W")

0        2018-07-16/2018-07-22
1        2018-07-09/2018-07-15
2        2018-07-09/2018-07-15
3        2018-07-23/2018-07-29
4        2018-07-23/2018-07-29
                 ...          
71995    2017-12-25/2017-12-31
71996    2017-12-11/2017-12-17
71997    2017-12-25/2017-12-31
71998    2017-12-04/2017-12-10
71999    2017-12-18/2017-12-24
Name: purchase_time, Length: 72000, dtype: period[W-SUN]

In [343]:
household["purchase_time"].dt.to_period("M")

0        2018-07
1        2018-07
2        2018-07
3        2018-07
4        2018-07
          ...   
71995    2017-12
71996    2017-12
71997    2017-12
71998    2017-12
71999    2017-12
Name: purchase_time, Length: 72000, dtype: period[M]

___

### Dive Deeper: Feature Engineering & Datetime data types
_Est. Time required: 10 minutes_

1. Pada cell di bawah ini, import kembali data `household.csv` dan simpan ke dalam variable bernama `household_new`
2. Ubah `purchase_time` ke tipe data `datetime64`
3. Dapatkan nama hari menggunakan perintah `x.dt.day_name()` dengan asumsi `x` adalah nama kolom datetime yang akan dipartisi. Simpan hasil partisi nama hari ke dalam kolom baru dengan nama `dayofweek`
4. Cobalah recreate kolom `yearmonth` dengan menggunakan metode `.dt.` dari kolom `purchase_time`
5. Tampilkan 5 data teratas untuk memastikan bahwa langkah yang dilakukan sudah tepat 

In [344]:
# code here
household_new = pd.read_csv('../material_2_eda-main/data_input/household.csv', parse_dates=["purchase_time"])

In [345]:
household_new.dtypes

receipt_id                   int64
receipts_item_id             int64
purchase_time       datetime64[ns]
category                    object
sub_category                object
format                      object
unit_price                 float64
discount                     int64
quantity                     int64
yearmonth                   object
dtype: object

In [346]:
household_new["dayofweek"] =  household_new["purchase_time"].dt.day_name()

In [347]:
household_new.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,dayofweek
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07,Sunday
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07,Sunday
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07,Sunday
3,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07,Tuesday
4,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07,Thursday


In [348]:
household_new['yearmonth'] = household_new["purchase_time"].dt.to_period("M")
household_new.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,dayofweek
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07,Sunday
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07,Sunday
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07,Sunday
3,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07,Tuesday
4,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07,Thursday


**(Optional) Extra Challenge**

Misalkan perkiraan waktu pengiriman akan membutuhkan waktu 2 hari setelah produk dibeli (`purchase_time`). Buatlah kolom baru dengan nama `est_shipdate` yang menyimpan perkiraan waktu pengiriman setiap transaksi!

**(Petunjuk: Menggunakan `pd.Timedelta()`)**

In [349]:
# code here
household_new["est_shipdate"] = household_new["purchase_time"] + pd.Timedelta(days=2)
household_new.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,dayofweek,est_shipdate
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07,Sunday,2018-07-24 21:19:00
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07,Sunday,2018-07-17 16:17:00
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07,Sunday,2018-07-17 12:12:00
3,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07,Tuesday,2018-07-26 08:27:00
4,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07,Thursday,2018-07-28 11:28:00


`pandas` memiliki sebuah method bermana `Timedelta` yang dapat digunakan untuk menghitung selisih hari, jam, bahkan detik.

[Dokumentasi: Timedelta](https://pandas.pydata.org/docs/reference/api/pandas.Timedelta.html)

___

## Working with Categories

🔻 Cek kembali tipe data yang belum sesuai:

In [350]:
household_cat = household_new.copy()
household_cat.dtypes

receipt_id                   int64
receipts_item_id             int64
purchase_time       datetime64[ns]
category                    object
sub_category                object
format                      object
unit_price                 float64
discount                     int64
quantity                     int64
yearmonth                period[M]
dayofweek                   object
est_shipdate        datetime64[ns]
dtype: object

Karakteristik tipe data `category` :

- Dapat dikelompokkan menjadi beberapa kelompok (category)
- Berulang

💡 **Tips**: Kita bisa menggunakan method berikut untuk mengidentifikasi kolom mana yang cocok untuk disimpan ke tipe data `category`

- `.unique()` melihat nilai yang unik dari sebuah kolom
- `.nunique()` melihat banyaknya nilai yang unik dari sebuah kolom atau dataframe

🔻 Mari kita cek kembali tipe data pada object `household`. Manakah yang seharusnya memiliki tipe data category?

In [351]:
household_cat.nunique()

receipt_id          69776
receipts_item_id    72000
purchase_time       62072
category                3
sub_category            3
format                  3
unit_price           3884
discount             1329
quantity               19
yearmonth              12
dayofweek               7
est_shipdate        62072
dtype: int64

Ketika kita belum mengetahui kolom mana saja yang dapat diubah ke dalam tipe data category, kita dapat melakukan pengecekan terlebih dahulu menggunakan method **`.nunique()`**. Kolom yang memiliki banyaknya nilai unik yang sedikit dapat digolongkan sebagai tipe data category.

In [352]:
household_cat["category"].unique()

array(['Rice', 'Fabric Care', 'Sugar/Flavored Syrup'], dtype=object)

**❓Kolom manakah yang seharusnya memiliki format tipe `'category'`?**

> Jawaban: `category`, `sub_category`, `format`, `dayofweek`, `yearmonth`

In [353]:
# code here
household_cat[["category", "sub_category", "format", "dayofweek", "yearmonth"]] = \
household_cat[["category", "sub_category", "format", "dayofweek", "yearmonth"]].astype('category')

household_cat.dtypes

receipt_id                   int64
receipts_item_id             int64
purchase_time       datetime64[ns]
category                  category
sub_category              category
format                    category
unit_price                 float64
discount                     int64
quantity                     int64
yearmonth                 category
dayofweek                 category
est_shipdate        datetime64[ns]
dtype: object

Quick Summary EDA: 
1. karateristik tipe data 'category': - dapat dikelompokkan menjadi beberapa kelompok - nilainya berulang 
2. fungsi .unique() melihat nilai yang unik dari sebuah kolom 

3. fungsi .nunique() (baca: n unik) melihat banyaknya nilai yang unik dari sebuah kolom atau dataframe 

4. kedua fungsi tersebut dapat digunakan untuk memutuskan apakah suatu variabel layak diubah tipenya menjadi 'category'. 

**Advantages**

Ada 2 keuntungan mengubah tipe data menjadi `category`:

- 1️⃣ Pertama: Memory Efficient

Kita dapat membandingkan dua Data Frame **sebelum dan sesudah** kolom dikonversi ke tipe data `category`:

- `household_new` (before): 6.6 MB
- `household_cat` (after): 4.2 MB

Berguna ketika nanti kita akan mengolah Big Data.

In [354]:
# check penggunaan memory SEBELUM konversi menjadi category
household_new.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72000 entries, 0 to 71999
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   receipt_id        72000 non-null  int64         
 1   receipts_item_id  72000 non-null  int64         
 2   purchase_time     72000 non-null  datetime64[ns]
 3   category          72000 non-null  object        
 4   sub_category      72000 non-null  object        
 5   format            72000 non-null  object        
 6   unit_price        72000 non-null  float64       
 7   discount          72000 non-null  int64         
 8   quantity          72000 non-null  int64         
 9   yearmonth         72000 non-null  period[M]     
 10  dayofweek         72000 non-null  object        
 11  est_shipdate      72000 non-null  datetime64[ns]
dtypes: datetime64[ns](2), float64(1), int64(4), object(4), period[M](1)
memory usage: 6.6+ MB


In [355]:
# check penggunaan memory SESUDAH konversi menjadi category
household_cat.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72000 entries, 0 to 71999
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   receipt_id        72000 non-null  int64         
 1   receipts_item_id  72000 non-null  int64         
 2   purchase_time     72000 non-null  datetime64[ns]
 3   category          72000 non-null  category      
 4   sub_category      72000 non-null  category      
 5   format            72000 non-null  category      
 6   unit_price        72000 non-null  float64       
 7   discount          72000 non-null  int64         
 8   quantity          72000 non-null  int64         
 9   yearmonth         72000 non-null  category      
 10  dayofweek         72000 non-null  category      
 11  est_shipdate      72000 non-null  datetime64[ns]
dtypes: category(5), datetime64[ns](2), float64(1), int64(4)
memory usage: 4.2 MB


**2️⃣ Kedua: Accessor Category `.cat`**

Sama seperti tipe data `datetime64` yang memiliki pengakses `.dt`, tipe data `category` memiliki pengakses `.cat`. Berikut adalah contoh penggunaan accessor `.cat`:

Mengetahui kategori dari sebuah kolom category:

In [356]:
household_cat['dayofweek'].cat.categories

Index(['Friday', 'Monday', 'Saturday', 'Sunday', 'Thursday', 'Tuesday',
       'Wednesday'],
      dtype='object')

Mengurutkan kategori dari sebuah kolom category yang bersifat **ordinal**:

In [357]:
ordered_dayofweek = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
household_cat['dayofweek'] = household_cat['dayofweek'].cat.reorder_categories(ordered_dayofweek)
household_cat['dayofweek'].cat.categories

Index(['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday',
       'Sunday'],
      dtype='object')

✏️ **Note** 

Anda dapat menjelajahi lebih banyak fungsionalitas dengan merujuk ke [dokumentasi accessor .cat](https://pandas.pydata.org/pandas-docs/stable/reference/series.html#categorical-accessor) untuk daftar lengkapnya.

# 📝 Summary Day 1: Knowledge Check

1. Berikut yang **bukan** merupakan tujuan dari Exploratory Data Analisis (EDA) adalah:

    - [ ] A. Mengetahui pola pada data
    - [ ] B. Mencari anomali pada data
    - [ ] C. Mencari jawaban dari pertanyaan bisnis yang kita miliki
    - [ ] D. Menganalisis hingga mendapatkan suatu insight
    - [X] E. Semua benar
    
    
2. Berikut yang **bukan** merupakan tools untuk melakukan investigasi struktur pada data kita adalah:

    - [ ] A. `df.head()`
    - [ ] B. `df.info()`
    - [X] C. `df.astype()`
    - [ ] D. `df.dtypes`
    - [ ] E. `df.columns`
    

3. Kita telah mempelajari `.astype()`, `parse_dates`, dan `pd.to_datetime()`. Manakah pernyataan berikut yang **salah** terkait dari ketiganya:

    - [ ] A. `pd.to_datetime` digunakan ketika format date kita berawalan dengan tanggal, menggunakan parameter `dayfirst=True`
    - [X] B. `.astype()` digunakan ketika format tanggal kita hanya bulan dan tanggal tanpa tanggal
    - [ ] C. Parameter `parse_dates` dapat digunakan ketika kita sudah terbiasa dengan data yang kita olah
    - [ ] D. Ketiganya dapat digunakan untuk mengubah tipe data sebuah kolom menjadi `datetime64`
    
    
4. Berikut adalah alasan kita menyesuaikan tipe data pada sebuah kolom, yaitu agar ...

    - [ ] A. Antar kolom bisa dilakukan operasi matematis (misal penjumlahan, pengurangan, dsb)
    - [ ] B. Komponen tertentu dapat diambil ataupun diekstrak untuk analisis lebih lanjut
    - [ ] C. Bisa menghemat penggunaan memory
    - [ ] D. Tiap tipe data memiliki fungsionalitas pada accessor nya masing-masing
    - [X] E. Semuanya benar

___

# Analisis Data

## Contingency Tables / Frequency Tables

Tabel kontingensi digunakan untuk menghitung nilai frekuensi/kemunculan data.

### Method `.value_counts()`

**Kegunaan**: Menghitung jumlah baris pada setiap category dalam 1 kolom, dan defaultnya diurutkan secara descending

Parameter:

- `sort=False`: mencegah nilai pengurutan apa pun, **urutkan berdasarkan indeks** sebagai gantinya
- `ascending=True`: **urutkan nilai** dalam urutan menaik

In [358]:
household = household_cat.copy()
household.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,dayofweek,est_shipdate
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07,Sunday,2018-07-24 21:19:00
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07,Sunday,2018-07-17 16:17:00
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07,Sunday,2018-07-17 12:12:00
3,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07,Tuesday,2018-07-26 08:27:00
4,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07,Thursday,2018-07-28 11:28:00


❓ Jenis market mana yang paling banyak melakukan transaksi berdasarkan data `household`?

In [359]:
household['format'].value_counts()

minimarket     46803
supermarket    19826
hypermarket     5371
Name: format, dtype: int64

> **📈 Insight:** Transaksi paling banyak terjadi di minimarket, sedangkan paling sedikit di hypermarket.

❓ Sekarang kita ingin tahu hari apa yang banyak dilakukan transaksi

In [360]:
# code here
household['dayofweek'].value_counts()

Sunday       12573
Saturday     11828
Friday       10778
Tuesday       9427
Wednesday     9206
Thursday      9138
Monday        9050
Name: dayofweek, dtype: int64

> 📈 **Insight yang dapat diambil:** Transaksi semakin mendekati akhir pekan semakin banyak.

In [361]:
# menggunakan sort=False
household['dayofweek'].value_counts(sort=False)

Monday        9050
Tuesday       9427
Wednesday     9206
Thursday      9138
Friday       10778
Saturday     11828
Sunday       12573
Name: dayofweek, dtype: int64

Quick Summary - 
Frequency table .value_counts() -> digunakan untuk melihat frekuensi kemunculan data pada suatu kolom tertentu. Cocok untuk digunakan pada tabel yang memiliki sedikit unique value (bersifat kategorik) -> secara default (tanpa parameter) tampilan akan urut sesuai dengan nilai paling besar ke paling kecil. -> untuk mengatur urutan dapat menggunakan parameter `ascending=True` jika ingin mengurutkan dari yang terkecil -> parameter `sort=False` dapat digunakan jika kita tidak ingin mengurutkan data bedasarkan value 

### Cross Tabulation

Selain menggunakan method `value_counts()`, kita juga dapat menggunakan fungsi `crosstab` yang telah disediakan oleh `pandas` untuk menghitung frekuensi pada data. Syntax:

```
pd.crosstab(index=...,
            columns=...)
```

**Parameter wajib:**
- `index`: kolom yang akan dijadikan pengelompokkan pada baris (axis 0)
- `columns`: kolom yang akan dijadikan pengelompokkan pada kolom (axis 1)

🔻 Dengan permasalahan yang sama, mari kita lihat banyaknya transaksi di setiap `format` market menggunakan fungsi **`crosstab`**

In [362]:
pd.crosstab(
    index=household['format'],
    columns='Total Transaksi'
)

col_0,Total Transaksi
format,Unnamed: 1_level_1
hypermarket,5371
minimarket,46803
supermarket,19826


❓Coba tampilkan di format market mana dan berapa frekuensi transaksi terkecil yang terjadi

Method `sort_values()` untuk mengurutkan data frame berdasarkan kolom tertentu.

Parameter:

- `by`: diisi dengan nama kolom
- `ascending`: default = `True` diurutkan berdasarkan nilai terkecil ke terbesar

In [363]:
# code here
pd.crosstab(
    index=household['format'],
    columns='Total Transaksi'
).sort_values(by='Total Transaksi')

col_0,Total Transaksi
format,Unnamed: 1_level_1
hypermarket,5371
supermarket,19826
minimarket,46803


❓Tinjau frekuensi transaksi berdasarkan barang (`sub_category`) yang dibeli dan coba gali insight apa yang dapat kita ambil

In [364]:
# code here
pd.crosstab(
    index=household['sub_category'],
    columns='Total Transaksi'
).sort_values(by='Total Transaksi')

col_0,Total Transaksi
sub_category,Unnamed: 1_level_1
Rice,12000
Sugar,24000
Detergent,36000


> 📈 **Insight yang dapat diambil:** Detergent adalah kategori produk yang transaksi nya paling banyak, sedangkan Rice yang paling sedikit.

🔻 Seperti yang kita tahu bahwa barang dengan transaksi terbanyak adalah ... Selanjutnya kita ingin tahu `format` market manakah yang paling banyak transaksi barang tersebut:

In [365]:
pd.crosstab(
    index=household['format'],
    columns=household['sub_category']
)

sub_category,Detergent,Rice,Sugar
format,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
hypermarket,2611,999,1761
minimarket,24345,7088,15370
supermarket,9044,3913,6869


> 📈 **Insight yang dapat diambil:**

- Minimarket transaksinya paling banyak untuk semua sub_category
- Hypermarket paling sedikit untuk setiap sub_category
- Barang yang paling banyak terual di semua format market tetap detergent.

___

Dari tabel frekuensi di atas:

- 🔻 Bagaimana kalau kita ingin menghitung jumlah **frekuensi per baris/kolom**?
- 🔻 Bagaimana kalau kita ingin melihat **proporsi** atau dalam **persentase**?

**Parameter tambahan:**

- **`margins`**: Menambahkan baris atau kolom margins yang menampung nilai subtotal
- **`normalize`**: Membagi keseluruhan nilai hasil crosstab dengan jumlah nilai.

#### Margins

🔻 Hitung frekuensi transaksi untuk penjualan barang (`sub_category`) di setiap segmen pasar (`format`) dan gunakan parameter `margins=True`

In [366]:
# code here
pd.crosstab(
    index=household['format'],
    columns=household['sub_category'],
    margins=True
)

sub_category,Detergent,Rice,Sugar,All
format,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hypermarket,2611,999,1761,5371
minimarket,24345,7088,15370,46803
supermarket,9044,3913,6869,19826
All,36000,12000,24000,72000


Ketika parameter `margins=True` maka akan terdapat 1 kolom baru dan 1 baris baru yang menampilkan nilai total transaksi pada setiap baris dan kolomnya.

Selain parameter `margins`, terdapat juga parameter `margins_name`. Parameter tersebut dapat di isi dengan nama aliasing untuk kolom baru dan baris baru result dari `margins=True`.

In [367]:
# code here
pd.crosstab(
    index=household['format'],
    columns=household['sub_category'],
    margins=True,
    margins_name='Total'
)

sub_category,Detergent,Rice,Sugar,Total
format,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hypermarket,2611,999,1761,5371
minimarket,24345,7088,15370,46803
supermarket,9044,3913,6869,19826
Total,36000,12000,24000,72000


In [368]:
pd.crosstab(
    index=household['format'],
    columns=household['sub_category'],
    margins=True,
    margins_name='Total'
).rename({"Total": "Total Sub Category"}, axis=0).rename({"Total": "Total Format"},axis=1)

sub_category,Detergent,Rice,Sugar,Total Format
format,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hypermarket,2611,999,1761,5371
minimarket,24345,7088,15370,46803
supermarket,9044,3913,6869,19826
Total Sub Category,36000,12000,24000,72000


#### Normalize

Jika parameter normalize bernilai:
- `'all'` atau `True`: melakukan normalisasi untuk keseluruhan nilai
- `'index'`: melakukan normalisasi pada setiap **baris**
- `'columns'`: melakukan normalisasi pada setiap **kolom**

**Normalize by All**

In [369]:
pd.crosstab(
    index=household['format'],
    columns=household['sub_category'],
    normalize=True,
    margins=True,
    margins_name='Total'
).rename({"Total": "Total Sub Category"}, axis=0).rename({"Total": "Total Format"},axis=1)

sub_category,Detergent,Rice,Sugar,Total Format
format,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hypermarket,0.04,0.01,0.02,0.07
minimarket,0.34,0.1,0.21,0.65
supermarket,0.13,0.05,0.1,0.28
Total Sub Category,0.5,0.17,0.33,1.0


> 📈 **Insight yang dapat diambil:** 
- 34% dari keseluruhan transaksi adalah untuk barang detergent di format minimarket
- dll

**Normalize by Index**

In [370]:
pd.crosstab(
    index=household['format'],
    columns=household['sub_category'],
    normalize='index',
    margins=True,
    margins_name='Total'
).rename({"Total": "Total Sub Category"}, axis=0).rename({"Total": "Total Format"},axis=1) * 100

sub_category,Detergent,Rice,Sugar
format,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
hypermarket,48.61,18.6,32.79
minimarket,52.02,15.14,32.84
supermarket,45.62,19.74,34.65
Total Sub Category,50.0,16.67,33.33


> 📈 **Insight yang dapat diambil:** 
- 52.02% transaksi penjualan di minimarket adalah deterjen
- dll

**Normalize by Columns**

In [371]:
pd.crosstab(
    index=household['format'],
    columns=household['sub_category'],
    normalize='columns',
    margins=True,
    margins_name='Total'
).rename({"Total": "Total Sub Category"}, axis=0).rename({"Total": "Total Format"},axis=1) *100

sub_category,Detergent,Rice,Sugar,Total Format
format,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hypermarket,7.25,8.33,7.34,7.46
minimarket,67.62,59.07,64.04,65.0
supermarket,25.12,32.61,28.62,27.54


> 📈 **Insight yang dapat diambil:**
- 67.62% transaksi penjualan deterjen terjadi di minimarket.
- dll

___

## Dive Deeper: Contingency Table

Buatlah tabel frekuensi dengan menggunakan `pd.crosstab()` dengan `yearmonth` sebagai baris dan `format` sebagai kolom. Simpan ke object `trx_ym_format`

1. Dari tabel tersebut, tampilkan frekuensi transaksi yang terjadi pada **Januari 2018** (2018-01) untuk setiap format market. Hint: Gunakan metode subsetting.

2. Dari tabel tersebut, pada periode (`yearmonth`) manakah **`hypermarket`** memiliki frekuensi transaksi tertinggi?

In [372]:
# code here
trx_ym_format = pd.crosstab(
                index=household['yearmonth'],
                columns=household['format'],
            )
trx_ym_format

format,hypermarket,minimarket,supermarket
yearmonth,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2017-10,446,3898,1656
2017-11,442,3912,1646
2017-12,427,3939,1634
2018-01,449,3960,1591
2018-02,513,3745,1742
2018-03,521,3540,1939
2018-04,376,3909,1715
2018-05,487,3704,1809
2018-06,458,3949,1593
2018-07,356,4293,1351


In [373]:
# Soal 1
trx_ym_format.loc[['2018-01']]

format,hypermarket,minimarket,supermarket
yearmonth,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2018-01,449,3960,1591


In [374]:
# Soal 2
trx_ym_format.sort_values(by='hypermarket', ascending=False)['hypermarket'].head(1)

yearmonth
2018-03    521
Name: hypermarket, dtype: int64

Di setiap menjelang akhir tahun, tepatnya pada bulan Desember, setiap market memiliki promosi spesial untuk para pengunjung. Anda diminta untuk mencari tahu:

3. Format market apakah yang memiliki transaksi terbanyak pada bulan Desember?

4. Kategori barang (`category`) apa yang memiliki frekuensi transaksi terbanyak pada periode bulan Desember?

_Hint:_ Anda dapat melakukan partisi **nama bulan** terlebih dahulu kemudian menyimpannya ke dalam kolom baru pada dataframe `household` dengan nama `month`

In [375]:
# Soal 3
pd.crosstab(
    index=household['purchase_time'].dt.month_name(),
    columns=household['format'],
).loc[['December']]

format,hypermarket,minimarket,supermarket
purchase_time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
December,427,3939,1634


In [376]:
# Soal 4
pd.crosstab(
    index=household['purchase_time'].dt.month_name(),
    columns=household['sub_category'],
).loc[['December']]

sub_category,Detergent,Rice,Sugar
purchase_time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
December,3000,1000,2000


**Optional: Bonus Challenge**

Dalam rangka menaikkan jumlah transaksi di **hypermarket**, perusahaan berencana untuk mengadakan _sale_ di jam dengan **transaksi terendah**. Apabila perusahaan hanya mempertimbangkan transaksi yang terjadi pada **tahun 2018**, maka pada jam berapakah _sale_ tersebut sebaiknya diadakan?

_Hint_: partisi komponen datetime, conditional subsetting, membuat tabel frekuensi

In [377]:
# code here
household_2018 = household[household['purchase_time'].dt.year == 2018]
pd.crosstab(
    index=household_2018['purchase_time'].dt.hour,
    columns=household_2018['format'],
).sort_values(by='hypermarket')[['hypermarket']]

format,hypermarket
purchase_time,Unnamed: 1_level_1
3,1
1,2
23,3
2,3
4,5
6,8
5,9
7,13
8,18
0,30


## 📝 Summary Day 2

Tabel Frekuensi/Contingency digunakan untuk ...

Method yang telah dipelajari:

1. ...

    - 
    - 
    - 
    - 

2. ...

    - 
    - 
    - 
    - 

3. ...

    - 
    - 
    - 

___

## Aggregation Tables

Selain menghitung frekuensi kemunculan data, kita juga dapat menggunakan crosstab untuk melakukan agregasi. Pada parameter crosstab, Anda dapat menambahkan parameter `values` sebagai nilai yang diagregasikan dan `aggfunc` sebagai nilai statistika yang dipakai untuk melakukan agregasi.

### `pd.crosstab`

```
pd.crosstab(index=...,
            columns=...,
            values=numerical_columns
            aggfunc=agg_function)
```

Beberapa contoh `aggfunc`:
- mean
- median
- min
- max
- std
- count --> jumlah index/baris --> tabel frekuensi
- sum

🔻 Coba sekarang tinjau rata-rata harga satuan (`unit_price`) untuk setiap jenis barangnya (`sub_category`)

In [378]:
pd.crosstab(
    index=household['sub_category'],
    columns='Mean Price',
    values=household['unit_price'],
    aggfunc='mean'
)

col_0,Mean Price
sub_category,Unnamed: 1_level_1
Detergent,17893.79
Rice,70013.15
Sugar,12645.07


> 📈 **Insight yang dapat diambil:** Kategori barang Rice memiliki rata-rata harga barang tertinggi.

❓ Total jumlah item (`quantity`) yang terjual untuk per-`sub_category` 

In [379]:
# code here
pd.crosstab(
    index=household['sub_category'],
    columns='Sum Quantity',
    values=household['quantity'],
    aggfunc='sum'
).sort_values(by='Sum Quantity')

col_0,Sum Quantity
sub_category,Unnamed: 1_level_1
Rice,15995
Sugar,41111
Detergent,49660


> 📈 **Insight yang dapat diambil:**
- Detergent adalah kategori barang yang paling banyak terjual
- Sugar adalah kategori barang yang sedikit terjual

❓ **Knowledge Check: crosstab**

Saat ingin belanja barang-barang kebutuhan pokok, tentunya dari sisi pembeli ingin mencari harga yang paling murah. Coba analisis apakah terdapat perbedaan harga satuan (`unit_price`) untuk masing-masing kategori barangnya (`sub_category`) pada `format` yang berbeda-beda? Apabila ya, pada format market apakah yang memiliki harga satuan Rice yang paling murah? Silahkan tinjau berdasarkan nilai rata-ratanya.

_Hint:_ Gunakan `.idxmin()` pada hasil tabel agregasi untuk mendapatkan index dengan nilai terkecil

In [380]:
# code here
pd.crosstab(
    index=household['sub_category'],
    columns=household['format'],
    values=household['unit_price'],
    aggfunc='mean'
)

format,hypermarket,minimarket,supermarket
sub_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Detergent,19328.14,17757.14,17847.56
Rice,71205.46,67135.57,74921.18
Sugar,13539.92,12352.14,13071.11


In [381]:
pd.crosstab(
    index=household['sub_category'],
    columns=household['format'],
    values=household['unit_price'],
    aggfunc='mean'
).idxmin(axis=1)

sub_category
Detergent    minimarket
Rice         minimarket
Sugar        minimarket
dtype: object

> 📈 **Insight yang dapat diambil:** ...

Quick Summary EDA: 1. tabel agregasi: info mengenai hasil agregasi (jumlah, rata-rata, median) suatu data. dapat dibentuk menggunakan pd.crosstab() dengan menambahkan parameter value dan aggfunc. 2. gunakan .sort_values() untuk mengurutkan hasil agregasi. 3. peletakan index dan colomn untuk dua atau lebih pengelompokan kolom dataset bebas di antara keduanya. 

**❓ Exercise**:

Divisi sales ingin mengetahui pada periode kuarter (year-quarter) berapakah hypermarket mencapai total sales tertingginya?

<!--
Hint:

1. Buatlah kolom `subtotal` yang merupakan perkalian `quantity` dan `unit_price` dari setiap barangnya.
2. Partisi kolom `purchase_time` untuk mendapatkan periode kuarter
2. Dengan menggunakan nilai `subtotal`, hitunglah total penjualan per kuarter untuk masing-masing `format`.
3. Cari tahu kapan hypermarket menyentuh total sales tertingginya
-->

In [382]:
# code here
# Approach 1
household['subtotal'] = household['unit_price'] * household['quantity']
household['quarter'] = household['purchase_time'].dt.to_period('Q')
pd.crosstab(
    index=household['quarter'],
    columns=household['format'],
    values=household['subtotal'],
    aggfunc='sum'
).sort_values(by='hypermarket', ascending=False)

format,hypermarket,minimarket,supermarket
quarter,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2018Q1,61795966.99,379011225.0,193424469.01
2018Q2,57461721.02,385133402.02,197532335.99
2017Q4,51524121.0,358094171.0,194870162.0
2018Q3,47665485.0,374213834.99,161654589.03


In [383]:
household['subtotal'] = household['unit_price'] * household['quantity']
household['quarter'] = household['purchase_time'].dt.to_period('Q')
pd.crosstab(
    index=household['quarter'],
    columns=household['format'],
    values=household['subtotal'],
    aggfunc=['sum', 'mean']
)

Unnamed: 0_level_0,sum,sum,sum,mean,mean,mean
format,hypermarket,minimarket,supermarket,hypermarket,minimarket,supermarket
quarter,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
2017Q4,51524121.0,358094171.0,194870162.0,39181.84,30478.69,39479.37
2018Q1,61795966.99,379011225.0,193424469.01,41669.57,33704.87,36689.01
2018Q2,57461721.02,385133402.02,197532335.99,43498.65,33310.28,38603.15
2018Q3,47665485.0,374213834.99,161654589.03,38071.47,30555.55,35915.26


> 📈 **Insight yang dapat diambil:** Di hypermarket, total sales paling tinggi ada di Q1 tahun 2018

___

### (Optional) Higher Dimensional Table

Higher dimensional table bisa juga disebut sebagai multi-index dataframe (data yang memiliki lebih dari 1 index). Digunakan untuk melakukan proses tabulasi silang dengan menggunakan beberapa kolom kategori.

Berikut adalah contoh crosstab dengan empat kategori pengelompokkan untuk mengetahui jumlah barang (`quantity`) yang terjual untuk masing-masing `sub_category` dan `format`, dibedakan per `yearmonth` dan `dayofweek`:

In [384]:
pd.crosstab(
    index=[household['yearmonth'], household['dayofweek']],
    columns=[household['sub_category'], household['format']],
    values=household['quantity'],
    aggfunc='sum')

Unnamed: 0_level_0,sub_category,Detergent,Detergent,Detergent,Rice,Rice,Rice,Sugar,Sugar,Sugar
Unnamed: 0_level_1,format,hypermarket,minimarket,supermarket,hypermarket,minimarket,supermarket,hypermarket,minimarket,supermarket
yearmonth,dayofweek,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
2017-10,Monday,30,345,129,20,157,42,30,282,143
2017-10,Tuesday,34,342,149,10,116,54,38,319,159
2017-10,Wednesday,22,346,101,6,86,45,34,229,114
2017-10,Thursday,34,264,100,4,97,44,21,262,85
2017-10,Friday,61,408,149,22,109,46,43,287,96
...,...,...,...,...,...,...,...,...,...,...
2018-09,Wednesday,14,318,114,19,90,45,20,218,97
2018-09,Thursday,40,282,102,31,75,44,60,388,99
2018-09,Friday,43,377,168,16,119,38,21,320,156
2018-09,Saturday,69,507,278,18,166,72,39,395,160


___

### `pd.pivot_table`

Cara kerja `pivot_table` tidak jauh berbeda dengan `crosstab()`. Parameter di kedua method inipun hampir sama. Yang membedakan di antara keduanya adalah adanya parameter `data` yang menspesifikasikan dataframe yang akan di pakai pada `pivot_table`

Syntax:

```{python}
pd.pivot_table(
    data=...,
    index=...,
    columns=...,
    values=...,
    aggfunc=...
)
```

OR

```{python}
data.pivot_table(
    index=...,
    columns=...,
    values=...,
    aggfunc=...
)
```

Kita dapat menggunakan `pivot_table` dengan beberapa parameter sebagai berikut.
- `data`: dataframe yang kita gunakan
- `index`: kolom yang akan menjadi index row
- `columns`: kolom yang akan menjadi index kolom
- `values`: nilai yang digunakan untuk mengisi tabel
- `aggfunc`: fungsi agregasi

Untuk memahami penggunaan `pivot_table`, mari kita bandingkan tabel agregasi yang dibuat menggunakan `crosstab` dan `pivot_table`.

Berikut crosstab yang menampilkan rata-rata harga satuan `sub_category` untuk masing-masing `format`:

In [385]:
pd.crosstab(
    index=household['sub_category'], 
    columns=household['format'], 
    values=household['unit_price'],
    aggfunc='mean'
)

format,hypermarket,minimarket,supermarket
sub_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Detergent,19328.14,17757.14,17847.56
Rice,71205.46,67135.57,74921.18
Sugar,13539.92,12352.14,13071.11


🔻 Buat ulang tabel agregasi di atas menggunakan `pd.pivot_table()`. Secara default, `aggfunc='mean'`

In [386]:
pd.pivot_table(
    data=household,
    index='sub_category',
    columns='format',
    values='unit_price',
    aggfunc='mean'
)

format,hypermarket,minimarket,supermarket
sub_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Detergent,19328.14,17757.14,17847.56
Rice,71205.46,67135.57,74921.18
Sugar,13539.92,12352.14,13071.11


🔻 Kita juga dapat menggunakan `.pivot_table()` sebagai method pada sebuah objek dataframe:

In [387]:
household.pivot_table(
    index='sub_category',
    columns='format',
    values='unit_price',
    aggfunc='mean'
)

format,hypermarket,minimarket,supermarket
sub_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Detergent,19328.14,17757.14,17847.56
Rice,71205.46,67135.57,74921.18
Sugar,13539.92,12352.14,13071.11


❓ Coba tampilkan tabel aggregasi total penjualan (berdasarkan kolom `subtotal`) untuk masing-masing `sub_category` pada supermarket.

Berikut kita menjawab business question di atas menggunakan kombinasi conditional subsetting dan pivot table:

In [391]:
household[household['format'] == 'supermarket'].pivot_table(
    index='sub_category',
    values='subtotal',
    aggfunc='sum'
)

Unnamed: 0_level_0,subtotal
sub_category,Unnamed: 1_level_1
Detergent,223738199.99
Rice,368846617.01
Sugar,154896739.03


#### Dive Deeper: Re-create Frequency Table

Buat kembali tabel frekuensi berikut menggunakan pivot table.

| category                 |   hypermarket |   minimarket |   supermarket |   Total |
|:-------------------------|--------------:|-------------:|--------------:|--------:|
| **Fabric Care**          |          2611 |        24345 |          9044 |   36000 |
| **Rice**                 |           999 |         7088 |          3913 |   12000 |
| **Sugar/Flavored Syrup** |          1761 |        15370 |          6869 |   24000 |
| **Total**                |          5371 |        46803 |         19826 |   72000 |

Parameter:

- `index`: sub_category
- `columns`: format
- `aggfunc`: count
- `values`: 
- Untuk baris dan kolom Total menggunakan parameter `...`

In [311]:
household.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,dayofweek,est_shipdate,subtotal,quarter
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07,Sunday,2018-07-24 21:19:00,128000.0,2018Q3
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07,Sunday,2018-07-17 16:17:00,102750.0,2018Q3
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07,Sunday,2018-07-17 12:12:00,192000.0,2018Q3
3,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07,Tuesday,2018-07-26 08:27:00,65000.0,2018Q3
4,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07,Thursday,2018-07-28 11:28:00,124500.0,2018Q3


In [405]:
# code here
household.pivot_table(
    index='category',
    columns='format',
    values='receipt_id',
    aggfunc='count',
    margins=True,
    margins_name='Total'
)

format,hypermarket,minimarket,supermarket,Total
category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Fabric Care,2611,24345,9044,36000
Rice,999,7088,3913,12000
Sugar/Flavored Syrup,1761,15370,6869,24000
Total,5371,46803,19826,72000


Kesimpulan pivot table:

- Pada `pivot_table` parameter wajib hanya `data` dan salah satu antara `index` / `columns`
- Parameter default `aggfunc='mean'`
- Secara default, parameter `values` adalah semua kolom pada data yang dapat diterapkan fungsi agregasi
- Terdapat parameter `margins` dan `margins_name`, namun tidak terdapat `normalize` (hanya di `crosstab` saja)

___

## 📝 Summary: Tables in `pandas` 

## Frequency Tables

Kegunaan: menghitung jumlah baris atau frekuensi pada kolom yang bersifat category

Method:

1. Apabila hanya 1 kolom kategori, disarankan menggunakan `.value_counts()`. Hasil berupa Series

2. Untuk satu atau lebih dari satu kolom kategori:
    - `pd.crosstab(index, columns)`. Terdapat parameter tambahan:
        - `margins`: menghitung subtotal untuk masing-masing baris dan kolom
        - `normalize`: mengubah frekuensi menjadi proporsi (persentase)
        
    - `pd.pivot_table(data, index, aggfunc='count')`.
        - Tidak ada parameter `normalize`

## Aggregation Tables

Kegunaan: melakukan agregasi pada kolom numerik

Method:

1. `pd.crosstab(index, columns, values, aggfunc)`

2. `pd.pivot_table(data, index, columns, values, aggfunc)`

## `crosstab` vs `pivot_table`

Berikut perbedaan mendasar antara `crosstab` and `pivot_table`:

|                                                                                    | `pd.crosstab()` | `pd.pivot_table()` |
|------------------------------------------------------------------------------------|-----------------|--------------------|
|                                                                          **Input** |Series |          DataFrame |
|                                                              **Default `aggfunc`** |       `'count'` |           `'mean'` |
|                                                          **Parameter `normalize`** |       Available |      Not Available |
| [**Computation Time**](https://ramiro.org/notebook/pandas-crosstab-groupby-pivot/) | Relatively Slower |  Relatively Faster |

___

# Missing Values and Duplicates

Dalam melakukan pengolahan data, tidak semua data yang kita miliki adalah data yang "tidy". Ada kemungkinan bahwa data kita memiliki nilai kosong (NULL), memiliki nilai yang berulang, dan memiliki nilai yang tidak sesuai dengan nilai kolom yang seharusnya (misal usia memiliki nilai minus). Untuk mengatasi hal tersebut, kita dapat melakukan beberapa metode penanganan pada data yang hilang (missing value) atau data yang duplikat (duplicates value)

## Missing Values

Bacalah data `household-missing.csv` yang merupakan data `household` yang telah dimanipulasi sedemikian rupa agar terdapat nilai missing.

Apabila Anda penasaran hal apa saja yang diubah, cek materi utama `2_Exploratory_Data_Analysis.ipynb` pada Section 3.

In [62]:
# read data
household_missing = pd.read_csv(
    'data_input/household-missing.csv',
    index_col=0,
    parse_dates=['purchase_time'])

household_missing.head()

FileNotFoundError: [Errno 2] No such file or directory: 'data_input/household-missing.csv'

**✏️ Values**:

- `NaN`: Not a Number, for object and category
- `nan`: not a number, for numeric
- `NaT`: Not a Time, for datetime64

Tambahan: Apabila terdapat nilai tertentu yang mengindikasikan missing value seperti "Missing", " ", ",", "-". Gunakan parameter `na_values` untuk mendefinisikannya, contoh:

```
data = pd.read_csv('data.csv', na_values=["Missing", " ", ",", "-"])
```

### Check Missing Value

Metode yang paling umum digunakan untuk melihat missing value adalah:

- `.notna()` : mengembalikan `True` apabila **tidak** missing
- `.isna()` : mengembalikan `True` apabila **missing**

In [None]:
# isna


Menghitung jumlah missing value pada setiap kolom:

- `True` akan dihitung sebagai 1
- `False` akan dihitung sebagai 0

Selain menggunakan `isna()`, kita juga dapat menggunakan fungsi `notna()`

In [None]:
# notna


🔻 Kita dapat menggunakan `.notna()` dengan metode subsetting.

Misalnya ada kebutuhan bahwa kolom tertentu sama sekali tidak boleh memiliki *missing value*, artinya kita akan subset baris berdasarkan kolom tertentu yang tidak ada *missing value*

Kapan kita menggunakan `isna()` atau `notna()`

- `isna()` biasanya digunakan bersamaan dengan method `.sum()` yang tujuannya untuk menghitung jumlah missing value pada tiap kolom
- `notna()` biasanya digunakan bersama metode subseting yang tujuannya untuk mensubset data yang salah satu/beberapa kolom tidak boleh ada missing value

### Treatment Missing Values

Beberapa cara umum untuk menangani missing values:

1. Hapus baris atau kolom: Menggunakan metode `dropna()` dengan ambang batas yang wajar untuk menghapus setiap baris yang berisi nilai missing, NA < 5%
2. Imputasi nilai NA dengan sebuah nilai
3. Tetap mempertahankan data kita

#### Hapus Baris yang NA

- `.dropna(how='any')`: hapus baris apabila memiliki **minimal 1 kolom** nilai missing value

- `.dropna(how='all')`: harus baris apabila memiliki **semua kolom** nilai missing

- `.dropna(thresh=...)`: hapus baris apabila nilai **non-missing** < `thresh` 

In [None]:
# how='any'


In [None]:
# how='all'


In [None]:
# tresh = 5, minimal harus ada 5 kolom yang tidak missing


✏️ **Notes** 

Ketika akan melakukan drop missing values menggunakan threshold (thresh=n), maka yang sebaiknya diperhatikan adalah **jumlah kolom yang terisi (tidak NA)**. Jika nilai tidak NA **sama dengan atau lebih besar dari nilai threshold**, maka baris tidak di drop.

#### Imputasi

Kita akan melakukan imputasi terhadap data yang mengandung missing value, menggunakan metode `.fillna()`

💡 **Tips** untuk imputasi:

Untuk kolom numerik:

- Isi menggunakan pusat data seperti `mean` atau `median`
- Isi menggunakan model prediktif (regresi)

Untuk kolom kategorikal:

- Menggunakan `NA` sebagai salah satu dari kategori
- Isi menggunakan pusat data (mode)
- Isi menggunakan model prediktif (klasifikasi)

Untuk kolom datetime:

- Menggunakan metode `bfill`: melakukan imputasi dari baris bawah ke atas
- Menggunakan metode `ffill`: melakukan imputasi dari baris atas ke bawah

❓ Tinjau beberapa kolom yang missing value dan diskusikan imputasi yang cocok

- `purchase_time`: 
- `category`: 
- `format`: 
- `unit_price`: 
- `discount`: 
- `quantity`: 
- `weekday`: 

Untuk melakukan imputasi pada data yang missing dapat menggunakan method `.fillna()`. Agar perubahan tersimpan pada data, harus dilakukan assignment:

1. Cara assignment menggunakan tanda sama dengan `=`
2. Menggunakan parameter `inplace=True`, namun hanya bisa dilakukan untuk 1 kolom saja

In [None]:
# contoh imputasi


In [None]:
# code here


In [None]:
# check kembali missing value


___

## Duplicated Values

### Check duplicated values

Untuk melakukan pengecekan terhadap ada atau tidaknya data yang duplikat, kita dapat menggunakan method `duplicated()`.

In [None]:
# cek data duplikat


## Handling Duplicate Data

Untuk menangani data yang duplicate, kita bisa menggunakan method `drop_duplicates()`. Cara ini membuat observasi yang duplicated terhapus dan kita bisa mengatur observasi mana yang akan tetap disimpan. 

**Case:**

Cek dimensi dari data `household_missing`. Hapus baris yang duplicated. Cek kembali dimensi data `household_missing`untuk memastikan data yang duplicate sudah terhapus.

**NOTE:** Terdapat tiga macam cara untuk melakukan penghapusan pada nilai duplicate.

1. Dengan menambahkan parameter `keep='first'`, maka akan mempertahankan baris **pertama (teratas)** dari nilai yang duplicate.
2. Dengan menambahkan parameter `keep='last'`, maka akan mempertahankan baris **terakhir (terbawah)** dari nilai yang duplicate.
3. Dengan menambahkan parameter `keep=False`, maka tidak mempertahankan baris yang duplikat. Dengan kata lain, menghapus semua baris yang duplikat.

In [None]:
# keep='first'


In [None]:
# keep='last'


In [None]:
# keep=False


⚠️ **Warning**: Duplikat dapat berarti hal yang berbeda dari sudut pandang data dan sudut pandang analis bisnis. Anda harus ekstra berhati-hati apakah data duplikat memang merupakan karakteristik dari data Anda, atau apakah itu merupakan sebuah kesalahan input data berdasarkan logika bisnisnya.

### Knowledge Check: Duplicate Data

❓**Q: Apakah kita harus drop data duplikat atau tidak?**

1. Sebuah pusat medis mengumpulkan data pemantauan detak jantung dari beberapa pasien anonim. Pengamatan ini diambil dalam kurun waktu 3 bulan:

In [None]:
monitoring = pd.DataFrame({
    'patient_id': ['001', '002', '003', '004', '005', '006'],
    'heart_rate': [100, 120, 90, 100, 98, 90]
}).set_index('patient_id')

monitoring.duplicated()

> Jawaban: Data duplikat (dihapus / tidak dihapus), karena ...

2. Sebuah perusahaan asuransi menggunakan machine learning untuk menetapkan harga secara dinamis kepada pelanggannya. Setiap baris berisi nama pelanggan, pekerjaan/profesi, dan data riwayat kesehatan mereka. Data ini diambil dalam kurun waktu 3 bulan

In [None]:
insurance = pd.DataFrame({
    'cust_id': ['C1', 'C2', 'C3', 'C4', 'C1', 'C5'],
    'occupation': ['Employee', 'Employee', 'Student', 'Student', 'Employee', 'Employee'],
    'health': ['Good', 'Ok', 'Good', 'Ok', 'Ok', 'Bad'],
    'date_updated': pd.Series(['2021-06-05', '2021-07-21', '2021-08-14', '2021-09-11', '2021-11-28', '2021-12-10'], dtype='datetime64[ns]')
})

insurance['cust_id'].duplicated()

> Jawaban: Data duplikat (dihapus / tidak dihapus), karena ...

3. Pada data `household` yang kita punya, coba check duplikatnya. Apakah Anda akan menghapus baris yang duplikat?

Note: `receipts_item_id` sebagai index

In [None]:
household_duplicate = pd.read_csv('data_input/household.csv', index_col='receipts_item_id')
household_duplicate.duplicated().sum()

> Jawaban: Data duplikat (dihapus / tidak dihapus), karena ...

___