**Inclass material for Week 2: Exploratory Data Analysis**

This notebook was made based on main materials `2_Exploratory_Data_Analysis.ipynb`

Version: Qoppa - December 2021

___

# Exploratory Data Analysis (EDA)

## Training Objectives

The coursebook focuses on:
- Why and What: Exploratory Data Analysis
- Date Time objects
- Categorical data types
- Cross Tabulation and Pivot Table
- Treating Duplicates and Missing Values 

## Apa itu EDA?

Exploratory Data Analysis (EDA) adalah suatu proses untuk melakukan eksplorasi lebih jauh terhadap data, seperti:

- melihat struktur data, 
- melihat sebaran data,
- menyesuaikan bentuk tipe data untuk analisis lebih lanjut.

Ini juga dapat membantu menentukan apakah teknik statistik yang Anda pertimbangkan untuk analisis data sudah sesuai. Awalnya dikembangkan oleh matematikawan Amerika John Tukey pada 1970-an, teknik EDA terus menjadi metode yang banyak digunakan dalam proses penemuan data saat ini.

## Mengapa EDA penting?

Tujuan utama EDA adalah untuk membantu melihat data sebelum membuat asumsi apa pun.

- Ini dapat membantu mengidentifikasi kesalahan yang jelas,
- serta lebih memahami pola dalam data,
- mendeteksi outlier atau kejadian anomali,
- menemukan hubungan yang menarik antara variabel.

Ilmuwan data dan Analis Data dapat menggunakan analisis eksplorasi untuk:

- memastikan hasil valid dan berlaku untuk tujuan bisnis yang diinginkan,
- membantu pemangku kepentingan mengambil keputusan yang tepat,
- pengetahuan dari EDA dapat digunakan untuk analisis lanjut, misalnya pemodelan machine learning.

## Tools EDA

Pada course sebelumnya, kami memiliki beberapa teknik umum:

- `.head()` dan `.tail()` --> inspeksi data
- `.describe()` --> mendeskripsikan data secara statistik
- `.shape` dan `.size` --> dimensi data
- `.axes` --> label index kolom dan baris
- `.dtypes` --> cek tipe data

Dalam course ini, kita akan memperluas pemahaman EDA dengan teknik berikut:

- Tables
- Cross-table and aggregates
- Pivot Tables

## Problem Statement

🔻 Anda merupakan seorang analis data yang bekerja di sebuah perusahaan retail. Anda diminta untuk melakukan eksplorasi terhadap data transaksi hingga mendapatkan insight-insight bisnis yang dapat Anda ceritakan kepada rekan atau atasan Anda.

___

# Data Preparation

## Load Data

🔻 Data transaksi terletak di dalam folder `data_input` dengan nama **`household.csv`**. Dengan bantuan library `pandas` bacalah data tersebut.

In [None]:
import pandas as pd

# mengatur tampilan float pada dataframe
# , -> pemisah ribuan
# .2f -> dua angka di belakang koma
pd.options.display.float_format = '{:,.2f}'.format

In [None]:
# code here
household = 

## Data Description

Dataset ini merupakan data transaksi pembelian barang kebutuhan rumah tangga. Informasi kolom:

- `receipt_id`: Unique buyer ID
- `receipts_item_id` : Unique transaction ID
- `purchase_time` : Waktu melakukan pembelian
- `category` : Kategori item
- `sub_category` : Sub-kategori item
- `format` : Jenis pasar tempat membeli barang (supermarket', 'minimarket', 'hypermarket')
- `unit_price` : Harga per unit
- `diskon` : Diskon
- `quantity` : Jumlah barang yang dibeli
- `yearmonth` : Informasi tahun dan bulan

🔻 Lakukan investigasi awal untuk melihat struktur data terhadap object DataFrame dengan menggunakan method `.info()`

💡 Dengan menggunakan method `.info()`, kita dapat memeriksa **informasi** lengkap dari DataFrame kita:

- Dimensi data: jumlah baris dan kolom (`.shape`)
- Nama kolom dan jumlah nilai bukan nol (`.columns`)
- Tipe data setiap kolom (`.dtypes`)
- Penggunaan memori

# Data Pre-processing and Feature Engineering

## Working with Datetime

🔻 Tahap selanjutnya anda perlu menyesuaikan tipe data untuk dapat melakukan proses analisis lanjutan

In [None]:
# code here


**❓ Kolom manakah yang seharusnya memiliki format tipe data date time?**

> Jawaban: ...

### Convert to Datetime

Ada tiga cara untuk mengubah sebuah kolom menjadi tipe data `datetime64`:

- Method **`.astype()`**
- Parameter **`parse_dates`** dalam `pd.read_csv()`
- Method **`pd.to_datetime()`**

#### 1️⃣ Method `.astype()`

🔻 Mari kita buat salinan `household` agar data aslinya tetap tidak berubah.

In [None]:
df_1 = household.copy()

Ubah menggunakan `.astype()`

In [None]:
# code here


⚠️**Warning**: Jangan lupa untuk melakukan assignment hasilnya ke kolom aslinya.

#### 2️⃣ Parameter `parse_dates`

Digunakan ketika ***read*** data, dengan asumsi kita sudah tahu kolom mana yang seharusnya `datetime64`.

In [None]:
df_2 = pd.read_csv('data_input/household.csv')

#### 3️⃣ Method `pd.to_datetime()`

In [None]:
df_3 = household.copy()
df_3.dtypes

Ubah menggunakan method `pd.to_datetime()`

💬 **Diskusi**: Jadi, apa yang membedakan `.astype()` dengan `pd.to_datetime()`?

Pada `pd.to_datetime()` terdapat lebih banyak **parameter** yang dapat digunakan dalam mengatur pengkonversian sebuah kolom menjadi datetime. Dengan demikian, `pd.to_datetime()` lebih memberikan **fleksibilitas** daripada `.astype()`.

Misalkan kita memiliki kolom yang menyimpan data penjualan harian dari **akhir Januari hingga awal Februari**

In [None]:
sales_date = pd.Series(['30-Jan-2021', '31/01/2021', '01-02-2021', '02-02-21'])
sales_date

Contoh di atas menunjukkan bagaimana orang Indonesia biasanya menulis tanggal, menggunakan format **tanggal-bulan-tahun**. Mari kita lihat apa yang akan terjadi ketika kita mengonversi tipe data `sales_date` menjadi `datetime64`:

In [None]:
# code here


⚠️ **Warning**: Untuk tanggal dengan beberapa representasi, `pandas` secara default akan menyimpulkannya **bulan** sebagai urutan pertama.

#### Parameter `dayfirst`

Solusi: Menggunakan parameter `dayfirst=True` untuk memberitahu bahwa `sales_date` diawali dengan hari, bukan bulan.

**📝 Optional**

Cara mengubah representasi kolom `datetime64` dari yyyy-mm-dd menjadi format lain

> Sebuah kolom `datetime64` memiliki method `.dt.strftime()` (string format time) untuk mengubah `datetime64` menjadi string. 
[Dokumentasi format strftime](https://strftime.org/).

In [None]:
sales_date.dt.strftime('%d %B %Y')

**✏️ Quick Summary:**

Kapan waktu yang tepat untuk menggunakan 3 cara tersebut?

- `.astype('datetime64')`: ketika tidak ada lagi parameter yang ingin digunakan, atau data dengan format tanggalnya berupa bulan-tanggal-tahun
- `pd.to_datetime()`: ketika ada parameter yang ingin kita tambahkan, atau yang format tanggalnya adalah **selain** bulan-tanggal-tahun
- `parse_dates=['kolom']`: merupakan parameter `pd.read_csv()`, digunakan ketika kita sudah kenal atau terbiasa dengan data kita dan tahu kolom mana yang ingin diubah menjadi `datetime64`

___

### Object Datetime Partition

Ketika sebuah kolom sudah menjadi `datetime64`, kita dapat melakukan partisi untuk menggali informasi yang lebih spesifik seperti tahun, bulan, hari, dan jam.

**Date component (numeric)**
- `.dt.year` -> partisi tahun
- `.dt.month` -> partisi bulan (angka)
- `.dt.day` -> partisi day/tanggal (dalam angka)
- `.dt.dayofweek`

**Date component (string)**
- `.dt.month_name()`-> partisi bulan (nama)
- `.dt.day_name()`-> partisi hari (nama)

**Time component**
- `.dt.hour` -> partisi jam
- `.dt.minute` -> partisi menit
- `.dt.second` -> partisi detik

[Dokumentasi: datetime properties](https://pandas.pydata.org/pandas-docs/stable/reference/series.html#datetimelike-properties)

**🔻 Namun pertama-tama mari kita ubah kolom `purchase_time` menjadi `datetime64`**

In [None]:
# code here


**📆 Attribute pada `.dt`**

Untuk mengekstrak komponen datetime dalam nilai numerik, kita dapat menggunakan **atribut**

In [None]:
# contoh: ekstrak tahun dari purchase_time


In [None]:
# contoh: ekstrak jam dari purchase_time


**Partisi `dt.dayofweek`**

Ekstrak index hari dalam seminggu ( nilainya 0-6 )

- 0 menunjukkan hari Senin
- 6 menunjukkan hari Minggu

**📆 Method pada `.dt`**

Untuk mengekstrak nama (teks) dari komponen datetime, kita dapat menggunakan **method** (dengan tanda kurung)

___

### Object Datetime Transformation

Selain digunakan untuk melakukan partisi, kita juga dapat melakukan transformasi object `datetime64` ke dalam format periode menggunakan syntax `to_period()`.

- `.dt.to_period('D')` -> mengubah ke format **D**aily (tanggal lengkap)
- `.dt.to_period('W')` -> mengubah ke format **W**eekly (awal dan akhir minggu)
- `.dt.to_period('M')` -> mengubah ke format **M**onthly (year-month)
- `.dt.to_period('Q')` -> mengubah ke format **Q**uarterly (year-quarter)

___

### Dive Deeper: Feature Engineering & Datetime data types
_Est. Time required: 10 minutes_

1. Pada cell di bawah ini, import kembali data `household.csv` dan simpan ke dalam variable bernama `household_new`
2. Ubah `purchase_time` ke tipe data `datetime64`
3. Dapatkan nama hari menggunakan perintah `x.dt.day_name()` dengan asumsi `x` adalah nama kolom datetime yang akan dipartisi. Simpan hasil partisi nama hari ke dalam kolom baru dengan nama `dayofweek`
4. Cobalah recreate kolom `yearmonth` dengan menggunakan metode `.dt.` dari kolom `purchase_time`
5. Tampilkan 5 data teratas untuk memastikan bahwa langkah yang dilakukan sudah tepat 

In [None]:
# code here


**(Optional) Extra Challenge**

Misalkan perkiraan waktu pengiriman akan membutuhkan waktu 2 hari setelah produk dibeli (`purchase_time`). Buatlah kolom baru dengan nama `est_shipdate` yang menyimpan perkiraan waktu pengiriman setiap transaksi!

**(Petunjuk: Menggunakan `pd.Timedelta()`)**

In [None]:
# code here


`pandas` memiliki sebuah method bermana `Timedelta` yang dapat digunakan untuk menghitung selisih hari, jam, bahkan detik.

[Dokumentasi: Timedelta](https://pandas.pydata.org/docs/reference/api/pandas.Timedelta.html)

___

## Working with Categories

🔻 Cek kembali tipe data yang belum sesuai:

In [None]:
household_cat = household_new.copy()
household_cat.dtypes

Karakteristik tipe data `category` :

- Dapat dikelompokkan menjadi beberapa kelompok (category)
- Berulang

💡 **Tips**: Kita bisa menggunakan method berikut untuk mengidentifikasi kolom mana yang cocok untuk disimpan ke tipe data `category`

- `.unique()` melihat nilai yang unik dari sebuah kolom
- `.nunique()` melihat banyaknya nilai yang unik dari sebuah kolom atau dataframe

🔻 Mari kita cek kembali tipe data pada object `household`. Manakah yang seharusnya memiliki tipe data category?

Ketika kita belum mengetahui kolom mana saja yang dapat diubah ke dalam tipe data category, kita dapat melakukan pengecekan terlebih dahulu menggunakan method **`.nunique()`**. Kolom yang memiliki banyaknya nilai unik yang sedikit dapat digolongkan sebagai tipe data category.

**❓Kolom manakah yang seharusnya memiliki format tipe `'category'`?**

> Jawaban: ...

In [None]:
# code here


**Advantages**

Ada 2 keuntungan mengubah tipe data menjadi `category`:

- 1️⃣ Pertama: Memory Efficient

Kita dapat membandingkan dua Data Frame **sebelum dan sesudah** kolom dikonversi ke tipe data `category`:

- `household_new` (before): ...
- `household_cat` (after): ...

In [None]:
# check penggunaan memory SEBELUM konversi menjadi category


In [None]:
# check penggunaan memory SESUDAH konversi menjadi category


**2️⃣ Kedua: Accessor Category `.cat`**

Sama seperti tipe data `datetime64` yang memiliki pengakses `.dt`, tipe data `category` memiliki pengakses `.cat`. Berikut adalah contoh penggunaan accessor `.cat`:

Mengetahui kategori dari sebuah kolom category:

Mengurutkan kategori dari sebuah kolom category yang bersifat **ordinal**:

In [None]:
ordered_dayofweek = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']


✏️ **Note** 

Anda dapat menjelajahi lebih banyak fungsionalitas dengan merujuk ke [dokumentasi accessor .cat](https://pandas.pydata.org/pandas-docs/stable/reference/series.html#categorical-accessor) untuk daftar lengkapnya.

# 📝 Summary Day 1: Knowledge Check

1. Berikut yang **bukan** merupakan tujuan dari Exploratory Data Analisis (EDA) adalah:

    - [ ] A. Mengetahui pola pada data
    - [ ] B. Mencari anomali pada data
    - [ ] C. Mencari jawaban dari pertanyaan bisnis yang kita miliki
    - [ ] D. Menganalisis hingga mendapatkan suatu insight
    - [ ] E. Semua benar
    
    
2. Berikut yang **bukan** merupakan tools untuk melakukan investigasi struktur pada data kita adalah:

    - [ ] A. `df.head()`
    - [ ] B. `df.info()`
    - [ ] C. `df.astype()`
    - [ ] D. `df.dtypes`
    - [ ] E. `df.columns`
    

3. Kita telah mempelajari `.astype()`, `parse_dates`, dan `pd.to_datetime()`. Manakah pernyataan berikut yang **salah** terkait dari ketiganya:

    - [ ] A. `pd.to_datetime` digunakan ketika format date kita berawalan dengan tanggal, menggunakan parameter `dayfirst=True`
    - [ ] B. `.astype()` digunakan ketika format tanggal kita hanya bulan dan tanggal tanpa tanggal
    - [ ] C. Parameter `parse_dates` dapat digunakan ketika kita sudah terbiasa dengan data yang kita olah
    - [ ] D. Ketiganya dapat digunakan untuk mengubah tipe data sebuah kolom menjadi `datetime64`
    
    
4. Berikut adalah alasan kita menyesuaikan tipe data pada sebuah kolom, yaitu agar ...

    - [ ] A. Antar kolom bisa dilakukan operasi matematis (misal penjumlahan, pengurangan, dsb)
    - [ ] B. Komponen tertentu dapat diambil ataupun diekstrak untuk analisis lebih lanjut
    - [ ] C. Bisa menghemat penggunaan memory
    - [ ] D. Tiap tipe data memiliki fungsionalitas pada accessor nya masing-masing
    - [ ] E. Semuanya benar

___

# Analisis Data

## Contingency Tables / Frequency Tables

Tabel kontingensi digunakan untuk menghitung nilai frekuensi/kemunculan data.

### Method `.value_counts()`

**Kegunaan**: Menghitung jumlah baris pada setiap category dalam 1 kolom, dan defaultnya diurutkan secara descending

Parameter:

- `sort=False`: mencegah nilai pengurutan apa pun, **urutkan berdasarkan indeks** sebagai gantinya
- `ascending=True`: **urutkan nilai** dalam urutan menaik

In [None]:
household = household_cat.copy()

❓ Jenis market mana yang paling banyak melakukan transaksi berdasarkan data `household`?

> **📈 Insight:** ...

❓ Sekarang kita ingin tahu hari apa yang banyak dilakukan transaksi

In [None]:
# code here


> 📈 **Insight yang dapat diambil:** ...

In [None]:
# menggunakan sort=False


### Cross Tabulation

Selain menggunakan method `value_counts()`, kita juga dapat menggunakan fungsi `crosstab` yang telah disediakan oleh `pandas` untuk menghitung frekuensi pada data. Syntax:

```
pd.crosstab(index=...,
            columns=...)
```

**Parameter wajib:**
- `index`: kolom yang akan dijadikan pengelompokkan pada baris (axis 0)
- `columns`: kolom yang akan dijadikan pengelompokkan pada kolom (axis 1)

🔻 Dengan permasalahan yang sama, mari kita lihat banyaknya transaksi di setiap `format` market menggunakan fungsi **`crosstab`**

In [None]:
pd.crosstab(
    index=household['format'],
    columns='Frekuensi'
)

❓Coba tampilkan di format market mana dan berapa frekuensi transaksi terkecil yang terjadi

Method `sort_values()` untuk mengurutkan data frame berdasarkan kolom tertentu.

Parameter:

- `by`: diisi dengan nama kolom
- `ascending`: default = `True` diurutkan berdasarkan nilai terkecil ke terbesar

In [None]:
# code here


❓Tinjau frekuensi transaksi berdasarkan barang (`sub_category`) yang dibeli dan coba gali insight apa yang dapat kita ambil

In [None]:
# code here


> 📈 **Insight yang dapat diambil:** ...

🔻 Seperti yang kita tahu bahwa barang dengan transaksi terbanyak adalah ... Selanjutnya kita ingin tahu `format` market manakah yang paling banyak transaksi barang tersebut:

In [None]:
pd.crosstab(
    index=household['format'],
    columns=household['sub_category']
)

___

Dari tabel frekuensi di atas:

- 🔻 Bagaimana kalau kita ingin menghitung jumlah **frekuensi per baris/kolom**?
- 🔻 Bagaimana kalau kita ingin melihat **proporsi** atau dalam **persentase**?

**Parameter tambahan:**

- **`margins`**: Menambahkan baris atau kolom margins yang menampung nilai subtotal
- **`normalize`**: Membagi keseluruhan nilai hasil crosstab dengan jumlah nilai.

#### Margins

🔻 Hitung frekuensi transaksi untuk penjualan barang (`sub_category`) di setiap segmen pasar (`format`) dan gunakan parameter `margins=True`

In [None]:
# code here


Ketika parameter `margins=True` maka akan terdapat 1 kolom baru dan 1 baris baru yang menampilkan nilai total transaksi pada setiap baris dan kolomnya.

Selain parameter `margins`, terdapat juga parameter `margins_name`. Parameter tersebut dapat di isi dengan nama aliasing untuk kolom baru dan baris baru result dari `margins=True`.

In [None]:
# code here


#### Normalize

Jika parameter normalize bernilai:
- `'all'` atau `True`: melakukan normalisasi untuk keseluruhan nilai
- `'index'`: melakukan normalisasi pada setiap **baris**
- `'columns'`: melakukan normalisasi pada setiap **kolom**

**Normalize by All**

> 📈 **Insight yang dapat diambil:** ...

**Normalize by Index**

> 📈 **Insight yang dapat diambil:** ...

**Normalize by Columns**

> 📈 **Insight yang dapat diambil:** ...

___

## Dive Deeper: Contingency Table

Buatlah tabel frekuensi dengan menggunakan `pd.crosstab()` dengan `yearmonth` sebagai baris dan `format` sebagai kolom. Simpan ke object `trx_ym_format`

1. Dari tabel tersebut, tampilkan frekuensi transaksi yang terjadi pada **Januari 2018** (2018-01) untuk setiap format market. Hint: Gunakan metode subsetting.

2. Dari tabel tersebut, pada periode (`yearmonth`) manakah **`hypermarket`** memiliki frekuensi transaksi tertinggi?

In [None]:
# code here


In [None]:
# code here


Di setiap menjelang akhir tahun, tepatnya pada bulan Desember, setiap market memiliki promosi spesial untuk para pengunjung. Anda diminta untuk mencari tahu:

3. Format market apakah yang memiliki transaksi terbanyak pada bulan Desember?

4. Kategori barang (`category`) apa yang memiliki frekuensi transaksi terbanyak pada periode bulan Desember?

_Hint:_ Anda dapat melakukan partisi **nama bulan** terlebih dahulu kemudian menyimpannya ke dalam kolom baru pada dataframe `household` dengan nama `month`

In [None]:
# code here


**Optional: Bonus Challenge**

Dalam rangka menaikkan jumlah transaksi di **hypermarket**, perusahaan berencana untuk mengadakan _sale_ di jam dengan **transaksi terendah**. Apabila perusahaan hanya mempertimbangkan transaksi yang terjadi pada **tahun 2018**, maka pada jam berapakah _sale_ tersebut sebaiknya diadakan?

_Hint_: partisi komponen datetime, conditional subsetting, membuat tabel frekuensi

In [None]:
# code here


## 📝 Summary Day 2

Tabel Frekuensi/Contingency digunakan untuk ...

Method yang telah dipelajari:

1. ...

    - 
    - 
    - 
    - 

2. ...

    - 
    - 
    - 
    - 

3. ...

    - 
    - 
    - 

___

## Aggregation Tables

Selain menghitung frekuensi kemunculan data, kita juga dapat menggunakan crosstab untuk melakukan agregasi. Pada parameter crosstab, Anda dapat menambahkan parameter `values` sebagai nilai yang diagregasikan dan `aggfunc` sebagai nilai statistika yang dipakai untuk melakukan agregasi.

### `pd.crosstab`

```
pd.crosstab(index=...,
            columns=...,
            values=numerical_columns
            aggfunc=agg_function)
```

Beberapa contoh `aggfunc`:
- mean
- median
- min
- max
- std
- count
- sum

🔻 Coba sekarang tinjau rata-rata harga satuan (`unit_price`) untuk setiap jenis barangnya (`sub_category`)

In [None]:
pd.crosstab(
    index=household['sub_category'],
    columns='Mean Price',
    values=household['unit_price'],
    aggfunc='mean'
)

> 📈 **Insight yang dapat diambil:** ...

❓ Total jumlah item (`quantity`) yang terjual untuk per-`sub_category` 

In [None]:
# code here


> 📈 **Insight yang dapat diambil:** ...

❓ **Knowledge Check: crosstab**

Saat ingin belanja barang-barang kebutuhan pokok, tentunya dari sisi pembeli ingin mencari harga yang paling murah. Coba analisis apakah terdapat perbedaan harga satuan (`unit_price`) untuk masing-masing kategori barangnya (`sub_category`) pada `format` yang berbeda-beda? Apabila ya, pada format market apakah yang memiliki harga satuan Rice yang paling murah? Silahkan tinjau berdasarkan nilai rata-ratanya.

_Hint:_ Gunakan `.idxmin()` pada hasil tabel agregasi untuk mendapatkan index dengan nilai terkecil

In [None]:
# code here


> 📈 **Insight yang dapat diambil:** ...

**❓ Exercise**:

Divisi sales ingin mengetahui pada periode kuarter (year-quarter) berapakah hypermarket mencapai total sales tertingginya?

<!--
Hint:

1. Buatlah kolom `subtotal` yang merupakan perkalian `quantity` dan `unit_price` dari setiap barangnya.
2. Partisi kolom `purchase_time` untuk mendapatkan periode kuarter
2. Dengan menggunakan nilai `subtotal`, hitunglah total penjualan per kuarter untuk masing-masing `format`.
3. Cari tahu kapan hypermarket menyentuh total sales tertingginya
-->

In [None]:
# code here


> 📈 **Insight yang dapat diambil:** ...

___

### (Optional) Higher Dimensional Table

Higher dimensional table bisa juga disebut sebagai multi-index dataframe (data yang memiliki lebih dari 1 index). Digunakan untuk melakukan proses tabulasi silang dengan menggunakan beberapa kolom kategori.

Berikut adalah contoh crosstab dengan empat kategori pengelompokkan untuk mengetahui jumlah barang (`quantity`) yang terjual untuk masing-masing `sub_category` dan `format`, dibedakan per `yearmonth` dan `dayofweek`:

In [None]:
pd.crosstab(
    index=[household['yearmonth'], household['dayofweek']],
    columns=[household['sub_category'], household['format']],
    values=household['quantity'],
    aggfunc='sum')

___

### `pd.pivot_table`

Cara kerja `pivot_table` tidak jauh berbeda dengan `crosstab()`. Parameter di kedua method inipun hampir sama. Yang membedakan di antara keduanya adalah adanya parameter `data` yang menspesifikasikan dataframe yang akan di pakai pada `pivot_table`

Syntax:

```{python}
pd.pivot_table(
    data=...,
    index=...,
    columns=...,
    values=...,
    aggfunc=...
)
```

OR

```{python}
data.pivot_table(
    index=...,
    columns=...,
    values=...,
    aggfunc=...
)
```

Kita dapat menggunakan `pivot_table` dengan beberapa parameter sebagai berikut.
- `data`: dataframe yang kita gunakan
- `index`: kolom yang akan menjadi index row
- `columns`: kolom yang akan menjadi index kolom
- `values`: nilai yang digunakan untuk mengisi tabel
- `aggfunc`: fungsi agregasi

Untuk memahami penggunaan `pivot_table`, mari kita bandingkan tabel agregasi yang dibuat menggunakan `crosstab` dan `pivot_table`.

Berikut crosstab yang menampilkan rata-rata harga satuan `sub_category` untuk masing-masing `format`:

In [None]:
pd.crosstab(
    index=household['sub_category'], 
    columns=household['format'], 
    values=household['unit_price'],
    aggfunc='mean'
)

🔻 Buat ulang tabel agregasi di atas menggunakan `pd.pivot_table()`. Secara default, `aggfunc='mean'`

🔻 Kita juga dapat menggunakan `.pivot_table()` sebagai method pada sebuah objek dataframe:

❓ Coba tampilkan tabel aggregasi total penjualan (berdasarkan kolom `subtotal`) untuk masing-masing `sub_category` pada supermarket.

Berikut kita menjawab business question di atas menggunakan kombinasi conditional subsetting dan pivot table:

#### Dive Deeper: Re-create Frequency Table

Buat kembali tabel frekuensi berikut menggunakan pivot table.

| category                 |   hypermarket |   minimarket |   supermarket |   Total |
|:-------------------------|--------------:|-------------:|--------------:|--------:|
| **Fabric Care**          |          2611 |        24345 |          9044 |   36000 |
| **Rice**                 |           999 |         7088 |          3913 |   12000 |
| **Sugar/Flavored Syrup** |          1761 |        15370 |          6869 |   24000 |
| **Total**                |          5371 |        46803 |         19826 |   72000 |

Parameter:

- `index`: ...
- `columns`: ...
- `aggfunc`: ...
- `values`: ...
- Untuk baris dan kolom Total menggunakan parameter `...`

In [None]:
# code here


Kesimpulan pivot table:

- Pada `pivot_table` parameter wajib hanya `data` dan salah satu antara `index` / `columns`
- Parameter default `aggfunc='mean'`
- Secara default, parameter `values` adalah semua kolom pada data yang dapat diterapkan fungsi agregasi
- Terdapat parameter `margins` dan `margins_name`, namun tidak terdapat `normalize` (hanya di `crosstab` saja)

___

## 📝 Summary: Tables in `pandas` 

## Frequency Tables

Kegunaan: menghitung jumlah baris atau frekuensi pada kolom yang bersifat category

Method:

1. Apabila hanya 1 kolom kategori, disarankan menggunakan `.value_counts()`. Hasil berupa Series

2. Untuk satu atau lebih dari satu kolom kategori:
    - `pd.crosstab(index, columns)`. Terdapat parameter tambahan:
        - `margins`: menghitung subtotal untuk masing-masing baris dan kolom
        - `normalize`: mengubah frekuensi menjadi proporsi (persentase)
        
    - `pd.pivot_table(data, index, aggfunc='count')`.
        - Tidak ada parameter `normalize`

## Aggregation Tables

Kegunaan: melakukan agregasi pada kolom numerik

Method:

1. `pd.crosstab(index, columns, values, aggfunc)`

2. `pd.pivot_table(data, index, columns, values, aggfunc)`

## `crosstab` vs `pivot_table`

Berikut perbedaan mendasar antara `crosstab` and `pivot_table`:

|                                                                                    | `pd.crosstab()` | `pd.pivot_table()` |
|------------------------------------------------------------------------------------|-----------------|--------------------|
|                                                                          **Input** |Series |          DataFrame |
|                                                              **Default `aggfunc`** |       `'count'` |           `'mean'` |
|                                                          **Parameter `normalize`** |       Available |      Not Available |
| [**Computation Time**](https://ramiro.org/notebook/pandas-crosstab-groupby-pivot/) | Relatively Slower |  Relatively Faster |

___

# Missing Values and Duplicates

Dalam melakukan pengolahan data, tidak semua data yang kita miliki adalah data yang "tidy". Ada kemungkinan bahwa data kita memiliki nilai kosong (NULL), memiliki nilai yang berulang, dan memiliki nilai yang tidak sesuai dengan nilai kolom yang seharusnya (misal usia memiliki nilai minus). Untuk mengatasi hal tersebut, kita dapat melakukan beberapa metode penanganan pada data yang hilang (missing value) atau data yang duplikat (duplicates value)

## Missing Values

Bacalah data `household-missing.csv` yang merupakan data `household` yang telah dimanipulasi sedemikian rupa agar terdapat nilai missing.

Apabila Anda penasaran hal apa saja yang diubah, cek materi utama `2_Exploratory_Data_Analysis.ipynb` pada Section 3.

In [None]:
# read data
household_missing = pd.read_csv(
    'data_input/household-missing.csv',
    index_col=0,
    parse_dates=['purchase_time'])

household_missing.head()

**✏️ Values**:

- `NaN`: Not a Number, for object and category
- `nan`: not a number, for numeric
- `NaT`: Not a Time, for datetime64

Tambahan: Apabila terdapat nilai tertentu yang mengindikasikan missing value seperti "Missing", " ", ",", "-". Gunakan parameter `na_values` untuk mendefinisikannya, contoh:

```
data = pd.read_csv('data.csv', na_values=["Missing", " ", ",", "-"])
```

### Check Missing Value

Metode yang paling umum digunakan untuk melihat missing value adalah:

- `.notna()` : mengembalikan `True` apabila **tidak** missing
- `.isna()` : mengembalikan `True` apabila **missing**

In [None]:
# isna


Menghitung jumlah missing value pada setiap kolom:

- `True` akan dihitung sebagai 1
- `False` akan dihitung sebagai 0

Selain menggunakan `isna()`, kita juga dapat menggunakan fungsi `notna()`

In [None]:
# notna


🔻 Kita dapat menggunakan `.notna()` dengan metode subsetting.

Misalnya ada kebutuhan bahwa kolom tertentu sama sekali tidak boleh memiliki *missing value*, artinya kita akan subset baris berdasarkan kolom tertentu yang tidak ada *missing value*

Kapan kita menggunakan `isna()` atau `notna()`

- `isna()` biasanya digunakan bersamaan dengan method `.sum()` yang tujuannya untuk menghitung jumlah missing value pada tiap kolom
- `notna()` biasanya digunakan bersama metode subseting yang tujuannya untuk mensubset data yang salah satu/beberapa kolom tidak boleh ada missing value

### Treatment Missing Values

Beberapa cara umum untuk menangani missing values:

1. Hapus baris atau kolom: Menggunakan metode `dropna()` dengan ambang batas yang wajar untuk menghapus setiap baris yang berisi nilai missing, NA < 5%
2. Imputasi nilai NA dengan sebuah nilai
3. Tetap mempertahankan data kita

#### Hapus Baris yang NA

- `.dropna(how='any')`: hapus baris apabila memiliki **minimal 1 kolom** nilai missing value

- `.dropna(how='all')`: harus baris apabila memiliki **semua kolom** nilai missing

- `.dropna(thresh=...)`: hapus baris apabila nilai **non-missing** < `thresh` 

In [None]:
# how='any'


In [None]:
# how='all'


In [None]:
# tresh = 5, minimal harus ada 5 kolom yang tidak missing


✏️ **Notes** 

Ketika akan melakukan drop missing values menggunakan threshold (thresh=n), maka yang sebaiknya diperhatikan adalah **jumlah kolom yang terisi (tidak NA)**. Jika nilai tidak NA **sama dengan atau lebih besar dari nilai threshold**, maka baris tidak di drop.

#### Imputasi

Kita akan melakukan imputasi terhadap data yang mengandung missing value, menggunakan metode `.fillna()`

💡 **Tips** untuk imputasi:

Untuk kolom numerik:

- Isi menggunakan pusat data seperti `mean` atau `median`
- Isi menggunakan model prediktif (regresi)

Untuk kolom kategorikal:

- Menggunakan `NA` sebagai salah satu dari kategori
- Isi menggunakan pusat data (mode)
- Isi menggunakan model prediktif (klasifikasi)

Untuk kolom datetime:

- Menggunakan metode `bfill`: melakukan imputasi dari baris bawah ke atas
- Menggunakan metode `ffill`: melakukan imputasi dari baris atas ke bawah

❓ Tinjau beberapa kolom yang missing value dan diskusikan imputasi yang cocok

- `purchase_time`: 
- `category`: 
- `format`: 
- `unit_price`: 
- `discount`: 
- `quantity`: 
- `weekday`: 

Untuk melakukan imputasi pada data yang missing dapat menggunakan method `.fillna()`. Agar perubahan tersimpan pada data, harus dilakukan assignment:

1. Cara assignment menggunakan tanda sama dengan `=`
2. Menggunakan parameter `inplace=True`, namun hanya bisa dilakukan untuk 1 kolom saja

In [None]:
# contoh imputasi


In [None]:
# code here


In [None]:
# check kembali missing value


___

## Duplicated Values

### Check duplicated values

Untuk melakukan pengecekan terhadap ada atau tidaknya data yang duplikat, kita dapat menggunakan method `duplicated()`.

In [None]:
# cek data duplikat


## Handling Duplicate Data

Untuk menangani data yang duplicate, kita bisa menggunakan method `drop_duplicates()`. Cara ini membuat observasi yang duplicated terhapus dan kita bisa mengatur observasi mana yang akan tetap disimpan. 

**Case:**

Cek dimensi dari data `household_missing`. Hapus baris yang duplicated. Cek kembali dimensi data `household_missing`untuk memastikan data yang duplicate sudah terhapus.

**NOTE:** Terdapat tiga macam cara untuk melakukan penghapusan pada nilai duplicate.

1. Dengan menambahkan parameter `keep='first'`, maka akan mempertahankan baris **pertama (teratas)** dari nilai yang duplicate.
2. Dengan menambahkan parameter `keep='last'`, maka akan mempertahankan baris **terakhir (terbawah)** dari nilai yang duplicate.
3. Dengan menambahkan parameter `keep=False`, maka tidak mempertahankan baris yang duplikat. Dengan kata lain, menghapus semua baris yang duplikat.

In [None]:
# keep='first'


In [None]:
# keep='last'


In [None]:
# keep=False


⚠️ **Warning**: Duplikat dapat berarti hal yang berbeda dari sudut pandang data dan sudut pandang analis bisnis. Anda harus ekstra berhati-hati apakah data duplikat memang merupakan karakteristik dari data Anda, atau apakah itu merupakan sebuah kesalahan input data berdasarkan logika bisnisnya.

### Knowledge Check: Duplicate Data

❓**Q: Apakah kita harus drop data duplikat atau tidak?**

1. Sebuah pusat medis mengumpulkan data pemantauan detak jantung dari beberapa pasien anonim. Pengamatan ini diambil dalam kurun waktu 3 bulan:

In [None]:
monitoring = pd.DataFrame({
    'patient_id': ['001', '002', '003', '004', '005', '006'],
    'heart_rate': [100, 120, 90, 100, 98, 90]
}).set_index('patient_id')

monitoring.duplicated()

> Jawaban: Data duplikat (dihapus / tidak dihapus), karena ...

2. Sebuah perusahaan asuransi menggunakan machine learning untuk menetapkan harga secara dinamis kepada pelanggannya. Setiap baris berisi nama pelanggan, pekerjaan/profesi, dan data riwayat kesehatan mereka. Data ini diambil dalam kurun waktu 3 bulan

In [None]:
insurance = pd.DataFrame({
    'cust_id': ['C1', 'C2', 'C3', 'C4', 'C1', 'C5'],
    'occupation': ['Employee', 'Employee', 'Student', 'Student', 'Employee', 'Employee'],
    'health': ['Good', 'Ok', 'Good', 'Ok', 'Ok', 'Bad'],
    'date_updated': pd.Series(['2021-06-05', '2021-07-21', '2021-08-14', '2021-09-11', '2021-11-28', '2021-12-10'], dtype='datetime64[ns]')
})

insurance['cust_id'].duplicated()

> Jawaban: Data duplikat (dihapus / tidak dihapus), karena ...

3. Pada data `household` yang kita punya, coba check duplikatnya. Apakah Anda akan menghapus baris yang duplikat?

Note: `receipts_item_id` sebagai index

In [None]:
household_duplicate = pd.read_csv('data_input/household.csv', index_col='receipts_item_id')
household_duplicate.duplicated().sum()

> Jawaban: Data duplikat (dihapus / tidak dihapus), karena ...

___