**Inclass material for Week 2: Exploratory Data Analysis**

This notebook was made based on main materials `2_Exploratory_Data_Analysis.ipynb`

___

# Exploratory Data Analysis (EDA)

## Training Objectives

The coursebook focuses on:
- Why and What: Exploratory Data Analysis
- Date Time objects
- Categorical data types
- Cross Tabulation and Pivot Table
- Treating Duplicates and Missing Values 

## Apa itu EDA?

Exploratory Data Analysis (EDA) adalah suatu proses untuk melakukan eksplorasi lebih jauh terhadap data, seperti melihat struktur data dan sebaran data. Hal ini dapat membantu menentukan apakah teknik statistik yang Anda pertimbangkan untuk analisis data sudah sesuai.

Awalnya dikembangkan oleh matematikawan Amerika bernama John Tukey pada 1970-an, teknik EDA terus menjadi metode yang banyak digunakan dalam proses penemuan data saat ini.

## Mengapa EDA penting?

Tujuan utama EDA adalah untuk membantu melihat data sebelum membuat asumsi apa pun.

- Mengidentifikasi dan memahami pola dalam data
- Mendeteksi adanya kejadian anomali
- Menemukan hubungan yang menarik antara variabel

Seorang data analyst dan data scientist dapat menggunakan analisis eksplorasi untuk:

- Memastikan hasil valid dan berlaku untuk tujuan bisnis yang diinginkan
- Membantu pemangku kepentingan mengambil keputusan yang tepat
- Melanjutkan ke tahapan analisis yang lebih dalam, misalnya untuk pemodelan machine learning (predictive)

## Tools EDA

Pada course sebelumnya, kami memiliki beberapa teknik umum:

- `.head()` dan `.tail()` untuk inspeksi data
- `.describe()` untuk mendeskripsikan data secara statistik
- `.shape` dan `.size` untuk cek dimensi data
- `.axes` untuk cek label index kolom dan baris
- `.dtypes` untuk cek tipe data

Dalam course ini, kita akan memperluas pemahaman EDA dengan teknik berikut:

- Tables
- Cross-table and aggregates
- Pivot Tables

## Problem Statement

🔻 Anda merupakan seorang analis data yang bekerja di sebuah perusahaan retail. Anda diminta untuk melakukan eksplorasi terhadap data transaksi hingga mendapatkan insight-insight bisnis yang dapat Anda ceritakan kepada rekan atau atasan Anda.

___

# Setup Libraries

In [1]:
import pandas as pd

# Data Preparation

## Load Data

🔻 Data transaksi terletak di dalam folder `data_input` dengan nama **`household.csv`**. Dengan bantuan library `pandas` bacalah data tersebut.

In [3]:
# code here
household = pd.read_csv("data_input/household.csv")

household

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
0,9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
1,9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
2,9470290,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07
3,9643416,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07
4,9692093,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.0,0,1,2018-07
...,...,...,...,...,...,...,...,...,...,...
71995,5909305,17998610,12/27/2017 9:20,Sugar/Flavored Syrup,Sugar,minimarket,25000.0,0,1,2017-12
71996,5736299,17432379,12/13/2017 19:52,Sugar/Flavored Syrup,Sugar,minimarket,12500.0,0,1,2017-12
71997,5901144,18263665,12/27/2017 8:03,Sugar/Flavored Syrup,Sugar,minimarket,12500.0,0,1,2017-12
71998,5660630,17222218,12/7/2017 12:29,Sugar/Flavored Syrup,Sugar,hypermarket,12500.0,0,3,2017-12


## Data Description

Dataset ini merupakan data transaksi pembelian barang kebutuhan rumah tangga. Informasi kolom:

- `receipt_id`: Identifier untuk satu struk
- `receipts_item_id`: Identifier unik untuk satu item pada struk tertentu
- `purchase_time`: Waktu melakukan pembelian
- `category`: Kategori item
- `sub_category`: Sub-kategori item
- `format`: Jenis pasar tempat membeli barang (supermarket, minimarket, hypermarket)
- `unit_price`: Harga per unit
- `diskon`: Diskon
- `quantity`: Jumlah barang yang dibeli
- `yearmonth`: Informasi tahun dan bulan

🔻 Lakukan investigasi awal untuk melihat struktur data terhadap object DataFrame dengan menggunakan method `.info()`

In [4]:
# code here
household.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72000 entries, 0 to 71999
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   receipt_id        72000 non-null  int64  
 1   receipts_item_id  72000 non-null  int64  
 2   purchase_time     72000 non-null  object 
 3   category          72000 non-null  object 
 4   sub_category      72000 non-null  object 
 5   format            72000 non-null  object 
 6   unit_price        72000 non-null  float64
 7   discount          72000 non-null  int64  
 8   quantity          72000 non-null  int64  
 9   yearmonth         72000 non-null  object 
dtypes: float64(1), int64(4), object(5)
memory usage: 5.5+ MB


💡 Dengan menggunakan method `.info()`, kita dapat memeriksa **informasi** lengkap dari DataFrame kita:

- Dimensi data: jumlah baris dan kolom (`.shape`)
- Nama kolom dan jumlah nilai bukan nol (`.columns`)
- Tipe data setiap kolom (`.dtypes`)
- Penggunaan memori

# Data Pre-processing and Feature Engineering

## Working with Datetime

🔻 Tahap selanjutnya anda perlu menyesuaikan tipe data untuk dapat melakukan proses analisis lanjutan

In [5]:
# code here
household.dtypes

receipt_id            int64
receipts_item_id      int64
purchase_time        object
category             object
sub_category         object
format               object
unit_price          float64
discount              int64
quantity              int64
yearmonth            object
dtype: object

In [6]:
household.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
0,9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
1,9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
2,9470290,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07
3,9643416,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07
4,9692093,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.0,0,1,2018-07


**❓ Kolom manakah yang seharusnya memiliki format tipe data date time?**

> Jawaban: ...

### Convert to Datetime

Ada tiga cara untuk mengubah sebuah kolom menjadi tipe data `datetime64`:

- Method **`.astype()`**
- Parameter **`parse_dates`** dalam `pd.read_csv()`
- Method **`pd.to_datetime()`**

#### 1️⃣ Method `.astype()`

🔻 Mari kita buat salinan `household` agar data aslinya tetap tidak berubah.

In [18]:
df_1 = household.copy()

Ubah menggunakan `.astype()`

In [21]:
# code here
df_1['purchase_time'] = df_1['purchase_time'].astype('datetime64')

In [22]:
df_1.dtypes

receipt_id                   int64
receipts_item_id             int64
purchase_time       datetime64[ns]
category                    object
sub_category                object
format                      object
unit_price                 float64
discount                     int64
quantity                     int64
yearmonth                   object
dtype: object

⚠️**Warning**: Jangan lupa untuk melakukan assignment hasilnya ke kolom aslinya.

#### 2️⃣ Parameter `parse_dates`

Digunakan ketika ***read*** data, dengan asumsi kita sudah tahu kolom mana yang seharusnya `datetime64`.

In [23]:
df_2 = pd.read_csv('data_input/household.csv', parse_dates=['purchase_time'])
df_2.dtypes

receipt_id                   int64
receipts_item_id             int64
purchase_time       datetime64[ns]
category                    object
sub_category                object
format                      object
unit_price                 float64
discount                     int64
quantity                     int64
yearmonth                   object
dtype: object

#### 3️⃣ Method `pd.to_datetime()`

🔻 Mari kita buat salinan `household` agar data aslinya tetap tidak berubah.

In [25]:
# df_3 = household.copy()
df_3.dtypes

receipt_id            int64
receipts_item_id      int64
purchase_time        object
category             object
sub_category         object
format               object
unit_price          float64
discount              int64
quantity              int64
yearmonth            object
dtype: object

Ubah menggunakan method `pd.to_datetime()`

In [29]:
# code here
df_3['purchase_time'] = pd.to_datetime(df_3['purchase_time'])
df_3.dtypes

receipt_id                   int64
receipts_item_id             int64
purchase_time       datetime64[ns]
category                    object
sub_category                object
format                      object
unit_price                 float64
discount                     int64
quantity                     int64
yearmonth                   object
dtype: object

💬 Jadi, apa yang membedakan `.astype()` dengan `pd.to_datetime()`?

> Pada `pd.to_datetime()` terdapat lebih banyak **parameter** yang dapat digunakan dalam mengatur pengkonversian sebuah kolom menjadi datetime. Dengan demikian, `pd.to_datetime()` lebih memberikan **fleksibilitas** daripada `.astype()`.

Misalkan kita memiliki kolom yang menyimpan data penjualan harian dari **akhir Januari hingga awal Februari**

In [30]:
sales_date = pd.Series(['30-Jan-2022', '31/01/2022', '01-02-2022', '02-02-22'])
sales_date

0    30-Jan-2022
1     31/01/2022
2     01-02-2022
3       02-02-22
dtype: object

Contoh di atas menunjukkan bagaimana orang Indonesia biasanya menulis tanggal, menggunakan format **tanggal-bulan-tahun**. Mari kita lihat apa yang akan terjadi ketika kita mengonversi tipe data `sales_date` menjadi `datetime64`:

In [31]:
# code here
sales_date.astype('datetime64')

  to_datetime(arr).values,


0   2022-01-30
1   2022-01-31
2   2022-01-02
3   2022-02-02
dtype: datetime64[ns]

⚠️ **Warning**: `pandas` secara default akan menyimpulkannya **bulan** sebagai urutan pertama.

#### Parameter `dayfirst`

Solusi: Menggunakan parameter `dayfirst=True` untuk memberitahu bahwa `sales_date` diawali dengan hari, bukan bulan.

In [35]:
# code here
sales_date = pd.to_datetime(sales_date, dayfirst=True)

**📝 Optional: String format time (strftime)**

Sebuah kolom `datetime64` memiliki method `.dt.strftime()` untuk mengubah `datetime64` (format `yyyy-mm-dd`) menjadi string dengan format lain. 

> [Dokumentasi Python `strftime` cheatsheet](https://strftime.org/)

In [36]:
sales_date.dt.strftime('%A, %d %B %Y')

0        Sunday, 30 January 2022
1        Monday, 31 January 2022
2      Tuesday, 01 February 2022
3    Wednesday, 02 February 2022
dtype: object

**✏️ Quick Summary:**

Kapan waktu yang tepat untuk menggunakan 3 cara tersebut?

- `.astype('datetime64')`: ketika tidak ada lagi parameter yang ingin digunakan, atau data dengan format tanggalnya berupa bulan-tanggal-tahun
- `pd.to_datetime()`: ketika ada parameter yang ingin kita tambahkan, atau yang format tanggalnya adalah **selain** bulan-tanggal-tahun
- `parse_dates=['kolom']`: merupakan parameter `pd.read_csv()`, digunakan ketika kita sudah kenal atau terbiasa dengan data kita dan tahu kolom mana yang ingin diubah menjadi `datetime64`

___

### Datetime Partition

Ketika sebuah kolom sudah menjadi `datetime64`, kita dapat mengambil bagian waktu lebih spesifik seperti tahun, bulan, hari, dan jam.

**Date component (numeric)**
- `.dt.year` untuk komponen tahun
- `.dt.month` untuk komponen bulan (dalam angka)
- `.dt.day` untuk komponen tanggal (dalam angka)
- `.dt.dayofweek`

**Date component (string)**
- `.dt.month_name()` untuk komponen nama bulan
- `.dt.day_name()`untuk komponen nama hari

**Time component**
- `.dt.hour` untuk komponen jam
- `.dt.minute` untuk komponen menit
- `.dt.second` untuk komponen detik

> [Dokumentasi: datetime properties](https://pandas.pydata.org/pandas-docs/stable/reference/series.html#datetimelike-properties)

**🔻 Namun pertama-tama mari kita ubah kolom `purchase_time` pada data `household` menjadi `datetime64`**

In [38]:
# code here
household['purchase_time'] = pd.to_datetime(household['purchase_time'])
household.dtypes

receipt_id                   int64
receipts_item_id             int64
purchase_time       datetime64[ns]
category                    object
sub_category                object
format                      object
unit_price                 float64
discount                     int64
quantity                     int64
yearmonth                   object
dtype: object

**📆 Attribute pada `.dt`**

Gunakan **attribute** untuk ekstrak komponen dalam nilai **numerik**

In [40]:
# ekstrak tahun
household['purchase_time'].dt.year

0        2018
1        2018
2        2018
3        2018
4        2018
         ... 
71995    2017
71996    2017
71997    2017
71998    2017
71999    2017
Name: purchase_time, Length: 72000, dtype: int64

In [42]:
# ekstrak jam
household['purchase_time'].dt.hour

0        21
1        16
2        12
3         8
4        11
         ..
71995     9
71996    19
71997     8
71998    12
71999    18
Name: purchase_time, Length: 72000, dtype: int64

**`dt.dayofweek`** untuk ekstrak index hari dalam seminggu (nilainya 0 sampai 6)

- 0 menunjukkan hari Senin
- 6 menunjukkan hari Minggu

In [44]:
# ekstrak index hari dalam seminggu
household['purchase_time'].dt.dayofweek

0        6
1        6
2        6
3        1
4        3
        ..
71995    2
71996    2
71997    2
71998    3
71999    1
Name: purchase_time, Length: 72000, dtype: int64

**📆 Method pada `.dt`**

Gunakan **method** (dengan tanda kurung) untuk ekstrak komponen dalam nilai **string/object**

In [47]:
# ekstrak nama hari
household['purchase_time'].dt.day_name()

0           Sunday
1           Sunday
2           Sunday
3          Tuesday
4         Thursday
           ...    
71995    Wednesday
71996    Wednesday
71997    Wednesday
71998     Thursday
71999      Tuesday
Name: purchase_time, Length: 72000, dtype: object

In [48]:
# ekstrak nama bulan
household['purchase_time'].dt.month_name()

0            July
1            July
2            July
3            July
4            July
           ...   
71995    December
71996    December
71997    December
71998    December
71999    December
Name: purchase_time, Length: 72000, dtype: object

___

### Datetime Transformation

Selain digunakan untuk melakukan partisi, kita juga dapat melakukan transformasi object `datetime64` ke dalam format periode menggunakan method `.to_period()`.

- `.dt.to_period('D')` untuk mengubah ke format **D**aily (tanggal lengkap)
- `.dt.to_period('W')` untuk mengubah ke format **W**eekly (awal dan akhir minggu)
- `.dt.to_period('M')` untuk mengubah ke format **M**onthly (year-month)
- `.dt.to_period('Q')` untuk mengubah ke format **Q**uarterly (year-quarter)

In [50]:
# D -> Daily
household['purchase_time'].dt.to_period('D')

0        2018-07-22
1        2018-07-15
2        2018-07-15
3        2018-07-24
4        2018-07-26
            ...    
71995    2017-12-27
71996    2017-12-13
71997    2017-12-27
71998    2017-12-07
71999    2017-12-19
Name: purchase_time, Length: 72000, dtype: period[D]

In [51]:
# W -> Weekly (format: MON/SUN)
household['purchase_time'].dt.to_period('W')

0        2018-07-16/2018-07-22
1        2018-07-09/2018-07-15
2        2018-07-09/2018-07-15
3        2018-07-23/2018-07-29
4        2018-07-23/2018-07-29
                 ...          
71995    2017-12-25/2017-12-31
71996    2017-12-11/2017-12-17
71997    2017-12-25/2017-12-31
71998    2017-12-04/2017-12-10
71999    2017-12-18/2017-12-24
Name: purchase_time, Length: 72000, dtype: period[W-SUN]

In [52]:
# M -> Monthly (year-month)
household['purchase_time'].dt.to_period('M')

0        2018-07
1        2018-07
2        2018-07
3        2018-07
4        2018-07
          ...   
71995    2017-12
71996    2017-12
71997    2017-12
71998    2017-12
71999    2017-12
Name: purchase_time, Length: 72000, dtype: period[M]

In [55]:
# Q -> Quarterly (year quarter)
household['purchase_time'].dt.to_period('Q')

0        2018Q3
1        2018Q3
2        2018Q3
3        2018Q3
4        2018Q3
          ...  
71995    2017Q4
71996    2017Q4
71997    2017Q4
71998    2017Q4
71999    2017Q4
Name: purchase_time, Length: 72000, dtype: period[Q-DEC]

___

### Dive Deeper: Feature Engineering & Datetime data types
_Est. Time required: 10 minutes_

1. Pada cell di bawah ini, import kembali data `household.csv` dan simpan ke dalam variable bernama `household_new`
2. Ubah `purchase_time` ke tipe data `datetime64`
3. Dapatkan nama hari menggunakan perintah `x.dt.day_name()` dengan asumsi `x` adalah nama kolom datetime yang akan dipartisi. Simpan hasil partisi nama hari ke dalam kolom baru dengan nama `dayofweek`
4. Cobalah re-create kolom `yearmonth` dari kolom `purchase_time`
5. Tampilkan 5 data teratas untuk memastikan bahwa langkah yang dilakukan sudah tepat 

In [72]:
# code here
household_new = pd.read_csv('data_input/household.csv')

In [74]:
household_new['purchase_time'] = pd.to_datetime(household_new['purchase_time'])

In [75]:
household.dtypes

receipt_id                   int64
receipts_item_id             int64
purchase_time       datetime64[ns]
category                    object
sub_category                object
format                      object
unit_price                 float64
discount                     int64
quantity                     int64
yearmonth                   object
dtype: object

In [76]:
dayofweek = household_new['purchase_time'].dt.day_name()
dayofweek

0           Sunday
1           Sunday
2           Sunday
3          Tuesday
4         Thursday
           ...    
71995    Wednesday
71996    Wednesday
71997    Wednesday
71998     Thursday
71999      Tuesday
Name: purchase_time, Length: 72000, dtype: object

In [83]:
household_new['yearmonth_recreate'] = yearmonth_recreate

In [82]:
yearmonth_recreate = household_new['purchase_time'].dt.to_period('M')

In [84]:
household_new.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,yearmonth_recreate
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07,2018-07
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07,2018-07
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07,2018-07
3,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07,2018-07
4,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07,2018-07


**(Optional) Extra Challenge**

Misalkan perkiraan waktu pengiriman akan membutuhkan waktu 2 hari **setelah** produk dibeli (`purchase_time`). Buatlah kolom baru dengan nama `est_shipdate` yang menyimpan perkiraan waktu pengiriman setiap transaksi!

In [89]:
household_new['est_shipdate'] = est_shipdate

In [90]:
# code here
est_shipdate = household_new['purchase_time'].dt.to_period('D') + 2

In [91]:
household_new.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,yearmonth_recreate,est_shipdate
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07,2018-07,2018-07-24
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07,2018-07,2018-07-17
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07,2018-07,2018-07-17
3,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07,2018-07,2018-07-26
4,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07,2018-07,2018-07-28


**Hint:** `pandas` memiliki sebuah method bermana `pd.Timedelta()` yang dapat digunakan untuk menghitung selisih hari, jam, bahkan detik.

> [Dokumentasi: Timedelta](https://pandas.pydata.org/docs/reference/api/pandas.Timedelta.html)

___

## Working with Categories

Karakteristik tipe data `category` yaitu nilai yang berulang pada kolom, dengan kata lain jumlah uniknya cukup sedikit.

🔻 Cek kembali tipe data yang belum sesuai:

In [None]:
household_cat = household_new.copy()
household_cat.dtypes

💡 **Tips**: Ketika kita belum mengetahui kolom mana saja yang dapat diubah ke dalam tipe data category, kita dapat melakukan pengecekan terlebih dahulu menggunakan method **`.nunique()`**. Kolom yang memiliki banyaknya nilai unik yang sedikit dapat digolongkan sebagai tipe data category.

Method:

- `.unique()` melihat nilai yang unik dari sebuah kolom
- `.nunique()` melihat banyaknya nilai yang unik dari sebuah kolom atau dataframe

Mari kita cek kembali tipe data pada object `household_cat`. Manakah yang seharusnya memiliki tipe data category?

In [None]:
# code here


**❓Kolom manakah yang seharusnya memiliki format tipe `'category'`?**

> Jawaban: ...

In [None]:
# code here


**Advantages**

**1️⃣ Memory Efficient**

Kita dapat membandingkan dua DataFrame **sebelum dan sesudah** kolom dikonversi ke tipe data `category`:

- `household_new` (before): ...
- `household_cat` (after): ...

In [None]:
# check penggunaan memory SEBELUM konversi menjadi category


In [None]:
# check penggunaan memory SESUDAH konversi menjadi category


**2️⃣ Accessor Category `.cat`**

Seperti tipe data `datetime64` yang memiliki pengakses `.dt`, tipe data `category` memiliki pengakses `.cat`. Berikut adalah beberapa contohnya:

🔻 Mengetahui kategori dari sebuah kolom category:

🔻 Mengurutkan kategori dari sebuah kolom category yang bersifat **ordinal** (tipe data kategori yang ada urutannya):

In [None]:
ordered_dayofweek = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
household_cat['dayofweek'] = household_cat['dayofweek'].cat.reorder_categories(ordered_dayofweek)

In [None]:
# cek kembali, pengurutan sudah sesuai dengan yang kita inginkan


> Masih banyak fungsionalitas tipe data category yang dapat Anda eksplor. Silahkan merujuk ke [dokumentasi accessor .cat](https://pandas.pydata.org/pandas-docs/stable/reference/series.html#categorical-accessor) untuk daftar lebih lengkapnya.

# 📝 Summary by Knowledge Check

1. Berikut yang merupakan tujuan dari Exploratory Data Analisis (EDA) adalah:

    - [ ] A. Mengetahui pola pada data
    - [ ] B. Mencari anomali pada data
    - [ ] C. Mencari jawaban dari pertanyaan bisnis yang kita miliki
    - [ ] D. Menganalisis hingga mendapatkan suatu insight
    - [x] E. Semua benar
    
    
2. Berikut yang **bukan** merupakan tools untuk melakukan investigasi struktur pada data kita adalah:

    - [ ] A. `df.head()`
    - [ ] B. `df.info()`
    - [x] C. `df.astype()`
    - [ ] D. `df.dtypes`
    - [ ] E. `df.columns`
    

3. Kita telah mempelajari `.astype()`, `parse_dates`, dan `pd.to_datetime()`. Manakah pernyataan berikut yang **salah** terkait dari ketiganya:

    - [ ] A. `pd.to_datetime()` digunakan ketika format date kita berawalan dengan tanggal, menggunakan parameter `dayfirst=True`
    - [x] B. `.astype()` digunakan ketika format tanggal kita hanya bulan dan tahun saja tanpa tanggal
    - [ ] C. Parameter `parse_dates` dapat digunakan ketika kita sudah terbiasa dengan data yang kita olah
    - [x] D. Ketiganya dapat digunakan untuk mengubah tipe data sebuah kolom menjadi `datetime64`
    
    
4. Berikut adalah alasan kita menyesuaikan tipe data pada sebuah kolom, yaitu agar ...

    - [ ] A. Antar kolom bisa dilakukan operasi matematis (misal penjumlahan, pengurangan, dsb)
    - [ ] B. Komponen tertentu dapat diekstrak untuk analisis lebih lanjut
    - [ ] C. Dapat menghemat penggunaan memory
    - [ ] D. Tiap tipe data memiliki fungsionalitas pada accessor nya masing-masing
    - [x] E. Semuanya benar

# Data Analysis

In [None]:
# menimpa object household dengan tipe data yang sudah disesuaikan
household = household_cat.copy()

## Contingency Tables / Frequency Tables

Tabel kontingensi digunakan untuk menghitung nilai frekuensi/kemunculan data.

### Method `.value_counts()`

**Kegunaan**: Menghitung jumlah baris pada setiap category dalam 1 kolom, dan defaultnya diurutkan secara descending

❓ Jenis market mana yang paling banyak melakukan transaksi berdasarkan data `household`?

In [None]:
# code here


> **📈 Insight:** ...

❓ Sekarang kita ingin tahu hari apa yang banyak dilakukan transaksi

In [None]:
# code here


> **📈 Insight:** ...

Parameter:

- `sort=False`: mencegah nilai pengurutan apa pun, **urutkan berdasarkan indeks** sebagai gantinya
- `ascending=True`: **urutkan nilai** dalam urutan menaik

In [None]:
# menggunakan sort=False


### Cross Tabulation

Selain menggunakan method `value_counts()`, kita juga dapat menggunakan fungsi `crosstab` yang telah disediakan oleh `pandas` untuk menghitung frekuensi pada data. Syntax:

```
pd.crosstab(index=...,
            columns=...)
```

**Parameter wajib:**
- `index`: kolom yang akan dijadikan pengelompokkan pada baris (axis 0)
- `columns`: kolom yang akan dijadikan pengelompokkan pada kolom (axis 1)

🔻 Dengan permasalahan yang sama, mari kita lihat banyaknya transaksi di setiap harinya (`dayofweek`) menggunakan fungsi **`crosstab`**

In [None]:
# code here


❓Coba tampilkan hari dengan frekuensi transaksi terkecil

In [None]:
# code here


Method `sort_values()` untuk mengurutkan data frame berdasarkan kolom tertentu.

Parameter:

- `by`: diisi dengan nama kolom
- `ascending`: default = `True` diurutkan berdasarkan nilai terkecil ke terbesar

❓Tinjau frekuensi transaksi berdasarkan barang (`sub_category`) yang dibeli dan coba gali insight apa yang dapat kita ambil

In [None]:
# code here


> **📈 Insight:** ...

🔻 Pada bagian sebelumnya, kita tahu bahwa barang dengan transaksi terbanyak adalah ... Selanjutnya kita ingin tahu `format` market manakah yang paling banyak transaksi barang tersebut:

In [None]:
# code here


> **📈 Insight:** ...

___

Dari tabel frekuensi di atas:

1. 🔻 Bagaimana kalau kita ingin menghitung jumlah **frekuensi per baris/kolom**?
2. 🔻 Bagaimana kalau kita ingin melihat **proporsi** atau dalam **persentase**?

**Parameter tambahan:**

1. **`margins`**: Menambahkan baris atau kolom margins yang menampung nilai subtotal
2. **`normalize`**: Membagi keseluruhan nilai hasil crosstab dengan jumlah nilai.

#### Margins

🔻 Hitung frekuensi transaksi untuk penjualan barang (`sub_category`) di setiap segmen pasar (`format`).

Gunakan parameter `margins=True` untuk menampilkan total frekuensi transaksi pada setiap baris dan kolomnya.

In [None]:
# code here


Selain parameter `margins`, terdapat juga parameter `margins_name` untuk penamaan kolom hasil dari `margins=True`.

In [None]:
# code here


#### Normalize

Jika parameter normalize bernilai:
- `'all'` atau `True`: melakukan normalisasi untuk keseluruhan nilai
- `'index'`: melakukan normalisasi pada setiap **baris**
- `'columns'`: melakukan normalisasi pada setiap **kolom**

**Normalize by All**

In [None]:
# code here


> **📈 Insight:** ...

**Normalize by Index**

`normalize='index'` artinya tiap nilai dibagi dengan jumlah per **index**nya. Dengan kata lain, jumlah persentase per index = 100%

In [None]:
# code here


> **📈 Insight:** ...

**Normalize by Columns**

`normalize='columns'` artinya tiap nilai dibagi dengan jumlah per **columns**nya. Dengan kata lain, jumlah persentase per column = 100%

In [None]:
# code here


> **📈 Insight:** ...

___

## Dive Deeper: Contingency Table

Buatlah tabel frekuensi dengan menggunakan `pd.crosstab()` dengan `yearmonth` sebagai baris dan `format` sebagai kolom. Simpan ke object `trx_ym_format`

1. Dari tabel tersebut, tampilkan frekuensi transaksi yang terjadi pada **Januari 2018** (2018-01) untuk setiap format market. Hint: Gunakan metode subsetting.

2. Dari tabel tersebut, pada periode (`yearmonth`) manakah **`hypermarket`** memiliki frekuensi transaksi tertinggi?

In [None]:
# nomor 1


In [None]:
# nomor 2


Di setiap menjelang akhir tahun, tepatnya pada bulan `December`, setiap market memiliki promosi spesial untuk para pengunjung. Anda diminta untuk mencari tahu:

3. Format market apakah yang memiliki transaksi terbanyak pada bulan `December`?

4. Kategori barang (`category`) apa yang memiliki frekuensi transaksi terbanyak pada bulan `December`?

_Hint:_ Anda dapat melakukan partisi **nama bulan** terlebih dahulu kemudian menyimpannya ke dalam kolom baru pada dataframe `household` dengan nama `month`

In [None]:
# nomor 3


In [None]:
# nomor 4


**Optional: Bonus Challenge**

Dalam rangka menaikkan jumlah transaksi di **hypermarket**, perusahaan berencana untuk mengadakan _sale_ di jam dengan **transaksi terendah**. Apabila perusahaan hanya mempertimbangkan transaksi yang terjadi pada **tahun 2018**, maka pada jam berapakah _sale_ tersebut sebaiknya diadakan?

_Hint_:

1. Kolom apa saja yang dibutuhkan dalam analisis ini?
2. Baris yang seperti apa yang dibutuhkan dalam analisis ini?
3. Buat tabel frekuensinya

In [None]:
# code here


> Jawaban: ...

## Aggregation Tables

Selain menghitung frekuensi kemunculan data, kita juga dapat menggunakan crosstab untuk melakukan agregasi. Pada parameter crosstab, Anda dapat menambahkan parameter `values` sebagai nilai yang diagregasikan dan `aggfunc` sebagai nilai statistika yang dipakai untuk melakukan agregasi.

### `pd.crosstab`

```
pd.crosstab(index=...,
            columns=...,
            values=numerical_columns
            aggfunc=agg_function)
```

Beberapa contoh `aggfunc`:
- mean
- median
- min
- max
- std
- count: jumlah baris (tabel frekuensi)
- sum

🔻 Tinjau rata-rata harga satuan (`unit_price`) untuk setiap jenis barangnya (`sub_category`)

In [None]:
# mengatur tampilan float pada dataframe
# , untuk pemisah ribuan
# .3f untuk tiga angka di belakang koma
pd.options.display.float_format = '{:,.3f}'.format

In [None]:
# code here


> **📈 Insight:** ...

❓ Total jumlah item (`quantity`) yang terjual untuk per-`sub_category` 

In [None]:
# code here


> **📈 Insight:** ...

❓ **Case: Cheapest Rice**

Saat ingin belanja barang-barang kebutuhan pokok, tentunya dari sisi pembeli ingin mencari harga yang paling murah. Coba analisis apakah terdapat perbedaan **harga satuan** untuk masing-masing **sub kategori** barangnya pada **jenis market** yang berbeda-beda? Apabila ya, pada market apakah yang memiliki harga satuan Rice yang paling murah? Silahkan tinjau berdasarkan nilai rata-ratanya.

_Opsional:_ Gunakan `.idxmin()` pada hasil tabel agregasi untuk mendapatkan index dengan nilai terkecil

In [None]:
# code here


> **📈 Insight:** ...

❓ **Case: Sales Performance**

Divisi sales ingin mengetahui pada periode kuarter (year-quarter) berapakah hypermarket mencapai total sales tertingginya?

1. Buatlah kolom `subtotal` yang merupakan perkalian `quantity` dan `unit_price` untuk setiap barisnya
2. Partisi kolom `purchase_time` untuk mendapatkan periode kuarter
2. Dengan menggunakan nilai `subtotal`, hitunglah total penjualan per kuarter untuk masing-masing `format`
3. Cari tahu kapan hypermarket menyentuh total sales tertingginya

In [None]:
# code here


> **📈 Insight:** ...

___

### (Optional) Higher Dimensional Table

Higher dimensional table bisa juga disebut sebagai multi-index dataframe (data yang memiliki lebih dari 1 index). Digunakan untuk melakukan proses tabulasi silang dengan menggunakan beberapa kolom kategori.

Berikut adalah contoh crosstab dengan empat kategori pengelompokkan untuk mengetahui jumlah barang (`quantity`) yang terjual untuk masing-masing `sub_category` dan `format`, dibedakan per `yearmonth` dan `dayofweek`:

In [None]:
pd.crosstab(
    index=[household['yearmonth'], household['dayofweek']],
    columns=[household['sub_category'], household['format']],
    values=household['quantity'],
    aggfunc='sum')

Multi-index DataFrame akan dibahas lebih dalam pada course ke-3: Data Wrangling and Visualization. So stay tune~

___

### `pd.pivot_table`

Cara kerja `pivot_table` tidak jauh berbeda dengan `crosstab()`. Parameter di kedua method inipun hampir sama. Yang membedakan di antara keduanya adalah adanya parameter `data` yang menspesifikasikan dataframe yang akan di pakai pada `pivot_table`

Syntax:

```{python}
pd.pivot_table(
    data=...,
    index=...,
    columns=...,
    values=...,
    aggfunc=...
)
```

OR

```{python}
data.pivot_table(
    index=...,
    columns=...,
    values=...,
    aggfunc=...
)
```

Kita dapat menggunakan `pivot_table` dengan beberapa parameter sebagai berikut.
- `data`: dataframe yang kita gunakan
- `index`: kolom yang akan menjadi index row
- `columns`: kolom yang akan menjadi index kolom
- `values`: nilai yang digunakan untuk mengisi tabel
- `aggfunc`: fungsi agregasi

Untuk memahami penggunaan `pivot_table`, mari kita bandingkan tabel agregasi yang dibuat menggunakan `crosstab` dan `pivot_table`.

Berikut crosstab yang menampilkan rata-rata harga satuan `sub_category` untuk masing-masing `format`:

In [None]:
pd.crosstab(
    index=household['sub_category'], 
    columns=household['format'], 
    values=household['unit_price'],
    aggfunc='mean'
)

🔻 Buat ulang tabel agregasi di atas menggunakan `pd.pivot_table()`. Secara default, `aggfunc='mean'`

In [None]:
# code here


🔻 Kita juga dapat menggunakan `.pivot_table()` sebagai method pada sebuah objek dataframe:

In [None]:
# code here


❓ Coba tampilkan tabel aggregasi total penjualan (berdasarkan kolom `subtotal`) untuk masing-masing `sub_category` pada **supermarket**.

Berikut kita menjawab business question di atas menggunakan kombinasi conditional subsetting dan pivot table:

In [None]:
# code here


#### Dive Deeper: Re-create Frequency Table

Buat kembali tabel frekuensi berikut menggunakan pivot table.

| category                 |   hypermarket |   minimarket |   supermarket |   Total |
|:-------------------------|--------------:|-------------:|--------------:|--------:|
| **Fabric Care**          |          2611 |        24345 |          9044 |   36000 |
| **Rice**                 |           999 |         7088 |          3913 |   12000 |
| **Sugar/Flavored Syrup** |          1761 |        15370 |          6869 |   24000 |
| **Total**                |          5371 |        46803 |         19826 |   72000 |

Parameter:

- `index`: ...
- `columns`: ...
- `aggfunc`: ...
- `values`: ...
- Untuk baris dan kolom Total menggunakan parameter ...

In [None]:
# code here


Kesimpulan pivot table:

- Pada `pivot_table` parameter wajib hanya `data` dan salah satu antara `index` / `columns`
- Parameter default `aggfunc='mean'`
- Secara default, parameter `values` adalah semua kolom pada data yang dapat diterapkan fungsi agregasi
- Terdapat parameter `margins` dan `margins_name`, namun tidak terdapat `normalize` (hanya di `crosstab` saja)

___

## 📝 Summary: Tables in `pandas` 

## Frequency Tables

Kegunaan: menghitung jumlah baris atau frekuensi pada kolom yang bersifat category

Method:

1. Apabila hanya 1 kolom kategori, disarankan menggunakan `.value_counts()`. Hasil berupa Series

2. Untuk satu atau lebih dari satu kolom kategori:
    - `pd.crosstab(index, columns)`. Terdapat parameter tambahan:
        - `margins`: menghitung subtotal untuk masing-masing baris dan kolom
        - `normalize`: mengubah frekuensi menjadi proporsi (persentase)
        
    - `pd.pivot_table(data, index, aggfunc='count')`.
        - Tidak ada parameter `normalize`

## Aggregation Tables

Kegunaan: melakukan agregasi pada kolom numerik

Method:

1. `pd.crosstab(index, columns, values, aggfunc)`

2. `pd.pivot_table(data, index, columns, values, aggfunc)`

## `crosstab` vs `pivot_table`

Berikut perbedaan mendasar antara `crosstab` and `pivot_table`:

|                                                                                    | `pd.crosstab()` | `pd.pivot_table()` |
|------------------------------------------------------------------------------------|-----------------|--------------------|
|                                                                          **Input** |Series |          DataFrame |
|                                                              **Default `aggfunc`** |       `'count'` |           `'mean'` |
|                                                          **Parameter `normalize`** |       Available |      Not Available |
| [**Computation Time**](https://ramiro.org/notebook/pandas-crosstab-groupby-pivot/) | Relatively Slower |  Relatively Faster |

___

# Missing Values and Duplicates

Dalam melakukan pengolahan data, tidak semua data yang kita miliki adalah data yang "tidy". Ada kemungkinan bahwa data kita memiliki nilai yang hilang, memiliki nilai yang berulang, dan memiliki nilai yang tidak sesuai dengan nilai kolom yang seharusnya (misal usia memiliki nilai minus). Untuk mengatasi hal tersebut, kita dapat melakukan beberapa metode penanganan pada data yang hilang (missing value) atau data yang duplikat (duplicates value)

## Missing Values

Bacalah data `household-missing.csv` yang merupakan data `household` yang telah dimanipulasi sedemikian rupa agar terdapat nilai missing.

In [None]:
# read data
household_missing = pd.read_csv(
    'data_input/household-missing.csv',
    index_col='receipts_item_id',
    parse_dates=['purchase_time'])

household_missing.info()

**✏️ Catatan**:

- `NaN`: Not a Number
- `NaT`: Not a Time, untuk datetime64

### Check Missing Value

Metode yang paling umum digunakan untuk melihat missing value adalah:

- `.notna()` : mengembalikan `True` apabila **tidak** missing
- `.isna()` : mengembalikan `True` apabila **missing**

In [None]:
# isna


Menghitung jumlah missing value pada setiap kolom:

- `True` akan dihitung sebagai 1
- `False` akan dihitung sebagai 0

In [None]:
# code here


Selain menggunakan `isna()`, kita juga dapat menggunakan fungsi `notna()`

In [None]:
# notna


🔻 Kita dapat menggunakan `.notna()` dengan metode subsetting.

Misalnya ada kebutuhan bahwa kolom tertentu sama sekali tidak boleh memiliki *missing value*, artinya kita akan subset baris berdasarkan kolom tertentu yang tidak ada *missing value*

> Saya mau mengambil semua baris yang weekdaynya **tidak missing**, karena hanya kolom weekday yang missingnya 6 baris, sedangkan yang lain hanya 5 baris

In [None]:
# filter semua data yang weekdaynya tidak missing


Kapan kita menggunakan `isna()` atau `notna()`

- `isna()` biasanya digunakan bersamaan dengan method `.sum()` yang tujuannya untuk menghitung jumlah missing value pada tiap kolom
- `notna()` biasanya digunakan bersama metode subseting yang tujuannya untuk mensubset data yang salah satu/beberapa kolom tidak boleh ada missing value

### Treatment Missing Values

Beberapa cara umum untuk menangani missing values:

1. Hapus baris atau kolom: Menggunakan metode `dropna()` dengan ambang batas yang wajar untuk menghapus setiap baris yang berisi nilai missing, NA < 5%
2. Imputasi: Mengisi nilai NA dengan sebuah nilai
3. Tetap mempertahankan data kita

#### Hapus Baris yang NA

- `.dropna(how='any')`: (DEFAULT PARAMETER) hapus baris apabila memiliki **minimal 1 kolom** nilai missing value

- `.dropna(how='all')`: harus baris apabila memiliki **semua kolom** nilai missing

- `.dropna(thresh=...)`: hapus baris apabila nilai **non-missing** < `thresh` 

In [None]:
# how='any'


In [None]:
# how='all'


In [None]:
# tresh = 6, minimal harus ada 6 kolom yang TIDAK missing agar dipertahankan


✏️ **Notes** 

Ketika akan melakukan drop missing values menggunakan threshold `(thresh=n)`, maka yang sebaiknya diperhatikan adalah **jumlah kolom yang terisi (tidak NA)**. Jika nilai tidak NA **sama dengan atau lebih besar dari nilai threshold**, maka baris tidak di drop.

#### Imputasi

Metode `.fillna()` digunakan ketika ingin mengisi nilai terhadap data yang mengandung missing value.

💡 **Tips** untuk imputasi:

Untuk kolom numerik:

- Isi menggunakan pusat data seperti `mean` atau `median`
- Isi menggunakan model prediktif (regresi)

Untuk kolom kategorikal:

- Menggunakan `NA` sebagai salah satu dari kategori
- Isi menggunakan pusat data (mode)
- Isi menggunakan model prediktif (klasifikasi)

Untuk kolom datetime:

- Menggunakan metode `bfill`: melakukan imputasi dari baris bawah ke atas
- Menggunakan metode `ffill`: melakukan imputasi dari baris atas ke bawah

❓ Tinjau beberapa kolom yang missing value dan diskusikan imputasi yang cocok

- `purchase_time` (anggapan data terurut berdasarkan waktu): ...
- `category` (buat kategori baru): ...
- `format` (buat kategori baru): ...
- `unit_price` (isi dengan pusat data): ...
- `discount` (anggapan tidak ada discount): ...
- `quantity` (anggapan tidak ada item terjual): ...
- `weekday` (disamakan dengan purchase_time): ...

In [None]:
# code here: imputasi kolom purchase_time dan weekday


In [None]:
# code here: imputasi kolom category dan format


In [None]:
# code here: imputasi kolom discount dan quantity


In [None]:
# code here: imputasi kolom unit_price dengan pusat data


___

## Duplicated Values

### Check duplicated values

Untuk melakukan pengecekan terhadap ada atau tidaknya data yang duplikat, kita dapat menggunakan method `duplicated()`.

In [None]:
# cek data duplikat


## Handling Duplicate Data

Untuk menangani data yang duplicate, kita bisa menggunakan method `drop_duplicates()`. Cara ini membuat observasi yang duplicated terhapus dan kita bisa mengatur observasi mana yang akan tetap disimpan. 

**Case:**

Cek dimensi dari data `household_missing`. Hapus baris yang duplicated. Cek kembali dimensi data `household_missing`untuk memastikan data yang duplicate sudah terhapus.

**NOTE:** Terdapat tiga macam cara untuk melakukan penghapusan pada nilai duplicate.

1. Dengan menambahkan parameter `keep='first'`, maka akan mempertahankan baris **pertama (teratas)** dari nilai yang duplicate.
2. Dengan menambahkan parameter `keep='last'`, maka akan mempertahankan baris **terakhir (terbawah)** dari nilai yang duplicate.
3. Dengan menambahkan parameter `keep=False`, maka tidak mempertahankan baris yang duplikat. Dengan kata lain, menghapus semua baris yang duplikat.

In [None]:
# keep='first'


In [None]:
# keep='last'


In [None]:
# keep=False


⚠️ **Warning**: Duplikat dapat berarti hal yang berbeda dari sudut pandang data dan sudut pandang analis bisnis. Anda harus ekstra berhati-hati apakah data duplikat memang merupakan karakteristik dari data Anda, atau apakah itu merupakan sebuah kesalahan input data berdasarkan logika bisnisnya.

### Knowledge Check: Duplicate Data

❓**Q: Apakah kita harus drop data duplikat atau tidak?**

1. Sebuah pusat medis mengumpulkan data pemantauan detak jantung dari beberapa pasien anonim. Pengamatan ini diambil dalam kurun waktu 3 bulan:

In [None]:
monitoring = pd.DataFrame({
    'patient_id': ['001', '002', '003', '004', '005', '006'],
    'heart_rate': [100, 120, 90, 100, 98, 90]
}).set_index('patient_id')

monitoring.duplicated()

> Jawaban: Data duplikat (dihapus atau tidak dihapus), karena ...

2. Sebuah perusahaan asuransi ingin menerapkan model prediktif untuk menetapkan harga premi secara dinamis kepada masing-masing pelanggannya. Setiap baris berisi nama pelanggan, pekerjaan/profesi, dan data riwayat kesehatan mereka. Data ini diambil dalam kurun waktu 3 bulan

In [None]:
insurance = pd.DataFrame({
    'cust_id': ['C1', 'C2', 'C3', 'C4', 'C1', 'C5'],
    'occupation': ['Employee', 'Employee', 'Student', 'Student', 'Employee', 'Employee'],
    'health': ['Good', 'Ok', 'Good', 'Ok', 'Ok', 'Bad'],
    'date_updated': pd.Series(['2021-06-05', '2021-07-21', '2021-08-14', '2021-09-11', '2021-11-28', '2021-12-10'], dtype='datetime64[ns]')
})

insurance['cust_id'].duplicated()

> Jawaban: Data duplikat (dihapus atau tidak dihapus), karena ...

3. Pada data `household` yang kita punya, coba check duplikatnya. Apakah Anda akan menghapus baris yang duplikat?

In [None]:
# baca kembali data household.csv dengan receipts_item_id sebagai index
household_duplicate = pd.read_csv('data_input/household.csv', index_col='receipts_item_id')
household_duplicate.duplicated().sum()

In [None]:
# mengambil baris yang terduplikasi dengan keep=False agar data yang terduplikasi muncul semuanya
# lalu sort berdasarkan receipt_id
household_duplicate[household_duplicate.duplicated(keep=False)].sort_values('receipt_id')

> Jawaban: Data duplikat (dihapus atau tidak dihapus), karena ...