**Inclass material for Week 2: Exploratory Data Analysis**

This notebook was made based on main materials `2_Exploratory_Data_Analysis.ipynb`

___

# Exploratory Data Analysis (EDA)

## Training Objectives

The coursebook focuses on:
- Why and What: Exploratory Data Analysis
- Date Time objects
- Categorical data types
- Cross Tabulation and Pivot Table
- Treating Duplicates and Missing Values 

## Apa itu EDA?

Exploratory Data Analysis (EDA) adalah suatu proses untuk melakukan eksplorasi lebih jauh terhadap data, seperti melihat struktur data dan sebaran data. Hal ini dapat membantu menentukan apakah teknik statistik yang Anda pertimbangkan untuk analisis data sudah sesuai.

Awalnya dikembangkan oleh matematikawan Amerika bernama John Tukey pada 1970-an, teknik EDA terus menjadi metode yang banyak digunakan dalam proses penemuan data saat ini.

## Mengapa EDA penting?

Tujuan utama EDA adalah untuk membantu melihat data sebelum membuat asumsi apa pun.

- Mengidentifikasi dan memahami pola dalam data
- Mendeteksi adanya kejadian anomali
- Menemukan hubungan yang menarik antara variabel

Seorang data analyst dan data scientist dapat menggunakan analisis eksplorasi untuk:

- Memastikan hasil valid dan berlaku untuk tujuan bisnis yang diinginkan
- Membantu pemangku kepentingan mengambil keputusan yang tepat
- Melanjutkan ke tahapan analisis yang lebih dalam, misalnya untuk pemodelan machine learning (predictive)

## Tools EDA

Pada course sebelumnya, kami memiliki beberapa teknik umum:

- `.head()` dan `.tail()` untuk inspeksi data
- `.describe()` untuk mendeskripsikan data secara statistik
- `.shape` dan `.size` untuk cek dimensi data
- `.axes` untuk cek label index kolom dan baris
- `.dtypes` untuk cek tipe data

Dalam course ini, kita akan memperluas pemahaman EDA dengan teknik berikut:

- Tables
- Cross-table and aggregates
- Pivot Tables

## Problem Statement

🔻 Anda merupakan seorang analis data yang bekerja di sebuah perusahaan retail. Anda diminta untuk melakukan eksplorasi terhadap data transaksi hingga mendapatkan insight-insight bisnis yang dapat Anda ceritakan kepada rekan atau atasan Anda.

___

# Setup Libraries

In [4]:
import pandas as pd

# Data Preparation

## Load Data

🔻 Data transaksi terletak di dalam folder `data_input` dengan nama **`household.csv`**. Dengan bantuan library `pandas` bacalah data tersebut.

In [5]:
# code here
household = pd.read_csv("data_input/household.csv")

household.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
0,9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
1,9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
2,9470290,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07
3,9643416,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07
4,9692093,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.0,0,1,2018-07


## Data Description

Dataset ini merupakan data transaksi pembelian barang kebutuhan rumah tangga. Informasi kolom:

- `receipt_id`: Identifier untuk satu struk
- `receipts_item_id`: Identifier unik untuk satu item pada struk tertentu
- `purchase_time`: Waktu melakukan pembelian
- `category`: Kategori item
- `sub_category`: Sub-kategori item
- `format`: Jenis pasar tempat membeli barang (supermarket, minimarket, hypermarket)
- `unit_price`: Harga per unit
- `diskon`: Diskon
- `quantity`: Jumlah barang yang dibeli
- `yearmonth`: Informasi tahun dan bulan

🔻 Lakukan investigasi awal untuk melihat struktur data terhadap object DataFrame dengan menggunakan method `.info()`

In [6]:
# code here
household.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72000 entries, 0 to 71999
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   receipt_id        72000 non-null  int64  
 1   receipts_item_id  72000 non-null  int64  
 2   purchase_time     72000 non-null  object 
 3   category          72000 non-null  object 
 4   sub_category      72000 non-null  object 
 5   format            72000 non-null  object 
 6   unit_price        72000 non-null  float64
 7   discount          72000 non-null  int64  
 8   quantity          72000 non-null  int64  
 9   yearmonth         72000 non-null  object 
dtypes: float64(1), int64(4), object(5)
memory usage: 5.5+ MB


💡 Dengan menggunakan method `.info()`, kita dapat memeriksa **informasi** lengkap dari DataFrame kita:

- Dimensi data: jumlah baris dan kolom (`.shape`)
- Nama kolom dan jumlah nilai bukan nol (`.columns`)
- Tipe data setiap kolom (`.dtypes`)
- Penggunaan memori

# Data Pre-processing and Feature Engineering

## Working with Datetime

🔻 Tahap selanjutnya anda perlu menyesuaikan tipe data untuk dapat melakukan proses analisis lanjutan

In [7]:
# code here
household.dtypes

receipt_id            int64
receipts_item_id      int64
purchase_time        object
category             object
sub_category         object
format               object
unit_price          float64
discount              int64
quantity              int64
yearmonth            object
dtype: object

In [8]:
household.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
0,9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
1,9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
2,9470290,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07
3,9643416,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07
4,9692093,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.0,0,1,2018-07


**❓ Kolom manakah yang seharusnya memiliki format tipe data date time?**

> Jawaban: kolom `purchase_time` perlu diubah tipe datanya menjadi `datetime64`. untuk kolom `yearmonth` tidak perlu diubah karena informasinya sudah diwakili oleh kolom `purchase_time`.

### Convert to Datetime

Ada tiga cara untuk mengubah sebuah kolom menjadi tipe data `datetime64`:

- Method **`.astype()`**
- Parameter **`parse_dates`** dalam `pd.read_csv()`
- Method **`pd.to_datetime()`**

#### 1️⃣ Method `.astype()`

🔻 Mari kita buat salinan `household` agar data aslinya tetap tidak berubah.

In [9]:
df_1 = household.copy()

Ubah menggunakan `.astype()`

In [10]:
# code here
df_1['purchase_time'] = df_1['purchase_time'].astype('datetime64')

In [11]:
df_1.dtypes

receipt_id                   int64
receipts_item_id             int64
purchase_time       datetime64[ns]
category                    object
sub_category                object
format                      object
unit_price                 float64
discount                     int64
quantity                     int64
yearmonth                   object
dtype: object

⚠️**Warning**: Jangan lupa untuk melakukan assignment hasilnya ke kolom aslinya.

#### 2️⃣ Parameter `parse_dates`

Digunakan ketika ***read*** data, dengan asumsi kita sudah tahu kolom mana yang seharusnya `datetime64`.

In [12]:
df_2 = pd.read_csv('data_input/household.csv', parse_dates=['purchase_time'])
df_2.dtypes

receipt_id                   int64
receipts_item_id             int64
purchase_time       datetime64[ns]
category                    object
sub_category                object
format                      object
unit_price                 float64
discount                     int64
quantity                     int64
yearmonth                   object
dtype: object

#### 3️⃣ Method `pd.to_datetime()`

🔻 Mari kita buat salinan `household` agar data aslinya tetap tidak berubah.

In [13]:
df_3 = household.copy()
df_3.dtypes

receipt_id            int64
receipts_item_id      int64
purchase_time        object
category             object
sub_category         object
format               object
unit_price          float64
discount              int64
quantity              int64
yearmonth            object
dtype: object

Ubah menggunakan method `pd.to_datetime()`

In [14]:
# code here
df_3['purchase_time'] = pd.to_datetime(df_3['purchase_time'])
df_3.dtypes

receipt_id                   int64
receipts_item_id             int64
purchase_time       datetime64[ns]
category                    object
sub_category                object
format                      object
unit_price                 float64
discount                     int64
quantity                     int64
yearmonth                   object
dtype: object

In [15]:
# # kolom `yearmonth` hanya berisi informasi bulan dan tahun
# # hasil konversinya menjadi memiliki tanggal, tetapi dibuat 1 seluruhnya
pd.to_datetime(df_3['yearmonth'])

0       2018-07-01
1       2018-07-01
2       2018-07-01
3       2018-07-01
4       2018-07-01
           ...    
71995   2017-12-01
71996   2017-12-01
71997   2017-12-01
71998   2017-12-01
71999   2017-12-01
Name: yearmonth, Length: 72000, dtype: datetime64[ns]

In [16]:
# # ubah tipe data lebih dari 1 kolom
# date_col = ['purchase_time','yearmonth']
# df_3[date_col] = df_3[date_col].astype('datetime64')

💬 Jadi, apa yang membedakan `.astype()` dengan `pd.to_datetime()`?

> Pada `pd.to_datetime()` terdapat lebih banyak **parameter** yang dapat digunakan dalam mengatur pengkonversian sebuah kolom menjadi datetime. Dengan demikian, `pd.to_datetime()` lebih memberikan **fleksibilitas** daripada `.astype()`.

Misalkan kita memiliki kolom yang menyimpan data penjualan harian dari **akhir Januari hingga awal Februari**

In [17]:
sales_date = pd.Series(['30-Jan-2022', '31/01/2022', '01-02-2022', '02-02-22'])
sales_date

0    30-Jan-2022
1     31/01/2022
2     01-02-2022
3       02-02-22
dtype: object

Contoh di atas menunjukkan bagaimana orang Indonesia biasanya menulis tanggal, menggunakan format **tanggal-bulan-tahun**. Mari kita lihat apa yang akan terjadi ketika kita mengonversi tipe data `sales_date` menjadi `datetime64`:

In [18]:
# code here
sales_date.astype('datetime64')

  to_datetime(arr).values,


0   2022-01-30
1   2022-01-31
2   2022-01-02
3   2022-02-02
dtype: datetime64[ns]

⚠️ **Warning**: `pandas` secara default akan menyimpulkannya **bulan** sebagai urutan pertama.

#### Parameter `dayfirst`

Solusi: Menggunakan parameter `dayfirst=True` untuk memberitahu bahwa `sales_date` diawali dengan hari, bukan bulan.

In [19]:
# code here
sales_date = pd.to_datetime(sales_date, dayfirst=True)

**📝 Optional: String format time (strftime)**

Sebuah kolom `datetime64` memiliki method `.dt.strftime()` untuk mengubah `datetime64` (format `yyyy-mm-dd`) menjadi string dengan format lain. 

> [Dokumentasi Python `strftime` cheatsheet](https://strftime.org/)

In [20]:
sales_date.dt.strftime('%A, %d %B %Y')

0        Sunday, 30 January 2022
1        Monday, 31 January 2022
2      Tuesday, 01 February 2022
3    Wednesday, 02 February 2022
dtype: object

**✏️ Quick Summary:**

Kapan waktu yang tepat untuk menggunakan 3 cara tersebut?

- `.astype('datetime64')`: ketika tidak ada lagi parameter yang ingin digunakan, atau data dengan format tanggalnya berupa bulan-tanggal-tahun
- `pd.to_datetime()`: ketika ada parameter yang ingin kita tambahkan, atau yang format tanggalnya adalah **selain** bulan-tanggal-tahun
- `parse_dates=['kolom']`: merupakan parameter `pd.read_csv()`, digunakan ketika kita sudah kenal atau terbiasa dengan data kita dan tahu kolom mana yang ingin diubah menjadi `datetime64`

___

### Datetime Partition

Ketika sebuah kolom sudah menjadi `datetime64`, kita dapat mengambil bagian waktu lebih spesifik seperti tahun, bulan, hari, dan jam.

**Date component (numeric)**
- `.dt.year` untuk komponen tahun
- `.dt.month` untuk komponen bulan (dalam angka)
- `.dt.day` untuk komponen tanggal (dalam angka)
- `.dt.dayofweek`

**Date component (string)**
- `.dt.month_name()` untuk komponen nama bulan
- `.dt.day_name()`untuk komponen nama hari

**Time component**
- `.dt.hour` untuk komponen jam
- `.dt.minute` untuk komponen menit
- `.dt.second` untuk komponen detik

> [Dokumentasi: datetime properties](https://pandas.pydata.org/pandas-docs/stable/reference/series.html#datetimelike-properties)

**🔻 Namun pertama-tama mari kita ubah kolom `purchase_time` pada data `household` menjadi `datetime64`**

In [21]:
household.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
0,9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
1,9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
2,9470290,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07
3,9643416,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07
4,9692093,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.0,0,1,2018-07


In [22]:
# code here
household['purchase_time'] = household['purchase_time'].astype('datetime64')
household.dtypes

receipt_id                   int64
receipts_item_id             int64
purchase_time       datetime64[ns]
category                    object
sub_category                object
format                      object
unit_price                 float64
discount                     int64
quantity                     int64
yearmonth                   object
dtype: object

**📆 Attribute pada `.dt`**

Gunakan **attribute** untuk ekstrak komponen dalam nilai **numerik**

In [23]:
household['purchase_time']

0       2018-07-22 21:19:00
1       2018-07-15 16:17:00
2       2018-07-15 12:12:00
3       2018-07-24 08:27:00
4       2018-07-26 11:28:00
                ...        
71995   2017-12-27 09:20:00
71996   2017-12-13 19:52:00
71997   2017-12-27 08:03:00
71998   2017-12-07 12:29:00
71999   2017-12-19 18:59:00
Name: purchase_time, Length: 72000, dtype: datetime64[ns]

In [24]:
# ekstrak tahun
household['purchase_time'].dt.year

0        2018
1        2018
2        2018
3        2018
4        2018
         ... 
71995    2017
71996    2017
71997    2017
71998    2017
71999    2017
Name: purchase_time, Length: 72000, dtype: int64

In [25]:
# ekstrak jam
household['purchase_time'].dt.hour

0        21
1        16
2        12
3         8
4        11
         ..
71995     9
71996    19
71997     8
71998    12
71999    18
Name: purchase_time, Length: 72000, dtype: int64

**`dt.dayofweek`** untuk ekstrak index hari dalam seminggu (nilainya 0 sampai 6)

- 0 menunjukkan hari Senin
- 6 menunjukkan hari Minggu

In [26]:
# ekstrak index hari dalam seminggu
household['purchase_time'].dt.dayofweek

0        6
1        6
2        6
3        1
4        3
        ..
71995    2
71996    2
71997    2
71998    3
71999    1
Name: purchase_time, Length: 72000, dtype: int64

In [27]:
# ekstrak waktu
household['purchase_time'].dt.time

0        21:19:00
1        16:17:00
2        12:12:00
3        08:27:00
4        11:28:00
           ...   
71995    09:20:00
71996    19:52:00
71997    08:03:00
71998    12:29:00
71999    18:59:00
Name: purchase_time, Length: 72000, dtype: object

**📆 Method pada `.dt`**

Gunakan **method** (dengan tanda kurung) untuk ekstrak komponen dalam nilai **string/object**

In [28]:
household['purchase_time']

0       2018-07-22 21:19:00
1       2018-07-15 16:17:00
2       2018-07-15 12:12:00
3       2018-07-24 08:27:00
4       2018-07-26 11:28:00
                ...        
71995   2017-12-27 09:20:00
71996   2017-12-13 19:52:00
71997   2017-12-27 08:03:00
71998   2017-12-07 12:29:00
71999   2017-12-19 18:59:00
Name: purchase_time, Length: 72000, dtype: datetime64[ns]

In [29]:
# ekstrak nama hari
household['purchase_time'].dt.day_name()

0           Sunday
1           Sunday
2           Sunday
3          Tuesday
4         Thursday
           ...    
71995    Wednesday
71996    Wednesday
71997    Wednesday
71998     Thursday
71999      Tuesday
Name: purchase_time, Length: 72000, dtype: object

In [30]:
# ekstrak nama bulan
household['purchase_time'].dt.month_name()

0            July
1            July
2            July
3            July
4            July
           ...   
71995    December
71996    December
71997    December
71998    December
71999    December
Name: purchase_time, Length: 72000, dtype: object

___

### Datetime Transformation

Selain digunakan untuk melakukan partisi, kita juga dapat melakukan transformasi object `datetime64` ke dalam format periode menggunakan method `.to_period()`.

- `.dt.to_period('D')` untuk mengubah ke format **D**aily (tanggal lengkap)
- `.dt.to_period('W')` untuk mengubah ke format **W**eekly (awal dan akhir minggu)
- `.dt.to_period('M')` untuk mengubah ke format **M**onthly (year-month)
- `.dt.to_period('Q')` untuk mengubah ke format **Q**uarterly (year-quarter)

In [31]:
household.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07
3,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07
4,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07


In [32]:
household['purchase_time'].head()

0   2018-07-22 21:19:00
1   2018-07-15 16:17:00
2   2018-07-15 12:12:00
3   2018-07-24 08:27:00
4   2018-07-26 11:28:00
Name: purchase_time, dtype: datetime64[ns]

In [33]:
# D -> Daily
household['purchase_time'].dt.to_period('D')

0        2018-07-22
1        2018-07-15
2        2018-07-15
3        2018-07-24
4        2018-07-26
            ...    
71995    2017-12-27
71996    2017-12-13
71997    2017-12-27
71998    2017-12-07
71999    2017-12-19
Name: purchase_time, Length: 72000, dtype: period[D]

In [34]:
# W -> Weekly (format: MON/SUN)
household['purchase_time'].dt.to_period('W')

0        2018-07-16/2018-07-22
1        2018-07-09/2018-07-15
2        2018-07-09/2018-07-15
3        2018-07-23/2018-07-29
4        2018-07-23/2018-07-29
                 ...          
71995    2017-12-25/2017-12-31
71996    2017-12-11/2017-12-17
71997    2017-12-25/2017-12-31
71998    2017-12-04/2017-12-10
71999    2017-12-18/2017-12-24
Name: purchase_time, Length: 72000, dtype: period[W-SUN]

In [35]:
# M -> Monthly (year-month)
household['purchase_time'].dt.to_period('M')

0        2018-07
1        2018-07
2        2018-07
3        2018-07
4        2018-07
          ...   
71995    2017-12
71996    2017-12
71997    2017-12
71998    2017-12
71999    2017-12
Name: purchase_time, Length: 72000, dtype: period[M]

In [36]:
# Q -> Quarterly (year quarter)
household['purchase_time'].dt.to_period('Q')

0        2018Q3
1        2018Q3
2        2018Q3
3        2018Q3
4        2018Q3
          ...  
71995    2017Q4
71996    2017Q4
71997    2017Q4
71998    2017Q4
71999    2017Q4
Name: purchase_time, Length: 72000, dtype: period[Q-DEC]

___

### Dive Deeper: Feature Engineering & Datetime data types
_Est. Time required: 10 minutes_

1. Pada cell di bawah ini, import kembali data `household.csv` dan simpan ke dalam variable bernama `household_new`
2. Ubah `purchase_time` ke tipe data `datetime64`
3. Dapatkan nama hari menggunakan perintah `x.dt.day_name()` dengan asumsi `x` adalah nama kolom datetime yang akan dipartisi. Simpan hasil partisi nama hari ke dalam kolom baru dengan nama `dayofweek`
4. Cobalah re-create kolom `yearmonth` dari kolom `purchase_time` dan simpan ke kolom baru bernama `yearmonth_recreate`.
5. Tampilkan 5 data teratas untuk memastikan bahwa langkah yang dilakukan sudah tepat 

In [37]:
# Nomor 1 dan 2
household_new = pd.read_csv("data_input/household.csv", parse_dates=['purchase_time'])
household_new.dtypes

receipt_id                   int64
receipts_item_id             int64
purchase_time       datetime64[ns]
category                    object
sub_category                object
format                      object
unit_price                 float64
discount                     int64
quantity                     int64
yearmonth                   object
dtype: object

In [38]:
# Nomor 3
household_new['dayofweek'] = household_new['purchase_time'].dt.day_name()
household_new.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,dayofweek
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07,Sunday
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07,Sunday
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07,Sunday
3,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07,Tuesday
4,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07,Thursday


In [39]:
# Nomor 4
household_new['yearmonth_recreate'] = household_new['purchase_time'].dt.to_period('M')
household_new.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,dayofweek,yearmonth_recreate
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07,Sunday,2018-07
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07,Sunday,2018-07
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07,Sunday,2018-07
3,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07,Tuesday,2018-07
4,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07,Thursday,2018-07


**END OF DAY 1**
___
**START OF DAY 2**

**(Optional) Extra Challenge**

Misalkan perkiraan waktu pengiriman akan membutuhkan waktu 2 hari **setelah** produk dibeli (`purchase_time`). Buatlah kolom baru dengan nama `est_shipdate` yang menyimpan perkiraan waktu pengiriman setiap transaksi!

In [40]:
household_new.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,dayofweek,yearmonth_recreate
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07,Sunday,2018-07
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07,Sunday,2018-07
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07,Sunday,2018-07
3,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07,Tuesday,2018-07
4,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07,Thursday,2018-07


In [41]:
# code here
household_new['est_shipdate'] = household_new['purchase_time'] + pd.Timedelta(2, unit='d')
household_new.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,dayofweek,yearmonth_recreate,est_shipdate
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07,Sunday,2018-07,2018-07-24 21:19:00
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07,Sunday,2018-07,2018-07-17 16:17:00
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07,Sunday,2018-07,2018-07-17 12:12:00
3,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07,Tuesday,2018-07,2018-07-26 08:27:00
4,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07,Thursday,2018-07,2018-07-28 11:28:00


In [42]:
# membuat timedelta 1 tahun + 5 minggu + 2 hari
pd.Timedelta(weeks=52+5, days=2)

Timedelta('401 days 00:00:00')

**Hint:** `pandas` memiliki sebuah method bermana `pd.Timedelta()` yang dapat digunakan untuk menghitung selisih hari, jam, bahkan detik.

> [Dokumentasi: Timedelta](https://pandas.pydata.org/docs/reference/api/pandas.Timedelta.html)

___

## Working with Categories

Karakteristik tipe data `category` yaitu nilai yang berulang pada kolom, dengan kata lain jumlah uniknya cukup sedikit.

🔻 Cek kembali tipe data yang belum sesuai:

In [43]:
household_cat = household_new.copy()
household_cat.dtypes

receipt_id                     int64
receipts_item_id               int64
purchase_time         datetime64[ns]
category                      object
sub_category                  object
format                        object
unit_price                   float64
discount                       int64
quantity                       int64
yearmonth                     object
dayofweek                     object
yearmonth_recreate         period[M]
est_shipdate          datetime64[ns]
dtype: object

💡 **Tips**: Ketika kita belum mengetahui kolom mana saja yang dapat diubah ke dalam tipe data category, kita dapat melakukan pengecekan terlebih dahulu menggunakan method **`.nunique()`**. Kolom yang memiliki banyaknya nilai unik yang sedikit dapat digolongkan sebagai tipe data category.

Method:

- `.unique()` melihat nilai yang unik dari sebuah kolom
- `.nunique()` melihat banyaknya nilai yang unik dari sebuah kolom atau dataframe

Mari kita cek kembali tipe data pada object `household_cat`. Manakah yang seharusnya memiliki tipe data category?

In [44]:
household_cat.shape

(72000, 13)

In [45]:
# code here
household_cat.nunique()

receipt_id            69776
receipts_item_id      72000
purchase_time         62072
category                  3
sub_category              3
format                    3
unit_price             3884
discount               1329
quantity                 19
yearmonth                12
dayofweek                 7
yearmonth_recreate       12
est_shipdate          62072
dtype: int64

In [46]:
household_cat['yearmonth']

0        2018-07
1        2018-07
2        2018-07
3        2018-07
4        2018-07
          ...   
71995    2017-12
71996    2017-12
71997    2017-12
71998    2017-12
71999    2017-12
Name: yearmonth, Length: 72000, dtype: object

**❓Kolom manakah yang seharusnya memiliki format tipe `'category'`?**

> Jawaban: `category`, `sub_category`, `format`, `yearmonth`, `dayofweek`

In [47]:
# mengubah tipe data beberapa kolom menjadi tipe category
cat_cols = ['category', 'sub_category', 'format', 'yearmonth', 'dayofweek']
household_cat[cat_cols] = household_cat[cat_cols].astype('category')

household_cat.dtypes

receipt_id                     int64
receipts_item_id               int64
purchase_time         datetime64[ns]
category                    category
sub_category                category
format                      category
unit_price                   float64
discount                       int64
quantity                       int64
yearmonth                   category
dayofweek                   category
yearmonth_recreate         period[M]
est_shipdate          datetime64[ns]
dtype: object

**Advantages**

**1️⃣ Memory Efficient**

Kita dapat membandingkan dua DataFrame **sebelum dan sesudah** kolom dikonversi ke tipe data `category`:

- `household_new` (before): 7.1+ MB
- `household_cat` (after): 4.7 MB

In [48]:
# check penggunaan memory SEBELUM konversi menjadi category
household_new.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72000 entries, 0 to 71999
Data columns (total 13 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   receipt_id          72000 non-null  int64         
 1   receipts_item_id    72000 non-null  int64         
 2   purchase_time       72000 non-null  datetime64[ns]
 3   category            72000 non-null  object        
 4   sub_category        72000 non-null  object        
 5   format              72000 non-null  object        
 6   unit_price          72000 non-null  float64       
 7   discount            72000 non-null  int64         
 8   quantity            72000 non-null  int64         
 9   yearmonth           72000 non-null  object        
 10  dayofweek           72000 non-null  object        
 11  yearmonth_recreate  72000 non-null  period[M]     
 12  est_shipdate        72000 non-null  datetime64[ns]
dtypes: datetime64[ns](2), float64(1), int64(4), ob

In [49]:
# check penggunaan memory SESUDAH konversi menjadi category
household_cat.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72000 entries, 0 to 71999
Data columns (total 13 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   receipt_id          72000 non-null  int64         
 1   receipts_item_id    72000 non-null  int64         
 2   purchase_time       72000 non-null  datetime64[ns]
 3   category            72000 non-null  category      
 4   sub_category        72000 non-null  category      
 5   format              72000 non-null  category      
 6   unit_price          72000 non-null  float64       
 7   discount            72000 non-null  int64         
 8   quantity            72000 non-null  int64         
 9   yearmonth           72000 non-null  category      
 10  dayofweek           72000 non-null  category      
 11  yearmonth_recreate  72000 non-null  period[M]     
 12  est_shipdate        72000 non-null  datetime64[ns]
dtypes: category(5), datetime64[ns](2), float64(1),

**2️⃣ Accessor Category `.cat`**

Seperti tipe data `datetime64` yang memiliki pengakses `.dt`, tipe data `category` memiliki pengakses `.cat`. Berikut adalah beberapa contohnya:

In [50]:
household_cat.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,dayofweek,yearmonth_recreate,est_shipdate
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07,Sunday,2018-07,2018-07-24 21:19:00
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07,Sunday,2018-07,2018-07-17 16:17:00
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07,Sunday,2018-07,2018-07-17 12:12:00
3,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07,Tuesday,2018-07,2018-07-26 08:27:00
4,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07,Thursday,2018-07,2018-07-28 11:28:00


🔻 Mengetahui kategori dari sebuah kolom category:

In [51]:
household_cat['category'].cat.categories

Index(['Fabric Care', 'Rice', 'Sugar/Flavored Syrup'], dtype='object')

In [52]:
household_cat['dayofweek'].cat.categories

Index(['Friday', 'Monday', 'Saturday', 'Sunday', 'Thursday', 'Tuesday',
       'Wednesday'],
      dtype='object')

🔻 Mengurutkan kategori dari sebuah kolom category yang bersifat **ordinal** (tipe data kategori yang ada urutannya):

In [53]:
ordered_dayofweek = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
household_cat['dayofweek'] = household_cat['dayofweek'].cat.reorder_categories(ordered_dayofweek, ordered=True) # ordered=True untuk membuat aturan bahwa kategori A lebih besar dari kategori B

In [54]:
# cek kembali, pengurutan sudah sesuai dengan yang kita inginkan
household_cat['dayofweek'].cat.categories

Index(['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday',
       'Sunday'],
      dtype='object')

In [55]:
household_cat['dayofweek'].unique()

# ket. ['Monday' < 'Tuesday' < 'Wednesday' < ...] menunjukkan parameter orderes=True bekerja

['Sunday', 'Tuesday', 'Thursday', 'Wednesday', 'Saturday', 'Monday', 'Friday']
Categories (7, object): ['Monday' < 'Tuesday' < 'Wednesday' < 'Thursday' < 'Friday' < 'Saturday' < 'Sunday']

In [140]:
# pemanfaatan data kategori hasil dari parameter ordered=True
# mengambil data dengan kategori `dayofweek` yang lebih besar dari Friday (Saturday dan Sunday)
household_cat[household_cat['dayofweek'] > 'Friday']

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,dayofweek,yearmonth_recreate,est_shipdate
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.000,0,1,2018-07,Sunday,2018-07,2018-07-24 21:19:00
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.000,0,1,2018-07,Sunday,2018-07,2018-07-17 16:17:00
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.000,0,3,2018-07,Sunday,2018-07,2018-07-17 12:12:00
6,9822589,32935097,2018-07-29 18:18:00,Rice,Rice,supermarket,66500.000,0,1,2018-07,Sunday,2018-07,2018-07-31 18:18:00
9,9444092,31913062,2018-07-14 21:17:00,Rice,Rice,supermarket,64000.000,0,3,2018-07,Saturday,2018-07,2018-07-16 21:17:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...
71984,5773278,17604466,2017-12-16 21:20:00,Sugar/Flavored Syrup,Sugar,supermarket,12400.000,0,1,2017-12,Saturday,2017-12,2017-12-18 21:20:00
71986,5872216,17846023,2017-12-24 14:32:00,Sugar/Flavored Syrup,Sugar,minimarket,12500.000,0,1,2017-12,Sunday,2017-12,2017-12-26 14:32:00
71987,5962242,18126158,2017-12-31 18:03:00,Sugar/Flavored Syrup,Sugar,supermarket,12400.000,0,1,2017-12,Sunday,2017-12,2018-01-02 18:03:00
71988,5874919,17868852,2017-12-24 18:50:00,Sugar/Flavored Syrup,Sugar,supermarket,10900.000,0,1,2017-12,Sunday,2017-12,2017-12-26 18:50:00


> Masih banyak fungsionalitas tipe data category yang dapat Anda eksplor. Silahkan merujuk ke [dokumentasi accessor .cat](https://pandas.pydata.org/pandas-docs/stable/reference/series.html#categorical-accessor) untuk daftar lebih lengkapnya.

# 📝 Summary by Knowledge Check

1. Berikut yang merupakan tujuan dari Exploratory Data Analisis (EDA) adalah:

    - [ ] A. Mengetahui pola pada data
    - [ ] B. Mencari anomali pada data
    - [ ] C. Mencari jawaban dari pertanyaan bisnis yang kita miliki
    - [ ] D. Menganalisis hingga mendapatkan suatu insight
    - [x] E. Semua benar
    
    
2. Berikut yang **bukan** merupakan tools untuk melakukan investigasi struktur pada data kita adalah:

    - [ ] A. `df.head()`
    - [ ] B. `df.info()`
    - [x] C. `df.astype()`
    - [ ] D. `df.dtypes`
    - [ ] E. `df.columns`
    

3. Kita telah mempelajari `.astype()`, `parse_dates`, dan `pd.to_datetime()`. Manakah pernyataan berikut yang **salah** terkait dari ketiganya:

    - [ ] A. `pd.to_datetime()` digunakan ketika format date kita berawalan dengan tanggal, menggunakan parameter `dayfirst=True`
    - [x] B. `.astype()` digunakan ketika format tanggal kita hanya bulan dan tahun saja tanpa tanggal
    - [ ] C. Parameter `parse_dates` dapat digunakan ketika kita sudah terbiasa dengan data yang kita olah
    - [ ] D. Ketiganya dapat digunakan untuk mengubah tipe data sebuah kolom menjadi `datetime64`
    
    
4. Berikut adalah alasan kita menyesuaikan tipe data pada sebuah kolom, yaitu agar ...

    - [ ] A. Antar kolom bisa dilakukan operasi matematis (misal penjumlahan, pengurangan, dsb)
    - [ ] B. Komponen tertentu dapat diekstrak untuk analisis lebih lanjut
    - [ ] C. Dapat menghemat penggunaan memory
    - [ ] D. Tiap tipe data memiliki fungsionalitas pada accessor nya masing-masing
    - [x] E. Semuanya benar

# Data Analysis

In [57]:
# menimpa object household dengan tipe data yang sudah disesuaikan
household = household_cat.copy()
household.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,dayofweek,yearmonth_recreate,est_shipdate
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07,Sunday,2018-07,2018-07-24 21:19:00
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07,Sunday,2018-07,2018-07-17 16:17:00
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07,Sunday,2018-07,2018-07-17 12:12:00
3,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07,Tuesday,2018-07,2018-07-26 08:27:00
4,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07,Thursday,2018-07,2018-07-28 11:28:00


## Contingency Tables / Frequency Tables

Tabel kontingensi digunakan untuk menghitung nilai frekuensi/kemunculan data.

### Method `.value_counts()`

**Kegunaan**: Menghitung jumlah baris pada setiap category dalam 1 kolom, dan defaultnya diurutkan secara descending

❓ Jenis market mana yang paling banyak melakukan transaksi berdasarkan data `household`?

In [142]:
household.dtypes

receipt_id                     int64
receipts_item_id               int64
purchase_time         datetime64[ns]
category                    category
sub_category                category
format                      category
unit_price                   float64
discount                       int64
quantity                       int64
yearmonth                   category
dayofweek                   category
yearmonth_recreate         period[M]
est_shipdate          datetime64[ns]
month                         object
subtotal                     float64
quarterly              period[Q-DEC]
dtype: object

In [141]:
# code here
household['format'].value_counts()

minimarket     46803
supermarket    19826
hypermarket     5371
Name: format, dtype: int64

> **📈 Insight:** 

- Jumlah transaksi pada jenis market `hypermarket` paling rendah
- Jumlah transaksi pada jenis market `minimarket` paling tinggi
- Jumlah transaksi pada jenis market `supermarket` berada di pertengahan

**Possible reasons:** (*need further analysis*)

- Jumlah transaksi di `minimarket` paling tinggi yang bisa disebabkan karena jumlah `minimarket` yang lebih banyak dan mudah terjangkau.
- Jumlah transaksi di `minimarket` paling tinggi yang bisa disebabkan karena stocknya lebih banyak.

**Action plan:**

- `hypermarket` bisa ditutup sebagian, misalnya jika ternyata total sales/penjualannya juga lebih sedikit dibandingkan dengan 2 jenis market lainnya.

❓ Sekarang kita ingin tahu hari apa yang banyak dilakukan transaksi

In [59]:
# code here
household['dayofweek'].value_counts()

Sunday       12573
Saturday     11828
Friday       10778
Tuesday       9427
Wednesday     9206
Thursday      9138
Monday        9050
Name: dayofweek, dtype: int64

> **📈 Insight:** 

- Jumlah transaksi tertinggi ada di hari Minggu
- Semakin mendekati weekend, transaksinya semakin naik

**Possible reason:**

- Jumlah transaksi tertinggi di hari Minggu, kemungkinan karena orang-orang ingin belanja di weekend dan memiliki waktu lebih banyak.

Parameter method `.value_counts()`:

- `sort=False`: mencegah nilai pengurutan apa pun, **urutkan berdasarkan indeks** sebagai gantinya
- `ascending=True`: **urutkan nilai** dalam urutan menaik

In [60]:
# menggunakan sort=False (default: sort=True)
household['dayofweek'].value_counts(sort=False) # pengurutan dilakukan berdasarkan index (bukan frekuensi)

Monday        9050
Tuesday       9427
Wednesday     9206
Thursday      9138
Friday       10778
Saturday     11828
Sunday       12573
Name: dayofweek, dtype: int64

In [61]:
# menggunakan ascending=True (default: ascending=False)
household['dayofweek'].value_counts(ascending=True)

Monday        9050
Thursday      9138
Wednesday     9206
Tuesday       9427
Friday       10778
Saturday     11828
Sunday       12573
Name: dayofweek, dtype: int64

In [62]:
# cara 2 penulisan method `.value_counts()`
household.value_counts('dayofweek', ascending=True)

dayofweek
Monday        9050
Thursday      9138
Wednesday     9206
Tuesday       9427
Friday       10778
Saturday     11828
Sunday       12573
dtype: int64

### Cross Tabulation

Selain menggunakan method `value_counts()`, kita juga dapat menggunakan fungsi `crosstab` yang telah disediakan oleh `pandas` untuk menghitung frekuensi pada data. Syntax:

```
pd.crosstab(index=...,
            columns=...)
```

**Parameter wajib:**
- `index`: kolom yang akan dijadikan pengelompokkan pada baris (axis 0)
- `columns`: kolom yang akan dijadikan pengelompokkan pada kolom (axis 1)

🔻 Dengan permasalahan yang sama, mari kita lihat banyaknya transaksi di setiap harinya (`dayofweek`) menggunakan fungsi **`crosstab`**

In [63]:
# code here
pd.crosstab(index=household['dayofweek'],
            columns='Frequency')

col_0,Frequency
dayofweek,Unnamed: 1_level_1
Monday,9050
Tuesday,9427
Wednesday,9206
Thursday,9138
Friday,10778
Saturday,11828
Sunday,12573


❓Coba tampilkan hari dengan frekuensi transaksi terkecil

In [64]:
# code here
pd.crosstab(index=household['dayofweek'],
            columns='Total').sort_values(by='Total', ascending=False)

col_0,Total
dayofweek,Unnamed: 1_level_1
Sunday,12573
Saturday,11828
Friday,10778
Tuesday,9427
Wednesday,9206
Thursday,9138
Monday,9050


Method `sort_values()` untuk mengurutkan data frame berdasarkan kolom tertentu.

Parameter:

- `by`: diisi dengan nama kolom
- `ascending`: default = `True` diurutkan berdasarkan nilai terkecil ke terbesar

❓Tinjau frekuensi transaksi berdasarkan barang (`sub_category`) yang dibeli dan coba gali insight apa yang dapat kita ambil

In [65]:
# code here
pd.crosstab(index=household['sub_category'],
            columns='Total').sort_values(by='Total', ascending=False)

col_0,Total
sub_category,Unnamed: 1_level_1
Detergent,36000
Sugar,24000
Rice,12000


> **📈 Insight:**

- Transaksi terbanyak berasal dari produk detergent
- Transaksi paling sedikit berasal dari produk rice

🔻 Pada bagian sebelumnya, kita tahu bahwa barang dengan transaksi terbanyak adalah `Detergent`. Selanjutnya kita ingin tahu `format` market manakah yang paling banyak transaksi barang tersebut:

In [66]:
# code here
pd.crosstab(index=household['sub_category'],
            columns=household['format'])

format,hypermarket,minimarket,supermarket
sub_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Detergent,2611,24345,9044
Rice,999,7088,3913
Sugar,1761,15370,6869


> **📈 Insight:** Untuk produk `Detergent`, transaksi paling banyak terjadi di jenis market `minimarket`.

In [67]:
# menampilkan lebih dari 1 index di baris
pd.crosstab(index=[household['dayofweek'], household['sub_category']],
            columns=household['format'])

Unnamed: 0_level_0,format,hypermarket,minimarket,supermarket
dayofweek,sub_category,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Monday,Detergent,264,3003,1070
Monday,Rice,111,958,482
Monday,Sugar,198,2083,881
Tuesday,Detergent,291,3108,1123
Tuesday,Rice,94,1011,516
Tuesday,Sugar,215,2150,919
Wednesday,Detergent,256,3226,1063
Wednesday,Rice,102,934,445
Wednesday,Sugar,216,2085,879
Thursday,Detergent,266,3027,1027


___

Dari tabel frekuensi di atas:

1. 🔻 Bagaimana kalau kita ingin menghitung jumlah **frekuensi per baris/kolom**?
2. 🔻 Bagaimana kalau kita ingin melihat **proporsi** atau dalam **persentase**?

**Parameter tambahan:**

1. **`margins`**: Menambahkan baris atau kolom margins yang menampung nilai subtotal
2. **`normalize`**: Membagi keseluruhan nilai hasil crosstab dengan jumlah nilai.

#### Margins

🔻 Hitung frekuensi transaksi untuk penjualan barang (`sub_category`) di setiap segmen pasar (`format`).

Gunakan parameter `margins=True` untuk menampilkan total frekuensi transaksi pada setiap baris dan kolomnya.

In [68]:
# code here
pd.crosstab(index=household['sub_category'],
            columns=household['format'],
            margins=True
           )

format,hypermarket,minimarket,supermarket,All
sub_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Detergent,2611,24345,9044,36000
Rice,999,7088,3913,12000
Sugar,1761,15370,6869,24000
All,5371,46803,19826,72000


Selain parameter `margins`, terdapat juga parameter `margins_name` untuk penamaan kolom hasil dari `margins=True`.

In [69]:
# code here
pd.crosstab(index=household['sub_category'],
            columns=household['format'],
            margins=True,
            margins_name='Subtotal'
           )

format,hypermarket,minimarket,supermarket,Subtotal
sub_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Detergent,2611,24345,9044,36000
Rice,999,7088,3913,12000
Sugar,1761,15370,6869,24000
Subtotal,5371,46803,19826,72000


#### Normalize

Jika parameter normalize bernilai:
- `'all'` atau `True`: melakukan normalisasi untuk keseluruhan nilai
- `'index'`: melakukan normalisasi pada setiap **baris**
- `'columns'`: melakukan normalisasi pada setiap **kolom**

**Normalize by All**

In [70]:
pd.crosstab(index=household['sub_category'],
            columns=household['format'],
            margins=True
           )

format,hypermarket,minimarket,supermarket,All
sub_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Detergent,2611,24345,9044,36000
Rice,999,7088,3913,12000
Sugar,1761,15370,6869,24000
All,5371,46803,19826,72000


In [71]:
# code here
pd.crosstab(index=household['sub_category'],
            columns=household['format'],
            normalize=True # sama dengan normalize='all'
           )*100

format,hypermarket,minimarket,supermarket
sub_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Detergent,3.626389,33.8125,12.561111
Rice,1.3875,9.844444,5.434722
Sugar,2.445833,21.347222,9.540278


> **📈 Insight:** Transaksi produk `Detergent` di jenis market `minimarket` sebesar **33.81%** dari keseluruhan data/transaksi.

**Normalize by Index**

`normalize='index'` artinya tiap nilai dibagi dengan jumlah per **index**nya. Dengan kata lain, jumlah persentase per index = 100%

In [72]:
# code here
pd.crosstab(index=household['sub_category'],
            columns=household['format'],
            normalize='index'
           )*100

format,hypermarket,minimarket,supermarket
sub_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Detergent,7.252778,67.625,25.122222
Rice,8.325,59.066667,32.608333
Sugar,7.3375,64.041667,28.620833


> **📈 Insight:** Untuk produk `Detergent`, **67.62%** transaksi terjadi di `minimarket`.

**Normalize by Columns**

`normalize='columns'` artinya tiap nilai dibagi dengan jumlah per **columns**nya. Dengan kata lain, jumlah persentase per column = 100%

In [73]:
# code here
pd.crosstab(index=household['sub_category'],
            columns=household['format'],
            normalize='columns'
           )*100

format,hypermarket,minimarket,supermarket
sub_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Detergent,48.612921,52.015896,45.616867
Rice,18.599888,15.144328,19.736709
Sugar,32.78719,32.839775,34.646424


> **📈 Insight:** Untuk jenis market `hypermarket`, **32.78%** transaksi berasal dari penjualan `Sugar`.

In [74]:
# penggunaan margins + normalize
pd.crosstab(index=household['sub_category'],
            columns=household['format'],
            normalize='all',
            margins=True
           )*100

format,hypermarket,minimarket,supermarket,All
sub_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Detergent,3.626389,33.8125,12.561111,50.0
Rice,1.3875,9.844444,5.434722,16.666667
Sugar,2.445833,21.347222,9.540278,33.333333
All,7.459722,65.004167,27.536111,100.0


Tampilan margins akan mengikuti parameter normalize

- ketika `normalize='all'`, margins akan muncul di baris dan kolom
- ketika `normalize='index'`, margins hanya akan muncul di bagian baris saja
- ketika `normalize='columns'`, margins hanya akan muncul di bagian kolom saja

___

## Dive Deeper: Contingency Table

Buatlah tabel frekuensi dengan menggunakan `pd.crosstab()` dengan `yearmonth` sebagai baris dan `format` sebagai kolom. Simpan ke object `trx_ym_format`

1. Dari tabel tersebut, tampilkan frekuensi transaksi yang terjadi pada **Januari 2018** (2018-01) untuk setiap format market. Hint: Gunakan metode subsetting.

2. Dari tabel tersebut, pada periode (`yearmonth`) manakah **`hypermarket`** memiliki frekuensi transaksi tertinggi?

In [75]:
# nomor 1
trx_ym_format = pd.crosstab(
    index=household['yearmonth'],
    columns=household['format']
)

# mengambil informasi transaksi pada Januari 2018 (index = '2018-01')
trx_ym_format.loc['2018-01']

format
hypermarket     449
minimarket     3960
supermarket    1591
Name: 2018-01, dtype: int64

In [76]:
# nomor 2
trx_ym_format.sort_values(by='hypermarket').tail(1)

format,hypermarket,minimarket,supermarket
yearmonth,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2018-03,521,3540,1939


**END OF DAY 2**
___
**START OF DAY 3**

Di setiap menjelang akhir tahun, tepatnya pada bulan `December`, setiap market memiliki promosi spesial untuk para pengunjung. Anda diminta untuk mencari tahu:

3. Format market apakah yang memiliki transaksi terbanyak pada bulan `December`?

4. Kategori barang (`category`) apa yang memiliki frekuensi transaksi terbanyak pada bulan `December`?

_Hint:_ Anda dapat melakukan partisi **nama bulan** terlebih dahulu kemudian menyimpannya ke dalam kolom baru pada dataframe `household` dengan nama `month`

In [77]:
household.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,dayofweek,yearmonth_recreate,est_shipdate
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07,Sunday,2018-07,2018-07-24 21:19:00
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07,Sunday,2018-07,2018-07-17 16:17:00
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07,Sunday,2018-07,2018-07-17 12:12:00
3,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07,Tuesday,2018-07,2018-07-26 08:27:00
4,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07,Thursday,2018-07,2018-07-28 11:28:00


In [78]:
# nomor 3
household['month'] = household['purchase_time'].dt.month_name()
household.head()

trx_mn_format = pd.crosstab(
    index=household['month'],
    columns=household['format']
)

trx_mn_format.loc[['December']]

# format market dengan total transaksi terbanyak pada bulan `December` adalah `minimarket`

format,hypermarket,minimarket,supermarket
month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
December,427,3939,1634


In [79]:
# nomor 4
pd.crosstab(
    index=household['month'],
    columns=household['category']
).loc[['December']]

# kategori barang dengan frekuensi transaksi terbanyak pada bulan `December` adalah `Fabric Care`

category,Fabric Care,Rice,Sugar/Flavored Syrup
month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
December,3000,1000,2000


In [80]:
# menggunakan method `idxmax(axis=1)` untuk mengambil index kolom dengan nilai tertinggi
pd.crosstab(
    index=household['month'],
    columns=household['category']
).loc[['December']].idxmax(axis=1)

month
December    Fabric Care
dtype: object

**Optional: Bonus Challenge**

Dalam rangka menaikkan jumlah transaksi di **hypermarket**, perusahaan berencana untuk mengadakan _sale_ di jam dengan **transaksi terendah**. Apabila perusahaan hanya mempertimbangkan transaksi yang terjadi pada **tahun 2018**, maka pada jam berapakah _sale_ tersebut sebaiknya diadakan?

_Hint_:

1. Kolom apa saja yang dibutuhkan dalam analisis ini?
2. Baris yang seperti apa yang dibutuhkan dalam analisis ini?
3. Buat tabel frekuensinya

In [81]:
# subset data di hypermarket dengan purchase time pada tahun 2018
hypm_2018 = household[(household['format']=='hypermarket') & (household['purchase_time']>='2018-01-01')].loc[:,['purchase_time']]
hypm_2018.head()

Unnamed: 0,purchase_time
11,2018-07-31 05:51:00
46,2018-07-15 20:01:00
59,2018-07-07 21:15:00
61,2018-07-02 20:01:00
69,2018-07-15 12:27:00


In [82]:
# mendapatkan kolom berisi informasi jam
hypm_2018['hour'] = hypm_2018['purchase_time'].dt.hour
hypm_2018.head()

Unnamed: 0,purchase_time,hour
11,2018-07-31 05:51:00,5
46,2018-07-15 20:01:00,20
59,2018-07-07 21:15:00,21
61,2018-07-02 20:01:00,20
69,2018-07-15 12:27:00,12


In [83]:
# membuat tabel frekuensi untuk menghitung total transaksi per jam
pd.crosstab(
    index=hypm_2018['hour'],
    columns='Frequency'
).sort_values(by='Frequency')

col_0,Frequency
hour,Unnamed: 1_level_1
3,1
1,2
23,3
2,3
4,5
6,8
5,9
7,13
8,18
0,30


> Jawaban: Penjualan pada pukul 11 malam menjelang pukul 4 pagi memiliki transaksi yang rendah (kecuali pukul 0).

## Aggregation Tables

Selain menghitung frekuensi kemunculan data, kita juga dapat menggunakan crosstab untuk melakukan agregasi. Pada parameter crosstab, Anda dapat menambahkan parameter `values` sebagai nilai yang diagregasikan dan `aggfunc` sebagai nilai statistika yang dipakai untuk melakukan agregasi.

### `pd.crosstab`

```
pd.crosstab(index=...,
            columns=...,
            values=numerical_columns
            aggfunc=agg_function)
```

Beberapa contoh `aggfunc`:
- mean
- median
- min
- max
- std
- count: jumlah baris (tabel frekuensi)
- sum

In [84]:
# mengatur tampilan float pada dataframe
# , untuk pemisah ribuan
# .3f untuk tiga angka di belakang koma
pd.options.display.float_format = '{:,.3f}'.format

In [85]:
# code here
household.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,dayofweek,yearmonth_recreate,est_shipdate,month
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07,Sunday,2018-07,2018-07-24 21:19:00,July
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07,Sunday,2018-07,2018-07-17 16:17:00,July
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07,Sunday,2018-07,2018-07-17 12:12:00,July
3,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07,Tuesday,2018-07,2018-07-26 08:27:00,July
4,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07,Thursday,2018-07,2018-07-28 11:28:00,July


🔻 Tinjau rata-rata harga satuan (`unit_price`) untuk setiap jenis barangnya (`sub_category`)

In [86]:
pd.crosstab(
    index=household['sub_category'],
    columns='mean_price',
    values=household['unit_price'], # menerapkan fungsi pada parameter `aggfunc` ke kolom 'unit_price'
    aggfunc='mean' # menghitung rata-rata dari kolom yang didefinisikan pada parameter `values`
)

col_0,mean_price
sub_category,Unnamed: 1_level_1
Detergent,17893.793
Rice,70013.146
Sugar,12645.066


> **📈 Insight:**

- Rata-rata harga beras / `Rice` lebih tinggi dibandingkan sub_category lainnya.
- Rata-rata harga gula / `Sugar` lebih rendah dibandingkan sub_category lainnya.

❓ Total jumlah item (`quantity`) yang terjual untuk per-`sub_category` 

In [87]:
household.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,dayofweek,yearmonth_recreate,est_shipdate,month
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07,Sunday,2018-07,2018-07-24 21:19:00,July
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07,Sunday,2018-07,2018-07-17 16:17:00,July
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07,Sunday,2018-07,2018-07-17 12:12:00,July
3,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07,Tuesday,2018-07,2018-07-26 08:27:00,July
4,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07,Thursday,2018-07,2018-07-28 11:28:00,July


In [88]:
# code here
pd.crosstab(
    index=household['sub_category'],
    columns='total_quantity',
    values=household['quantity'], # menerapkan fungsi pada parameter `aggfunc` ke kolom 'quantity'
    aggfunc='sum' # menjumlahkan nilai dari kolom yang didefinisikan pada parameter `values`
)

col_0,total_quantity
sub_category,Unnamed: 1_level_1
Detergent,49660
Rice,15995
Sugar,41111


> **📈 Insight:**

- Banyaknya beras / `Rice` yang terjual adalah sebanyak 15995 karung.
- Produk `Detergent` terjual paling banyak, diikuti dengan `Rice` dan `Sugar`.

❓ **Case: Cheapest Rice**

Saat ingin belanja barang-barang kebutuhan pokok, tentunya dari sisi pembeli ingin mencari harga yang paling murah. Coba analisis apakah terdapat perbedaan **harga satuan** untuk masing-masing **sub kategori** barangnya pada **jenis market** yang berbeda-beda? Apabila ya, pada market apakah yang memiliki harga satuan Rice yang paling murah? Silahkan tinjau berdasarkan nilai rata-ratanya.

_Opsional:_ Gunakan `.idxmin()` pada hasil tabel agregasi untuk mendapatkan index dengan nilai terkecil

In [89]:
household.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,dayofweek,yearmonth_recreate,est_shipdate,month
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07,Sunday,2018-07,2018-07-24 21:19:00,July
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07,Sunday,2018-07,2018-07-17 16:17:00,July
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07,Sunday,2018-07,2018-07-17 12:12:00,July
3,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07,Tuesday,2018-07,2018-07-26 08:27:00,July
4,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07,Thursday,2018-07,2018-07-28 11:28:00,July


In [90]:
# melihat harga satuan untuk setiap sub_category di setiap format market
pd.crosstab(
    index=household['sub_category'],
    columns=household['format'],
    values=household['unit_price'],
    aggfunc='mean'
)

format,hypermarket,minimarket,supermarket
sub_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Detergent,19328.142,17757.136,17847.557
Rice,71205.458,67135.57,74921.182
Sugar,13539.916,12352.135,13071.112


In [91]:
# menggunakan method `idxmin(axis=1)` untuk mengambil index kolom dengan nilai tertinggi di masing-masing sub_category
pd.crosstab(
    index=household['sub_category'],
    columns=household['format'],
    values=household['unit_price'],
    aggfunc='mean'
).idxmin(axis=1)

sub_category
Detergent    minimarket
Rice         minimarket
Sugar        minimarket
dtype: object

> **📈 Insight:** Harga satuan untuk sub_category `Rice` paling murah berada di jenis market minimarket.

In [92]:
# menggunakan method `idxmin(axis=0)` untuk mengambil index baris dengan nilai tertinggi di masing-masing format market
pd.crosstab(
    index=household['sub_category'],
    columns=household['format'],
    values=household['unit_price'],
    aggfunc='mean'
).idxmin(axis=0)

format
hypermarket    Sugar
minimarket     Sugar
supermarket    Sugar
dtype: object

❓ **Case: Sales Performance**

Divisi sales ingin mengetahui pada periode kuarter (year-quarter) berapakah hypermarket mencapai total sales tertingginya?

1. Buatlah kolom `subtotal` yang merupakan perkalian `quantity` dan `unit_price` untuk setiap barisnya
2. Partisi kolom `purchase_time` untuk mendapatkan periode kuarter
2. Dengan menggunakan nilai `subtotal`, hitunglah total penjualan per kuarter untuk masing-masing `format`
3. Cari tahu kapan hypermarket menyentuh total sales tertingginya

In [93]:
household.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,dayofweek,yearmonth_recreate,est_shipdate,month
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07,Sunday,2018-07,2018-07-24 21:19:00,July
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07,Sunday,2018-07,2018-07-17 16:17:00,July
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07,Sunday,2018-07,2018-07-17 12:12:00,July
3,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07,Tuesday,2018-07,2018-07-26 08:27:00,July
4,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07,Thursday,2018-07,2018-07-28 11:28:00,July


In [94]:
# Step/Nomor 1
household['subtotal'] = household['unit_price'] * household['quantity']
household.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,dayofweek,yearmonth_recreate,est_shipdate,month,subtotal
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07,Sunday,2018-07,2018-07-24 21:19:00,July,128000.0
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07,Sunday,2018-07,2018-07-17 16:17:00,July,102750.0
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07,Sunday,2018-07,2018-07-17 12:12:00,July,192000.0
3,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07,Tuesday,2018-07,2018-07-26 08:27:00,July,65000.0
4,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07,Thursday,2018-07,2018-07-28 11:28:00,July,124500.0


In [95]:
# Step/Nomor 2
household['quarterly'] = household['purchase_time'].dt.to_period('Q')
household.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,dayofweek,yearmonth_recreate,est_shipdate,month,subtotal,quarterly
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07,Sunday,2018-07,2018-07-24 21:19:00,July,128000.0,2018Q3
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07,Sunday,2018-07,2018-07-17 16:17:00,July,102750.0,2018Q3
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07,Sunday,2018-07,2018-07-17 12:12:00,July,192000.0,2018Q3
3,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07,Tuesday,2018-07,2018-07-26 08:27:00,July,65000.0,2018Q3
4,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07,Thursday,2018-07,2018-07-28 11:28:00,July,124500.0,2018Q3


In [96]:
# Step/Nomor 3
# membuat tabel agregasi total penjualan per kuarter untuk masing-masing format
pd.crosstab(
    index=household['format'],
    columns=household['quarterly'],
    values=household['subtotal'],
    aggfunc='sum'
)

quarterly,2017Q4,2018Q1,2018Q2,2018Q3
format,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hypermarket,51524121.0,61795966.99,57461721.02,47665485.0
minimarket,358094171.0,379011225.0,385133402.02,374213834.99
supermarket,194870162.0,193424469.009,197532335.986,161654589.03


In [97]:
# indexing kolom menggunakan .loc
pd.crosstab(
    index=household['format'],
    columns=household['quarterly'],
    values=household['subtotal'],
    aggfunc='sum'
).loc[:,['2017Q4']]

quarterly,2017Q4
format,Unnamed: 1_level_1
hypermarket,51524121.0
minimarket,358094171.0
supermarket,194870162.0


In [98]:
# indexing untuk langsung mengambil informasi jenis market hypermarket
pd.crosstab(
    index=household['format'],
    columns=household['quarterly'],
    values=household['subtotal'],
    aggfunc='sum'
).loc[['hypermarket']].idxmax(axis=1)

format
hypermarket    2018Q1
dtype: period[Q-DEC]

In [99]:
# tanpa melakukan indexing untuk melihat seluruh informasi dari tiap jenis market
pd.crosstab(
    index=household['format'],
    columns=household['quarterly'],
    values=household['subtotal'],
    aggfunc='sum'
).idxmax(axis=1)

format
hypermarket    2018Q1
minimarket     2018Q2
supermarket    2018Q2
dtype: period[Q-DEC]

> **📈 Insight:** Total sales untuk jenis market `hypermarket` tertinggi terjadi di periode quarter 1 (Jan-Mar) pada tahun 2018.

In [100]:
# melihat informasi format market dengan total sales tertinggi dari setiap periode kuarter 
pd.crosstab(
    index=household['format'],
    columns=household['quarterly'],
    values=household['subtotal'],
    aggfunc='sum'
).idxmax(axis=0)

quarterly
2017Q4    minimarket
2018Q1    minimarket
2018Q2    minimarket
2018Q3    minimarket
Freq: Q-DEC, dtype: object

___

### (Optional) Higher Dimensional Table

Higher dimensional table bisa juga disebut sebagai multi-index dataframe (data yang memiliki lebih dari 1 index). Digunakan untuk melakukan proses tabulasi silang dengan menggunakan beberapa kolom kategori.

Berikut adalah contoh crosstab dengan empat kategori pengelompokkan untuk mengetahui jumlah barang (`quantity`) yang terjual untuk masing-masing `sub_category` dan `format`, dibedakan per `yearmonth` dan `dayofweek`:

In [101]:
pd.crosstab(
    index=[household['yearmonth'], household['dayofweek']],
    columns=[household['sub_category'], household['format']],
    values=household['quantity'],
    aggfunc='sum')

Unnamed: 0_level_0,sub_category,Detergent,Detergent,Detergent,Rice,Rice,Rice,Sugar,Sugar,Sugar
Unnamed: 0_level_1,format,hypermarket,minimarket,supermarket,hypermarket,minimarket,supermarket,hypermarket,minimarket,supermarket
yearmonth,dayofweek,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
2017-10,Monday,30,345,129,20,157,42,30,282,143
2017-10,Tuesday,34,342,149,10,116,54,38,319,159
2017-10,Wednesday,22,346,101,6,86,45,34,229,114
2017-10,Thursday,34,264,100,4,97,44,21,262,85
2017-10,Friday,61,408,149,22,109,46,43,287,96
...,...,...,...,...,...,...,...,...,...,...
2018-09,Wednesday,14,318,114,19,90,45,20,218,97
2018-09,Thursday,40,282,102,31,75,44,60,388,99
2018-09,Friday,43,377,168,16,119,38,21,320,156
2018-09,Saturday,69,507,278,18,166,72,39,395,160


Multi-index DataFrame akan dibahas lebih dalam pada course ke-3: Data Wrangling and Visualization. So stay tune~

___

### `pd.pivot_table`

Cara kerja `pivot_table` tidak jauh berbeda dengan `crosstab()`. Parameter di kedua method inipun hampir sama. Yang membedakan di antara keduanya adalah adanya parameter `data` yang menspesifikasikan dataframe yang akan di pakai pada `pivot_table`

Syntax:

```{python}
pd.pivot_table(
    data=...,
    index=...,
    columns=...,
    values=...,
    aggfunc=...
)
```

OR

```{python}
data.pivot_table(
    index=...,
    columns=...,
    values=...,
    aggfunc=...
)
```

Kita dapat menggunakan `pivot_table` dengan beberapa parameter sebagai berikut.
- `data`: dataframe yang kita gunakan
- `index`: kolom yang akan menjadi index row
- `columns`: kolom yang akan menjadi index kolom
- `values`: nilai yang digunakan untuk mengisi tabel
- `aggfunc`: fungsi agregasi

Untuk memahami penggunaan `pivot_table`, mari kita bandingkan tabel agregasi yang dibuat menggunakan `crosstab` dan `pivot_table`.

Berikut crosstab yang menampilkan rata-rata harga satuan `sub_category` untuk masing-masing `format`:

In [102]:
pd.crosstab(
    index=household['sub_category'], 
    columns=household['format'], 
    values=household['unit_price'],
    aggfunc='mean'
)

format,hypermarket,minimarket,supermarket
sub_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Detergent,19328.142,17757.136,17847.557
Rice,71205.458,67135.57,74921.182
Sugar,13539.916,12352.135,13071.112


🔻 Buat ulang tabel agregasi di atas menggunakan `pd.pivot_table()`. Secara default, `aggfunc='mean'`

In [103]:
# cara 1
pd.pivot_table(
    data=household,
    index='sub_category',
    columns='format',
    values='unit_price',
    aggfunc='mean'
)

format,hypermarket,minimarket,supermarket
sub_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Detergent,19328.142,17757.136,17847.557
Rice,71205.458,67135.57,74921.182
Sugar,13539.916,12352.135,13071.112


🔻 Kita juga dapat menggunakan `.pivot_table()` sebagai method pada sebuah objek dataframe:

In [104]:
# cara 2
household.pivot_table(
    index='sub_category',
    columns='format',
    values='unit_price',
    aggfunc='mean'
)

format,hypermarket,minimarket,supermarket
sub_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Detergent,19328.142,17757.136,17847.557
Rice,71205.458,67135.57,74921.182
Sugar,13539.916,12352.135,13071.112


❓ Coba tampilkan tabel aggregasi total penjualan (berdasarkan kolom `subtotal`) untuk masing-masing `sub_category` pada **supermarket**.

Berikut kita menjawab business question di atas menggunakan kombinasi conditional subsetting dan pivot table:

In [105]:
household.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,dayofweek,yearmonth_recreate,est_shipdate,month,subtotal,quarterly
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07,Sunday,2018-07,2018-07-24 21:19:00,July,128000.0,2018Q3
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07,Sunday,2018-07,2018-07-17 16:17:00,July,102750.0,2018Q3
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07,Sunday,2018-07,2018-07-17 12:12:00,July,192000.0,2018Q3
3,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07,Tuesday,2018-07,2018-07-26 08:27:00,July,65000.0,2018Q3
4,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07,Thursday,2018-07,2018-07-28 11:28:00,July,124500.0,2018Q3


In [106]:
# cara 1
pd.pivot_table(
    data=household,
    index='format',
    columns='sub_category',
    values='subtotal',
    aggfunc='sum'
).loc[['supermarket']]

sub_category,Detergent,Rice,Sugar
format,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
supermarket,223738199.99,368846617.009,154896739.026


In [107]:
# cara 2: kombinasi conditional subsetting dan pivot table
household[household['format']=='supermarket'].pivot_table(
    index='sub_category',
    values='subtotal',
    aggfunc='sum'
)

Unnamed: 0_level_0,subtotal
sub_category,Unnamed: 1_level_1
Detergent,223738199.99
Rice,368846617.009
Sugar,154896739.026


#### Dive Deeper: Re-create Frequency Table

Buat kembali tabel frekuensi berikut menggunakan pivot table.

| category                 |   hypermarket |   minimarket |   supermarket |   Total |
|:-------------------------|--------------:|-------------:|--------------:|--------:|
| **Fabric Care**          |          2611 |        24345 |          9044 |   36000 |
| **Rice**                 |           999 |         7088 |          3913 |   12000 |
| **Sugar/Flavored Syrup** |          1761 |        15370 |          6869 |   24000 |
| **Total**                |          5371 |        46803 |         19826 |   72000 |

Parameter:

- `index`: 'category'
- `columns`: 'format'
- `aggfunc`: 'count'
- `values`: boleh menggunakan kolom manapun, karena fungsi agregasi yang digunakan adalah `count` yang hanya menghitung frekuensi/kemunculan data saja dan saat ini data kita lengkap (tidak ada missing values).
- Untuk baris dan kolom Total menggunakan parameter `margins=True` dan `margins_name='Total'` untuk mengubah nama kolom margins.

In [108]:
household.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,dayofweek,yearmonth_recreate,est_shipdate,month,subtotal,quarterly
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07,Sunday,2018-07,2018-07-24 21:19:00,July,128000.0,2018Q3
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07,Sunday,2018-07,2018-07-17 16:17:00,July,102750.0,2018Q3
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07,Sunday,2018-07,2018-07-17 12:12:00,July,192000.0,2018Q3
3,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07,Tuesday,2018-07,2018-07-26 08:27:00,July,65000.0,2018Q3
4,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07,Thursday,2018-07,2018-07-28 11:28:00,July,124500.0,2018Q3


In [109]:
# code here
pd.pivot_table(
    data=household,
    index='category',
    columns='format',
    aggfunc='count',
    values='receipt_id',
    margins=True,
    margins_name='Total'
)

format,hypermarket,minimarket,supermarket,Total
category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Fabric Care,2611,24345,9044,36000
Rice,999,7088,3913,12000
Sugar/Flavored Syrup,1761,15370,6869,24000
Total,5371,46803,19826,72000


Kesimpulan pivot table:

- Pada `pivot_table` parameter wajib hanya `data` dan salah satu antara `index` / `columns`
- Parameter default `aggfunc='mean'`
- Secara default, parameter `values` adalah semua kolom pada data yang dapat diterapkan fungsi agregasi
- Terdapat parameter `margins` dan `margins_name`, namun tidak terdapat `normalize` (hanya di `crosstab` saja)

In [110]:
# contoh untuk kesimpulan pivot table poin 3
pd.pivot_table(
    data=household,
    index='category',
    columns='format',
    aggfunc='sum'
)

Unnamed: 0_level_0,discount,discount,discount,quantity,quantity,quantity,receipt_id,receipt_id,receipt_id,receipts_item_id,receipts_item_id,receipts_item_id,subtotal,subtotal,subtotal,unit_price,unit_price,unit_price
format,hypermarket,minimarket,supermarket,hypermarket,minimarket,supermarket,hypermarket,minimarket,supermarket,hypermarket,minimarket,supermarket,hypermarket,minimarket,supermarket,hypermarket,minimarket,supermarket
category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2
Fabric Care,5902546,24049371,17443907,3987,32679,12994,20036837212,186530481329,69087435115,64504334643,598962527314,222055639325,74184245.99,568145850.0,223738199.99,50465778.54,432297470.419,161413306.744
Rice,3531535,2259670,4232464,1464,9578,4953,7702628700,54452722423,29646270756,24765049901,175062687802,95126212057,102377451.0,613174591.0,368846617.009,71134253.0,475856917.0,293166585.753
Sugar/Flavored Syrup,1235857,1127961,1574739,3237,25723,12151,13189440782,118579457175,51873553609,42251512309,381518484399,166235125989,41885597.02,315132192.01,154896739.026,23843791.597,189852322.17,89785470.805


___

## 📝 Summary: Tables in `pandas` 

## Frequency Tables

Kegunaan: menghitung jumlah baris atau frekuensi pada kolom yang bersifat category

Method:

1. Apabila hanya 1 kolom kategori, disarankan menggunakan `.value_counts()`. Hasil berupa Series

2. Untuk satu atau lebih dari satu kolom kategori:
    - `pd.crosstab(index, columns)`. Terdapat parameter tambahan:
        - `margins`: menghitung subtotal untuk masing-masing baris dan kolom
        - `normalize`: mengubah frekuensi menjadi proporsi (persentase)
        
    - `pd.pivot_table(data, index, aggfunc='count')`.
        - Tidak ada parameter `normalize`

## Aggregation Tables

Kegunaan: melakukan agregasi pada kolom numerik

Method:

1. `pd.crosstab(index, columns, values, aggfunc)`

2. `pd.pivot_table(data, index, columns, values, aggfunc)`

## `crosstab` vs `pivot_table`

Berikut perbedaan mendasar antara `crosstab` and `pivot_table`:

|                                                                                    | `pd.crosstab()` | `pd.pivot_table()` |
|------------------------------------------------------------------------------------|-----------------|--------------------|
|                                                                          **Input** |Series |          DataFrame |
|                                                              **Default `aggfunc`** |       `'count'` |           `'mean'` |
|                                                          **Parameter `normalize`** |       Available |      Not Available |
| [**Computation Time**](https://ramiro.org/notebook/pandas-crosstab-groupby-pivot/) | Relatively Slower |  Relatively Faster |

**END OF DAY 3**
___
**START OF DAY 4**

# Missing Values and Duplicates

Dalam melakukan pengolahan data, tidak semua data yang kita miliki adalah data yang "tidy". Ada kemungkinan bahwa data kita memiliki nilai yang hilang, memiliki nilai yang berulang, dan memiliki nilai yang tidak sesuai dengan nilai kolom yang seharusnya (misal usia memiliki nilai minus). Untuk mengatasi hal tersebut, kita dapat melakukan beberapa metode penanganan pada data yang hilang (missing value) atau data yang duplikat (duplicates value)

## Missing Values

Bacalah data `household-missing.csv` yang merupakan data `household` yang telah dimanipulasi sedemikian rupa agar terdapat nilai missing.

In [111]:
# read data
household_missing = pd.read_csv(
    'data_input/household-missing.csv',
    index_col='receipts_item_id',
    parse_dates=['purchase_time'])

household_missing.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 20 entries, 32000000 to 32369065
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   purchase_time  15 non-null     datetime64[ns]
 1   category       15 non-null     object        
 2   format         15 non-null     object        
 3   unit_price     15 non-null     float64       
 4   discount       15 non-null     float64       
 5   quantity       15 non-null     float64       
 6   weekday        14 non-null     object        
dtypes: datetime64[ns](1), float64(3), object(3)
memory usage: 1.2+ KB


In [112]:
household_missing.head(10)

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32000000,NaT,,,,,,
32000001,NaT,,,,,,
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32000002,NaT,,,,,,
32000003,NaT,,,,,,
32000004,NaT,,,,,,
32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0.0,1.0,
31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday


**✏️ Catatan**:

- `NaN`: Not a Number
- `NaT`: Not a Time, untuk datetime64

### Check Missing Value

Metode yang paling umum digunakan untuk melihat missing value adalah:

- `.notna()` : mengembalikan `True` apabila **tidak** missing
- `.isna()` : mengembalikan `True` apabila **missing**

In [113]:
# isna
household_missing.isna()

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32000000,True,True,True,True,True,True,True
32000001,True,True,True,True,True,True,True
32030785,False,False,False,False,False,False,False
32000002,True,True,True,True,True,True,True
32000003,True,True,True,True,True,True,True
32000004,True,True,True,True,True,True,True
32369294,False,False,False,False,False,False,False
31885876,False,False,False,False,False,False,True
31930241,False,False,False,False,False,False,False
32418582,False,False,False,False,False,False,False


Menghitung jumlah missing value pada setiap kolom:

- `True` akan dihitung sebagai 1
- `False` akan dihitung sebagai 0

In [114]:
# code here
household_missing.isna().sum()

purchase_time    5
category         5
format           5
unit_price       5
discount         5
quantity         5
weekday          6
dtype: int64

Selain menggunakan `isna()`, kita juga dapat menggunakan fungsi `notna()`

In [115]:
# notna
household_missing.notna()

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32000000,False,False,False,False,False,False,False
32000001,False,False,False,False,False,False,False
32030785,True,True,True,True,True,True,True
32000002,False,False,False,False,False,False,False
32000003,False,False,False,False,False,False,False
32000004,False,False,False,False,False,False,False
32369294,True,True,True,True,True,True,True
31885876,True,True,True,True,True,True,False
31930241,True,True,True,True,True,True,True
32418582,True,True,True,True,True,True,True


🔻 Kita dapat menggunakan `.notna()` dengan metode subsetting.

Misalnya ada kebutuhan bahwa kolom tertentu sama sekali tidak boleh memiliki *missing value*, artinya kita akan subset baris berdasarkan kolom tertentu yang tidak ada *missing value*

> Saya mau mengambil semua baris yang weekdaynya **tidak missing**, karena hanya kolom weekday yang missingnya 6 baris, sedangkan yang lain hanya 5 baris

In [116]:
# filter semua data yang weekdaynya tidak missing
# df[~df.loc[:,'A':'B'].isna().all(axis=1)]

household_missing[['weekday']].notna()

Unnamed: 0_level_0,weekday
receipts_item_id,Unnamed: 1_level_1
32000000,False
32000001,False
32030785,True
32000002,False
32000003,False
32000004,False
32369294,True
31885876,False
31930241,True
32418582,True


In [117]:
household_missing[household_missing['weekday'].notna()]

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday
32561236,2018-07-26 11:28:00,Rice,supermarket,124500.0,0.0,1.0,Thursday
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32935097,2018-07-29 18:18:00,Rice,supermarket,66500.0,0.0,1.0,Sunday
32593606,2018-07-25 12:48:00,Rice,minimarket,62500.0,0.0,1.0,Wednesday
32573843,2018-07-26 16:41:00,Rice,minimarket,62500.0,0.0,1.0,Thursday
31913062,2018-07-14 21:17:00,Rice,supermarket,64000.0,0.0,3.0,Saturday


In [118]:
cond = household_missing[['weekday','format']].notna().all(1)
household_missing[cond]

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday
32561236,2018-07-26 11:28:00,Rice,supermarket,124500.0,0.0,1.0,Thursday
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32935097,2018-07-29 18:18:00,Rice,supermarket,66500.0,0.0,1.0,Sunday
32593606,2018-07-25 12:48:00,Rice,minimarket,62500.0,0.0,1.0,Wednesday
32573843,2018-07-26 16:41:00,Rice,minimarket,62500.0,0.0,1.0,Thursday
31913062,2018-07-14 21:17:00,Rice,supermarket,64000.0,0.0,3.0,Saturday


Kapan kita menggunakan `isna()` atau `notna()`

- `isna()` biasanya digunakan bersamaan dengan method `.sum()` yang tujuannya untuk menghitung jumlah missing value pada tiap kolom
- `notna()` biasanya digunakan bersama metode subseting yang tujuannya untuk mensubset data yang salah satu/beberapa kolom tidak boleh ada missing value

### Treatment Missing Values

Beberapa cara umum untuk menangani missing values:

1. Hapus baris atau kolom: Menggunakan metode `dropna()` dengan ambang batas yang wajar untuk menghapus setiap baris yang berisi nilai missing, NA < 5%
2. Imputasi: Mengisi nilai NA dengan sebuah nilai
3. Tetap mempertahankan data kita

#### Hapus Baris yang NA

- `.dropna(how='any')`: (DEFAULT PARAMETER) hapus baris apabila memiliki **minimal 1 kolom** nilai missing value

- `.dropna(how='all')`: harus baris apabila memiliki **semua kolom** nilai missing

- `.dropna(thresh=...)`: hapus baris apabila nilai **non-missing** < `thresh` 

In [119]:
# how='any'
household_missing.dropna(how='any')

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday
32561236,2018-07-26 11:28:00,Rice,supermarket,124500.0,0.0,1.0,Thursday
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32935097,2018-07-29 18:18:00,Rice,supermarket,66500.0,0.0,1.0,Sunday
32593606,2018-07-25 12:48:00,Rice,minimarket,62500.0,0.0,1.0,Wednesday
32573843,2018-07-26 16:41:00,Rice,minimarket,62500.0,0.0,1.0,Thursday
31913062,2018-07-14 21:17:00,Rice,supermarket,64000.0,0.0,3.0,Saturday


In [120]:
# how='all'
household_missing.dropna(how='all')

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0.0,1.0,
31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday
32561236,2018-07-26 11:28:00,Rice,supermarket,124500.0,0.0,1.0,Thursday
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32935097,2018-07-29 18:18:00,Rice,supermarket,66500.0,0.0,1.0,Sunday
32593606,2018-07-25 12:48:00,Rice,minimarket,62500.0,0.0,1.0,Wednesday
32573843,2018-07-26 16:41:00,Rice,minimarket,62500.0,0.0,1.0,Thursday


In [121]:
# tresh = 6, minimal harus ada 6 kolom yang TIDAK missing agar dipertahankan
household_missing.dropna(thresh=1)

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0.0,1.0,
31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday
32561236,2018-07-26 11:28:00,Rice,supermarket,124500.0,0.0,1.0,Thursday
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32935097,2018-07-29 18:18:00,Rice,supermarket,66500.0,0.0,1.0,Sunday
32593606,2018-07-25 12:48:00,Rice,minimarket,62500.0,0.0,1.0,Wednesday
32573843,2018-07-26 16:41:00,Rice,minimarket,62500.0,0.0,1.0,Thursday


In [122]:
household_missing.head(10)

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32000000,NaT,,,,,,
32000001,NaT,,,,,,
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32000002,NaT,,,,,,
32000003,NaT,,,,,,
32000004,NaT,,,,,,
32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0.0,1.0,
31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday


✏️ **Notes** 

Ketika akan melakukan drop missing values menggunakan threshold `(thresh=n)`, maka yang sebaiknya diperhatikan adalah **jumlah kolom yang terisi (tidak NA)**. Jika nilai tidak NA **sama dengan atau lebih besar dari nilai threshold**, maka baris tidak di drop.

#### Imputasi

Metode `.fillna()` digunakan ketika ingin mengisi nilai terhadap data yang mengandung missing value.

💡 **Tips** untuk imputasi:

Untuk kolom numerik:

- Isi menggunakan pusat data seperti `mean` atau `median`
- Isi menggunakan model prediktif (regresi)

Untuk kolom kategorikal:

- Menggunakan `NA` sebagai salah satu dari kategori
- Isi menggunakan pusat data (mode)
- Isi menggunakan model prediktif (klasifikasi)

Untuk kolom datetime:

- Menggunakan metode `bfill`: melakukan imputasi dari baris bawah ke atas
- Menggunakan metode `ffill`: melakukan imputasi dari baris atas ke bawah

❓ Tinjau beberapa kolom yang missing value dan diskusikan imputasi yang cocok

- `purchase_time` (anggapan data terurut berdasarkan waktu): ...
- `category` (buat kategori baru): ...
- `format` (buat kategori baru): ...
- `unit_price` (isi dengan pusat data): ...
- `discount` (anggapan tidak ada discount): ...
- `quantity` (anggapan tidak ada item terjual): ...
- `weekday` (disamakan dengan purchase_time): ...

In [123]:
# code here: imputasi kolom purchase_time dan weekday
household_missing[['purchase_time','weekday']] = household_missing[['purchase_time','weekday']].bfill()

In [124]:
# atau
household_missing[['purchase_time','weekday']] = household_missing[['purchase_time','weekday']].fillna(method='bfill')

In [125]:
# code here: imputasi kolom category dan format
household_missing[['category','format']] = household_missing[['category','format']].fillna('unknown')

In [126]:
# code here: imputasi kolom discount dan quantity
household_missing[['discount','quantity']] = household_missing[['discount','quantity']].fillna(0)

In [127]:
# code here: imputasi kolom unit_price dengan pusat data
household_missing[['unit_price']] =  household_missing[['unit_price']].fillna(value=household_missing['unit_price'].mean())
household_missing.head()

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32000000,2018-07-17 18:05:00,unknown,unknown,79093.333,0.0,0.0,Tuesday
32000001,2018-07-17 18:05:00,unknown,unknown,79093.333,0.0,0.0,Tuesday
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32000002,2018-07-22 21:19:00,unknown,unknown,79093.333,0.0,0.0,Sunday
32000003,2018-07-22 21:19:00,unknown,unknown,79093.333,0.0,0.0,Sunday


___

## Duplicated Values

### Check duplicated values

Untuk melakukan pengecekan terhadap ada atau tidaknya data yang duplikat, kita dapat menggunakan method `duplicated()`.

In [128]:
# cek data duplikat
household_missing.duplicated()

receipts_item_id
32000000    False
32000001     True
32030785    False
32000002    False
32000003     True
32000004     True
32369294    False
31885876    False
31930241    False
32418582    False
32561236    False
32030785     True
32935097    False
32593606    False
32573843    False
31913062    False
31125365    False
32856560    False
32552145    False
32369065    False
dtype: bool

## Handling Duplicate Data

Untuk menangani data yang duplicate, kita bisa menggunakan method `drop_duplicates()`. Cara ini membuat observasi yang duplicated terhapus dan kita bisa mengatur observasi mana yang akan tetap disimpan. 

**Case:**

Cek dimensi dari data `household_missing`. Hapus baris yang duplicated. Cek kembali dimensi data `household_missing`untuk memastikan data yang duplicate sudah terhapus.

**NOTE:** Terdapat tiga macam cara untuk melakukan penghapusan pada nilai duplicate.

1. Dengan menambahkan parameter `keep='first'`, maka akan mempertahankan baris **pertama (teratas)** dari nilai yang duplicate.
2. Dengan menambahkan parameter `keep='last'`, maka akan mempertahankan baris **terakhir (terbawah)** dari nilai yang duplicate.
3. Dengan menambahkan parameter `keep=False`, maka tidak mempertahankan baris yang duplikat. Dengan kata lain, menghapus semua baris yang duplikat.

In [129]:
household_missing.drop_duplicates().dropna()

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32000000,2018-07-17 18:05:00,unknown,unknown,79093.333,0.0,0.0,Tuesday
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32000002,2018-07-22 21:19:00,unknown,unknown,79093.333,0.0,0.0,Sunday
32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0.0,1.0,Sunday
31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday
32561236,2018-07-26 11:28:00,Rice,supermarket,124500.0,0.0,1.0,Thursday
32935097,2018-07-29 18:18:00,Rice,supermarket,66500.0,0.0,1.0,Sunday
32593606,2018-07-25 12:48:00,Rice,minimarket,62500.0,0.0,1.0,Wednesday


In [130]:
# keep='first'
household_missing.drop_duplicates(keep='first')

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32000000,2018-07-17 18:05:00,unknown,unknown,79093.333,0.0,0.0,Tuesday
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32000002,2018-07-22 21:19:00,unknown,unknown,79093.333,0.0,0.0,Sunday
32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0.0,1.0,Sunday
31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday
32561236,2018-07-26 11:28:00,Rice,supermarket,124500.0,0.0,1.0,Thursday
32935097,2018-07-29 18:18:00,Rice,supermarket,66500.0,0.0,1.0,Sunday
32593606,2018-07-25 12:48:00,Rice,minimarket,62500.0,0.0,1.0,Wednesday


In [131]:
# keep='last'
household_missing.drop_duplicates(keep='last')

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32000001,2018-07-17 18:05:00,unknown,unknown,79093.333,0.0,0.0,Tuesday
32000004,2018-07-22 21:19:00,unknown,unknown,79093.333,0.0,0.0,Sunday
32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0.0,1.0,Sunday
31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday
32561236,2018-07-26 11:28:00,Rice,supermarket,124500.0,0.0,1.0,Thursday
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32935097,2018-07-29 18:18:00,Rice,supermarket,66500.0,0.0,1.0,Sunday
32593606,2018-07-25 12:48:00,Rice,minimarket,62500.0,0.0,1.0,Wednesday


In [132]:
# keep=False
household_missing.drop_duplicates(keep=False)

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0.0,1.0,Sunday
31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday
32561236,2018-07-26 11:28:00,Rice,supermarket,124500.0,0.0,1.0,Thursday
32935097,2018-07-29 18:18:00,Rice,supermarket,66500.0,0.0,1.0,Sunday
32593606,2018-07-25 12:48:00,Rice,minimarket,62500.0,0.0,1.0,Wednesday
32573843,2018-07-26 16:41:00,Rice,minimarket,62500.0,0.0,1.0,Thursday
31913062,2018-07-14 21:17:00,Rice,supermarket,64000.0,0.0,3.0,Saturday
31125365,2018-07-02 15:39:00,Rice,minimarket,112500.0,0.0,1.0,Monday


In [133]:
# keep=False
len(household_missing.drop_duplicates(subset='purchase_time',keep=False))

12

⚠️ **Warning**: Duplikat dapat berarti hal yang berbeda dari sudut pandang data dan sudut pandang analis bisnis. Anda harus ekstra berhati-hati apakah data duplikat memang merupakan karakteristik dari data Anda, atau apakah itu merupakan sebuah kesalahan input data berdasarkan logika bisnisnya.

### Knowledge Check: Duplicate Data

❓**Q: Apakah kita harus drop data duplikat atau tidak?**

1. Sebuah pusat medis mengumpulkan data pemantauan detak jantung dari beberapa pasien anonim. Pengamatan ini diambil dalam kurun waktu 3 bulan:

In [134]:
monitoring = pd.DataFrame({
    'patient_id': ['001', '002', '003', '004', '005', '006'],
    'heart_rate': [100, 120, 90, 100, 98, 90]
}).set_index('patient_id')

monitoring.duplicated()

patient_id
001    False
002    False
003    False
004     True
005    False
006     True
dtype: bool

In [135]:
monitoring

Unnamed: 0_level_0,heart_rate
patient_id,Unnamed: 1_level_1
1,100
2,120
3,90
4,100
5,98
6,90


> Jawaban: Data duplikat (dihapus atau tidak dihapus), karena ...

2. Sebuah perusahaan asuransi ingin menerapkan model prediktif untuk menetapkan harga premi secara dinamis kepada masing-masing pelanggannya. Setiap baris berisi nama pelanggan, pekerjaan/profesi, dan data riwayat kesehatan mereka. Data ini diambil dalam kurun waktu 3 bulan

In [136]:
insurance = pd.DataFrame({
    'cust_id': ['C1', 'C2', 'C3', 'C4', 'C1', 'C5'],
    'occupation': ['Employee', 'Employee', 'Student', 'Student', 'Employee', 'Employee'],
    'health': ['Good', 'Ok', 'Good', 'Ok', 'Ok', 'Bad'],
    'date_updated': pd.Series(['2021-06-05', '2021-07-21', '2021-08-14', '2021-09-11', '2021-11-28', '2021-12-10'], dtype='datetime64[ns]')
})

insurance['cust_id'].duplicated()

0    False
1    False
2    False
3    False
4     True
5    False
Name: cust_id, dtype: bool

> Jawaban: Data duplikat (dihapus atau tidak dihapus), karena ...

3. Pada data `household` yang kita punya, coba check duplikatnya. Apakah Anda akan menghapus baris yang duplikat?

In [137]:
# baca kembali data household.csv dengan receipts_item_id sebagai index
household_duplicate = pd.read_csv('data_input/household.csv', index_col='receipts_item_id')
household_duplicate.duplicated().sum()

327

In [138]:
# mengambil baris yang terduplikasi dengan keep=False agar data yang terduplikasi muncul semuanya
# lalu sort berdasarkan receipt_id
household_duplicate[household_duplicate.duplicated(keep=False)].sort_values('receipt_id')

Unnamed: 0_level_0,receipt_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
14824343,4957144,10/2/2017 15:43,Fabric Care,Detergent,minimarket,8950.000,0,3,2017-10
14824342,4957144,10/2/2017 15:43,Fabric Care,Detergent,minimarket,8950.000,0,3,2017-10
14939411,4970097,10/3/2017 12:00,Fabric Care,Detergent,minimarket,17980.000,0,1,2017-10
14939412,4970097,10/3/2017 12:00,Fabric Care,Detergent,minimarket,17980.000,0,1,2017-10
14978895,4985882,10/6/2017 10:04,Sugar/Flavored Syrup,Sugar,minimarket,12500.000,0,7,2017-10
...,...,...,...,...,...,...,...,...,...
37703692,11319689,9/23/2018 11:00,Fabric Care,Detergent,minimarket,18600.000,0,1,2018-09
37723108,11329127,9/28/2018 19:22,Fabric Care,Detergent,minimarket,5000.000,0,1,2018-09
37723111,11329127,9/28/2018 19:22,Fabric Care,Detergent,minimarket,5000.000,0,1,2018-09
37820205,11371274,9/29/2018 14:50,Fabric Care,Detergent,minimarket,23500.000,0,1,2018-09


> Jawaban: Data duplikat (dihapus atau tidak dihapus), karena ...