<div style="padding: 60px;
  text-align: center;
  background: #d4afb9;
  color: #003049;
  font-size: 20px;">
  <h2>Inclass: Exploratory Data Analysis</h2>
   <hr>
</div>


- **This notebook based on main material**
- **Course Length**: 12 hours
- **Instructor** : Dwi Gustin Nurdialit
- **Version**: Zeus Data Analytics Specialization - August 2024

# <a id='toc1_'></a>[Exploratory Data Analysis (EDA)](#toc0_)

## <a id='toc1_1_'></a>[Training Objectives](#toc0_)


**Table of contents**<a id='toc0_'></a>    
- [Exploratory Data Analysis (EDA)](#toc1_)    
  - [Training Objectives](#toc1_1_)    
  - [Apa itu EDA?](#toc1_2_)    
  - [Mengapa EDA penting?](#toc1_3_)    
  - [Tools EDA](#toc1_4_)    
- [Problem Statement](#toc2_)    
  - [Setup Library](#toc2_1_)    
- [Data Preparation](#toc3_)    
  - [Load Data](#toc3_1_)    
  - [Data Description](#toc3_2_)    
- [Data Preprocessing and Feature Engineering](#toc4_)    
  - [📅 Working with Datetime](#toc4_1_)    
    - [Convert to Datetime](#toc4_1_1_)    
      - [1️⃣ Method `.astype()`](#toc4_1_1_1_)    
      - [2️⃣ Parameter `parse_dates`](#toc4_1_1_2_)    
      - [3️⃣ Fungsi `pd.to_datetime()`](#toc4_1_1_3_)    
        - [Parameter `dayfirst`](#toc4_1_1_3_1_)    
        - [**[Optional]** Parameter `format = mixed`](#toc4_1_1_3_2_)    
    - [Datetime Partition](#toc4_1_2_)    
    - [Datetime Transformation](#toc4_1_3_)    
      - [**[Optional]** String format time (strftime)](#toc4_1_3_1_)    
    - [🤿 Dive Deeper: Feature Engineering & Datetime data types](#toc4_1_4_)    
  - [🚥 Working with Categories](#toc4_2_)    
- [📝 Summary Day 1: Knowledge Check](#toc5_)    
- [Data Analysis](#toc6_)    
  - [Frequency Tables / Contingency Tables](#toc6_1_)    
    - [**Method `.value_counts()`**](#toc6_1_1_)    
    - [**Cross Tabulation `pd.crosstab()`**](#toc6_1_2_)    
      - [Parameter: Margins](#toc6_1_2_1_)    
      - [Parameter: Normalize](#toc6_1_2_2_)    
- [📝 Summary Day 2](#toc7_)    
  - [Aggregation Table](#toc7_1_)    
    - [`pd.crosstab()`](#toc7_1_1_)    
    - [(Optional) Higher Dimensional Table](#toc7_1_2_)    
    - [`pd.pivot_table`](#toc7_1_3_)    
    - [🤿 Dive Deeper: Analisis Lebaran ✨🌙](#toc7_1_4_)    
  - [📝 Summary: Tables in `pandas`](#toc7_2_)    
- [Missing Values and Duplicates](#toc8_)    
  - [Missing Values](#toc8_1_)    
    - [Cek Missing Value](#toc8_1_1_)    
    - [Treatment Missing Values](#toc8_1_2_)    
      - [Hapus Baris yang NA](#toc8_1_2_1_)    
      - [Missing Value Imputation](#toc8_1_2_2_)    
  - [Duplicated Values](#toc8_2_)    
    - [Check Duplicated Values](#toc8_2_1_)    
    - [Handling Duplicate Data](#toc8_2_2_)    
- [Workflow Data Analysis](#toc9_)    
- [Inclass Question](#toc10_)    

<!-- vscode-jupyter-toc-config
	numbering=false
	anchor=true
	flat=false
	minLevel=1
	maxLevel=6
	/vscode-jupyter-toc-config -->
<!-- THIS CELL WILL BE REPLACED ON TOC UPDATE. DO NOT WRITE YOUR TEXT IN THIS CELL -->

## <a id='toc1_2_'></a>[Apa itu EDA?](#toc0_)

> EDA adalah proses untuk melakukan **eksplorasi lebih jauh terhadap data**. 

Misalnya: 
- melihat struktur data
- melihat sebaran data
- menyesuaikan bentuk tipe data untuk analisis lebih lanjut. 
- mendeteksi adanya kejadian anomali
- menemukan hubungan yang menarik antara variabel

Hal ini dapat membantu menentukan teknik statistika maupun analisis lanjutan sesuai dengan kebutuhan data yang ada.



## <a id='toc1_3_'></a>[Mengapa EDA penting?](#toc0_)

Pernahkah anda mendengar mengenai konsep Garbage In Garbage Out / **GIGO**?

Jika Anda menggunakan data yang tidak akurat untuk analisis, maka hasil analisis Anda juga akan tidak akurat. Hal ini dapat menyebabkan **pengambilan keputusan yang salah**.

Tujuan utama melakukan EDA adalah **membantu melihat data sebelum membuat asumsi apapun**.

Seorang data analyst dapat menggunakan EDA untuk:
- Memastikan hasil valid dan berlaku untuk tujuan bisnis yang diinginkan
- Membantu pemangku kepentingan mengambil keputusan yang tepat
- Melanjutkan ke tahapan analisis yang lebih dalam, misalnya untuk pemodelan machine learning (predictive)

## <a id='toc1_4_'></a>[Tools EDA](#toc0_)

Pada course sebelumnya, kita telah mempelajari teknik umum:
- `.head()` dan `.tail()` untuk inspeksi data
- `.describe()` untuk mendeskripsikan data secara statistik
- `.shape` dan `.size` untuk cek dimensi data
- `.axes` untuk cek label index kolom dan baris
- `.dtypes` untuk cek tipe data

Dalam course ini, kita akan memperluas pemahaman EDA dengan teknik berikut:

- Accessor Date Types
- Tables
- Cross-table and aggregates
- Pivot Tables

---

# <a id='toc2_'></a>[Problem Statement](#toc0_)

🔻 Anda merupakan seorang analis data yang bekerja di sebuah perusahaan retail. Anda diminta untuk melakukan eksplorasi terhadap data transaksi hingga mendapatkan insight-insight bisnis yang dapat Anda ceritakan kepada rekan atau atasan Anda.

## <a id='toc2_1_'></a>[Setup Library](#toc0_)

In [None]:
import pandas as pd

# mengatur tanda koma sebagai pemisah ribuan dan penulisan decimal 2 angka
pd.options.display.float_format = '{:,.0f}'.format

# <a id='toc3_'></a>[Data Preparation](#toc0_)

## <a id='toc3_1_'></a>[Load Data](#toc0_)

🔻 Data transaksi terletak di dalam folder `data_input` dengan nama **`household.csv`**. Dengan bantuan library `pandas` bacalah data tersebut.

In [None]:
# code here


## <a id='toc3_2_'></a>[Data Description](#toc0_)

Dataset ini merupakan data transaksi pembelian barang kebutuhan sehari-hari (rumah tangga). Berikut informasi kolomnya:

- `receipt_id`      : Identifier untuk satu struk
- `receipt_item_id` : Identifier untik untuk satu item pada struk tertentu
- `purchase_time`   : Waktu melakukan pembelian
- `category`        : Kategori item
- `sub_category`    : Sub-Kategori item
- `format`          : Jenis pasar tempat membeli barang (Supermarket, Minimarket, Hypermarket)
- `unit_price`      : Harga barang per unit
- `discount`        : Diskon
- `quantity`        : Jumlah barang yang dibeli
- `yearmonth`       : Informasi tahun dan bulan

🔻 Lakukan investigasi awal untuk melihat struktur data terhadap object DataFrame  dengan menggunakan method `.info()`

In [None]:
# code here


💡 Dengan menggunakan method `.info()`, kita dapat memeriksa **informasi** lengkap dari DataFrame kita:

- Dimensi data: jumlah baris dan kolom (`.shape`)
- Nama kolom dan jumlah nilai bukan NA/kosong (`.columns`)
- Tipe data setiap kolom (`.dtypes`)
- Penggunaan memori

# <a id='toc4_'></a>[Data Preprocessing and Feature Engineering](#toc0_)

**Feature** : Kolom , **Engineering** : Teknik -> **Feature Engineering** adalah teknik untuk menghasilkan kolom baru dari kolom yang sudah ada

## <a id='toc4_1_'></a>[📅 Working with Datetime](#toc0_)

🔻 Tahapan selanjutnya adalah menyesuaikan tipe data agar dapat melakukan proses analisis lanjutan. Kita akan berfokus ke data bertipe **datetime**

In [None]:
# Cek tipe data


**❓ Kolom manakah yang seharusnya memiliki format tipe data date time?**

> 

### <a id='toc4_1_1_'></a>[Convert to Datetime](#toc0_)

Ada 3 cara untuk mengubah sebuah kolom menjadi tipe data `datetime64[ns]`:
- Method `.astype()`
- Parameter `parse_dates`
- Method `pd.to_datetime()`

#### <a id='toc4_1_1_1_'></a>[1️⃣ Method `.astype()`](#toc0_)

🔻 Mari kita buat salinan `household` agar data aslinya tetap tidak berubah

In [None]:
# code here
df_1 = household.copy()

Ubah menggunakan `.astype()` dengan nilai `datetime64[ns]`

In [None]:
# code here


In [None]:
# cek kembali tipe data
df_1.dtypes

⚠️**Warning**: Jangan lupa untuk melakukan assignment hasilnya ke kolom aslinya.

#### <a id='toc4_1_1_2_'></a>[2️⃣ Parameter `parse_dates`](#toc0_)

Digunakan ketika ***read*** data, dengan asumsi kita sudah tahu kolom mana yang seharusnya `datetime64[ns]`

In [None]:
# code here
df_2 = 

#### <a id='toc4_1_1_3_'></a>[3️⃣ Fungsi `pd.to_datetime()`](#toc0_)

In [None]:
df_3 = household.copy()
df_3.dtypes

Ubah menggunakan method `pd.to_datetime()`

In [None]:
# code here


In [None]:
# cek kembali tipe data
df_3.dtypes

<div class="alert alert-info">
<p>

💬❓ **Diskusi** Jadi apa yang membedakan `.astype()` dengan `pd.to_datetime()`?

Pada `pd.to_datetime()` terdapat lebih banyak **parameter** yang dapat digunakan dalam mengatur pengkonversian sebuah kolom menjadi datetime. Dengan demikian, `pd.to_datetime()` lebih memberikan **fleksibilitas** daripada `.astype()`.

</p>
</div> 




Misalkan kita memiliki kolom yang menyimpan data penjualan harian dari **awal Februari**

In [None]:
sales_date = pd.Series(['01-02-2024', '02-02-2024', '03-02-2024', '04-02-2024'])
sales_date

Contoh di atas menunjukkan bagaimana orang Indonesia biasanya menulis tanggal, menggunakan format **tanggal-bulan-tahun**. Mari kita lihat apa yang akan terjadi ketika kita mengonversi tipe data `sales_date` menjadi `datetime64[ns]`:

In [None]:
sales_date.astype('datetime64[ns]')

<div class="alert alert-danger">
<p>

**Warning**: `pandas` secara default akan menyimpulkannya **bulan** sebagai urutan pertama.

</p>
</div> 

##### <a id='toc4_1_1_3_1_'></a>[Parameter `dayfirst`](#toc0_)

💡 **Tips**: Parameter `dayfirst = True` untuk memberitahu bahwa format tanggal diawali dengan hari bukan bulan

In [None]:
sales_date = 

##### <a id='toc4_1_1_3_2_'></a>[**[Optional]** Parameter `format = mixed`](#toc0_) [&#8593;](#toc0_)

💬 Bagaimana jika kita bertemu data dengan format yang berantakan seperti kasus berikut?

In [None]:
sales_date2 = pd.Series(['30-Jan-2024', '31/01/2024', '01-02-2024', '02-02-24'])
sales_date2

💡 **Tips:** 
Kita dapat menggunakan sebuah nilai pada parameter `format = 'mixed'`.

In [None]:
# code here
sales_date2 = pd.to_datetime(sales_date2)
sales_date2

**✏️ Quick Summary:**

Kapan waktu yang tepat untuk menggunakan 3 cara tersebut?

- `.astype('datetime64[ns]')`: 
- `parse_date=['kolom']`: 
- `pd.to_datetime`: 

___

___


___

### <a id='toc4_1_2_'></a>[Datetime Partition](#toc0_)



<div class="alert alert-secondary">
<p>

Ketika sebuah kolom sudah menjadi `datetime64`, kita dapat mengambil bagian waktu lebih spesifik seperti tahun, bulan, hari, dan jam.

**Date component (numeric)**
- `.dt.year` untuk komponen tahun
- `.dt.month` untuk komponen bulan (dalam angka)
- `.dt.day` untuk komponen tanggal (dalam angka)
- `.dt.dayofweek` untuk ekstrak index hari dalam seminggu; Monday = 0 dan Sunday = 6

**Date component (string)**
- `.dt.month_name()` untuk komponen nama bulan
- `.dt.day_name()`untuk komponen nama hari

**Time component**
- `.dt.hour` untuk komponen jam
- `.dt.minute` untuk komponen menit
- `.dt.second` untuk komponen detik

> [Dokumentasi: datetime properties](https://pandas.pydata.org/pandas-docs/stable/reference/series.html#datetimelike-properties)


</p>
</div> 



**🔻 Namun pertama-tama mari kita ubah kolom `purchase_time` pada data `household` menjadi `datetime64`**

In [None]:
# code here


**📆 Attribut-attribut pada Datetime**

Untuk mengekstrak komponen datetime dalam nilai numerik, kita dapat menggunakan **atribut**

**A. Partisi `dt.year`**

In [None]:
household['purchase_time']

**B. Partisi `dt.month`**

In [None]:
household['purchase_time']

**C. Partisi `dt.day_of_week`**

In [None]:
household['purchase_time']

**D. Partisi `dt.hour`**

In [None]:
household['purchase_time']

**📆 Method-method pada Datetime**

Untuk mengekstrak nama (teks) dari komponen datetime, kita dapat menggunakan **method** (dengan tanda kurung)

**A. Partisi `dt.day_name()`**

In [None]:
# ekstrak nama hari
household['purchase_time']

**B. Partisi `dt.month_name()`**

In [None]:
# ekstrak nama bulan
household['purchase_time']

### <a id='toc4_1_3_'></a>[Datetime Transformation](#toc0_)



<div class="alert alert-secondary">
<p>

Selain digunakan untuk melakukan partisi, kita juga dapat melakukan transformasi object `datetime64[ns]` ke dalam format periode menggunakan method `.to_period()`.

- `.dt.to_period('D')` untuk mengubah ke format **D**aily (tanggal lengkap)
- `.dt.to_period('W')` untuk mengubah ke format **W**eekly (awal dan akhir minggu)
- `.dt.to_period('M')` untuk mengubah ke format **M**onthly (year-month)
- `.dt.to_period('Q')` untuk mengubah ke format **Q**uarterly (year-quarter)


</p>
</div> 


In [None]:
household['purchase_time']

In [None]:
household['purchase_time']

In [None]:
household['purchase_time']

In [None]:
household['purchase_time']

---

#### <a id='toc4_1_3_1_'></a>[**[Optional]** String format time (strftime)](#toc0_) [&#8593;](#toc0_)

**Mengubah tanggal ke dalam bentuk string menggunakan strftime**<br>
Datetime memiliki sebuah method bernama **strftime** (string for time) yang dapat digunakan untuk melakukan konversi tipe datetime menjadi format string.

> [Dokumentasi Python `strftime` cheatsheet](https://strftime.org/)

Misalnya kita akan mengubah object `sales_date` menjadi format "nama hari, tanggal-nama bulan-tahun".

In [None]:
sales_date

In [None]:
sales_date.dt.strftime('%A, %d %B %Y')

___

___

___

### <a id='toc4_1_4_'></a>[🤿 Dive Deeper: Feature Engineering & Datetime data types](#toc0_)


_Est. Time required: 10 minutes_

1. Pada cell di bawah ini, import kembali data `household.csv` dan simpan ke dalam variable bernama `household_new`
2. Ubah `purchase_time` ke tipe data `datetime64[ns]`
3. Dapatkan nama hari menggunakan perintah `x.dt.day_name()` dengan asumsi `x` adalah nama kolom datetime yang akan dipartisi. Simpan hasil partisi nama hari ke dalam kolom baru dengan nama `dayofweek`
4. Cobalah re-create kolom `yearmonth` dari kolom `purchase_time`
5. Tampilkan 5 data teratas untuk memastikan bahwa langkah yang dilakukan sudah tepat 


___

___

___

## <a id='toc4_2_'></a>[🚥 Working with Categories](#toc0_)

Karakteristik tipe data `category` yaitu nilai yang berulang pada kolom, dengan kata lain jumlah uniknya cukup sedikit.

🔻 Cek kembali tipe data yang belum sesuai:

In [None]:
household_new.head()

In [None]:
household_cat = household_new.copy()
household_cat.dtypes

Kita bisa menggunakan method berikut untuk mengidentifikasi kolom mana yang cocok untuk disimpan ke tipe data `category`

- `.unique()` : Melihat nilai-nilai unik pada sebuah **Series** (kolom)
- `.nunique()` : Melihat jumlah nilai unik pada sebuah **Series** atau **DataFrame**

💡 **Tips** :<br>
Ketika kita belum mengetahui variable mana saja yang dapat diubah ke dalam tipe data category, kita dapat melakukan pengecekan terlebih dahulu menggunakan method **`.nunique()`**. Variable yang memiliki nilai berulang, dan cenderung memiliki jumlah yang berbeda secara signifikan dengan jumlah baris data yang kita miliki, dapat digolongkan sebagai tipe data category.

Mari kita cek kembali tipe data pada object `household_cat`. Manakah yang seharusnya memiliki tipe data category?

In [None]:
# code here
household_cat

In [None]:
# unique()
household_cat

- Untuk method `nunique()` objectnya adalah dataframe
- Untuk method `unique()` objectnya adalah Series/kolom

**❓ Kolom manakah yang seharusnya memiliki format tipe `'category'`?**

> Jawaban: 

In [None]:
# code here


**📝 [Optional] Advantages of Categories**

Ada 2 keuntungan mengubah tipe data menjadi `category`:

**1️⃣ Pertama: Memory Efficient <br>**
Kita dapat membandingkan dua Data Frame **sebelum dan sesudah** kolom dikonversi ke tipe data `category`:
- `household_new` (before): ...
- `household_cat` (after): ...

In [None]:
# check penggunaan memory SEBELUM konversi menjadi category
household_new.info()

In [None]:
# check penggunaan memory SESUDAH konversi menjadi category
household_cat.info()

**2️⃣ Kedua: Accessor Category `.cat`**<br>
Sama seperti tipe data `datetime64[ns]` yang memiliki accessor `.dt`, tipe data `category` memiliki accessor `.cat`. Berikut adalah beberapa contohnya:

🔻 `cat.categories`; Mengetahui kategori dari sebuah kolom category:

In [None]:
household_cat['dayofweek'].cat.categories

🔻 Mengurutkan kategori dari sebuah kolom category yang bersifat **ordinal** (tipe data kategori yang ada urutannya) dengan `.cat.reorder_categories`

Data ordinal:
- Ukuran baju -> s M L XL
- Tingkat pendidikan 
- Hari

In [None]:
ordered_dayofweek = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
household_cat['dayofweek'] = household_cat['dayofweek'].cat.reorder_categories(ordered_dayofweek)

In [None]:
# cek kembali, pengurutan sudah sesuai dengan yang kita inginkan
household_cat['dayofweek'].cat.categories

> Masih banyak fungsionalitas tipe data category yang dapat Anda eksplor. Silahkan merujuk ke [dokumentasi accessor .cat](https://pandas.pydata.org/pandas-docs/stable/reference/series.html#categorical-accessor) untuk daftar lebih lengkapnya.

# <a id='toc5_'></a>[📝 Summary Day 1: Knowledge Check](#toc0_)

1. Berikut yang **bukan** tujuan dari Exploratory Data Analisis (EDA) adalah:

    - [ ] A. Mengetahui pola pada data
    - [ ] B. Mencari anomali pada data
    - [ ] C. Mencari jawaban dari pertanyaan bisnis yang kita punya
    - [ ] D. Menganalisis hingga mendapatkan suatu insight
    - [ ] E. Semua benar
    
    
2. Berikut yang **bukan** merupakan tools untuk melakukan investigasi struktur pada data kita adalah:

    - [ ] A. `df.head()`
    - [ ] B. `df.info()`
    - [ ] C. `df.astype()` 
    - [ ] D. `df.dtypes` 
    - [ ] E. `df.columns` 
    - [ ] F. Semua benar
    

3. Untuk mengubah tipe data menjadi datetime dapat menggunakan 3 cara yaitu `.astype()`, `parse_dates` dan `pd.to_datetime()`, manakah pernyataan berikut yang **salah** terkait dari ketiganya:

    - [ ] A. `pd.to_datetime` digunakan ketika format tanggal kita berawalan hari/tanggal
    - [ ] B. `.astype()` digunakan ketika format tanggal kita hanya bulan dan tanggal
    - [ ] C. Parameter `parse_dates` dapat digunakan ketika kita sudah terbiasa dengan data yang kita olah
    - [ ] D. Semua benar
    
    
4. Berikut adalah alasan kita menyesuaikan tipe data pada kolom..

    - [ ] A. Untuk bisa mengoperasikan data 
    - [ ] B. Untuk bisa mengambil dan mengekstrak beberapa komponen 
    - [ ] C. Untuk bisa dianalisis lebih lanjut
    - [ ] D. Untuk mengehemat penggunaan memory
    - [ ] E. Semua benar



___

---
---

# <a id='toc6_'></a>[Data Analysis](#toc0_)

In [None]:
# menimpa object household dengan tipe data yang sudah disesuaikan
household = household_cat.copy()

## <a id='toc6_1_'></a>[Frequency Tables / Contingency Tables](#toc0_)

**Goal**: untuk menghitung nilai frekuensi/kemunculan suatu kategori data.

### <a id='toc6_1_1_'></a>[**Method `.value_counts()`**](#toc0_)

**Kegunaan**: Menghitung jumlah baris pada setiap category dalam 1 kolom, dan **defaultnya diurutkan secara descending**

❓ Toko kita butuh melakukan stock opname sehingga perlu tahu jenis market mana yang paling banyak melakukan transaksi berdasarkan data `household`?

> **📈 Insight:**


🚀 **Knowledge Check - Promotion Analysis** 

Sekarang kita ingin tahu hari apa yang banyak dilakukan transaski? Kira-kira promosi paling oke diadakan pada hari apa?

In [None]:
# code here


> **📈 Insight:**


### <a id='toc6_1_2_'></a>[**Cross Tabulation `pd.crosstab()`**](#toc0_)

Selain menggunakan method `value_counts()`, kita juga dapat menggunakan fungsi `crosstab()` yang telah disediakan oleh `pandas` untuk menghitung frekuensi pada data. Syntax yang digunakan untuk menggunakan fungsi `crosstab()` adalah :

```python
pd.crosstab(index=x,
            columns=y)
```

dimana :
- index : kolom yang akan dijadikan index baris (axis 0)
- columns : kolom yang akan dijadikan index kolom (axis 1)

🔻 Dengan permasalahan yang sama, mari kita lihat banyaknya transaksi di setiap harinya (`dayofweek`) menggunakan fungsi **`crosstab`**

In [None]:
# menggunakan crosstab

❓ Coba tampilkan hari dengan frekuensi transaksi terkecil

Kita coba **mengurutkan hasil cross tabulation** berdasarkan kolom tertentu dengan `sort_values()`. Parameter pada `sort_values()`:
- `by` : nama kolom
- `ascending`: default = `True` diurutkan berdasarkan nilai terkecil ke terbesar

In [None]:
# code here


❓ **Barang manakah yang paling laku?** <br>

Tinjau frekuensi transaksi berdasarkan barang (`sub_category`) dan urutkanlah!

In [None]:
# code here


**2 Factor Crosstab**

🔻 Pada bagian sebelumnya, kita tahu bahwa barang dengan transaksi terbanyak adalah **Detergent**. Selanjutnya kita ingin tahu `format` market manakah yang paling banyak transaksi barang tersebut: 

In [None]:
# code here


> **📈 Insight:**


<div class="alert alert-info">
<p>

💬 **[Diskusi]** Dari tabel frekuensi di atas:

🔻 Bagaimana kalau kita ingin menghitung jumlah **frekuensi per baris/kolom**? <br>
🔻 Bagaimana kalau kita ingin melihat **proporsi** atau dalam **persentase**?

</p>
</div> 

#### <a id='toc6_1_2_1_'></a>[Parameter: Margins](#toc0_)

Menambahkan baris atau kolom margins yang menampung nilai subtotal

🔻 Hitung total frekuensi transaksi untuk penjualan barang (`sub_category`) di setiap segmen pasar (format)

In [None]:
# code here


Note: Parameter pada crosstab
- `margins = True` : menambahkan kolom subtotal
- `margins_name = 'isikan nama kolom'` : nama kolom yang diinginkan 

#### <a id='toc6_1_2_2_'></a>[Parameter: Normalize](#toc0_)

Tujuannya adalah melakukan normalisasi untuk setiap value dengan cara membagi keseluruhan nilai hasil `crosstab` dengan jumlah nilai atau **tabel proporsi**

Jika parameter normalize bernilai:
- `'all'` atau `True` : melakukan normalisasi untuk keseluruhan nilai
- `'index'` : melakukan normalisasi pada setiap **baris**
- `'columns'` : melakukan normalisasi pada setiap **kolom**

**Normalize by all**

In [None]:
# code here


**Normalize by Index**

`normalize='index'` artinya tiap nilai dibagi dengan jumlah per **index**nya. Dengan kata lain, jumlah persentase per index = 100%

In [None]:
# code here


> **📈 Insight:**


**Normalize by Columns**

`normalize='columns'` artinya tiap nilai dibagi dengan jumlah per **columns**nya. Dengan kata lain, jumlah persentase per column = 100%

In [None]:
# code here


> **📈 Insight:**


# <a id='toc7_'></a>[📝 Summary Day 2](#toc0_)

Tabel Frekuensi/Contingency --> digunakan untuk menghitung nilai frekuensi atau kemunculan data
1. `.value_counts()` : 
    - `sort=True` : 
    - `sort=False` : 
    - `ascending=True`: 
    - `ascending=False`: 
2. `pd.crosstab()`   : 
    - `index`: 
    - `colums`: 
    - `margins`: 
    - `normalize`: 
        1. `normalize=True` 
        2. `normalize='all'` 
        3. `normalize='index'`
        4. `normalize='columns'`
3. `.sort_values()`
    + `by="kolom"`
    + `ascending=False`
    + `ascending=True`

--- END OF DAY 2 ---


--- START OF DAY 3 ---

## <a id='toc7_1_'></a>[Aggregation Table](#toc0_)

Selain menghitung frekuensi kemunculan data, kita juga dapat menggunakan crosstab untuk melakukan agregasi. Pada parameter crosstab, Anda dapat menambahkan parameter `values` sebagai nilai yang diagregasikan dan `aggfunc` sebagai nilai statistika yang dipakai untuk melakukan agregasi.

### <a id='toc7_1_1_'></a>[`pd.crosstab()`](#toc0_)

```{python}
pd.crosstab(index=...,
            columns=...,
            values=numerical_columns
            aggfunc=agg_function)
```

Beberapa contoh `aggfunc`:
- mean
- median
- min
- max
- std
- count: jumlah baris (tabel frekuensi)
- sum

❓ **Case: Analisis Harga Pasar** - Sebagai seorang Data Analyst kita diminta menganalisis harga rata-rata dari setiap sub category barangnya.

In [None]:
# code here


> **📈 Insight:**
...

❓ **Case: Cheapest Rice**

🤶 Bu Susi ingin membeli kebutuhan pokok berupa `Rice`. Seperti kebanyakan Ibu-Ibu, ia menginginkan harga termurah. Apa format toko yang bisa kita rekomendasikan untuk Ibunya datangi? *Hint*: Kita dapat meninjau berdasarkan nilai `mean`.


In [None]:
# code here


> **📈 Insight:** 

❓ **Case: Sales Performance**

Divisi sales ingin mengetahui pada periode kuarter (year-quarter) berapakah hypermarket mencapai total sales tertingginya?

1. Buatlah kolom `total_sales` yang merupakan perkalian `quantity` dan `unit_price` untuk setiap barisnya
2. Partisi kolom `purchase_time` untuk mendapatkan periode kuarter `quarter`
2. Dengan menggunakan nilai `total_sales`, hitunglah total penjualan per kuarter untuk masing-masing `format`
3. Cari tahu kapan hypermarket menyentuh `total_sales` tertingginya

In [None]:
# no 1


In [None]:
# no 2


In [None]:
# no 3


> **📈 Insight:**

---

### <a id='toc7_1_2_'></a>[(Optional) Higher Dimensional Table](#toc0_)

Higher dimensional tabel bisa juga disebut sebagai multi-index dataframe (data yang memiliki lebih dari 1 index). Digunakan untuk melakukan proses tabulasi silang dengan menggunakan beberapa kolom kategori.

Berikut adalah contoh crosstab dengan empat kategori pengelompokkan untuk mengetahui jumlah barang (`quantity`) yang terjual untuk masing-masing `sub_category` dan `format`, dibedakan per `yearmonth` dan `dayofweek`:

In [None]:
pd.crosstab(
    index = [household['yearmonth'], household['dayofweek']],
    columns = [household['sub_category'], household['format']],
    values = household['quantity'],
    aggfunc = 'sum')

In [None]:
# menambahkan 2 aggfunc
pd.crosstab(index = household['format'],
            columns = household['quarter'],
            values = household['total_sales'],
            aggfunc = ['sum', 'mean'])

---

### <a id='toc7_1_3_'></a>[`pd.pivot_table`](#toc0_)

Cara kerja `pivot_table` tidak jauh berbeda dengan `crosstab()`. Parameter di kedua method inipun hampir sama. Yang membedakan di antara keduanya adalah adanya parameter `data` yang menspesifikasikan dataframe yang akan di pakai pada `pivot_table`

Syntax:

```{python}
pd.pivot_table(
    data=...,
    index=...,
    columns=...,
    values=...,
    aggfunc=...
)
```

OR

```{python}
data.pivot_table(
    index=...,
    columns=...,
    values=...,
    aggfunc=...
)
```

Kita dapat menggunakan `pivot_table` dengan beberapa parameter sebagai berikut.
- `data`: dataframe yang kita gunakan
- `index`: kolom yang akan menjadi index row
- `columns`: kolom yang akan menjadi index kolom
- `values`: nilai yang digunakan untuk mengisi tabel
- `aggfunc`: fungsi agregasi

Untuk memahami penggunaan `pivot_table`, mari kita bandingkan tabel agregasi yang dibuat menggunakan `crosstab` dan `pivot_table`.

Berikut crosstab yang menampilkan rata-rata harga satuan `sub_category` untuk masing-masing `format` dari topik Bu Susi sebelumnya.

In [None]:
pd.crosstab(
    index=household['sub_category'], 
    columns=household['format'], 
    values=household['unit_price'],
    aggfunc='mean'
)

🔻 Buat ulang tabel agregasi di atas menggunakan `pd.pivot_table()`. Secara default, `aggfunc='mean'`

In [None]:
# code here
# alternatif penulisan pertama


🔻 Kita juga dapat menggunakan `.pivot_table()` sebagai method pada sebuah objek dataframe:

In [None]:
# alternatif penulisan kedua


### <a id='toc7_1_4_'></a>[🤿 Dive Deeper: Analisis Lebaran ✨🌙](#toc0_)

Dikarenakan akan memasuki waktu lebaran 2025, mari kita amati behaviour transaksi yang terjadi mendekati hari raya pada tahun sebelumnya. 

**Berapa banyak total quantity dan berapa rata-rata quantity orang membeli barang pada setiap `format` market dan `sub_category`nya?**

Harapannya dengan kita mengetahui hal tersebut, kita dapat memastikan bahwa stok barang tersedia dan tidak ada kelangkaan.

*Hint*: Hari raya Idul Fitri tahun 2018 jatuh pada bulan Juni.

## <a id='toc7_2_'></a>[📝 Summary: Tables in `pandas`](#toc0_)

📝 **Pandas Table Summary**
<br>
**1. Frequency Tables:**<br>
- Kegunaan: ...
- Method: 
    1. `.value_counts()` 
    2. `pd.crosstab` 
    3. `pd.pivot_table` 
    
**2. Aggregation Tables:**
- Kegunaan: ...
- Method:
    1. `pd.crosstab()` 
    2. `pd.pivot_table()`

Perbedaan mendasar antara `crosstab` and `pivot_table`:

|                                                                                    | `pd.crosstab()` | `pd.pivot_table()` |
|------------------------------------------------------------------------------------|-----------------|--------------------|
|                                                                          **Input** |Series |          DataFrame |
|                                                              **Default `aggfunc`** |       `'count'` |           `'mean'` |
|                                                          **Parameter `normalize`** |       Available |      Not Available |
| [**Computation Time**](https://ramiro.org/notebook/pandas-crosstab-groupby-pivot/) | Relatively Slower |  Relatively Faster |

# <a id='toc8_'></a>[Missing Values and Duplicates](#toc0_)

Dalam melakukan pengolahan data, tidak semua data yang kita miliki adalah data yang "tidy". Ada kemungkinan bahwa data kita memiliki nilai yang hilang, memiliki nilai yang berulang, dan memiliki nilai yang tidak sesuai dengan nilai kolom yang seharusnya (misal usia memiliki nilai minus). 

Untuk mengatasi hal tersebut, kita dapat melakukan beberapa metode penanganan pada data yang hilang (missing value) atau data yang duplikat (duplicates value)

## <a id='toc8_1_'></a>[Missing Values](#toc0_)

Bacalah data `household-missing.csv` yang merupakan data `household` yang telah dimanipulasi sedemikian rupa agar terdapat nilai missing.

In [None]:
# read data


**✏️ Values**:

- `NaN`: Not a Number, for object, category, and numeric
- `NaT`: Not a Time, for datetime64[ns]

Parameter `na_values` pada `pd.read_csv()` : untuk mendefinisikan suatu nilai NA 

```
na_valuesHashable, Iterable of Hashable or dict of {HashableIterable}, optional
Additional strings to recognize as NA/NaN. If dict passed, specific per-column NA values. By default the following values are interpreted as NaN: “ “, “#N/A”, “#N/A N/A”, “#NA”, “-1.#IND”, “-1.#QNAN”, “-NaN”, “-nan”, “1.#IND”, “1.#QNAN”, “<NA>”, “N/A”, “NA”, “NULL”, “NaN”, “None”, “n/a”, “nan”, “null “.
```

### <a id='toc8_1_1_'></a>[Cek Missing Value](#toc0_)

Untuk melakukan pengecekan terhadap ada atau tidaknya missing value pada data, metode yang paling umum digunakan adalah:
> `.isna()` : menghasilkan `True` apabila **missing**

In [None]:
# isna()


Menghitung jumlah missing value pada setiap kolom:

- `True` akan dihitung sebagai 1
- `False` akan dihitung sebagai 0

Cara yang biasa digunakan untuk menggunakan method `.isna()` adalah mengombinasikannya dengan method `.sum()` sehingga outputnya berupa jumlah nilai `NaN` yang terletak pada setiap kolomnya.

In [None]:
# melihat total nilai missing untuk setiap kolom


### <a id='toc8_1_2_'></a>[Treatment Missing Values](#toc0_)

Beberapa cara umum untuk menangani missing values:

1. Hapus baris atau kolom: Menggunakan metode `dropna()`
2. Replace NA dengan nilai `mean`, `median`, `modus` dll
3. Tetap mempertahankan data kita

#### <a id='toc8_1_2_1_'></a>[Hapus Baris yang NA](#toc0_)

- `.dropna(how='any')`: hapus baris apabila memiliki **minimal 1 kolom** nilai missing value -> default parameter

- `.dropna(how='all')`: harus baris apabila memiliki **semua kolom** nilai missing

- `.dropna(thresh=...)`: hapus baris apabila nilai **non-missing** < `thresh` 

In [None]:
# dropna


In [None]:
# how = 'any'


In [None]:
# how = 'all'


In [None]:
# thresh = 3, minimal harus ada 3 kolom yang TIDAK MISSING agar dipertahankan < thresh


#### <a id='toc8_1_2_2_'></a>[Missing Value Imputation](#toc0_)

Kita akan melakukan imputasi terhadap data yang mengandung missing value menggunakan metode `.fillna()`.

💡 **Tips** untuk imputasi:

Untuk kolom kategorik:
- Menggunakan `NA` sebagai salah satu dari kategori
- Isi menggunakan pusat data (`mode` = modus)

Untuk kolom numerik:
- Isi menggunakan pusat data seperti `mean` atau `median`
- Isi dengan nilai tertentu -> misalkan 0

Untuk kolom datetime:
- Menggunakan metode `bfill` : melakukan imputasi dari bawah ke atas
- Menggunakan metode `ffill` : melakukan imputasi dari atas ke bawah

[Dokumentasi EDA untuk bfill dan ffill:](https://docs.google.com/spreadsheets/d/1iiASkHlWxVZ1hhrlv3RxODZscPUqSeOBwYpVKLEoQcs/edit?usp=sharing)

In [None]:
# cek kembali data


❓ Tinjau beberapa kolom yang missing value dan diskusikan imputasi yang cocok

- `purchase_time` (anggapan data terurut berdasarkan waktu): bfill
- `category` (buat kategori baru): 'unknown'
- `format` (buat kategori baru): 'unknown'
- `unit_price` (isi dengan pusat data): 'mean'
- `discount` (anggapan tidak ada discount): 0
- `quantity` (anggapan tidak ada item terjual): 0
- `weekday` (disamakan dengan purchase_time): bfill
dokumentasi: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html

In [None]:
# code here: imputasi kolom purchase_time dan weekday


In [None]:
# code here: imputasi kolom category dan format


In [None]:
# code here: imputasi kolom discount dan quantity


In [None]:
# code here: imputasi kolom unit_price dengan pusat data


In [None]:
# cek kembali missing value


## <a id='toc8_2_'></a>[Duplicated Values](#toc0_)

### <a id='toc8_2_1_'></a>[Check Duplicated Values](#toc0_)

Informasi yang sifatnya duplikat merupakan informasi yang redundan karena hanya mengulang informasi yang sama.

Maka dari itu mari kita coba perhatikan pada data kita apakah terdapat nilai yang sifatnya duplikat dengan menggunakan method `duplicated()` dilanjutkan dengan method `sum()`.

In [None]:
# code here


### <a id='toc8_2_2_'></a>[Handling Duplicate Data](#toc0_)

Untuk menangani data yang duplicate, kita bisa menggunakan method `drop_duplicates()`. Cara ini membuat observasi yang duplicated terhapus dan kita bisa mengatur observasi mana yang akan tetap disimpan. 

**Case:**

Cek dimensi dari data `hm`. Hapus baris yang duplicated. Cek kembali dimensi data `hm`untuk memastikan data yang duplicate sudah terhapus.

**NOTE:** Terdapat 2 macam cara untuk melakukan penghapusan pada nilai duplicate.

1. Dengan menambahkan parameter `keep='first'`, maka akan mempertahankan baris teratas dari nilai yang duplicate. (**Default**)
2. Dengan menambahkan parameter `keep='last'`, maka akan mempertahankan baris terbawah dari nilai yang duplicate.

In [None]:
# drop_duplicates()


# <a id='toc9_'></a>[Workflow Data Analysis](#toc0_)
1. Define Prolem
    - mendefinisikan masalah bisnis
    - latar belakang
2. Data Preparation
    - import data -> pd.read_csv() atau pd.read_excel()
    - cek struktur data -> dtypes atau info
3. Data Preprocessing
    - convert data types
    - handling missing values/duplicate data
4. Analysis
    - feature engineering
    - contingency table & aggregate
    - insight yang berguna
5. Conclusion
    - hasil yang didapatkan (dari insight)
    - saran 

# <a id='toc10_'></a>[Inclass Question](#toc0_)