**In-Class: Exploratory Data Analysis**

- Part 2 of Data Analytics Specialization
- Course Length: 12 hours
- Last Updated: December 2024

___

## Objective Courses

The coursebook focuses on:
- Why and What: Exploratory Data Analysis
- Date Time objects
- Categorical data types
- Cross Tabulation and Pivot Table
- Treating Duplicates and Missing Values 

# Introduction

## Apa itu EDA?
Exploratory Data Analysis (EDA) adalah suatu proses untuk melakukan eksplorasi lebih jauh terhadap data, seperti:
- melihat struktur data, 
- melihat sebaran data,
- menyesuaikan bentuk tipe data untuk analisis lebih lanjut.

Proses ini juga dapat membantu menentukan apakah teknik statistik yang Anda pertimbangkan untuk analisis data sudah sesuai. Awalnya dikembangkan oleh matematikawan Amerika John Tukey pada 1970-an, teknik EDA terus menjadi metode yang banyak digunakan pada proses penemuan data saat ini.

## Mengapa EDA penting?
Tujuan utama EDA adalah untuk membantu melihat data sebelum membuat asumsi apa pun.
- membantu mengidentifikasi kesalahan yang terdapat pada data,
- memahami pola dalam data,
- mendeteksi outlier atau kejadian anomali,
- melihat hubungan antara variabel.

Data Scientist dan Data Analyst dapat menggunakan EDA untuk:
- memastikan hasil yang mereka dapatkan valid dan berlaku untuk setiap hasil dan tujuan bisnis yang diinginkan,
- membantu pemangku kepentingan dengan mengonfirmasi bahwa mereka mengajukan pertanyaan yang tepat
- setelah EDA selesai dan insight diambil, fitur-fiturnya kemudian dapat digunakan untuk analisis atau pemodelan data lebih lanjut, termasuk machine learning

## Tools EDA

Pada course sebelumnya, kita telah mempelajari teknik umum:

- `.head()` dan `.tail()` --> ...
- `.dtypes` --> ...
- `.describe()` --> ...
- `.shape` dan `.size` --> ...

Selanjutmya, kita akan mempelajari tools baru seperti:

- Accessors
- Cross-tabulation
- Pivot Tables
- Missing Values
- Duplicates

___

# Problem Statement

üîª Anda merupakan seorang data analyst yang diberi sebuah task untuk menganalisis data transaksi penjualan barang rumah tangga berbentuk tabular berformat `.csv`. Anda diminta untuk melakukan eksplorasi terhadap data tersebut hingga mendapatkan insight-insight atau gambaran bisnis yang dapat Anda sampaikan kepada rekan kerja Anda.

# Data Preparation

In [None]:
import pandas as pd

# mengatur tanda koma sebagai pemisah ribuan dan penulisan decimal 2 angka
pd.options.display.float_format = '{:,.2f}'.format 

# Menghilangkan FutureWarning yang disebabkan oleh update di masa depan
import warnings
warnings.simplefilter("ignore", category=FutureWarning)

üîª Data yang anda butuhkan terletak di folder `data_input` dengan nama `household.csv`. Dengan bantuan library `pandas` bukalah data tersebut.

In [None]:
# code here
household = ...

### Household Dataset
Dataset ini merupakan data transaksi pembelian barang kebutuhan rumah tangga. Informasi kolom:
- `receipt_id`: Unique buyer ID
- `receipts_item_id` : Unique transaction ID
- `purchase_time` : Waktu melakukan pembelian
- `category` : Kategori item
- `sub_category` : Sub-kategori item
- `format` : Jenis pasar tempat membeli barang (supermarket, minimarket, hypermarket)
- `unit_price` : Harga per unit
- `diskon` : Diskon
- `quantity` : Jumlah barang yang dibeli
- `yearmonth` : Informasi tahun dan bulan

üîª Lakukan investigasi awal untuk melihat struktur data terhadap object DataFrame anda dengan menggunakan method `.info()`

In [None]:
# code here


üí° **Tips**: Dengan menggunakan method `.info()`, kita dapat memeriksa **informasi** lengkap dari DataFrame kita:

- Dimensi data: jumlah baris dan kolom (`.shape`)
- Nama kolom dan jumlah nilai bukan kosong/null/NA (`.columns`)
- Tipe data setiap kolom (`.dtypes`)
- Penggunaan memori

‚ùì Berdasarkan informasi tipe data, apakah terdapat kolom dengan tipe data yang kurang tepat?

# Data Pre-processing

## Working with Datetime

üîª Tahap selanjutnya anda perlu menyesuaikan tipe data untuk dapat melakukan proses analisis lanjutan, pada tahapan ini kita akan berfokus ke data bertipe datetime.

In [None]:
household.head()

Hasil pengecekan tipe data menunjukkan bahwa terdapat beberapa variable yang memiliki tipe data tidak sesuai dengan yang seharusnya. 

**‚ùìKolom manakah yang seharusnya memiliki format tipe data date time?** ___


### Convert to Datetime

Terdapat tiga cara untuk mengubah menjadi tipe data `datetime64[ns]`:

- Method `.astype()`
- Parameter `parse_dates` pada `pd.read_csv()`
- Fungsi `pd.to_datetime()`

Berikut ini contoh cara penggunaannya:

#### 1Ô∏è‚É£ Method `.astype()`

Ubah menggunakan `.astype()` dengan nilai `'datetime64[ns]'`

In [None]:
# code here


#### 2Ô∏è‚É£ Parameter `parse_dates`

Digunakan ketika ***read*** data, dengan asumsi kita sudah tahu kolom mana yang seharusnya `datetime64[ns]` ketika membaca data.

In [None]:
# code here
df = pd.read_csv("data_input/household.csv", ... )
df.info()

#### 3Ô∏è‚É£ Method `pd.to_datetime()`

Ubah kolom `purchase_time` menggunakan fungsi `pd.to_datetime()`

In [None]:
# code here


üí¨ **Diskusi**

**Q:** Lalu apa yang membedakan ketiga cara tersebut?

Tidak seperti menggunakan `astype()`, dengan `pd.to_datetime()` kita diperbolehkan untuk menentukan **parameter** untuk konversi datetime. Dengan demikian, berikan lebih banyak **fleksibilitas**.

Misalkan kita memiliki kolom yang menyimpan informasi waktu harian di bulan Juni menggunakan format **dd-mm-yyyy** yang merupakan cara normal orang Indonesia menulis tanggal. Mari kita lihat apa yang akan terjadi ketika kita mengonversi tipe data `sales_date` menjadi `datetime64[ns]`:

In [None]:
sales_date = pd.Series(['01-06-2019', '02-06-2019', '03-06-2019', '04-06-2019', '05-06-2019']) # Tanggal 1-5 Juni 2019
sales_date.astype('datetime64[ns]')

Mari kita coba bandingkan dengan ketika kita memiliki data pada waktu sebelumnya. Silakan jalankan kode di bawah ini dan coba perhatikan hasil yang muncul.

In [None]:
sales_date2 = pd.Series(['30-05-2019', '31-05-2019', '01-06-2019', '02-06-2019', '03-06-2019']) 
sales_date2.astype('datetime64[ns]')

‚ö†Ô∏è **Warning**: untuk tanggal dengan beberapa representasi, `pandas` secara default akan menyimpulkannya **bulan** sebagai urutan pertama.

#### Implementasi `pd.to_datetime`

Dikarenakan keterbatasan dari `astype()` yang harus memiliki format awal yang sesuai dengan format hasil akhir, maka dari itu fungsi `pd.to_datetime()` bisa menjadi jawabannya karena fungsi tersebut dibekali dengan beberapa parameter pendukung:

üí° **Cara 1:** Parameter `dayfirst=True`, jika data memiliki format hari di depan pada suatu data tanggal

In [None]:
# code here


üí° **Cara 2:** Parameter `format`, diisikan dengan format **strftime** yang merupakan representasi tanggal dalam bentuk teks

In [None]:
# code here


**üåê Referensi** : https://strftime.org/

Bagaimana jika kita bertemu data dengan format yang berantakan seperti kasus berikut?

In [None]:
sales_date3 = pd.Series(['30-May-2019', '31-05-2019', '01/06/2019', '02-06-2019', '03-June-2019']) 
sales_date3

üí° **Tips:** 
Kita dapat menggunakan sebuah nilai pada parameter `format` yaitu `"mixed"`.

In [None]:
# code here


**‚úèÔ∏è Notes:**

Kapan waktu yang tepat untuk menggunakan 3 cara tersebut?

- `.astype('datetime64[ns]')`: Jika data memiliki format **bulan-tanggal-tahun (mdy)**
- `parse_date=['kolom']`: Jika data memiliki format **bulan-tanggal-tahun (mdy)** dan sudah diketahui nama kolom dengan tipe datetime ketika membaca data
- `pd.to_datetime`: Jika formatnya tidak dalam **bulan-tanggal-tahun (mdy)**


Lalu, apa yang dapat dilakukan pada data datetime?
___

üîª Namun pertama-tama mari kita ubah kolom `purchase_time` menjadi `datetime64[ns]`

In [None]:
# code here


### Datetime Extraction

Setelah melakukan konversi tipe data menjadi bentuk `datetime`, kita dapat melakukan partisi untuk menggali informasi yang lebih spesifik seperti tahun, bulan, hari, dan jam.<br>

**Date component (numeric)**
- `.dt.year` -> partisi tahun
- `.dt.month` -> partisi bulan (angka)
- `.dt.day` -> partisi day/tanggal (dalam angka)
- `.dt.dayofweek` -> Monday=0, Sunday=6

**Date component (string)**
- `.dt.month_name()`-> partisi bulan (nama)
- `.dt.day_name()`-> partisi hari (nama)

**Time component**
- `.dt.hour` -> partisi jam
- `.dt.minute` -> partisi menit
- `.dt.second` -> partisi detik

[Klik di sini untuk Dokumentasinya](https://pandas.pydata.org/pandas-docs/stable/reference/series.html#datetimelike-properties)

**üìÜ Attribut-attribut pada Datetime**

Untuk mengekstrak komponen datetime dalam nilai numerik, kita dapat menggunakan **atribut**

**A. Partisi `dt.year`**

In [None]:
household['purchase_time'].dt.year

**B. Partisi `dt.month`**

In [None]:
household['purchase_time'].dt.month

**C. Partisi `dt.day`**

In [None]:
household['purchase_time'].dt.day

**D. Partisi `dt.dayofweek`**

In [None]:
household['purchase_time'].dt.dayofweek

**E. Partisi `dt.hour`**

In [None]:
household['purchase_time'].dt.hour

**üìÜ Method-method pada Datetime**

Untuk mengekstrak nama (teks) dari komponen datetime, kita dapat menggunakan **method** (dengan tanda kurung)

**A. Partisi dt.day_name()**

In [None]:
household['purchase_time'].dt.day_name()

**B. Partisi dt.month_name()**

In [None]:
household['purchase_time'].dt.month_name()

___

### Object Datetime Transformation

Selain digunakan untuk melakukan partisi, kita juga dapat melakukan transformasi object `datetime` kedalam format periode menggunakan syntax `to_period()`.
- `.dt.to_period('D')` -> mengubah ke format tanggal lengkap (dd-mm-YYYY)
- `.dt.to_period('W')` -> mengubah ke format senin-minggu
- `.dt.to_period('M')` -> mengubah ke format year-month
- `.dt.to_period('Q')` -> mengubah ke format year-quartal

In [None]:
household['purchase_time'].dt.to_period('D')

In [None]:
household['purchase_time'].dt.to_period('W')

In [None]:
household['purchase_time'].dt.to_period('M')

In [None]:
household['purchase_time'].dt.to_period('Q')

<!-- **Timedelta**
`pandas` memiliki sebuah method bermana `timedelta` yang dapat digunakan untuk menghitung selisih hari, jam, bahkan detik. Untuk dokumentasi lebih lengkapnya, silahkan mengunjungi link [berikut ini](https://docs.python.org/3/library/datetime.html#datetime.timedelta) dan [tutorial ini](https://www.tutorialspoint.com/python_pandas/python_pandas_timedelta.htm) -->
___

## Working with Categories

Setelah memproses data dengan tipe data datetime, kita akan belajar tipe data berikutnya yaitu category.

üí° **Tips**:

Karakteristik tipe data `category` :

- Dapat dikelompokkan menjadi beberapa kategori
- Memiliki nilai yang berulang

Kita bisa menggunakan method berikut untuk mengidentifikasi kolom mana yang cocok untuk disimpan ke tipe data `category`

- `.unique()` : Melihat nilai-nilai unik pada sebuah **Series** (kolom)
- `.nunique()` : Melihat nilai-nilai unik pada sebuah **Series** atau **DataFrame**

‚úèÔ∏è **Note** :<br>
Ketika kita belum mengetahui variable mana saja yang dapat diubah ke dalam tipe data category, kita dapat melakukan pengecekan terlebih dahulu menggunakan method **`.nunique()`**. Variable yang memiliki nilai berulang, dan cenderung memiliki jumlah yang berbeda secara signifikan dengan jumlah baris data yang kita miliki, dapat digolongkan sebagai tipe data category.

In [None]:
# code here


üîª Manakah yang seharusnya memiliki tipe data category? _____

‚ùóUbah tipe data kolom-kolom tersebut menjadi category!

In [None]:
# simpan nama-nama kolom yang ingin diubah menjadi category
cat_col = ...

In [None]:
# ubah kolom-kolom cat_col menjadi tipe data category


### Advantages of Categories

Terdapat 2 keuntungan ketika kita mengubah tipe data menjadi `category`:

**1Ô∏è‚É£ Pertama: Memory Efficient <br>**

Pengubahan data object menjadi category akan menghemat memori dan menambah kecepatan komputasional. Kita dapat membandingkan dua Data Frame **sebelum dan sesudah** kolom dikonversi ke tipe data `category`:

In [None]:
# check memory household (object)
household[cat_col].astype('object').info()

In [None]:
# check memory household_cat (category)
household[cat_col].info()

**2Ô∏è‚É£ Kedua: Accessor Category `.cat`**

Mirip seperti tipe data `datetime64[ns]` yang memiliki fungsi khusus melalui accessor `.dt`, tipe data `category` juga memiliki memiliki fungsi khusus melalui accessor `.cat`. Berikut contoh penggunaannya pada data dummy.

In [None]:
# nama kota
df = pd.DataFrame({"kota":['JKT', 'BDG', 'JKT', 'SBY', 'BDG', 'JKT', 'SBY', 'SBY']})
df['kota'] = df['kota'].astype("category")
df['kota']

Agar mendapatkan informasi yang lebih mudah dibaca secara naratif, nilai dalam data dummy tersebut dapat kita ubah menggunakan `rename_categories()` yang terdapat pada accessor `.cat`.

In [None]:
# Mengubah 0-6 menjadi senin-minggu
df['kota'].cat.rename_categories(['Bandung', 'Jakarta', 'Surabaya'])

‚úèÔ∏è **Note** 

Anda dapat menjelajahi lebih banyak fungsi dengan merujuk ke [dokumentasi accessor .cat](https://pandas.pydata.org/pandas-docs/stable/reference/series.html#categorical-accessor) untuk daftar lengkapnya.

___

#### Dive Deeper : Feature Engineering of Datetime and Category data types
_Est. Time required: 15 minutes_

1. Dapatkan nama hari dari kolom `purchase_time`. Simpan hasil partisi nama hari kedalam kolom baru dengan nama `day`
2. Coba buat duplikasi kolom `yearmonth` dari kolom `purchase_time`. Simpan hasil duplikasi ke dalam kolom baru dengan nama `yearmonth_new`
3. Ubah data-data pada kolom `sub_category` menjadi namanya dalam Bahasa Indonesia (Beras, Gula, Detergen)
4. Tampilkan 5 data pertama untuk memastikan bahwa langkah yang dilakukan sudah tepat

In [None]:
# code here - no 1


In [None]:
# code here - no 2


In [None]:
# code here - no 3


In [None]:
# code here - no 4


**Extra Challenge**<br>
Misalkan perkiraan waktu pengiriman akan memakan waktu sekitar 2 hari setelah produk dibeli. Buat kolom baru dengan nama `shipdate_est` yang menyimpan perkiraan waktu pengiriman setiap transaksi!
(**Hint**: Gunakan [`pd.Timedelta`](https://pandas.pydata.org/docs/reference/api/pandas.Timedelta.html)) 

In [None]:
# code here - extra challenge


___

# Analisis Data

## Contingency Tables/Frequency Tables

Contingency tables merupakan tabel yang berisi nilai frekuensi/kemunculan suatu kategori data.<br>

### Method `value_counts()`

**Kegunaan**: Untuk menghitung frekuensi pada setiap category dalam 1 kolom.

üîª Mari kita tinjau transaksi disetiap format market

In [None]:
# code here


**üìà Insight:** 

üìù Parameter:

- `sort`: Jika `False`, mencegah nilai pengurutan apa pun, **mengurutkan berdasarkan alfabet** sebagai gantinya
- `ascending`: Jika `True`, mengurutkan nilai dari yang paling kecil ke besar

In [None]:
# code here


‚ùì LATIHAN!<br>
Sekarang kita ingin tahu hari apa yang banyak dilakukan transaksi

In [None]:
# code here


üìà **Insight:** 

### Cross Tabulation

Selain menggunakan method `value_counts()`, kita juga dapat menggunakan fungsi `crosstab()` yang telah disediakan oleh `pandas` untuk menghitung frekuensi pada data. Syntax yang digunakan untuk menggunakan fungsi `crosstab()` adalah :

```python
pd.crosstab(index=df['kolom_cat1'],
            columns=df['kolom_cat2'])
```

dimana :
- `index` : kolom yang akan dijadikan baris (index) pada crosstab
- `columns` : nama kolom yang akan dijadikan kolom pada crosstab

üîª Masih meninjau permasalahan yang sama, mari kita lihat transaksi disetiap format market menggunakan fungsi `crosstab`

In [None]:
# code here


‚úèÔ∏è **Note**

Untuk mengurutkan nilai pada sebuah kolom, kita dapat menggunakan method `sort_values()`

Parameter `sort_values()`:
- `by`: nama kolom
- `ascending=True`: mengurutkan nilai dari terkecil ke terbesar
___

‚ùì Pada format market mana transaksi paling banyak terjadi dan berapa frekuensinya

In [None]:
# code here


‚ùì LATIHAN! <br>
Tinjau frekuensi transaksi berdasarkan barang (`sub_category`) yang dibeli dan coba gali insight apa yang dapat kita ambil

In [None]:
# code here
pd.crosstab(index = ... ,
            columns = ... )

üìà **Insight:** 


üîª Seperti yang kita tahu bahwa `___` paling banyak dibeli. Selanjutnya kita ingin tahu ada di format market mana `___` paling banyak dibeli:

In [None]:
# code here
pd.crosstab(index = ... ,
            columns = ... )

Keuntungan dari penggunaan crosstab adalah kita dapat melakukan pengaturan dengan beberapa parameter tambahan, yaitu:

- `margins` : Menambahkan baris atau kolom margins yang menampung nilai subtotal
- `normalize` : Membagi keseluruhan nilai hasil crosstab dengan jumlah nilai.

#### Margins

üîª Hitung frekuensi transaksi untuk penjualan barang (`sub_category`) di setiap segmen pasar (format) dan gunakan parameter `margins = True`

In [None]:
# code here


‚ùì LATIHAN!

Misalnya kita ingin mencari tahu Minimarket paling ramai di hari apa?

In [None]:
# code here


___

#### Normalize

Jika parameter normalize bernilai :
- `True` : melakukan normalisasi untuk keseluruhan nilai
- `'index'` : melakukan normalisasi pada setiap baris
- `'columns'` : melakukan normalisasi pada setiap kolom

**Normalize by All**

In [None]:
# code here
pd.crosstab(
    index=household['format'],
    columns=household['sub_category'],
    normalize=...
)

**Normalize by Index**

In [None]:
# code here
pd.crosstab(
    index=household['format'],
    columns=household['sub_category'],
    normalize=...
)

**Normalize by Columns**

In [None]:
# code here
pd.crosstab(
    index=household['format'],
    columns=household['sub_category'],
    normalize=...
)

___

## Dive Deeper: Contingency Table

1. Dengan menggunakan `value_counts`, tampilkan frekuensi transaksi disetiap format pasar yang terjadi pada bulan **February 2018**!
2. Dengan menggunakan `pd.crosstab`, tampilkan bulan (`yearmonth`) dimana **hypermarket** memiliki frekuensi transaksi tertinggi?

<details>
  <summary>üëÜ (click here for hint) üëÜ</summary>

Silahkan lakukan conditional subsetting `2018-02` pada kolom `yearmonth`, kemudian simpan pada variabel `feb_18`

```python
feb_18 = household[ ... == ... ]
feb_18[ ... ].value_counts()
```
</details>

In [None]:
# 1.


In [None]:
# 2.


3. Menjelang Hari Raya Idul Fitri, pada bulan July 2018, minimarket mengalami pelonjakan jumlah pengunjung. Berapa banyakkah jumlah transaksi yang terjadi? 

In [None]:
# 3.


**Optional: Bonus Challenge**

Dalam rangka menaikkan jumlah transaksi di `minimarket`, perusahaan berencana untuk mengadakan _flash-sale_ pada jam-jam dengan transaksi rendah. Pada jam berapakan _flash-sale_ tersebut sebaiknya diadakan?

In [None]:
# Bonus Challenge


___

## Aggregation Tables

Selain menghitung frekuensi kemunculan data, kita juga dapat menggunakan crosstab untuk melakukan agregasi. Pada parameter crosstab, Anda dapat menambahkan parameter `values` sebagai nilai yang diagregasikan dan `aggfunc` sebagai nilai statistika yang dipakai untuk melakukan agregasi.

### `pd.crosstab`

```python
pd.crosstab(index=df['kolom_cat1'],
            columns=df['kolom_cat2'],
            values=df['kolom_num'],
            aggfunc='agg_function')
```

üîª Coba sekarang kita tinjau harga di setiap jenis barang dari nilai rata-ratanya

In [None]:
# code here


üìà **Insight:**

- 

‚ùì LATIHAN! <br>
Total jumlah item (`quantity`) yang terjual untuk per-`sub_category` 

In [None]:
# code here


üìà **Insight:**

- 

___

### `pd.pivot_table`

Cara kerja `pivot_table` tidak jauh berbeda dengan `crosstab()`. Parameter di kedua method inipun hampir sama. Yang membedakan di antara keduanya adalah adanya parameter `data` yang menspesfikasikan dataframe yang akan di pakai pada `pivot table`. 

Syntax:

```python
pd.pivot_table(
    data=...,
    index=...,
    columns=...,
    values=...,
    aggfunc=...
)
```

OR

```python
df.pivot_table(
    index=...,
    columns=...,
    values=...,
    aggfunc=...
)
```

Kita dapat menggunakan `pivot_table` dengan beberapa parameter sebagai berikut.
- `data`: dataframe yang kita gunakan
- `index`: kolom yang akan menjadi index row
- `columns`: kolom yang akan menjadi index kolom (**optional**)
- `values`: nilai yang digunakan untuk mengisi tabel
- `aggfunc`: fungsi agregasi

üîª Kita coba tinjau kembali harga di setiap jenis barang dari nilai rata-ratanya

In [None]:
# code here


üîª Kita dapat menggunakan `pivot_table` sebagai method

In [None]:
# code here


Misalkan kita ingin meninjau harga satuan termahal setiap barang (sub_category), coba bandingkan syntax berikut antara `pd.crosstab()` dan `.pivot_table()`.

In [None]:
# Pivot Table
household.pivot_table(index = 'sub_category',
                      values = 'unit_price',
                      aggfunc = 'max')

In [None]:
# Crosstab
pd.crosstab(index = household['sub_category'] ,
            columns = "Harga Termahal" ,
            values = household['unit_price'] ,
            aggfunc = 'mean' )

‚ùì LATIHAN!

Mas Irfan ingin belanja beras untuk makan beberapa hari kedepan. Namun, karena sedang akhir bulan, dia ingin mencari lokasi dimana terdapat beras yang paling murah. Kira-kira pada format market manakah beras memiliki harga paling murah?

In [None]:
# code here


___

üìù **Pandas Table Summary**
<br>
**1. Frequency Tables:**<br>
- Kegunaan: Menghitung jumlah baris/frequency pada kolom category. Menghitung jumlah n pada data
- Method: 
    1. `.value_counts()` 
        - hanya bisa digunakan untuk menghitung frekuensi pada satu kolom
        - menghasilkan data berbentuk `series`
    2. `pd.crosstab` 
        - bisa diterapkan untuk 2 kolom atau lebih
        - parameter wajib yaitu `index=` dan `columns=`
        - by default akan menghitung `count`nya/frekuensinya
        - menghasilkan data berbentuk `dataFrame`.
    3. `pd.pivot_table` 
        - untuk lebih dari 2 kolom
        - harus menambahkan parameter aggfunc='count'
        - jarang digunakan untuk menghitung frekuensi
        - **Tidak** punya parameter `normalize`
    
**2. Aggregation Tables:**
- Kegunaan: Untuk mengaggregasi kolom numerik
- Method:
    1. `pd.crosstab()` 
        - default=`'count'`
        - ada parameter normalize 
        - parameter aggfunc wajib diisi
    2. `pd.pivot_table()`
        - default=`'mean'`
        - tidak ada parameter normalize
        - parameter `index`/`columns` & `aggfunc` tidak wajib diisi

Perbedaan mendasar antara `crosstab` and `pivot_table`:

|                                                                                    | `pd.crosstab()` | `pd.pivot_table()` |
|------------------------------------------------------------------------------------|-----------------|--------------------|
|                                                                          **Input** | Array of values |          DataFrame |
|                                                              **Default `aggfunc`** |       `'count'` |           `'mean'` |
|                                                          **Parameter `normalize`** |       Available |      Not Available |
| [**Computation Time**](https://ramiro.org/notebook/pandas-crosstab-groupby-pivot/) | Relatively Slower |  Relatively Faster |

___

### [**Optional**] Higher Dimensional Table
Higher dimensional table bisa juga disebut sebagai multi-index dataframe (data yang memiliki lebih dari 1 index). Digunakan untuk melakukan proses tabulasi silang dalam resolusi tinggi (menggunakan beberapa faktor/variabel)

In [None]:
# Crosstab
pd.crosstab(index=[household['yearmonth'], household['day']],
			columns=[household['sub_category'], household['format']],
			values=household['unit_price'],
			aggfunc='mean')

In [None]:
# Pivot Table
household.pivot_table(index=['yearmonth', 'day'],
					  columns=['sub_category', 'format'],
					  values='unit_price',
					  aggfunc='mean')

## Dive Deeper: Tables

1. Perusahaan ingin menganalisis penjualan total berdasarkan jumlah barang yang terjual dan unit price dari setiap barang. Simpan dalam kolom `total_sales` lalu dengan menggunakan hitung total penjualan yang terjadi di setiap hari nya. Hari apakah, penjualan cenderung memiliki pendapatan yang rendah?
2. Anda diminta perusahaan untuk melakuakan analisis pada data `household` dan ambil sebuah insight melalui hasil analisis tersebut. Gunakan metode EDA apapun yang sudah kita pelajari untuk menjawab pertanyaan tersebut!

<details>
  <summary>üëÜ (Additional) Order by Day of Week üëÜ</summary>
  
```python
household['day'] = household['day'].astype('category')
household['day'] = household['day'].cat.reorder_categories(['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday'])
```
</details>

In [None]:
# Soal 1
# Buat kolom total_sales


# buat tabel agregasi


üí° Business Question No 2 : _____

In [None]:
# Soal 2


üìà Insight: 

___

# Missing Values and Duplicates

Dalam melakukan pengolahan data, tidak semua data yang kita miliki adalah data yang "tidy". Ada kemungkinan bahwa data kita memiliki nilai kosong (NULL), memiliki nilai yang berulang, dan memiliki nilai yang tidak sesuai dengan nilai variable yang seharusnya (misal usia memiliki nilai minus). Untuk mengatasi hal tersebut, kita dapat melakukan beberapa metode penanganan pada data yang hilang (missing value) atau data yang duplikat (duplicates value)

### Missing Values
Saat membaca data, jika kolom tidak benar-benar kosong, tapi diisi dengan nilai tertentu yang sebenarnya tidak bermakna (contoh: "Missing", " ", "-") dapat dituliskan pada parameter `na_values()` untuk mendefinisikannya:

```python
data = pd.read_csv('data.csv', na_values = ["Missing", " ", "-"])
```

In [None]:
# read data
household_missing = pd.read_csv('data_input/household-missing.csv', index_col=0, parse_dates=['purchase_time'], na_values = ["Missing", " ", "-"])
household_missing

**‚úèÔ∏è Values**:

- `NaN`: Not a Number, for object, category, and numeric
- `NaT`: Not a Time, for datetime64[ns]

### Check Missing Value
Untuk melakukan pengecekan terhadap ada atau tidaknya missing value pada data, metode yang paling umum digunakan adalah:

- `.notna()` : mengembalikan `True` apabila **tidak** missing
- `.isna()` : mengembalikan `True` apabila **missing**

In [None]:
# isna()


Menghitung jumlah missing value pada setiap kolom:

- `True` akan dihitung sebagai 1
- `False` akan dihitung sebagai 0

In [None]:
# jumlah missing value tiap kolom


Selain menggunakan `isna()`, kita juga dapat menggunakan fungsi `notna()`

In [None]:
# notna()


### Treatment Missing Values

Beberapa cara umum untuk menangani missing values:

1. Hapus baris atau kolom: Menggunakan metode `dropna()`
2. Replace NA dengan nilai `mean`, `median`, dll
3. Tetap mempertahankan data kita

#### Hapus Baris yang NA

- `.dropna(how='any')`: hapus baris apabila memiliki **minimal 1 kolom** nilai missing value

- `.dropna(how='all')`: harus baris apabila memiliki **semua kolom** nilai missing

- `.dropna(subset='<nama_kolom>')`: hapus baris apabila `"nama_kolom"` memiliki nilai missing

In [None]:
# dropna()


In [None]:
# how='any'


In [None]:
# how='all'


In [None]:
# subset


#### Imputasi

Kita akan melakukan imputasi terhadap data yang mengandung missing value, menggunakan metode `.fillna()`

üí° **Tips** untuk imputasi:

Untuk kolom categorical:

- Menggunakan `NA` sebagai salah satu dari kategori
- Isi menggunakan nilai terbanyak yg muncul (mode)


Untuk kolom numerical:

- Isi menggunakan nilai tengah seperti `mean` atau `median`
- Isi dengan nilai 0

In [None]:
household_missing.head()

üîª Kita akan mengimputasi missing value pada kolom `format` dengan `"Missing"`

In [1]:
# replace missing value pada kolom 'format' dengan `missing`


üîª Selanjutnya, kita akan mengimputasi missing value pada kolom `unit_price` dengan nilai rata-ratanya

In [None]:
# hitung mean dari 'unit_price'


In [None]:
# replace missing value pada kolom 'unit_price' dengan mean


‚ùì LATIHAN! <br>
Coba replace missing value pada tiap kolom dengan metode imputasi yang sesuai

- `category`: 
- `discount`: 
- `quantity`: 

In [None]:
# replace missing value pada kolom 'category'


In [None]:
# replace missing value pada kolom 'discount'


In [None]:
# replace missing value pada kolom 'quantity'


Untuk mengisi nilai missing pada kolom bertipe datetime, salah satu metode imputasi yang dapat digunakan adalah dengan menggunakan method `.ffill()` atau `.bfill()`

- Menggunakan metode `.bfill()` : melakukan imputasi dari bawah ke atas
- Menggunakan metode `.ffill()` : melakukan imputasi dari atas ke bawah

In [None]:
# replace missing value pada kolom 'purchase_time'


In [None]:
# replace missing value pada kolom 'weekday'


In [None]:
# check missing value


___


## Duplicated Values
### Check duplicated values
Untuk melakukan pengecekan terhadap ada atau tidaknya data yang duplikat, kita dapat menggunakan method `duplicated()`.

In [None]:
# code here


In [None]:
# check total duplikat data


üìù **Notes**:<br>
Untuk melakukan check duplicated values pada kolom tertentu saja, kita dapat menambahkan nama kolom pada parameter `subset`


In [None]:
# code here


## Handling Duplicate Data
Untuk menangani data yang duplicate, kita bisa menggunakan method `drop_duplicate()`. Cara ini membuat observasi yang duplicated terhapus dan kita bisa mengatur observasi mana yang akan tetap disimpan. 

**Case:**

Cek dimensi dari data `household_missing`. Hapus baris yang duplicated. Cek kembali dimensi data `household_missing`untuk memastikan data yang duplicate sudah terhapus.

**NOTE:** Terdapat 2 macam cara untuk melakukan penghapusan pada nilai duplicate.

1. Dengan menambahkan parameter `keep='first'`, maka akan mempertahankan baris teratas dari nilai yang duplicate. (**Default**)
2. Dengan menambahkan parameter `keep='last'`, maka akan mempertahankan baris terbawah dari nilai yang duplicate.

In [None]:
# drop_duplicates()


In [None]:
# keep = 'last'


### Knowledge Check: Duplicate Data

‚ùì**Q: Apakah kita harus drop data duplikat atau tidak?**

1. Sebuah pusat medis mengumpulkan data pemantauan detak jantung dari beberapa pasien anonim. Pengamatan ini diambil dalam kurun waktu 3 bulan:

In [None]:
monitoring = pd.DataFrame({
    'age': [40, 42, 62, 49, 57, 62],
    'heart_rate': [100, 120, 90, 100, 98, 90]
})
monitoring

In [None]:
monitoring.duplicated()

2. Perusahaan asuransi menggunakan machine learning untuk memberikan harga dinamis kepada pelanggannya. Setiap baris berisi nama pelanggan, pekerjaan/profesi, dan data riwayat kesehatan. Data ini diambil dalam kurun waktu 3 bulan

In [None]:
insurance = pd.DataFrame({
    'cust_id': ['C1', 'C2', 'C3', 'C4', 'C1'],
    'occupation': ['Employee', 'Employee', 'Student', 'Student', 'Employee'],
    'health': ['Good', 'Ok', 'Good', 'Ok', 'Bad']
})
insurance

In [None]:
insurance.duplicated(subset = 'cust_id')

___

# Workflow Data Analysis 

1. Define Business Question
    - mendefinisikan masalah bisnis
    - latar belakang
2. Data Preparation
    - import data
    - cek struktur data
3. Data Preprocessing
    - convert data types
    - handling missing values/duplicate data
4. Data Analysis
    - feature engineering
    - frequency table & aggregate
5. Conclusion
    - menarik insight dari hasil analisis
    - memberikan saran berdasarkan insight

# Inclass Questions