**Inclass: Data Wrangling and Visualization**
- Part 3 of Data Analytics Specialization
- Course Length: 12 hours
- Last Updated: August 2024
___

- Developed by [Algoritma](https://algorit.ma)'s product division and instructors team

## Training Objectives

![](assets/dwv_mindmap.png)

- _Python Reproducible Environment_
- _Working with Multi-Index DataFrames_
- _Reshaping DataFrame_
- _Visual Data Exploratory_
- _Using Group By Effectively_

----

# Refresher: P4DA (Week 1) and EDA (Week 2)

2 minggu sebelumnya, kita sudah mempelajari fungsi-fungsi untuk melakukan inspeksi awal dan analisis lanjut pada data:

**_Python for Data Analyst: Data Inspection_**
- `.head()` dan `.tail()`: menampilkan data teratas dan data terbawah.
- `.describe()`: menampilkan nilai statistik pada data.
- `.shape` and `.size`: menampilkan ukuran data.
- `.axes`: menampilkan nama baris/indeks dan kolom.
- `.dtypes`: menampilkan tipe data setiap kolom.
- `.loc` dan `.iloc`: melakukan _indexing/subsetting/slicing_.

**_Exploraroty Data Analysis: Diagnostic and Exploratory_**
- _Tables_.
- _Cross-Tables and Aggregates_.
- _Using `aggfunc` for Aggregate Functions_.
- _Pivot Tables_.
- _Working with DateTime_.
- _Working with Categorical Data_.
- _Duplicates and Missing Value Treatment_.

---

# Python Reproducible Environment


<center>
<img src="assets/venv.webp" width=60%/>
</center>

Pada awal pembelajaran P4DA, kita sudah berkenalan dengan istilah ***virtual environment***.

> ***Virtual environment*** adalah *environment* terisolasi yang memungkinkan setiap *environment* memiliki instalasi dan versi *package* yang khusus dan berbeda. 

Kita bisa menggunakan *virtual environment* saat memiliki banyak projek di mana setiap projek membutuhkan *library* dengan versi yang spesifik. Dengan menggunakan *virtual environment*, kita bisa menjalankan berbagai macam projek pada satu *device* yang sama tanpa perlu khawatir akan adanya permasalahan yang timbul karena perbedaan versi *library*.

## ✨Importing Requirements✨

Anda adalah seorang *data scientist* pada sebuah perusahaan reksadana. Anda sedang memulai sebuah projek analisis saham di *device*-nya dan membuat *virtual environment* khusus untuk projek tersebut. Ia juga melakukan instalasi berbagai *library* yang digunakan untuk projek tersebut.

> ❓ Anda ingin membagikan proyek analisis data tersebut kepada rekan-rekan kerja anda. Bagaimana cara projek tersebut dapat berjalan di *device* rekan anda tanpa menimbulkan *error*?

> 💡 Anda dapat membuat *file* ✨`requirements.txt`✨ yang berisikan daftar *library* yang sudah ter-*install* di-*environment*-nya dan menyerahkan *file* tersebut kepada rekan anda.

Lihat pada folder `/material_3_dwv_main`, anda akan menemukan *file* `requirements.txt` yang isinya seperti ini:

```batch
matplotlib==3.9.1
numpy==1.26.4
pandas==2.2.2
seaborn==0.13.2
yfinance==0.2.40
```

Setelah mendapatkan *file* `requirements.txt`, rekan anda dapat melakukan langkah berikut.

1. Buka terminal pada VS Code.

2. Aktifkan *environment* yang ingin digunakan.
    ```batch
    conda activate <ENV_NAME>
    ```

3. Instalasi seluruh *library* yang terdapat pada `requirements.txt`.
    ```batch
    pip install -r requirements.txt
    ```

## ✨Exporting Requirements✨

Untuk membuat `requirements.txt`, kita dapat melakukan langkah-langkah berikut:

1. Buka terminal pada VS Code

2. Aktifkan *environment*.
    ```batch
    conda activate <ENV_NAME>
    ```

3. *Export environment*: membuat daftar *library* beserta versinya.
    ```batch
    pip list --format=freeze > requirements.txt
    ```


>💡 **Note**: Anda dapat menyimpan *file* dengan nama lain, namun nama yang umum digunakan adalah `requirements.txt`.

---

# Working with Multi-Index DataFrames

Pada pembelajaran kali ini, kita akan menggunakan *library* `yfinance` untuk mengakses data saham yang tersedia pada [Yahoo! Finance](https://finance.yahoo.com/markets/). Penarikan data menggunakan _library_ `yfinance` membutuhkan koneksi internet.

> 📌 Dokumentasi *library* `yfinance`: https://pypi.org/project/yfinance/

In [None]:
# package untuk manipulasi data
import pandas as pd
# package untuk import data
import yfinance
# package untuk visualisasi data
import matplotlib.pyplot as plt

# atur format angka untuk float
pd.options.display.float_format = '{:,.2f}'.format

import warnings
# Suppress FutureWarning messages
warnings.simplefilter(action='ignore', category=FutureWarning)


In [None]:
# perusahaan yang akan ditarik datanya: BRI, Adaro, Telkom
symbol = ['BBRI.JK', 'ADRO.JK', 'TLKM.JK']

# range tanggal untuk mengambil data saham
start_date = '2021-01-01' 
end_date = '2023-12-31'

# penarikan data
stock = yfinance.download(tickers = symbol, start = start_date, end = end_date)
stock.columns.names = ['Attributes', 'Symbols']

# 5 record teratas
stock.head(10)

**Penjelasan `Symbols`:**

- `ADRO.JK`: PT Adaro Energy Indonesia Tbk.
- `BBRI.JK`: PT Bank Rakyat Indonesia Tbk.
- `TLKM.JK`: PT Telkom Indonesia Tbk.

**Deskripsi Data:**

- `Date`: tanggal dalam format `yyyy-mm-dd`.
- `High`: nilai saham **tertinggi** di hari tersebut.
- `Low`: nilai saham **terendah** di hari tersebut.
- `Open`: nilai saham saat **_trading hours_ dibuka** di hari tersebut.
- `Close`: nilai saham saat **_trading hours_ ditutup** di hari tersebut.
- `Adj Close`: nilai `Close` yang telah disesuaikan _stock split_ dan pembagian dividen. 
- `Volume`: jumlah lembar saham yang berpindah tangan di hari tersebut (jumlah transaksi jual beli).

## ✨Saving DataFrame to File✨

Sebelumnya, kita sudah mempelajari bagaimana cara membaca data yang berformat `.csv` menggunakan fungsi `pd.read_csv()`. 

> 📌 **Method 1** : Menggunakan fungsi `.to_csv()` untuk data yang berformat `.csv`.

In [None]:
# simpan data format CSV ke folder data_cache


In [None]:
# read data


Ternyata struktur data menjadi tidak rapi setelah disimpan ke format `.csv` dan dipanggil kembali. Untuk mengatasi hal ini, kita bisa menyimpan *dataframe* menggunakan `pickle`.

> 📌 **Method 2** : menyimpan suatu objek Python ke sebuah file **Pickle**.

**🔎 Langkah-Langkah *Pickling***

1. Menyimpan data dengan fungsi `.to_pickle()`.
2. Membaca data dengan fungsi `pd.read_pickle()`.

In [None]:
# simpan pickle ke folder data_cache


In [None]:
# read pickle


**Pickle** juga membantu kita untuk mempertahankan tipe data dari setiap kolom pada _dataframe_.

In [None]:
# membuat employee data lalu konversi tipe data
employee = pd.DataFrame({
    'id': [1, 2, 3, 4, 5, 6, 7],
    'gender': ['Male', 'Female', 'Male', 'Female', 'Female', 'Female', 'Male'],
    'blood_type': ['O', 'A', 'B', 'AB', 'B', 'B', 'O'],
    'join_date': ['28 Jun 2021', '29 Jun 2021', '30 Jun 2021', '1 Jul 2021', '2 Jul 2021', '3 Jul 2021', '4 Jul 2021']
})

# ubah tipe data
employee[['gender', 'blood_type']] = employee[['gender', 'blood_type']].astype('category')
employee['join_date'] = employee['join_date'].astype('datetime64[ns]')
employee.dtypes

Kita akan mencoba untuk menyimpan dalam format `.csv`.

In [None]:
# simpan ke file csv
employee.to_csv('data_cache/employee.csv', index=False)

# baca dari csv dan cek tipe data
employee_csv = pd.read_csv('data_cache/employee.csv')
employee_csv.dtypes

> Terlihat bahwa tipe data dari kolom `gender`, `blood_type`, dan `join_date` terdeteksi sebagai `object`.

Kita akan mencoba untuk menyimpan dalam format `.pickle`.

In [None]:
# simpan object dummy ke file pickle
employee.to_pickle('data_cache/employee.pickle')

# baca dari pickle dan cek tipe data
employee_pickle = pd.read_pickle('data_cache/employee.pickle')
employee_pickle.dtypes

> Tipe data sebelum data disimpan dan setelah data disimpan adalah sama.

**⚠️*Pros & Cons Pickle File***

Kelebihan:
- Mempertahankan struktur dari _dataframe_.
- Mempertahankan tipe data dari _dataframe_.

Kekurangan:
- Hanya bisa dibaca dengan Python dan tidak bisa langsung diakses dengan _double click_.
- _Pickle_ dari sumber yang tidak terpercaya dapat digunakan untuk menyebarkan _malware_.

## ✨Slicing Multi-Index DataFrame✨

Mari kita lihat kembali data `stock` sebelumnya.

In [None]:
stock.tail()

Perhatikan bahwa kolom pada data `stock` memiliki susunan kolom yang berbeda dari yang sudah kita pelajari di minggu-minggu sebelumnya. `stock` memiliki kolom yang terdiri dari 2 level:

1. Level pertama (level 0): menunjukkan `Attributes`.
2. Level kedua (level 1): menunjukkan `Symbols`.

Data seperti ini disebut dengan ***multi-index dataframe***.

> 📌 ***Multi-index dataframe*** adalah *dataframe* yang memiliki >1 level indeks baris dan/atau level indeks kolom.

> ❓ Perusahaan ingin menganalisis data harga saham BRI, Adaro, dan Telkom saat *trading hours* ditutup (`Close`). Bagaimana cara melakukan *slicing* dari data yang ada?

In [None]:
# subsetting dengan []


> ❓ Perusahaan hanya ingin menganalisis harga saham BRI saat `Close`. Bagaimana cara mengambil detail `Close` untuk BRI saja?

In [None]:
# subsetting dengan []


> ❓ Sekarang, perusahaan ingin menganalisis semua *attribute* untuk BRI, mulai dari `Adj.Close` hingga `Volume`. Bagaimana cara menampilkan seluruh attribute dari saham BRI?

In [None]:
# coba subsetting dengan []


Kita akan mendapatkan _error_ seperti di atas. _Subsetting_ menggunakan kurung siku (`[ ]`) bisa kita gunakan untuk level paling atas, yakni `Attributes`. `BBRI.JK` berada di level di bawahnya, yaitu `Symbols`. Untuk menyelesaikan permasalahan tersebut, kita akan menggunakan **_cross section_**.

> 📌Kita dapat menggunakan fungsi `.xs()` untuk melakukan _cross section_.

**🔎 Parameter Penting Fungsi `.xs()`**

* `key`: label apa yang akan dicari.
* `level`: label tersebut berada di level apa/berapa.
* `axis`: level berada di baris (`axis = 0`) atau di kolom (`axis = 1`).
* Parameter lainnya dapat dilihat pada [dokumentasi berikut](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.xs.html).

In [None]:
stock.head()

In [None]:
# mengambil semua attributes untuk BBRI.JK dengan .xs()


### 🧪 Knowledge Check: `.xs()` for Cross Section

❓ Perusahaan ingin mencari nilai `High`, `Close`, dan `Volume` dari saham Telkom pada tanggal 31 Oktober 2023. 

***Hint***: Gunakan `.loc[]` setelah melakukan cross-section.

In [None]:
# code here


---

# Reshaping DataFrame

_Reshaping_ data adalah salah satu komponen penting dalam tahap _data wrangling_. _Reshaping_ memungkinkan seorang analis untuk mempersiapkan data menjadi bentuk yang sesuai untuk tahap analisis data berikutnya. Dalam hal ini, *reshaping* sering dilakukan sebelum visualisasi data. Fungsi-fungsi untuk _reshaping_ yang akan kita pelajari pada _course_ ini:

- `.stack()`.
- `.unstack()`.
- `.melt()`.
- `.pivot()`.

## ✨`.stack()`✨  

<center>
<img src="assets/stack.png" width=60%/>
</center>

`.stack()` digunakan untuk **memindahkan level pada kolom menjadi level pada baris**.

**🔎 Parameter Penting Fungsi `.stack()`**

* `level`: nama level/indeks level pada kolom yang akan dipindahkan.
* Parameter lainnya dapat dilihat pada [dokumentasi berikut](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.stack.html).

In [None]:
# stock sebelum di-stack
stock.head()

In [None]:
# stock setelah di-stack
stacked_stock = ...

Perhatikan bahwa:

* Secara default, `.stack()` akan memindahkan level terbawah dari kolom menjadi level terkanan dari baris
* Sebelum _stacking_, _index_ pada baris hanya berupa tanggal: `Date`.
* Setelah _stacking_, _index_ pada baris bertambah menjadi tanggal dan simbol perusahaan: `Date` dan `Symbols`.

> ❓ Bagaimana cara agar `Attributes` yang dipindahkan menjadi baris?

In [None]:
# memindahkan level Attributes menjadi level pada baris


## ✨`.unstack()`✨

<center>
<img src="assets/unstack.png" width=60%/>
</center>

`.unstack()` digunakan untuk **memindahkan level pada baris menjadi level pada kolom**. Kebalikan dari `.stack()`.

**🔎 Parameter Penting Fungsi `.unstack()`**

* `level`: nama level/indeks level pada baris yang akan dipindahkan.
* Parameter lainnya dapat dilihat pada [dokumentasi berikut](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.unstack.html).

In [None]:
stacked_stock.head()

In [None]:
# unstack stacked_stock


📝 **Note**: by default akan memindahkan level yang paling kanan pada index baris: `Symbols`

Setelah kita melakukan _unstacking_ pada data yang sudah di-_stacking_, `stacked_stock`, kita mendapatkan data seperti semula.

> ❓ Bagaimana cara agar `Date` yang dipindahkan menjadi kolom pada `stacked_stock`?

In [None]:
# memindahkan level Date menjadi level pada kolom


## 🧪 Knowledge Check: `.stack()` and `unstack()`

Pernyataan mana sajakah dibawah ini yang tepat?

- [ ] `.stack()` mengubah dataframe dari wide menjadi long
- [ ] `.stack()` mengubah dataframe dari long menjadi wide
- [ ] `.unstack()` mengubah dataframe dari wide menjadi long 
- [ ] `.unstack()` mengubah dataframe dari long menjadi wide

## 🤿 Dive Deeper

1. Bagaimana cara menukar level dari `Attributes` dan `Symbol` pada data `stock`?

In [None]:
# code here 


2. Perusahaan ingin menganalisis besar kenaikan/penurunan saham pada setiap harinya. Buatlah kolom baru pada data `stock` dengan nama `Diff`. Kolom `Diff` merupakan selisih dari kolom `Close` dan kolom `Open`.

    💡 ***Hint***: 
    1. Gunakan `.stack()` untuk membuat hanya 1 level kolom pada data `stock` dan simpan pada variabel `new_stock`. 
    2. Buat kolom `diff` yang diminta pada variabel `new_stock`.
    3. Gunakan `.unstack()` untuk mengembalikan data ke bentuk semula.

In [None]:
# Step 1
new_stock = ...

In [None]:
# Step 2
new_stock['diff'] = ...

In [None]:
# Step 3


**Quick Summary**

- **_Reproducible Environment_**
  * Meng-_install_ banyak _library_ sekaligus: `pip install -r requirements.txt`.  
  * Membuat daftar _library_: `pip list --format=freeze > requirements.txt`.

- **_Pickling_**
  * Menyimpan data dalam format `.pickle`: `DataFrame.to_pickle(nama_file.pkl)`.
  * Membaca data dalam format `.pickle`: `pd.read_pickle(nama_file.pkl)`.

- **_Subsetting_ Data _Multi-Index_**
  * Menggunakan fungsi `DataFrame.xs()`.
  * Parameter:
    - `key`: label yang akan dicari.
    - `level`: label terdapat pada level berapa.
    - `axis`: label yang akan dicari apakah berperan sebagai baris atau kolom.
	
- **_Reshaping_**
  * `DataFrame.stack()` mengubah level pada kolom menjadi level pada baris.
    * Parameter:
      - `level`: kolom yang akan dipindahkan menjadi baris.
  * `DataFrame.unstack()` mengubah level pada baris menjadi level pada kolom.
    * Parameter:
      - `level`: baris yang akan dipindahkan menjadi kolom.

## ✨`.melt()`✨

<center>
<img src="assets/melt.png" width=60%/>
</center>

`DataFrame.melt()` digunakan untuk **melebur beberapa kolom menjadi 1 kolom dan nilai di dalamnya menjadi 1 kolom lainnya**.

📝 **Note**: Berbeda dengan `stack` dan `unstack`, `melt` hanya dapat digunakan untuk dataframe **single-index**, BUKAN **multi-index**

**🔎 Parameter Penting Fungsi `.melt()`**

* `id_vars`: kolom yang akan dipertahankan, berperan sebagai _identifier_.
* `value_vars`: kolom yang akan dilebur.
* `var_name`: nama kolom untuk variabel.
* `value_name`: nama kolom untuk _value_.
* Parameter lainnya dapat dilihat pada [dokumentasi berikut](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.melt.html).

> ❓ Ambil semua detail yang berhubungan dengan perusahaan Adaro dan simpan pada variabel `adaro`.

In [None]:
# ambil semua detail untuk ADRO.JK
adaro = stock.xs(key = ... ,
                 level = ... ,
                 axis = ... )

Gunakan fungsi `.melt()` untuk `adaro`.

In [None]:
# code here


Perhatikan bahwa setelah dilakukan *melting*, kita mendapatkan 2 kolom:

* Kolom `Attributes`: menyimpan nama-nama kolom yang di-*melt*.
* Kolom `value`: menyimpan nilai-nilai kolom yang di-*melt*.

> ❓ Setelah melakukan _melting_ di atas, detail tanggal pada data kita hilang. Bagaimana memunculkan tanggal walaupun sudah dilakukan _melting_?

In [None]:
# jadikan tanggal sebagai kolom biasa dengan fungsi .reset_index() kemudian dilanjutkan dengan melakukan .melt()


Setelah kita me-_reset_ _index_ dan melakukan _melting_ dengan fungsi `.melt()` tanpa mengatur argumen apapun, data `Date` kita juga ikut di-_melt_. Bentuk data di atas tidak terlalu kita inginkan. Oleh karena itu, kita akan mencoba untuk mengatur parameter pada `.melt()`.

### ▶️ Identifier dan Value

Terdapat 2 parameter pada `.melt()` yang sering digunakan:

* `id_vars`: kolom yang akan dipertahankan, berperan sebagai _identifier_.
* `value_vars`: kolom yang akan dilebur.

In [None]:
# memunculkan tanggal, tetapi tanggal tidak di-melt: 
# 1. gunakan .reset_index()
# 2. gunakan .melt dan masukkan `Date` sebagai id_vars


> ❓ Lakukan _melting_ hanya pada kolom `Open` dan `Close`. Kolom `Date` digunakan sebagai *identifier*.

In [None]:
# code here
adaro_open_close = adaro.reset_index().melt(id_vars = ... ,
                                            value_vars = ... )

**Additional**: `var_name` dan `value_name` 

Kita dapat mengubah nama kolom `Attributes` (kolom yang menampung nama variabel) dengan parameter `var_name` dan mengubah nama kolom untuk *value* dengan parameter `value_name`.

In [None]:
adaro.reset_index().melt(
    id_vars = "Date",
    value_vars = ["Open","Close"],
    var_name = "Open or Close",
    value_name = "Price"
)

## ✨`.pivot()`✨

<center>
<img src="assets/pivot.png" width=60%/>
</center>

`DataFrame.pivot()` merupakan kebalikan dari `DataFrame.melt()`.

**🔎 Parameter Penting Fungsi `.pivot()`**

* `columns`: kolom yang akan diuraikan.
* `index`: kolom yang dijadikan _index_.
* `values`: kolom yang akan mengisi _value_ dari kolom yang baru dibuat.
* Parameter lainnya dapat dilihat pada [dokumentasi berikut](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.pivot.html).

Mari lihat kembali bagaimana data `adaro_open_close` kita sebelumnya.

In [None]:
adaro_open_close.head()

In [None]:
# menggunakan .pivot() pada data adaro_open_close


Terlihat pada kode di atas, setelah kita menggunakan fungsi `.pivot()`:

* Kolom `Open` dan `Close` akan dipecah menjadi 2 kolom yang terpisah.
* Nilai pada kolom `Close` dan `Open` berasal dari kolom `value`.

## 🧪 Knowledge Check: `.melt()` vs `.stack()`

Persamaan antara `melt()` dan `stack()`: 
- ...

Apa perbedaan antara `melt()` dan `stack()` ?
- ...

## 📝 Notes

**▶️ Perbedaan `.pivot_table()` dan `.pivot()`**
 
- `.pivot_table()` untuk membuat tabel agregasi (ada nilai yang dirangkum).
- `.pivot()` hanya untuk _reshaping_ (tidak ada nilai yang dirangkum).

**▶️ *Quick Summary***

- Melakukan *slicing* pada *dataframe* yang *multi-index*: 
    + Menggunakan fungsi `.xs()`.
- Melakukan *reshaping*:
    + *Wide to Long*:
       - Menggunakan fungsi `.stack()`: untuk *multi-index dataframe*.
         - Fungsi: memindahkan kolom jadi baris.
       - Menggunakan fungsi `.melt()`: untuk *single-index dataframe*.
         - Fungsi: melebur/menyatukan beberapa kolom.
    + *Long to Wide*:
       - Menggunakan fungsi `.unstack()`: untuk *multi-index dataframe*.
         - Fungsi: memindahkan baris jadi kolom.
       - Menggunakan fungsi `.pivot()`: untuk *single-index dataframe*.
         - Fungsi: menguraikan 1 kolom menjadi beberapa kolom.
- Mengubah *index* menjadi kolom:
    + Menggunakan fungsi `.reset_index()`.

---

# Visual Data Exploratory

🔎 **Tujuan Visualisasi**

- ***Exploratory***: proses  **mengeksplorasi data** untuk **mendapatkan sebuah _insight_**. Visualisasi yang ditampilkan biasanya sederhana. Analogi: mencari dan mendapatkan batu permata di antara ratusan batu biasa.
- ***Explanatory***: proses untuk menjelaskan atau **menyajikan _insight_** (*_explain_*) yang didapat dari hasil _exploratory_ kepada _user_/_audience_. Visualisasi yang ditampilkan biasanya lebih menarik dan meng-*highlight* _insight_ secara spesifik. Analogi: memoles batu permata tersebut dan menawarkannya kepada pembeli.

Pada _course_ ini, kita akan fokus pada cara menampilkan visualisasi data yang **informatif dan tepat** (*exploratory*). Untuk memperindah tampilan visualisasi dapat didalami secara mandiri melalui dokumentasi yang tersedia.

## ✨`pandas` dan `matplotlib`✨

`matplotlib` merupakan _package_ yang sering digunakan untuk membuat visualisasi data. Menariknya, kita dapat memanfaatkan fungsionalitas dari `matplotlib` melalui _method_ `.plot()` dari _dataframe_.

> ❓ Setelah mempersiapkan data, anda akan melakukan diskusi dengan rekan tim *data analyst* lainnya. Sehingga, anda ingin mempersiapkan berbagai visualisasi untuk dipresentasikan. Visualisasi pertama yang akan dibuat adalah pergerakan `Volume` saham dari ketiga perusahaan selama **50 hari terakhir**.

In [None]:
# 50 data Volume terakhir
stock_vol50 = stock['Volume'].tail(50)
stock_vol50

In [None]:
# membuat visualisasi dari 50 data Volume terakhir


Dari visualisasi di atas:

* Sumbu x menunjukkan: nilai `Date`.
* Sumbu y menunjukkan: nilai `Volume`.
* Setiap garis mewakili perusahaan yang berbeda: `ADRO.JK`, `BBRI.JK`, dan `TLKM.JK`.    

📝 **Note**: Secara default, `.plot()` akan menghasilkan **Line Plot**

📈 ***Insight***:

- ...

Kita juga dapat mengatur _style_ dari visualisasi dengan fungsi `plt.style.use()`.

In [None]:
# style yang tersedia
print(plt.style.available)

In [None]:
# menggunakan style seaborn-v0_8


In [None]:
# visualisasi ulang setelah mengatur style


> ❓ Berdasarkan sebelumnya, `ADRO.JK` adalah saham dengan angka volume yang cenderung terendah dibandingkan dengan dua perusahaannya. Selanjutnya, tim ingin membuat visualisasi pergerakan saham `ADRO.JK` selama tahun 2023.

In [None]:
stock.head()

In [None]:
# subsetting untuk mendapatkan atribut ADRO.JK selama 2023
adaro_2023 = stock.xs(
    key = ... ,
    level = ... ,
    axis = ...
).loc[ ... : ... ,:]

In [None]:
# visualisasi data adaro_2023


💭 **Diskusi:** Apakah visualisasi tersebut sudah cukup informatif dan tepat?

In [None]:
# cek distribusi data untuk adaro_2023


In [None]:
# buat visualisasi dengan meng-exclude kolom Volume


**Quick Summary**

- **_Reshaping_**
  * `DataFrame.melt()` melebur beberapa kolom menjadi 1 kolom.
    * Parameter:
      * `id_vars`: kolom yang akan dipertahankan, berperan sebagai _identifier_.
      * `value_vars`: kolom yang akan dilebur.
  * `DataFrame.pivot()` menguraikan 1 kolom menjadi beberapa kolom.
    * Parameter:
      * `columns`: kolom yang akan diuraikan.
      * `index`: kolom yang dijadikan _index_.
      * `values`: kolom yang akan mengisi _value_ dari kolom yang baru dibuat.
- **Visualisasi**
  * _Exploratory vs Explanatory_
    - Visualisasi _exploratory_ digunakan untuk menemukan pola pada data (analisis pribadi).
    - Visualisasi _explanatory_ digunakan untuk mengomunikasikan _insight_ yang sudah didapatkan.
  * Fungsi untuk visualisasi dari _dataframe_: `.plot()`.

## ✨Tipe-Tipe Visualisasi✨

Perhatikan bahwa kita tidak memasukkan argumen apapun ke dalam fungsi `.plot()`. _By default_, jenis visualisasi yang digunakan adalah _lineplot_. Terdapat beberapa jenis visualisasi lain yang bisa kita gunakan.

* **Categorical Comparison**
	- **`.plot.bar()` untuk _bar plot_ (diagram batang)**.
	- **`.plot.barh()` untuk _horizontal bar plot_**.
	- `.plot.pie()` untuk _pie chart_.

* **Numerical Distribution**
    - **`.plot.hist()` untuk histogram**.
	- **`.plot.box()` untuk _box plot_**.

* **Time Series Evolution**
	- `.plot.line()` untuk _line plot_.

* **Correlation / Relationship**
	- `.plot.scatter()` untuk _scatter plot_.
	- `.plot.density()` untuk _density plot_.


> 📌 Panduan untuk menentukan tipe visualisasi yang tepat: https://www.data-to-viz.com/.

> 📌 Dokumentasi fungsi `.plot`: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html.

### 1️⃣ Barplot

> 📌 **_Barplot_** digunakan untuk melihat **perbandingan** beberapa **kategori**.

> ❓ Selanjutnya, tim ingin **membandingkan tingkat fluktuasi** nilai `High` pada masing-masing perusahaan menggunakan *coefficient of variation*. *Insight* yang didapatkan pada analisis ini dapat dimanfaatkan untuk mengurutkan perusahaan mana yang pergerakan sahamnya yang cukup stabil dan mana yang tidak.

> 📌 Info lebih lanjut terkait [coefficient of variation](https://www.investopedia.com/terms/c/coefficientofvariation.asp)

$$CoV = \frac{std}{mean}$$

In [None]:
# mengambil nilai coefficient of variation
high_cov = 

In [None]:
# membuat barplot 


📈 ***Insight***:

* ...

### 2️⃣ Horizontal Barplot

> 📌 **_Horizontal barplot_** digunakan untuk melihat **perbandingan** beberapa **kategori secara horizontal** .

In [None]:
# membuat horizontal barplot dari data high_cov


In [None]:
# mengurutkan high_cov
high_cov = ...

In [None]:
# membuat ulang horizontal barplot


🔎 ***Barplot vs Horizontal Barplot***

* _Barplot_ (Vertical): digunakan saat ingin membuat perbandingan yang sudah memiliki urutan, misalnya tingkat pendidikan dan waktu.
* _Horizontal barplot_: digunakan saat ingin melihat perbandingan berdasarkan _ranking_/besar nilai.

> ❓ Dengan contoh di atas, kita sebaiknya menggunakan ____

### 3️⃣ Histogram

> 📌 **Histogram** digunakan untuk melihat **persebaran** data.

>❓ Berdasarkan hasil analisis sebelumnya, `TLKM.JK` adalah perusahaan yang CoV-nya paling kecil dibandingkan BRI dan Adaro. Selanjutnya, tim ingin melihat lebih lanjut, bagaimanakah **persebaran** `Volume` pada saham `TLKM.JK`?

In [None]:
stock.head()

In [None]:
# ambil data Volume pada TLKM.JK dan simpan ke variabel vol_telkom
vol_telkom = ...

In [None]:
# visualisasi histogram 


Gunakan parameter `bins` untuk mengubah jumlah bin dalam histogram:

In [None]:
# Histogram dengan 20 bins


📈 ***Insight***:

* ...

### 🧪 Knowledge Check: Baplot vs Histogram

Setelah mempelajari kedua jenis visualisasi di atas: _barplot_ dan histogram, apa perbedaan kedua visualisasi tersebut?


### 4️⃣ Boxplot

> 📌 ***Boxplot*** digunakan untuk melihat ***5 number summary*** & **membandingkan persebaran** dari suatu nilai numerik.

<center>
<img src="assets/box_plot.png" width="600"/>
<center/>

- Q1: kuartil 1 (data ke 25%).
- Median: kuartil 2 (data ke 50%).
- Q3: kuartil 3 (data ke 75%).
- _Lower whisker_: pagar bawah.
- _Upper whisker_: pagar atas.
- Data di luar pagar akan dianggap sebagai _outlier_ atau data pencilan.

> ❓ Untuk mendapatkan *insight* yang lebih lengkap, tim ingin **membandingkan persebaran** untuk ketiga saham menggunakan *boxplot*.

In [None]:
# menampilan boxplot untuk membandingkan persebaran Volume dari ketiga saham


Gunakan parameter `vert=False` untuk melihat _boxplot_ secara horizontal.

In [None]:
# horizontal box plot


📈 ***Insight***:

* ...

> ❓ Tim diminta perusahaan untuk membandingkan distribusi `Volume` dari `BBRI.JK` setiap quarter tahun 2023. Tampilkan dalam bentuk box plot!

In [None]:
# ambil data Volume BBRI.JK
vol_bri = stock['Volume'][['BBRI.JK']].loc['2023-01-01':'2023-12-31'].copy()
vol_bri.head()

In [None]:
# buat kolom baru, Quarter, yang menunjukkan kuarter dari waktu yang diberikan 
vol_bri['Quarter'] = ...

Gunakan parameter `by='NAMA_KOLOM'` untuk memisahkan boxplot berdasarkan suatu kolom category:

In [None]:
# visualisasi


📈 ***Insight***:

- Berdasarkan nilai median: ___
- Berdasarkan lebar box: ___
- Berdasarkan outlier: ___

### (Additional) Other Python Libraries for Visualization

Apabila Anda tertarik mengenai visualisasi di Python, silakan eksplorasi lebih lanjut _package_-_package_ berikut.

- `matplotlib`: semua elemen pada visualisasi dapat dikustomisasi, namun membutuhkan _code_ yang lebih panjang. [Dokumentasi Matplotlib](https://matplotlib.org/3.2.2/tutorials/index.html) 
- `seaborn`: dikembangkan dari `matplotlib`. Lebih sedikit yang dapat dikustomisasi, namun lebih mudah. [Dokumentasi Seaborn](https://seaborn.pydata.org/introduction.html)
- `plotly`: plot interaktif serta kompatibilitas dengan bahasa lain yang tinggi. [Dokumentasi Plotly](https://plotly.com/python/)
- `altair`: plot interaktif yang bersifat deklaratif dan _code_ relatif lebih mudah. [Dokumentasi Altair](https://altair-viz.github.io/index.html)

Referensi perbandingan _library_ dapat Anda lihat [di sini](https://askalgo-py.netlify.app/faq/dwv#adakah-library-visualisasi-data-di-python-selain-matplotlib).

---

# Aggregation Visualization

Misalkan kita punya *dataframe* `close_melted` yang menyimpan data `Close` harian dari setiap perusahaan.

In [None]:
# membuat dataframe close_melted
close_melted  = stock['Close'].reset_index().melt(id_vars = 'Date', 
                                                  var_name = 'Symbols',
                                                  value_name='Close')
close_melted

> ❓ Untuk melengkapi analisis sebelumnya, tim ingin membandingkan, di antara `ADRO.JK`, `BBRI.JK`,  dan `TLKM.JK`, manakah saham yang memiliki **rata-rata** `Close` harian tertinggi? 

Untuk menyelesaikan *case* di atas, minggu lalu kita telah mempelajari metode pembuatan metode tabel agregasi. Buatlah tabel agregasi dengan `pd.crosstab()` atau `.pivot_table()`!

In [None]:
# code here


Perbedaan antara `crosstab` dan `pivot_table` dapat dirangkum dalam tabel berikut:

|                                                                                    | `.crosstab()` | `.pivot_table()` |
|------------------------------------------------------------------------------------|-----------------|--------------------|
|                                                                          **Input** | Array of values/Series |          DataFrame (parameter `data`)|
|                                                              **Default `aggfunc`** |       `'count'` |           `'mean'` |
|                                                          **Parameter `columns`** |       Mandatory |      Optional |
|                                                          **Parameter `normalize`** |       Available |      Not Available |
| [**Computation Time**](https://ramiro.org/notebook/pandas-crosstab-groupby-pivot/) | Relatively Slower |  Relatively Faster |

Selain menggunakan `pd.crosstab()` atau `.pivot_table`, salah satu fungsi yang dapat dimanfaatkan untuk melakukan agregasi data adalah method `.groupby()`.

### `.groupby()`

Proses agregasi menggunakan **group by** merupakan gabungan dari proses:

1. **Split**: memisahkan baris berdasarkan suatu kategori, contoh: dikelompokkan berdasarkan `format`
2. **Apply**: menerapkan fungsi agregasi untuk masing-masing grup, contoh: dihitung `mean` untuk masing-masing `format`
3. **Combine**: mengembalikan hasil dalam bentuk 1 tabel

```python
df.groupby('kolom_category').aggfunc()
```

atau

```python
df.groupby('kolom_category')['kolom_numerik'].aggfunc()
```

💡 Berikut beberapa fungsi agregasi yang dapat digunakan pada `pandas`:

- `.count()`- Jumlah baris
- `.sum()` - Penjumlahan
- `.mean()` - Rata-rata 
- `.median()` - Median
- `.min()` - Minimum
- `.max()` - Maximum
- `.mode()` - Modus
- `.std()` - Standard Deviasi
- `.var()`- Variansi

> ❓ Gunakan `.groupby()` untuk menganalisis saham yang memiliki **rata-rata** `Close` harian tertinggi? 

In [None]:
# code here


💡 **Note**:

Gunakan parameter `numeric_only=True` agar fungsi agregasi hanya menghitung kolom numerik saja. 

In [None]:
# code here


Jika kita tidak ingin melakukan agregasi pada seluruh kolom, maka lakukan subsetting menggunakan kurung siku (`['nama_kolom']`) terlebih dahulu setelah dilakukan `.groupby()`

In [None]:
# code here
close_mean = ...

Selanjutnya, buat visualisasi dengan *barchart*.

In [None]:
# code here


**Quick Summary**

- **Visualisasi**
  * _Barplot_
    - Digunakan untuk membandingkan beberapa kategori terhadap variabel numerik.
    - Sintaks: `DataFrame.plot(kind = 'bar')` atau `DataFrame.plot(kind = 'barh')`.
  * _Histogram_
    - Digunakan untuk melihat distribusi data.
    - Sintaks: `DataFrame.plot(kind = 'hist')`.
  * _Boxplot_
    - Digunakan untuk melihat distribusi data dan nilai statistik data.
    - Sintaks: `DataFrame.plot(kind = 'box')`.
  * Parameter tambahan untuk `.plot()`:
    - `title` untuk memberi judul plot.
    - `xlabel` untuk memberi label pada sumbu x.
    - `ylabel` untuk memberi label pada sumbu y.
    - `color` untuk mengganti warna plot.
    - `rot` untuk memutar tulisan pada sumbu.
- **Agregasi dengan `.groupby()`**
  * Penggunaannya mirip dengan `pd.crosstab()` dan `DataFrame.pivot_table()`.
  * Sintaks: `DataFrame.groupby(by = 'kolom untuk agregasi').agg_func()`.

## ✨Grouped Barchart✨

> ❓ Jika pada analisis sebelumnya tim hanya menghitung rata-rata nilai `Close` secara keseluruhan, kali ini, mereka ingin membuat visualisasi yang dapat membandingkan rata-rata nilai `Close` untu ketiga saham setiap bulannya. 

Untuk *case* di atas, kita bisa menggunakan ***grouped barchart***.

* Buatlah *dataframe*  `closing_price` yang berisikan nilai `Close` untuk ketiga saham.
* Tampilkan nilai rata-rata `Close` untuk setiap bulannya pada tabel agregasi `mean_closing`.

In [None]:
# buat dataframe closing_price
closing_price = stock['Close'].copy()
closing_price.head()

In [None]:
# buat kolom baru pada closing_price: Month
closing_price['Month'] = ...

In [None]:
# buat tabel agregasi mean_closing
monthly_closing = ...

Selanjutnya, kita akan membuat *grouped barchart*.

In [None]:
# code here


**Additional**: Sorting Month Name

Secara default, `pandas` akan mengurutkan bulan berdasarkan urutan alphabetical. Untuk mengurutkan urutan bulan sesuai dengan urutan pada kalender, kita perlu mendefinisikan sebuah list berisi nama-nama bulan dengan urutan yang tepat dan menggunakan method `.reindex()`

In [None]:
# improvement visualisasi
# perbaiki urutan bulan
months = ['January', 'February', 'March', 'April', 'May', 'June', 'July', 'August', 'September', 'October', 'November', 'December']
monthly_closing = monthly_closing.reindex(months)
monthly_closing

In [None]:
monthly_closing.plot.bar()

📈 ***Insight***:

* ...

### 🧪 Knowledge Check: `.groupby()`

Tim dihadapi sebuah *long dataframe* seperti pada `closing_melt` berikut.

In [None]:
closing_melt = closing_price.melt(id_vars='Month', value_name='Close')
closing_melt

Untuk membuat sebuah grouped bar chart, tim harus mengubah bentuk dari dataframe tersebut. Bagaimana cara kita mengubah bentuk `closing_melt` menjadi `monthly_closing`?

***Hint:*** Gunakan teknik _group by_ dan juga _reshaping_.

In [None]:
# code here


## ✨Combining `.agg()` and `.groupby()`✨

Pada bagian sebelumnya, kita sudah mengetahui bahwa penggunaan `.groupby()` diikuti dengan sebuah fungsi agregasi. Misalnya, jika ingin menghitung rata-rata, maka kita menggunakan `.mean()`. Terdapat fungsi lain, `.agg()` yang memungkinkan kita untuk menggunakan fungsi agregasi yang berbeda-beda.

Misalkan terdapat memiliki data `stock_long` sebagai berikut.

In [None]:
stock_long = stock.stack().reset_index()
stock_long.head()

❓ Jika pada analisis sebelumnya tim hanya terfokus pada satu kolom, kali ini, mereka ingin membandingkan beberapa aspek berikut dari ketiga perusahaan:

- Harga maksimum dari `High` untuk ketiga perusahaan (`max` dari `High`)
- Harga minimum dari `Low` untuk ketiga perusahaan  (`min` dari `Low`)
- Rata-rata *closing price* untuk ketiga perusahaan (`mean` dari `Close`)

Untuk mendapat hasil tersebut, kita harus melakukan _chaining_ `.groupby()` dengan method `.agg()`. Kita harus menyertakan _mapping_ (*dictionary*) untuk setiap kolom dengan fungsi agregasinya seperti berikut ini:

```python
df.groupby('kolom_category').agg({'kolom_numerik1' : 'aggfunc1',
                                  'kolom_numerik2' : 'aggfunc2'})
```

In [None]:
# code here
summary_stock = ...

Visualisasikan tabel agregasi di atas untuk membandingkan nilai tersebut.

## 🧪 Knowledge Check: Visualization

Perhatikan _dataframe_ `monthly_closing` berikut.

In [None]:
stock['YearMonth'] = stock.index.to_period('M')
monthly_closing = stock.groupby('YearMonth').mean()['Close']
monthly_closing.head()

Tipe plot mana yang paling sesuai untuk data di atas, apabila kita ingin melihat pergerakan nilai `Close` dari waktu ke waktu?

- [ ] _Line plot_ `.plot()`
- [ ] _Scatter plot_ `.plot.scatter(x, y)` --- relasi atau hubungan variabel.
- [ ] _Bar plot_ `.plot.bar()` -- _ranking_/perbandingan kategori.
- [ ] _Box plot_ `.plot.box()` -- persebaran/distribusi data, nilai statistiknya (min, max, Q1, Q2, Q3, _outlier_).

---

**Quick Summary**

- ***Grouped Barchart***
  * _Barchart_ dengan beberapa _bar_ untuk setiap kategori.
  * Langkah membuat _grouped barchart_:
    1. Dari data yang _long_, buat tabel agregasi.
    2. Gunakan `.plot(kind = "bar")` atau `.plot(kind = "barh")`. _Grouped barchart_ akan otomatis terbentuk jika untuk satu baris ada beberapa kolom.
- **Custom Aggregation with `.agg()`**
  * Sintaks: `DataFrame.groupby(by = 'kolom untuk agregasi').agg({
    'kolom1': 'fungsi_agg_kolom1',
    'kolom2: 'fungsi_agg_kolom2',
    dst..
  })`.

# Referensi

* Dokumentasi per Fungsi 
    * [Dokumentasi `.xs()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.xs.html)
    * [Dokumentasi `.stack()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.stack.html)
    * [Dokumentasi `.unstack()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.unstack.html)
    * [Dokumentasi `.pivot()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.pivot.html)
    * [Dokumentasi `.plot()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html)
* Dokumentasi Resmi
    * [Pandas](https://pandas.pydata.org/)
    * [Matplotlib](https://matplotlib.org/)
    * [Seaborn](https://seaborn.pydata.org/)
    * [Plotly](https://plotly.com/)
    * [Altair](https://altair-viz.github.io/)
* From Algoritma
    * [AskAlgo Python](https://askalgo-py.netlify.app/)