**Inclass material for Week 3: Data Wrangling and Visualization**

This notebook was made based on main materials `3_Data_Wrangling_and_Visualization.ipynb`

Version: Theia - September 2022

# Data Wrangling and Visualization

Berikut adalah method yang telah kita pelajari di dua course sebelumnya:

**Data Inspection** (Course: Python for Data Analysts)
- `.head()` and `.tail()`
- `.describe()`
- `.shape` and `.size`
- `.axes`
- `.dtypes`
- Subsetting using `.loc`, `.iloc` and conditionals

**Diagnostic and Exploratory** (Course: Exploratory Data Analysis)
- Tables
- Cross-Tables and Aggregates
- Using `aggfunc` for aggregate functions
- Pivot Tables
- Working with DateTime
- Working with Categorical Data
- Duplicates and Missing Value Treatment

---

**Training Objectives for Course Data Wrangling and Visualization**

- Working with MultiIndex DataFrames
- Stacking and Unstacking
- Reshaping your DataFrame with Melt
- Using Group By Effectively
- Visual Data Exploratory

**Agenda Day 1**

- Reproducible Environment
    - Apa dan mengapa dilakukan reproducible environment
    - Praktik untuk melakukan import dan export environment
- MultiIndex Dataframe
    - Mengetahui bentuk MultiIndex Dataframe
    - Reshaping
        - Cross-section `xs()`
        - Stack Dataframe
        - Unstack Dataframe

# Reproducible Environment

Bayangkan Anda sedang mengerjakan suatu proyek yang membutuhkan kolaborasi dengan tim. Proyek tersebut diinisiasi oleh Anda, code dan packages pada komputer Anda berjalan dengan baik. Kemudian Anda ingin membagikan proyek tersebut kepada tim Anda. Apakah tim Anda harus melakukan instalasi package satu per satu secara manual? Tentu tidak, di sini Anda membuat suatu **environment** yang dapat di-reproducible (digandakan) dengan membuat suatu file `requirements.txt`.

Lihat pada folder `/assets`, Anda akan menemukan file `requirements.txt` yang isinya seperti ini:
```
numpy==1.21.4
pandas==1.3.4
matplotlib==3.5.0
yfinance==0.1.67
...
```

File ini berisi daftar **packages beserta versinya** yang ada di environment dalam menjalankan proyek tertentu. File ini membantu tim Anda untuk mengembangkan suatu aplikasi dalam satu versi yang sama, sehingga mencegah terjadinya perubahan fungsi-fungsi yang tidak terduga.

## Exporting Requirements

Misal Anda ingin membagikan daftar packages suatu environment kepada tim Anda, maka lakukanlah langkah berikut:

1. Aktifkan environment
```
conda activate <ENV_NAME>
```

2. Navigasikan path ke folder tempat di mana file `requirements.txt` ingin disimpan
```
cd <PATH_TO_REQUIREMENTS_FOLDER>
```

3. Export environment: membuat daftar packages beserta versinya.
```
pip list --format=freeze > requirements.txt
```

💡 **Note**: Anda dapat menyimpan file dengan nama lain, namun sebagai **konvensi** biasa digunakan penamaan `requirements.txt`

## Importing Requirements

Misal Anda yang meneruskan proyek dan telah menerima file `txt` dari tim Anda, maka lakukanlah langkah berikut:

1. Aktifkan environment yang ingin digunakan
    ```
    conda activate <ENV_NAME>
    ```

    💡 Apabila belum ada, maka perlu membuat environment baru:
    ```
    conda create -n <ENV_NAME> python=<PYTHON_VERSION>
    ```
    
    ⚠️ Jangan lupa instalasi kernel di dalam environment tersebut apabila ingin dapat diakses menggunakan jupyter notebook:
    ```
    pip install ipykernel
    python -m ipykernel install --user --name=<ENV_NAME>
    ```

2. Navigasikan path ke folder di mana file `requirements.txt` berada
    ```
    cd <PATH_TO_REQUIREMENTS>
    ```

3. Instalasi packages dari file tersebut
    ```
    pip install -r requirements.txt
    ```

# Data Wrangling and Reshaping

## Load Data

### `yfinance`

Kita akan menggunakan library `yfinance` untuk mengakses data saham yang tersedia pada [Yahoo! Finance](https://finance.yahoo.com/). Penarikan data menggunakan `yfinance` membutuhkan koneksi internet.

Dokumentasi: https://pypi.org/project/yfinance/

In [1]:
import pandas as pd
import yfinance as data
pd.set_option('display.float_format', lambda x: '%.2f' % x)

In [2]:
symbol = ['AAPL', 'TSLA', 'GOOGL']
start_date = '2018-01-01' # 1 Januari 2018
end_date = '2022-09-18' # 18 September 2022

stock = data.download(tickers = symbol, start = start_date, end = end_date)
stock.columns.names = ['Attributes', 'Symbols']
stock.head() 

[*********************100%***********************]  3 of 3 completed


Attributes,Adj Close,Adj Close,Adj Close,Close,Close,Close,High,High,High,Low,Low,Low,Open,Open,Open,Volume,Volume,Volume
Symbols,AAPL,GOOGL,TSLA,AAPL,GOOGL,TSLA,AAPL,GOOGL,TSLA,AAPL,GOOGL,TSLA,AAPL,GOOGL,TSLA,AAPL,GOOGL,TSLA
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2
2018-01-02,41.02,53.66,21.37,43.06,53.66,21.37,43.08,53.8,21.47,42.31,52.65,20.73,42.54,52.65,20.8,102223600,31766000,65283000
2018-01-03,41.01,54.58,21.15,43.06,54.58,21.15,43.64,54.81,21.68,42.99,53.67,21.04,43.13,53.7,21.4,118071600,31318000,67822500
2018-01-04,41.2,54.79,20.97,43.26,54.79,20.97,43.37,55.2,21.24,43.02,54.71,20.38,43.13,54.85,20.86,89738400,26052000,149194500
2018-01-05,41.67,55.51,21.11,43.75,55.51,21.11,43.84,55.68,21.15,43.26,55.09,20.8,43.36,55.17,21.11,94640000,30250000,68868000
2018-01-08,41.52,55.71,22.43,43.59,55.71,22.43,43.9,55.96,22.47,43.48,55.5,21.03,43.59,55.55,21.07,82271200,24644000,147891000


In [3]:
symbol = ['BBCA.JK', 'BBRI.JK', 'BTC-USD']
start_date = '2018-01-01' # 1 Januari 2018
end_date = '2022-09-18' # 18 September 2022

stock = data.download(tickers = symbol, start = start_date, end = end_date)
stock.columns.names = ['Attributes', 'Symbols']
stock.head() 

[*********************100%***********************]  3 of 3 completed


Attributes,Adj Close,Adj Close,Adj Close,Close,Close,Close,High,High,High,Low,Low,Low,Open,Open,Open,Volume,Volume,Volume
Symbols,BBCA.JK,BBRI.JK,BTC-USD,BBCA.JK,BBRI.JK,BTC-USD,BBCA.JK,BBRI.JK,BTC-USD,BBCA.JK,BBRI.JK,BTC-USD,BBCA.JK,BBRI.JK,BTC-USD,BBCA.JK,BBRI.JK,BTC-USD
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2
2017-12-31,,,14156.4,,,14156.4,,,14377.4,,,12755.6,,,12897.7,,,12136299520
2018-01-01,4060.43,3119.61,13657.2,4380.0,3640.0,13657.2,4380.0,3640.0,14112.2,4380.0,3640.0,13154.7,4380.0,3640.0,14112.2,0.0,0.0,10291200000
2018-01-02,4060.43,3111.04,14982.1,4380.0,3630.0,14982.1,4505.0,3720.0,15444.6,4365.0,3610.0,13163.6,4380.0,3690.0,13625.0,82303500.0,91127100.0,16846600192
2018-01-03,4060.43,3093.9,15201.0,4380.0,3610.0,15201.0,4390.0,3630.0,15572.8,4265.0,3560.0,14844.5,4385.0,3630.0,14978.2,68214000.0,70148700.0,16871900160
2018-01-04,4120.69,3042.48,15599.2,4445.0,3550.0,15599.2,4445.0,3610.0,15739.7,4380.0,3460.0,14522.2,4380.0,3610.0,15270.7,76567000.0,156406300.0,21783199744


Simbol:
- `AAPL`: Apple Inc.
- `TSLA`: Tesla
- `GOOGL`: Alphabet Inc. (Google)

Deskripsi data:
- `Date`: tanggal dalam format `yyyy-mm-dd`
- `High`: nilai saham **tertinggi** pada hari tersebut (satuan harga berdasarkan di mana perusahaan tsb berada)
- `Low`: nilai saham **terendah** pada hari tersebut
- `Open`: nilai saham saat **trading hours dibuka** pada hari tersebut
- `Close`: nilai saham saat **trading hours ditutup** pada hari tersebut
- `Adj Close`: nilai `Close` yang telah disesuaikan setelah stock split maupun pembagian dividen 
- `Volume`: jumlah lembar saham yang berpindah tangan pada hari tersebut (jumlah transaksi jual beli)

[Trading hours](https://www.maybank-ke.com.sg/markets/markets-listing/trading-hours/) dapat berbeda-beda pada tiap tempat. Di Indonesia (IDX/BEI), trading hours dibuka pada Senin - Jumat jam 09:00 WIB - 03:00 WIB.

### File Pickle

Pickling/Serializing: **menyimpan** suatu objek Python ke sebuah file binary (byte stream).
- Gunakan method `.to_pickle()`
- Contohnya objek DataFrame `stock` disimpan sebagai file `stock_2`
- Kemudian silahkan cek file pickle pada folder di mana file `.ipynb` ini berada

In [4]:
# # hasil penarikan data dari Yahoo! Finance pada cell sebelumnya
stock.to_pickle('data_cache/stock_Theia')

In [5]:
# #read pickle
pd.read_pickle('data_cache/stock_Theia').head()

Attributes,Adj Close,Adj Close,Adj Close,Close,Close,Close,High,High,High,Low,Low,Low,Open,Open,Open,Volume,Volume,Volume
Symbols,BBCA.JK,BBRI.JK,BTC-USD,BBCA.JK,BBRI.JK,BTC-USD,BBCA.JK,BBRI.JK,BTC-USD,BBCA.JK,BBRI.JK,BTC-USD,BBCA.JK,BBRI.JK,BTC-USD,BBCA.JK,BBRI.JK,BTC-USD
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2
2017-12-31,,,14156.4,,,14156.4,,,14377.4,,,12755.6,,,12897.7,,,12136299520
2018-01-01,4060.43,3119.61,13657.2,4380.0,3640.0,13657.2,4380.0,3640.0,14112.2,4380.0,3640.0,13154.7,4380.0,3640.0,14112.2,0.0,0.0,10291200000
2018-01-02,4060.43,3111.04,14982.1,4380.0,3630.0,14982.1,4505.0,3720.0,15444.6,4365.0,3610.0,13163.6,4380.0,3690.0,13625.0,82303500.0,91127100.0,16846600192
2018-01-03,4060.43,3093.9,15201.0,4380.0,3610.0,15201.0,4390.0,3630.0,15572.8,4265.0,3560.0,14844.5,4385.0,3630.0,14978.2,68214000.0,70148700.0,16871900160
2018-01-04,4120.69,3042.48,15599.2,4445.0,3550.0,15599.2,4445.0,3610.0,15739.7,4380.0,3460.0,14522.2,4380.0,3610.0,15270.7,76567000.0,156406300.0,21783199744


Contoh menyimpan data stock menggunakan csv:

In [6]:
stock.to_csv('data_cache/stock.csv')

In [7]:
pd.read_csv('data_cache/stock.csv')

Unnamed: 0,Attributes,Adj Close,Adj Close.1,Adj Close.2,Close,Close.1,Close.2,High,High.1,High.2,Low,Low.1,Low.2,Open,Open.1,Open.2,Volume,Volume.1,Volume.2
0,Symbols,BBCA.JK,BBRI.JK,BTC-USD,BBCA.JK,BBRI.JK,BTC-USD,BBCA.JK,BBRI.JK,BTC-USD,BBCA.JK,BBRI.JK,BTC-USD,BBCA.JK,BBRI.JK,BTC-USD,BBCA.JK,BBRI.JK,BTC-USD
1,Date,,,,,,,,,,,,,,,,,,
2,2017-12-31,,,14156.400390625,,,14156.400390625,,,14377.400390625,,,12755.599609375,,,12897.7001953125,,,12136299520
3,2018-01-01,4060.42919921875,3119.610107421875,13657.2001953125,4380.0,3640.0,13657.2001953125,4380.0,3640.0,14112.2001953125,4380.0,3640.0,13154.7001953125,4380.0,3640.0,14112.2001953125,0.0,0.0,10291200000
4,2018-01-02,4060.42919921875,3111.03955078125,14982.099609375,4380.0,3630.0,14982.099609375,4505.0,3720.0,15444.599609375,4365.0,3610.0,13163.599609375,4380.0,3690.0,13625.0,82303500.0,91127100.0,16846600192
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1719,2022-09-13,8525.0,4580.0,20296.70703125,8525.0,4580.0,20296.70703125,8575.0,4640.0,22673.8203125,8375.0,4560.0,20062.669921875,8375.0,4560.0,22371.48046875,124485200.0,141828800.0,51091116622
1720,2022-09-14,8500.0,4580.0,20241.08984375,8500.0,4580.0,20241.08984375,8650.0,4610.0,20467.201171875,8375.0,4510.0,19793.396484375,8375.0,4520.0,20184.5546875,116642400.0,149960600.0,37872380889
1721,2022-09-15,8750.0,4610.0,19701.2109375,8750.0,4610.0,19701.2109375,8875.0,4700.0,20318.166015625,8500.0,4590.0,19636.734375,8500.0,4600.0,20242.2890625,190404800.0,295664100.0,36389011503
1722,2022-09-16,8450.0,4500.0,19772.583984375,8450.0,4500.0,19772.583984375,8725.0,4620.0,19870.62890625,8450.0,4500.0,19400.076171875,8700.0,4610.0,19704.005859375,363127600.0,282492200.0,30123362273


Unpickling/De-serializing: **membaca** suatu objek Python dari sebuah file binary (byte stream). 
- Gunakan method `pd.read_pickle()`
- Untuk selanjutnya, mari kita gunakan file pickle pada `data_cache/stock` yang untuk tanggal 1 Januari 2018 sampai 18 September 2022.

⚠️ Jangan pernah unpickling file yang berasal dari sumber yang tidak tepercaya, karena bisa saja file tersebut berisi script berupa virus yang dapat membahayakan sistem Anda.

💡 Dengan menggunakan file pickle kita **"mengawetkan"** struktur dari object Python, untuk DataFrame dapat terjaga tipe data dan indexnya.

In [8]:
# membuat dummy data lalu konversi tipe data
dummy = pd.DataFrame({
    'id': [1, 2, 3, 4, 5, 6, 7],
    'gender': ['Male', 'Female', 'Male', 'Female', 'Female', 'Female', 'Male'],
    'blood_type': ['O', 'A', 'B', 'AB', 'B', 'B', 'O'],
    'join_date': ['28 Jun 2021', '29 Jun 2021', '30 Jun 2021', '1 Jul 2021', '2 Jul 2021', '3 Jul 2021', '4 Jul 2021']
})

# ubah tipe data
dummy[['gender', 'blood_type']] = dummy[['gender', 'blood_type']].astype('category')
dummy['join_date'] = dummy['join_date'].astype('datetime64')
dummy.dtypes

id                     int64
gender              category
blood_type          category
join_date     datetime64[ns]
dtype: object

In [9]:
# simpan object dummy ke dalam folder data_cache nama filenya "dummy"
dummy.to_pickle('data_cache/dummy.acar')

In [10]:
# baca dari pickle dan cek tipe data
pd.read_pickle('data_cache/dummy.acar').dtypes

id                     int64
gender              category
blood_type          category
join_date     datetime64[ns]
dtype: object

Bandingkan dengan menyimpannya ke file text biasa, yaitu csv misalnya:

In [11]:
# simpan ke file csv
dummy.to_csv('data_cache/dummy.csv', index=False)

# baca dari csv dan cek tipe data
pd.read_csv('data_cache/dummy.csv').dtypes

id             int64
gender        object
blood_type    object
join_date     object
dtype: object

**Quick Summary pickle file**:

Kelebihan:
- menyimpan tipe data yang sama
- menyimpan bentuk object python dengan bentuk yang sama
- pickle ini lebih ringan dari csv

Kekurangan:
- hanya bisa di buka oleh python, jadi berhati hati menbuka pickle dari source yang tidak di kenal.

## Slicing Multi-Index DataFrame

Multi-Index Dataframe adalah bentuk dataframe yang memiliki level indexing lebih dari 1 baik pada baris, kolom, ataupun keduanya. Hal yang perlu diperhatikan dalam MultiIndex Dataframe adalah bentuk dataframe ini terkadang tidak bisa langsung kita gunakan untuk menganalisis data, sehingga akan ada beberapa perlakuan untuk kita mengiris atau mengubah bentuknya ke dataframe yang lebih sederhana. Berikut contoh bentuk multi-index dataframe:
<img src="assets/multiindex dataframe.png" width = 600>

Perhatikan bahwa `stock` adalah Multi-Index DataFrame, dimana level dari column-nya terdiri dari: `Attributes` dan `Symbols`:

In [12]:
stock.head()

Attributes,Adj Close,Adj Close,Adj Close,Close,Close,Close,High,High,High,Low,Low,Low,Open,Open,Open,Volume,Volume,Volume
Symbols,BBCA.JK,BBRI.JK,BTC-USD,BBCA.JK,BBRI.JK,BTC-USD,BBCA.JK,BBRI.JK,BTC-USD,BBCA.JK,BBRI.JK,BTC-USD,BBCA.JK,BBRI.JK,BTC-USD,BBCA.JK,BBRI.JK,BTC-USD
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2
2017-12-31,,,14156.4,,,14156.4,,,14377.4,,,12755.6,,,12897.7,,,12136299520
2018-01-01,4060.43,3119.61,13657.2,4380.0,3640.0,13657.2,4380.0,3640.0,14112.2,4380.0,3640.0,13154.7,4380.0,3640.0,14112.2,0.0,0.0,10291200000
2018-01-02,4060.43,3111.04,14982.1,4380.0,3630.0,14982.1,4505.0,3720.0,15444.6,4365.0,3610.0,13163.6,4380.0,3690.0,13625.0,82303500.0,91127100.0,16846600192
2018-01-03,4060.43,3093.9,15201.0,4380.0,3610.0,15201.0,4390.0,3630.0,15572.8,4265.0,3560.0,14844.5,4385.0,3630.0,14978.2,68214000.0,70148700.0,16871900160
2018-01-04,4120.69,3042.48,15599.2,4445.0,3550.0,15599.2,4445.0,3610.0,15739.7,4380.0,3460.0,14522.2,4380.0,3610.0,15270.7,76567000.0,156406300.0,21783199744


Ketika kita subset menggunakan `[]`, maka kita hanya bisa mengakses kolom dengan level teratas, yaitu untuk `Attributes`. 

- ❓ Melakukan subset pada kolom `High` akan menghasilkan DataFrame single index dengan `Symbols` sebagai levelnya.

In [13]:
stock['High']

Symbols,BBCA.JK,BBRI.JK,BTC-USD
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2017-12-31,,,14377.40
2018-01-01,4380.00,3640.00,14112.20
2018-01-02,4505.00,3720.00,15444.60
2018-01-03,4390.00,3630.00,15572.80
2018-01-04,4445.00,3610.00,15739.70
...,...,...,...
2022-09-13,8575.00,4640.00,22673.82
2022-09-14,8650.00,4610.00,20467.20
2022-09-15,8875.00,4700.00,20318.17
2022-09-16,8725.00,4620.00,19870.63


❗️**Masalah:** Bagaimana caranya apabila kita ingin mengambil semua nilai `Attributes` untuk saham `GOOGL` saja?

In [14]:
# stock['BBCA.JK']

**Solusi:** Kita harus menggunakan method `.xs()` (cross-section) untuk mengambil kolom (`axis=1`) pada level dalam

- `key`: kolom yang kita ingin ambil
- `level`: kolom tersebut ada di level apa?
- `axis`: level terdapat pada index/baris (0 untuk baris, 1 untuk kolom)

In [32]:
stock.xs(key = 'BBCA.JK',
        level = 1,
        axis = 1).head()

Attributes,Adj Close,Close,High,Low,Open,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2017-12-31,,,,,,
2018-01-01,4060.43,4380.0,4380.0,4380.0,4380.0,0.0
2018-01-02,4060.43,4380.0,4505.0,4365.0,4380.0,82303500.0
2018-01-03,4060.43,4380.0,4390.0,4265.0,4385.0,68214000.0
2018-01-04,4120.69,4445.0,4445.0,4380.0,4380.0,76567000.0


**Pertanyaan Bapak Shivan :**  bagaimana jika ingin ambil 1 bulan? 

In [None]:
new_index = pd.date_range(start="2018-01-01",end="2018-03-31")

stock.xs(key = 'BBCA.JK',
        level = 1,
        axis = 1)[stock.index < '2018-01-31']

**Challenge**: ambil histori data saham `AAPL`, `TSLA`, `GOOGL` pada tanggal 11 Januari 2021!

In [35]:
# your code here
stock.xs(key = '2021-01-11',
        axis = 0)

Attributes  Symbols
Adj Close   BBCA.JK           7110.27
            BBRI.JK           4376.95
            BTC-USD          35566.66
Close       BBCA.JK           7345.00
            BBRI.JK           4650.00
            BTC-USD          35566.66
High        BBCA.JK           7360.00
            BBRI.JK           4660.00
            BTC-USD          38346.53
Low         BBCA.JK           7145.00
            BBRI.JK           4410.00
            BTC-USD          30549.60
Open        BBCA.JK           7150.00
            BBRI.JK           4420.00
            BTC-USD          38346.53
Volume      BBCA.JK      169034500.00
            BBRI.JK      383714500.00
            BTC-USD   123320567399.00
Name: 2021-01-11 00:00:00, dtype: float64

### ❓🔎 Concern on Time Series Data

1. Buatlah sebuah objek dataframe bernama `closingprice` yang berisikan nilai `Close` untuk ketiga saham.
2. Gunakan method yang telah Anda pelajari untuk mengecek banyaknya missing values pada setiap kolom dataframe `closingprice`.

In [37]:
symbol = ['AAPL', 'TSLA', 'GOOGL']
start_date = '2018-01-01' # 1 Januari 2018
end_date = '2022-09-18' # 18 September 2022

stock_amerika = data.download(tickers = symbol, start = start_date, end = end_date)
stock_amerika.columns.names = ['Attributes', 'Symbols']
stock_amerika.head() 

[*********************100%***********************]  3 of 3 completed


Attributes,Adj Close,Adj Close,Adj Close,Close,Close,Close,High,High,High,Low,Low,Low,Open,Open,Open,Volume,Volume,Volume
Symbols,AAPL,GOOGL,TSLA,AAPL,GOOGL,TSLA,AAPL,GOOGL,TSLA,AAPL,GOOGL,TSLA,AAPL,GOOGL,TSLA,AAPL,GOOGL,TSLA
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2
2018-01-02,41.02,53.66,21.37,43.06,53.66,21.37,43.08,53.8,21.47,42.31,52.65,20.73,42.54,52.65,20.8,102223600,31766000,65283000
2018-01-03,41.01,54.58,21.15,43.06,54.58,21.15,43.64,54.81,21.68,42.99,53.67,21.04,43.13,53.7,21.4,118071600,31318000,67822500
2018-01-04,41.2,54.79,20.97,43.26,54.79,20.97,43.37,55.2,21.24,43.02,54.71,20.38,43.13,54.85,20.86,89738400,26052000,149194500
2018-01-05,41.67,55.51,21.11,43.75,55.51,21.11,43.84,55.68,21.15,43.26,55.09,20.8,43.36,55.17,21.11,94640000,30250000,68868000
2018-01-08,41.52,55.71,22.43,43.59,55.71,22.43,43.9,55.96,22.47,43.48,55.5,21.03,43.59,55.55,21.07,82271200,24644000,147891000


In [40]:
# your code here

closingprice = stock_amerika['Close']
closingprice.isna().sum()
closingprice.head(10)

Symbols,AAPL,GOOGL,TSLA
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2018-01-02,43.06,53.66,21.37
2018-01-03,43.06,54.58,21.15
2018-01-04,43.26,54.79,20.97
2018-01-05,43.75,55.51,21.11
2018-01-08,43.59,55.71,22.43
2018-01-09,43.58,55.64,22.25
2018-01-10,43.57,55.51,22.32
2018-01-11,43.82,55.6,22.53
2018-01-12,44.27,56.53,22.41
2018-01-16,44.05,56.53,22.67


**💭 Diskusi:** Apakah dapat dikatakan bahwa data `closingprice` tidak terdapat missing value? *hint: lihat urutan tanggal*


Ketika kita bekerja dengan data runtun waktu (time series), kita harus memastikan data lengkap pada setiap periode waktu. Untuk kasus di atas kita harus melakukan **padding**, yaitu menyelipkan tanggal yang terlewati. 

❗️Kita dapat mengatur ulang index `Date` dengan method `reindex()` sehingga indexnya mengikuti rentang tanggal yang kita tentukan sendiri:

In [46]:
# data tanggal per harian dari 1 Januari sampai 31 Maret 2018
new_index = pd.date_range(start="2018-01-01",end="2018-03-31")
closingprice = closingprice.reindex(new_index)
# closingprice.head(10)
closingprice.fillna(method = 'ffill').head(20)
# atau stock['Close'].ffill()

Symbols,AAPL,GOOGL,TSLA
2018-01-01,,,
2018-01-02,43.06,53.66,21.37
2018-01-03,43.06,54.58,21.15
2018-01-04,43.26,54.79,20.97
2018-01-05,43.75,55.51,21.11
2018-01-06,43.75,55.51,21.11
2018-01-07,43.75,55.51,21.11
2018-01-08,43.59,55.71,22.43
2018-01-09,43.58,55.64,22.25
2018-01-10,43.57,55.51,22.32


Note: `nan`: missing value untuk numerik (not a number)

Cek kembali missing value `NaN` yang terdapat pada `closingprice`:

In [55]:
# your code here
closingprice = closingprice.dropna()
closingprice 

Symbols,AAPL,GOOGL,TSLA
2018-01-02,43.06,53.66,21.37
2018-01-03,43.06,54.58,21.15
2018-01-04,43.26,54.79,20.97
2018-01-05,43.75,55.51,21.11
2018-01-06,43.75,55.51,21.11
...,...,...,...
2018-03-27,42.08,50.35,18.61
2018-03-28,41.62,50.26,17.19
2018-03-29,41.94,51.86,17.74
2018-03-30,41.94,51.86,17.74


❓**Diskusi:** Bagaimana cara kita mengisi missing value tersebut?

## Reshaping

Reshaping data adalah salah satu komponen penting dalam tahap data wrangling, karena memungkinkan seorang analis untuk mempersiapkan data menjadi bentuk yang sesuai untuk tahap analisa data berikutnya.

### `stack()` and `unstack()`

Method yang berguna saat kita ingin mengubah bentuk Multi-Index DataFrame:

- `stack()`: mengubah level pada kolom menjadi pada baris
- `unstack()`: mengubah level pada baris menjadi pada kolom

<img src="assets/reshaping_stack.png" width="600"/>

Untuk saat ini, `stock` memiliki 2-level kolom (`Attributes` dan `Symbols`) dan 1-level baris (`Date`).

In [None]:
stock_amerika.stack()

In [None]:
# aplikasikan method stack


📈 Setelah mengaplikasikan method `stack()`, `Symbols` pindah dari yang sebelumnya level pada kolom menjadi baris. Kenapa `Symbols`? Karena secara default parameter `level=-1`, sehingga kolom dengan level paling dalam yang pindah menjadi baris.

❗️ Bagaimana cara kita memindahkan level `Attributes`nya menjadi baris?

Sedangkan `unstack()` adalah kebalikan dari `stack()`:

<img src="assets/reshaping_unstack.png" width="600"/>

Cobalah aplikasikan method `unstack()` pada dataframe `stock`:

❗️ Apa yang terjadi ketika method `stack()` dilanjutkan dengan method `unstack()` (asumsi menggunakan parameter `level` default)?

In [None]:
# your code here


### 💭 Dive Deeper

1. How to swap the position (`level`) of Symbols and Attributes?

___

1. Bagaimana cara menukar posisi (`level`) dari Symbols dan Attributes?

In [36]:
# your code here
stock_amerika
# stock_amerika.swaplevel(i=1,j=0,axis=1)


Attributes,Adj Close,Adj Close,Adj Close,Close,Close,Close,High,High,High,Low,Low,Low,Open,Open,Open,Volume,Volume,Volume
Symbols,AAPL,GOOGL,TSLA,AAPL,GOOGL,TSLA,AAPL,GOOGL,TSLA,AAPL,GOOGL,TSLA,AAPL,GOOGL,TSLA,AAPL,GOOGL,TSLA
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2
2018-01-02,41.02,53.66,21.37,43.06,53.66,21.37,43.08,53.80,21.47,42.31,52.65,20.73,42.54,52.65,20.80,102223600,31766000,65283000
2018-01-03,41.01,54.58,21.15,43.06,54.58,21.15,43.64,54.81,21.68,42.99,53.67,21.04,43.13,53.70,21.40,118071600,31318000,67822500
2018-01-04,41.20,54.79,20.97,43.26,54.79,20.97,43.37,55.20,21.24,43.02,54.71,20.38,43.13,54.85,20.86,89738400,26052000,149194500
2018-01-05,41.67,55.51,21.11,43.75,55.51,21.11,43.84,55.68,21.15,43.26,55.09,20.80,43.36,55.17,21.11,94640000,30250000,68868000
2018-01-08,41.52,55.71,22.43,43.59,55.71,22.43,43.90,55.96,22.47,43.48,55.50,21.03,43.59,55.55,21.07,82271200,24644000,147891000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2022-09-12,163.43,110.86,304.42,163.43,110.86,304.42,164.26,111.62,305.49,159.30,109.93,300.40,159.59,110.99,300.72,104956000,22966800,48674600
2022-09-13,153.84,104.32,292.13,153.84,104.32,292.13,160.54,108.30,297.40,153.37,104.09,290.40,159.90,107.80,292.90,122656600,38172900,68229600
2022-09-14,155.31,105.00,302.61,155.31,105.00,302.61,157.10,105.28,306.00,153.61,103.66,291.64,154.79,104.57,292.24,87965400,26395100,72628700
2022-09-15,152.37,102.91,303.75,152.37,102.91,303.75,155.24,105.27,309.12,151.38,102.35,300.72,154.65,104.03,301.83,90481100,34188300,64795500


2. Based on your knowledge, what company (`Symbols`) worth invest on? (You may look on its fluctuations, means, etc)

___

2. Berdasarkan pengetahuan Anda, perusahaan (`Symbols`) mana yang layak untuk diinvestasikan? (Anda dapat melihat fluktuasi, means, dll)

In [None]:
# your code here


📈 Insight:

- ...
- ...
- ...

### ❓ Knowledge Check: Stack and Unstack

Which of the following statement is correct?

- [ ] `stack()` changes the DataFrame from wide to long
- [ ] `unstack()` changes the DataFrame from long to wide
- [ ] `unstack()` changes the DataFrame from wide to long

---
### 📝 Summary Day 1

**Reproducible Env**
- Exporting environtment: ...
- Importing environtment: ...
    
**Data Loading**
- Library `yfinance` digunakan untuk menarik data dari berbagai sumber terkait keuangan, misalnya data saham dari Yahoo! Finance.
- File pickle: file binary yang digunakan untuk menyimpan object Python (contohnya DataFrame)
    - Object python:
        + ...
        + ..
        + ...
    - `.to_pickle(path)`: method untuk [pickling/unpickling]
    - `pd.read_pickle(path)`: method untuk [pickling/unpickling]

**Slicing MultiIndex DataFrame**
- Gunakan ... untuk mengambil kolom pada **level teratas**
- Gunakan ... untuk mengambil kolom pada level lebih dalam, parameter: 
    - `key`: nama label yang ingin diambil
    - `level`: nama level dimana label tersebut berada
    - `axis`: level terdapat pada index/baris (0 untuk ..., 1 untuk ...)

**Datetime Padding**
- `pd.date_range(start, end)`: untuk membuat sebuah DatetimeIndex dari tanggal `start` sampai `end`
- `.reindex()`: untuk mengatur kembali index sesuai dengan yang diinginkan

**Reshaping: Stacking vs Unstacking**
- `stack()`: mengubah ... pada ... menjadi pada ...
- `unstack()`: mengubah ... pada ... menjadi pada ...
---

### Melt

Mirip dengan `stack()`, kita bisa menggunakan `melt()` untuk mengubah dataframe dari wide to long.

<img src="assets/reshaping_melt.png" width="600"/>

❓ Dari data `stock` silahkan slicing untuk mendapatkan data saham `AAPL`, simpan pada objek `aapl`:

In [None]:
stock_amerika.head()

In [None]:
# your code here


❓ Aplikasikan method `melt()` dan simpan pada objek `aapl_melted`

In [None]:
# your code here


❓ Bandingkan ukuran `aapl` dan `aapl_melted`:

- `aapl` (wide): 
- `aapl_melted` (long): 

**💭 Knowledge Check: Melt vs Stack**

Persamaan antara `melt()` dan `stack()`: 

Apa perbedaan antara `melt()` dan `stack()` ?
- `stack()` 
    - umumnya digunakan pada data ...
    - umumnya digunakan untuk ...
- `melt()`
    - umumnya digunakan pada data ...
    - umumnya digunakan untuk ...

#### Identifier and Value

Dalam method `melt()`, terdapat dua parameter yang sering digunakan:
- `id_vars`: kolom yang menjadi identifier variables (kolom yang dipertahankan)
- `value_vars`: kolom yang menjadi value variables


In [None]:
# coba langsung mengaplikasikan melt


Kita ingin kolom `Date` menjadi `id_vars`, namun belum bisa diakses sebagai kolom karena masih berupa index. Untuk itu kita menggunakan `reset_index()` sebelum `melt()`

In [None]:
# menggunakan reset_index


❓ **Latihan:** Saya ingin melakukan melt terhadap data `aapl` hanya pada kolom `Close` dan `Open`, serta setiap observasinya dibedakan berdasarkan `Date`. Simpan pada objek `aapl_close_open`:

Parameter:
- `id_vars`: daftar kolom yang ingin kita pertahankan setelah hasil melt
- `value_vars`: daftar kolom yang ingin kita peroleh di kolom `variable`

In [None]:
# your code here


Tambahan parameter:

- `var_name` untuk memberi nama terhadap kolom `variable`
- `value_name` untuk memberi nama terhadap kolom `value`

### (Optional) Pivot: Inverse of Melt

Kebalikan dari method `melt()` adalah `pivot()`, yaitu mengubah dataframe dari long ke wide.

<img src="assets/reshaping_pivot.png" width="600"/>

Silahkan coba mengaplikasikan method `pivot()` pada objek `aapl_close_open`, sehingga index-nya berupa `Date` serta terdapat dua kolom `Close` dan `Open` (dari `Attributes`):

📌 Catatan tambahan:
 
- `pivot_table()` untuk membuat tabel agregasi (ada nilai yang dirangkum)
- `pivot()` hanya untuk reshaping (tidak ada nilai yang dirangkum)

📌 **Quick summary reshaping & subsetting method**:

Method reshaping yang sudah dipelajari sampai tahap ini:

- `stack` dan `unstack`: bekerja pada level (multiindex dataframe)
- `melt` dan `pivot`: bekerja pada index maupun kolom (single index dataframe)
- `reset_index`: level pada index dijadikan sebuah kolom

Method subsetting/slicing multiindex dataframe:
- `.xs`: cross-section

# Visualization

Tujuan Visualisasi:

- Exploratory: proses untuk memfamiliarkan diri (berkenalan) dengan data melalui visualisasi, sehingga mendapatkan sebuah insight. Visualisasi yang ditampilkan biasanya sederhana. Analogi: mencari dan mendapatkan batu permata di antara ratusan batu biasa.
- Explanatory: proses untuk menjelaskan atau menyajikan insight yang didapat dari hasil exploratory kepada user/audience. Visualisasi yang ditampilkan biasanya lebih menarik dan meng-highlight insight secara spesifik. Analogi: mempoles batu permata tersebut dan menawarkannya kepada pembeli.

Pada course ini, dititikberatkan pada bagaimana cara kita menampilkan visualisasi data yang **informatif dan tepat**. Untuk memperindah tampilan visualisasi dapat di-eksplorasi secara mandiri melalui dokumentasi yang tersedia.

## Pandas and Matplotlib

Sampai tahap ini mungkin Anda tidak sabar untuk melakukan visualisasi data di Python. Dengan cukup mudah, kita bisa membuat objek plot `matplotlib` dengan hanya menggunakan method `.plot()`. Kita dapat mengecek dependencies package `pandas` menggunakan `show_versions()`, dari situ kita bisa lihat bahwa `matplotlib` termasuk di dalamnya.

In [None]:
#pd.show_versions()

❗️ Sekarang mari kita coba melakukan visualisasi untuk **100 observasi (baris) pertama `Volume` pada `stock`**

- Index akan menjadi sumbu horizontal pada plot (`Date`)
- Nilai akan menjadi sumbu vertikal pada plot
- Masing-masing kolom akan menjadi 1 komponen pada plot, dalam hal ini 1 `Symbols` menjadi 1 garis

In [None]:
# menyiapkan datanya terlebih dahulu
stock['Volume'].head(100)

In [None]:
# visualisasi
stock['Volume'].head(100).plot()

📈 Insight:

- ...
- ...
- ...

🔻 Method `plot()` mempermudah kita dalam melakukan visualisasi langsung pada DataFrame, tanpa perlu mengerti cara penggunaan `matplotlib`. Kunjungi [dokumentasi matplotlib](https://matplotlib.org/tutorials/introductory/usage.html#sphx-glr-tutorials-introductory-usage-py) untuk detail mengenai `matplotlib`.

🔻 Namun, keterbatasan dari penggunaan `plot()` adalah minim kustomisasi dari visualisasi yang ada. Hanya terbatas pada parameter yang ada di dalam method tersebut. Kunjungi [dokumentasi method plot](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.html).

🔻 Salah satu kustomisasi yang dapat kita lakukan untuk memperindah visualisasi adalah melalui [matplotlib style sheet](https://matplotlib.org/tutorials/introductory/customizing.html). Kita dapat mengganti nilai 'default' pada method `plt.style.use()` dengan salah satu style yang tersedia, kemudian jalankan kembali code visualisasi untuk menerapkan style yang dipilih.

💡 **Tips:** Meskipun kode kita tidak menggunakan `matplotlib` secara eksplisit namun bergantung pada implementasi `pandas`, alangkah lebih baik kita tetap melakukan import untuk berinteraksi dengan plot: `import matplotlib.pyplot as plt`.

In [None]:
import matplotlib.pyplot as plt
print(plt.style.available)
plt.style.use('seaborn')

In [None]:
stock['Volume'].head(n=10).plot()

❓ Sekarang kita coba visualisasi dari object `aapl` berikut:

In [None]:
march = pd.date_range(start="2018-03-01", end="2019-03-31")
aapl = stock.xs('AAPL', level='Symbols', axis=1)
aapl = aapl.reindex(march)
aapl

In [None]:
# visualisasi


💭 **Diskusi:** Apakah visualisasi tersebut sudah cukup informatif dan tepat? Apabila belum, hal apa saja yang bisa di-improve dari visualisasi tersebut?

- ...
- ...
- ...
- ...


---
### 📝 Summary Day 2

**Reshaping: Melt vs Pivot**

- `melt()`: mengubah bentuk DataFrame dari ... menjadi ..., parameter:
    - `id_vars`: kolom yang menjadi **identifier variables**
    - `value_vars`: kolom yang menjadi **value variables**
    - `var_name`: memberi **nama** terhadap kolom **variable**
    - `value_name`: memberi **nama** terhadap kolom **value**
- `pivot()`: mengubah bentuk DataFrame dari ... menjadi ..., parameter:
    - `index`: kolom yang menjadi **nama baris** pada hasil reshaping
    - `columns`: kolom yang menjadi **nama kolom** pada hasil reshaping
    - `values`: kolom yang merupakan **nilai** pada hasil reshaping
    - Perbedaannya dengan `pivot_table()` adalah pivot_table = agregasi sedangkan pivot = reshape

**Visualization**

Tujuan Visualisasi:
- Exploratory: proses menghasilkan visualisasi secara cepat dan sederhana untuk menggali insight
- Explanatory: proses untuk mempercantik visualisasi dan menyajikannya dalam bentuk dashboard/reporting

**Types of Visualization**

Pada `pandas`, kita dapat menggunakan method `.plot()` untuk melakukan visualisasi dengan bantuan package `matplotlib`
- Default: ...
---

Opsional: anatomi plot pada matplotlib https://matplotlib.org/stable/gallery/showcase/anatomy.html

## 📌 Types of Visualization

Secara default, `plot()` menampilkan visualisasi **line chart**. Ada beberapa tipe visualisasi lain yang dapat kita buat menggunakan `.plot`:

Visualisasi berikut hanya perlu menggunakan **satu** kolom:

- Data kategorik:
    - **`.plot.bar()` atau `.plot.barh()` untuk barplot (diagram batang)**
    - **`.plot.box()` atau `.boxplot()` untuk boxplot (berhubungan dengan five number summary)**
    - `.plot.pie()` untuk pie chart
    

- Data numerik:
    - **`.plot.hist()` untuk histogram**
    - `.plot.kde()` atau `.plot.density()` untuk density plot
    - `.plot.area()` untuk area plot

Visualisasi berikut perlu menggunakan **dua** kolom:

- Numerik vs numerik:
    - `.plot.scatter()` untuk scatter plot
    - `.plot.hexbin()` untuk hexagonal bin plot

💡 Panduan untuk menentukan tipe visualisasi yang tepat: https://www.data-to-viz.com/

**Silahkan mengacu referensi lengkapnya di [official documentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.html) untuk method `plot` apabila ingin eksplor visualisasi yang ada di luar lingkup course ini**

### 📊 Bar plot

❓ Menggunakan data `stock`, tampilkan visualisasi untuk **membandingkan** fluktuasi (menggunakan coefficient of variance) nilai `Open` pada masing-masing `Symbols`.

In [None]:
#cov.plot.bar()


📈 Insight:

-  
- 
- 

❓ Gunakan parameter `kind='barh'` untuk menampilkan bar chart secara horizontal (mendatar)

In [None]:
# code here


### Histogram

Menggunakan data `stock`, tampilkan visualisasi histogram untuk mengetahui **persebaran** `Volume` pada saham `GOOGL`:

In [None]:
# menyiapkan data


In [None]:
# visualisasi


📈 Insight: 
- ...
- ...
- ...

### 💭 Knowledge Check: Bar plot vs Histogram

Setelah membuat kedua plot di atas, apa perbedaan antara bar plot dengan histogram?

- Barplot 
    - tujuan: 
    - tipe data: 
    - tampilan: 
- Histogram 
    - tujuan:
    - tipe data: 
    - tampilan: 

### Box plot

❓ Menggunakan data `stock`, tampilkan visualisasi box plot untuk membandingkan **persebaran** `Volume` untuk ketiga saham.

Box plot menggambarkan **five number summary** sebagai berikut: 

<img src="assets/boxplot.png" width="600"/>

- Q1: kuartil 1 (data ke 25%)
- Median: kuartil 2 (data ke 50%)
- Q3: kuartil 3 (data ke 75%)
- Lower whisker: pagar bawah
- Upper whisker: pagar atas
- Data di luar pagar akan dianggap sebagai outlier atau data pencilan

⚠️ Lower whisker bukan nilai minimum data. Upper whisker juga buka nilai maksimum data

In [None]:
# informasi mengenai quartile 1, 2, dan 3


Gunakan parameter `vert=False` untuk melihat boxplot secara horizontal:

📌 Catatan: visualisasi boxplot di atas kurang tepat, karena dalam dunia saham kita tidak boleh langsung membandingkan nilai volumenya secara absolute, melainkan biasanya kita melihatnya secara relatif / persentasenya tergantung lembar saham yang dijual.

❓ **Kasus**: Tampilkan **persebaran** Volume GOOGL untuk masing-masing periode `quarter`nya:

- Memindahkan index `Date` menjadi kolom
- Mengekstrak periode kuarter dari `Date` menggunakan `.dt.to_period()`, simpan ke kolom `quarter`

In [None]:
# mempersiapkan data


Alternatif `.plot(kind='box')`: Method `.boxplot()` akan mempermudah Anda ketika ingin membuat boxplot namun dikelompokkan berdasarkan kolom tertentu

In [None]:
# visualisasi


📈 Insight:

- Dari median: 
    - ..
    - ..
- Dari lebar kotak: 
    - ..
    - ..
- Dari outlier: 
    - ..
    - ..
    - ..

## (Additional) Other Python Libraries for Visualization

Apabila Anda tertarik mengenai visualisasi di Python, silahkan eksplorasi lebih lanjut package-package berikut:

- `matplotlib`: semua elemen pada visualisasi dapat dikustomisasi, namun membutuhkan code yang lebih panjang. [Dokumentasi Matplotlib](https://matplotlib.org/3.2.2/tutorials/index.html) 
- `seaborn`: dikembangkan dari `matplotlib`, lebih sedikit yang dapat dikustomisasi namun lebih mudah. [Dokumentasi Seaborn](https://seaborn.pydata.org/introduction.html)
- `plotly`: plot interaktif serta kompatibilitas dengan bahasa lain yang tinggi. [Dokumentasi Plotly](https://plotly.com/python/)
- `altair`: plot interaktif yang bersifat deklaratif, code relatif lebih mudah. [Dokumentasi Altair](https://altair-viz.github.io/index.html)

Referensi perbandingan library: https://askalgo-py.netlify.app/faq/dwv#adakah-library-visualisasi-data-di-python-selain-matplotlib

# Group By: Aggregation Table

Teknik yang tak kalah penting adalah operasi **group by**. Mungkin untuk Anda yang sudah pernah menggunakan SQL atau tools lain seperti `tidyverse` pada bahasa R akan familiar dengan operasi group by ini.

❗️ Misalkan kita punya dataframe `close_melted` yang ingin kita bandingkan nilai `Close` hariannya pada saham AAPL, TSLA, dan GOOGL:

❓ **Pertanyaan**: Di antara AAPL, TSLA, GOOGL, manakah saham yang memiliki **rata-rata** `Close` harian tertinggi?

Pertama, coba buatlah tabel agregasi dengan `crosstab()` dan juga `pivot_table()`:

In [None]:
# versi crosstab


In [None]:
# versi pivot_table: 


**Ingat kembali:** 

Persamaan antara `crosstab` dan `pivot_table` yaitu keduanya dapat digunakan untuk menghasilkan tabel agregasi yang memiliki parameter `index`, `columns`, `values`, and `aggfunc`.

Perbedaan antara `crosstab` dan `pivot_table` dapat dirangkum dalam tabel berikut:

|                                                                                    | `pd.crosstab()` | `pd.pivot_table()` |
|------------------------------------------------------------------------------------|-----------------|--------------------|
|                                                                          **Input** | Array of values/Series |          DataFrame (parameter `data`)|
|                                                              **Default `aggfunc`** |       `'count'` |           `'mean'` |
|                                                          **Parameter `columns`** |       Mandatory |      Optional |
|                                                          **Parameter `normalize`** |       Available |      Not Available |
| [**Computation Time**](https://ramiro.org/notebook/pandas-crosstab-groupby-pivot/) | Relatively Slower |  Relatively Faster |

Bandingkan dengan method `groupby()`:

In [None]:
# versi groupby


In [None]:
# mengurutkan tabel hasil groupby berdasarkan nilai Close


Istilah **group by** merupakan gabungan dari proses:

1. Split: mengelompokkan baris, co: dikelompokkan berdasarkan `Symbols`
2. Apply: menerapkan fungsi untuk masing-masing kelompok, co: dihitung mean untuk masing-masing `Symbols`
3. Combine: mengembalikan hasil dalam bentuk 1 tabel

Ilustrasi proses **split-apply-combine** dapat dilihat pada [Google Sheet](https://docs.google.com/spreadsheets/d/1i58D8cXXGfKVs_2yBzXp4vD1Dku2p6HvDaCJBLB_-rg/edit#gid=0)

## Visualizing Barchart for Comparison

Sampai di sini kita tahu bahwa GOOGL memiliki rata-rata `Close` transaksi harian tertinggi dari visualisasi bar plot yang dihasilkan pada bagian sebelumnya. Untuk selanjutnya, mari kita menganalisa `Close` dari saham GOOGL. Kita bisa menggunakan method `day_name()` untuk mengekstrak nama hari dari `Date`:

In [None]:
googl = stock.xs('GOOGL', level='Symbols', axis=1).copy()
googl['Close_Diff'] = googl['Close'].diff()
googl['Weekday'] = googl.index.day_name()
googl

Perhatikan kolom `Close_Diff` yang dibuat di atas, nilai ini merupakan perbedaan antara nilai `Close` pada hari tertentu dengan hari berikutnya.

❓ **Kasus:** Misalkan kita ingin membandingkan `Close_Diff` di setiap hari kerja. Untuk saham GOOGL, apakah secara rata-rata pada hari Kamis (Thursday) mencatat perbedaan yang lebih tinggi dibandingkan dengan hari Jumat (Friday)?

In [None]:
# mempersiapkan data: gunakan groupby


In [None]:
# visualisasi


❓ **Diskusi:** Apakah plot di atas sudah cukup efektif? Kalau belum, apa yang perlu diperbaiki dari plot di atas?

<!--
googl_close_diff = googl.groupby('Weekday').mean()['Close_Diff']
googl_close_diff.index

wday = ["Monday", "Tuesday", "Wednesday", "Thursday", "Friday"]
googl_close_diff.index = pd.CategoricalIndex(
    data = googl_close_diff.index,
    categories = wday,
    ordered = True)
googl_close_diff.index
-->

- 
- 

In [None]:
# visualisasi perbaikan


Apakah secara rata-rata pada hari Kamis (Thursday) mencatat perbedaan yang lebih tinggi dibandingkan dengan hari Jumat (Friday)? <br>

📈 Insight: 
- ....

## Using Grouped Barchart

💭 Masih ingat dengan dataframe `closingprice`? Kita akan coba memvisualisasikan **grouped barchart** untuk membandingkan nilai `Close` untuk ketiga saham **setiap bulannya** pada kuartal pertama tahun 2018.

- Pertama, kita memastikan `closingprice` tidak memiliki missing values dengan melakukan imputasi forward dan backward fill.
- Selanjutnya, gunakan objek `closingprice` untuk menampilkan nilai **rata-rata** `Close` untuk setiap bulannya. Simpan tabel agregasi ke objek `average_closing`.

📌 Note: untuk mengambil nama bulan tidak perlu `.dt` lagi, karena sudah berupa objek DatetimeIndex.

In [None]:
closingprice.tail(10)

In [None]:
# mempersiapkan data


Visualisasi:

- Index menjadi sumbu horizontal
- Column menjadi grouping untuk bar chartnya

In [None]:
# visualisasi


❓ **Diskusi:** Apakah plot di atas sudah cukup efektif? Kalau belum, apa yang perlu diperbaiki dari plot di atas?

- ...

In [None]:
# improvement visualisasi


📈 Insight: 
- 
- 
- 

## 💭 Knowledge Check: Group By + Reshaping

Misal Anda dihadapkan dengan long DataFrame seperti pada `closingprice_melt` berikut:

In [None]:
closingprice_melt = closingprice.melt(id_vars='Month', value_name='Close')
closingprice_melt

❓ Kira-kira bagaimana cara kita mengubah bentuk `closingprice_melt` menjadi `average_closing`?

**Hint:** Gunakan teknik `groupby` dan juga reshaping

In [None]:
#(groupby)


Ilustrasi group by pada kasus di atas dapat dilihat pada [Google Sheet](https://docs.google.com/spreadsheets/d/1i58D8cXXGfKVs_2yBzXp4vD1Dku2p6HvDaCJBLB_-rg/edit?usp=sharing)

## Combining `agg` and `groupby`

❗️ Perhatikan group by operation di bawah ini yang di-chaining dengan aggregate method `mean()`:

In [None]:
stock_long = stock.stack().reset_index()
stock_long.head()

In [None]:
# aggregasi biasa


Misalkan kita ingin membuat tabel agregasi dengan `aggfunc` yang berbeda-beda untuk masing-masing `Symbols` berupa:
- Maximum `stock` price (`max` dari `High`)
- Minimum `stock` price (`min` dari `Low`)
- Rata-rata closing price (`mean` dari `Close`)

Untuk mendapat hasil tersebut, kita harus melakukan chaining `groupby` dengan method `agg`. Kita harus menyertakan mapping (**dictionary**) untuk setiap kolom dengan fungsi agregasinya seperti berikut ini:

Syntax:

```
.agg({
    'NAMA_KOLOM': 'FUNGSI_AGREGASI'
})
```

In [None]:
# contoh penggunaan method agg untuk menerapkan fungsi std pada 1 kolom, yaitu Close


❓ Visualisasikan tabel agregasi di atas untuk membandingkan nilai tersebut:

In [None]:
# visualisasi


📈 Insight:
- 

## 💭 Knowledge Check: Vizualization

Perhatikan dataframe `monthly_closing` berikut:

In [None]:
stock['YearMonth'] = stock.index.to_period('M')
monthly_closing = stock.groupby('YearMonth').mean()['Close']
monthly_closing.head()

Tipe plot mana yang paling sesuai untuk data di atas, apabila kita ingin melihat pergerakan nilai `Close` dari waktu ke waktu?

- [ ] Line plot `.plot()`
- [ ] Scatter plot `.plot.scatter(x, y)`
- [ ] Bar plot `.plot.bar()`
- [ ] Box plot `.plot.box()`

In [None]:
# your code here
