**Inclass material for Week 3: Data Wrangling and Visualization**

This notebook was made based on main materials `3_Data_Wrangling_and_Visualization.ipynb`

Version: Qoppa - December 2021

---
**START OF DAY 1**

# Data Wrangling and Visualization

Berikut adalah method yang telah kita pelajari di dua course sebelumnya:

**Data Inspection** (Course: Python for Data Analysts)
- `.head()` and `.tail()`
- `.describe()`
- `.shape` and `.size`
- `.axes`
- `.dtypes`
- Subsetting using `.loc`, `.iloc` and conditionals

**Diagnostic and Exploratory** (Course: Exploratory Data Analysis)
- Tables
- Cross-Tables and Aggregates
- Using `aggfunc` for aggregate functions
- Pivot Tables
- Working with DateTime
- Working with Categorical Data
- Duplicates and Missing Value Treatment

---

**Training Objectives for Course Data Wrangling and Visualization**

- Working with MultiIndex DataFrames
- Stacking and Unstacking
- Reshaping your DataFrame with Melt
- Using Group By Effectively
- Visual Data Exploratory

# Reproducible Environment

Bayangkan Anda sedang mengerjakan suatu proyek yang membutuhkan kolaborasi dengan tim. Proyek tersebut diinisiasi oleh Anda, code dan packages pada komputer Anda berjalan dengan baik. Kemudian Anda ingin membagikan proyek tersebut kepada tim Anda. Apakah tim Anda harus melakukan instalasi package satu per satu secara manual? Tentu tidak, di sini Anda membuat suatu **environment** yang dapat di-reproducible (digandakan) dengan membuat suatu file `requirements.txt`.

Lihat pada folder `/assets`, Anda akan menemukan file `requirements.txt` yang isinya seperti ini:
```
appnope==0.1.0
backcall==0.2.0
certifi==2020.6.20
chardet==3.0.4
cycler==0.10.0
decorator==4.4.2
...
```

File ini berisi daftar **packages beserta versinya** yang ada di environment dalam menjalankan proyek tertentu. File ini membantu tim Anda untuk mengembangkan suatu aplikasi dalam satu versi yang sama, sehingga mencegah terjadinya perubahan fungsi-fungsi yang tidak terduga.

## Exporting Requirements

Misal Anda ingin membagikan daftar packages suatu environment kepada tim Anda, maka lakukanlah langkah berikut:

1. Aktifkan environment
```
conda activate <ENV_NAME>
```

2. Navigasikan path ke folder tempat di mana file `requirements.txt` ingin disimpan
```
cd <PATH_TO_REQUIREMENTS_FOLDER>
```

3. Export environment: membuat daftar packages beserta versinya.
```
pip list --format=freeze > requirements.txt
```

💡 Anda dapat menyimpan file dengan nama lain, namun sebagai **konvensi** biasa digunakan penamaan `requirements.txt`

## Importing Requirements

Misal Anda yang meneruskan proyek dan telah menerima file `txt` dari tim Anda, maka lakukanlah langkah berikut:

1. Siapkan environment yang kosong
```
conda create -n <ENV_NAME> python=<PYTHON_VERSION>
```

2. Aktifkan environment tersebut
```
conda activate <ENV_NAME>
```

3. Navigasikan path ke folder di mana file `requirements.txt` berada
```
cd <PATH_TO_REQUIREMENTS>
```

4. Instalasi packages dari file tersebut
```
pip install -r requirements.txt
```

⚠️ Jangan lupa instalasi kernel di dalam environment tersebut apabila ingin dapat diakses menggunakan jupyter notebook:
```
pip install ipykernel
python -m ipykernel install --user --name=<ENV_NAME>
```

[Quick Summary]
- Environment adalah tempat mengisolasi sistem dalam bentuk ruang lingkup virtual yang menampung library beserta versionnya dalam sebuah project python.
- Reproducible environment bertujuan untuk menyelaraskan versi dari library python agar tidak terjadi error yang berkaitan dengan perbedaan versi library.
- Requirements.txt berisi kumpulan library-library yang digunakan beserta versinya untuk melakukan pembuatan kembali (reproduce) environment yang sama persis dan selaras. 

# Data Wrangling and Reshaping

## Load Data

### `pandas_datareader`

Kita akan menggunakan library `yfinance` untuk mengakses data saham yang tersedia pada [Yahoo! Finance](https://finance.yahoo.com/). Penarikan data menggunakan `yfinance` membutuhkan koneksi internet.

Dokumentasi: https://pypi.org/project/yfinance/

In [120]:
import pandas as pd
import yfinance as data
pd.set_option('display.float_format', lambda x: '%.6f' % x)

In [121]:
symbol = ['AAPL', 'FB', 'GOOGL']
start_date = '2018-01-01'
end_date = '2022-01-01'
stock = data.download(symbol, start_date, end_date)
stock.columns.names = ['Attributes', 'Symbols']
stock.head()

[*********************100%***********************]  3 of 3 completed


Attributes,Adj Close,Adj Close,Adj Close,Close,Close,Close,High,High,High,Low,Low,Low,Open,Open,Open,Volume,Volume,Volume
Symbols,AAPL,FB,GOOGL,AAPL,FB,GOOGL,AAPL,FB,GOOGL,AAPL,FB,GOOGL,AAPL,FB,GOOGL,AAPL,FB,GOOGL
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2
2018-01-02,41.188164,181.419998,1073.209961,43.064999,181.419998,1073.209961,43.075001,181.580002,1075.97998,42.314999,177.550003,1053.02002,42.540001,177.679993,1053.02002,102223600,18151900,1588300
2018-01-03,41.180988,184.669998,1091.52002,43.057499,184.669998,1091.52002,43.637501,184.779999,1096.099976,42.990002,181.330002,1073.430054,43.1325,181.880005,1073.930054,118071600,16886600,1565900
2018-01-04,41.372276,184.330002,1095.76001,43.2575,184.330002,1095.76001,43.3675,186.210007,1104.079956,43.02,184.100006,1094.26001,43.134998,184.899994,1097.089966,89738400,13880900,1302600
2018-01-05,41.843307,186.850006,1110.290039,43.75,186.850006,1110.290039,43.842499,186.899994,1113.579956,43.262501,184.929993,1101.800049,43.360001,185.589996,1103.449951,94640000,13574500,1512500
2018-01-08,41.687897,188.279999,1114.209961,43.587502,188.279999,1114.209961,43.9025,188.899994,1119.160034,43.482498,186.330002,1110.0,43.587502,187.199997,1111.0,82271200,17994700,1232200


Source:
- `AAPL`: Apple Inc.
- `FB`: Facebook, Inc.
- `GOOGL`: Alphabet Inc. (Google)

Data description:
- `Date` - specifies trading date in `yyyy-mm-dd` format
- `High` - maximum price of the day
- `Low` - minimum price of the day
- `Open` - opening price at the start of the day
- `Close` - closing price at the end of the day
- `Adj Close` - adjusted closing price for both dividends and splits
- `Volume` - the number of shares that changed hands during a given day

The trading hours of [different stock markets differ](https://www.maybank-ke.com.sg/markets/markets-listing/trading-hours/) (the NYSE for example open its market floor from 9.30am to 4pm five days a week).

### File Pickle

Pickling/Serializing: **menyimpan** suatu objek Python ke sebuah file binary (byte stream).
- Gunakan method `.to_pickle()`
- Contohnya objek DataFrame `stock` disimpan sebagai file `stock_2`
- Kemudian silahkan cek file pickle pada folder di mana file `.ipynb` ini berada

In [122]:
stock.to_pickle('../data_cache/stock_2')

Unpickling/De-serializing: **membaca** suatu objek Python dari sebuah file binary (byte stream). 
- Gunakan method `pd.read_pickle()`
- Untuk selanjutnya, mari kita gunakan file pickle pada `data_cache/stock` yang untuk tanggal 2 Januari 2018 sampai 24 Mei 2021.

In [123]:
import pandas as pd
stock = pd.read_pickle('../data_cache/stock_2')

In [124]:
stock.head(3)

Attributes,Adj Close,Adj Close,Adj Close,Close,Close,Close,High,High,High,Low,Low,Low,Open,Open,Open,Volume,Volume,Volume
Symbols,AAPL,FB,GOOGL,AAPL,FB,GOOGL,AAPL,FB,GOOGL,AAPL,FB,GOOGL,AAPL,FB,GOOGL,AAPL,FB,GOOGL
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2
2018-01-02,41.188164,181.419998,1073.209961,43.064999,181.419998,1073.209961,43.075001,181.580002,1075.97998,42.314999,177.550003,1053.02002,42.540001,177.679993,1053.02002,102223600,18151900,1588300
2018-01-03,41.180988,184.669998,1091.52002,43.057499,184.669998,1091.52002,43.637501,184.779999,1096.099976,42.990002,181.330002,1073.430054,43.1325,181.880005,1073.930054,118071600,16886600,1565900
2018-01-04,41.372276,184.330002,1095.76001,43.2575,184.330002,1095.76001,43.3675,186.210007,1104.079956,43.02,184.100006,1094.26001,43.134998,184.899994,1097.089966,89738400,13880900,1302600


In [125]:
stock.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 1003 entries, 2018-01-02 to 2021-12-23
Data columns (total 18 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   (Adj Close, AAPL)   1003 non-null   float64
 1   (Adj Close, FB)     1003 non-null   float64
 2   (Adj Close, GOOGL)  1003 non-null   float64
 3   (Close, AAPL)       1003 non-null   float64
 4   (Close, FB)         1003 non-null   float64
 5   (Close, GOOGL)      1003 non-null   float64
 6   (High, AAPL)        1003 non-null   float64
 7   (High, FB)          1003 non-null   float64
 8   (High, GOOGL)       1003 non-null   float64
 9   (Low, AAPL)         1003 non-null   float64
 10  (Low, FB)           1003 non-null   float64
 11  (Low, GOOGL)        1003 non-null   float64
 12  (Open, AAPL)        1003 non-null   float64
 13  (Open, FB)          1003 non-null   float64
 14  (Open, GOOGL)       1003 non-null   float64
 15  (Volume, AAPL)      1003 non-null   i

⚠️ Jangan pernah unpickling file yang berasal dari sumber yang tidak tepercaya, karena bisa saja file tersebut berisi script berupa virus yang dapat membahayakan sistem Anda.

💡 Dengan menggunakan file pickle kita **"mengawetkan"** struktur dari object Python, untuk DataFrame dapat terjaga tipe data dan indexnya.

In [115]:
# membuat dummy data lalu konversi tipe data
dummy = pd.DataFrame({
    'id': [1, 2, 3, 4, 5, 6, 7],
    'gender': ['Male', 'Female', 'Male', 'Female', 'Female', 'Female', 'Male'],
    'blood_type': ['O', 'A', 'B', 'AB', 'B', 'B', 'O'],
    'join_date': ['28 Jun 2021', '29 Jun 2021', '30 Jun 2021', '1 Jul 2021', '2 Jul 2021', '3 Jul 2021', '4 Jul 2021']
})
dummy[['gender', 'blood_type']] = dummy[['gender', 'blood_type']].astype('category')
dummy['join_date'] = dummy['join_date'].astype('datetime64')
dummy.dtypes

id                     int64
gender              category
blood_type          category
join_date     datetime64[ns]
dtype: object

In [116]:
# simpan object dummy ke dalam folder data_cache nama filenya "dummy"
dummy.to_pickle('../data_cache/dummy')

In [117]:
# baca dari pickle dan cek tipe data
dummy = pd.read_pickle('../data_cache/dummy')
dummy.dtypes

id                     int64
gender              category
blood_type          category
join_date     datetime64[ns]
dtype: object

Bandingkan dengan menyimpannya ke file text biasa, yaitu csv misalnya:

In [118]:
# simpan ke file csv
dummy.to_csv('../data_cache/dummy.csv', index=False)

# baca dari csv dan cek tipe data
pd.read_csv('../data_cache/dummy.csv').dtypes

id             int64
gender        object
blood_type    object
join_date     object
dtype: object

Catatan tambahan:

- File pickle cenderung lebih kecil file sizenya dibandingkan file csv (apabila data sudah cukup besar)
- File pickle hanya dapat di-load menggunakan bahasa Python dengan versi yang sama (saat ini kita menggunakan python 3.8)

[Quick Summary]
- file pickle bertujuan untuk menympan suato objek di python ke dalam bentuk binary file
- Untuk menyimpan objek ke pickle > obj.pickle(path)
- Untuk read pickle ke pandas dataframe > pd.read_pickle(path)
- File pickle hanya bisa di load dengan python yang memiliki versi yang sama saat menyimpan pickle
- Pickle menyimpan file dataframe sesuai dengan format yang telah disesuaikan 
- Karena file pickle dapat menyimpan object apa saja, perlu hati-hati apabila membuka file pickle yang berasal dari sumber yang tidak terpercaya 

## Slicing Multi-Index DataFrame
Perhatikan bahwa `stock` adalah Multi-Index DataFrame, dimana level dari column-nya terdiri dari: `Attributes` dan `Symbols`:

In [82]:
stock.head(3)

Attributes,Adj Close,Adj Close,Adj Close,Close,Close,Close,High,High,High,Low,Low,Low,Open,Open,Open,Volume,Volume,Volume
Symbols,AAPL,FB,GOOGL,AAPL,FB,GOOGL,AAPL,FB,GOOGL,AAPL,FB,GOOGL,AAPL,FB,GOOGL,AAPL,FB,GOOGL
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2
2018-01-02,41.188164,181.419998,1073.209961,43.064999,181.419998,1073.209961,43.075001,181.580002,1075.97998,42.314999,177.550003,1053.02002,42.540001,177.679993,1053.02002,102223600,18151900,1588300
2018-01-03,41.180988,184.669998,1091.52002,43.057499,184.669998,1091.52002,43.637501,184.779999,1096.099976,42.990002,181.330002,1073.430054,43.1325,181.880005,1073.930054,118071600,16886600,1565900
2018-01-04,41.372276,184.330002,1095.76001,43.2575,184.330002,1095.76001,43.3675,186.210007,1104.079956,43.02,184.100006,1094.26001,43.134998,184.899994,1097.089966,89738400,13880900,1302600


Ketika kita subset menggunakan `[]`, maka kita hanya bisa mengakses kolom dengan level teratas, yaitu untuk `Attributes`. 

- ❓ Melakukan subset pada kolom `High` akan menghasilkan DataFrame single index dengan `Symbols` sebagai levelnya.

In [83]:
stock['High']

Symbols,AAPL,FB,GOOGL
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2018-01-02,43.075001,181.580002,1075.979980
2018-01-03,43.637501,184.779999,1096.099976
2018-01-04,43.367500,186.210007,1104.079956
2018-01-05,43.842499,186.899994,1113.579956
2018-01-08,43.902500,188.899994,1119.160034
...,...,...,...
2021-12-17,173.470001,337.109985,2876.689941
2021-12-20,170.580002,329.899994,2835.489990
2021-12-21,173.199997,336.000000,2877.379883
2021-12-22,175.860001,334.510010,2930.000000


❗️**Masalah:** Bagaimana caranya apabila kita ingin mengambil semua nilai `Attributes` untuk saham `GOOGL` saja?

In [84]:
# Mengambil kolom GOOGL untuk 
stock['High']['GOOGL']

Date
2018-01-02   1075.979980
2018-01-03   1096.099976
2018-01-04   1104.079956
2018-01-05   1113.579956
2018-01-08   1119.160034
                 ...    
2021-12-17   2876.689941
2021-12-20   2835.489990
2021-12-21   2877.379883
2021-12-22   2930.000000
2021-12-23   2964.870117
Name: GOOGL, Length: 1003, dtype: float64

**Solusi:** Kita harus menggunakan method `.xs()` (cross-section) untuk mengambil kolom (`axis=1`) pada level dalam

- `key`: kolom yang kita ingin ambil
- `level`: kolom tersebut ada di level apa?
- `axis=1`: merujuk pada kolom

In [139]:
# Mengambil semua kolom GOOGL untuk setiap atribut
stock.xs(key='GOOGL', level=1, axis=1)
# stock.xs(key='2020-01-11',)

Attributes  Symbols
Adj Close   AAPL             41.188164
            FB              181.419998
            GOOGL          1073.209961
Close       AAPL             43.064999
            FB              181.419998
            GOOGL          1073.209961
High        AAPL             43.075001
            FB              181.580002
            GOOGL          1075.979980
Low         AAPL             42.314999
            FB              177.550003
            GOOGL          1053.020020
Open        AAPL             42.540001
            FB              177.679993
            GOOGL          1053.020020
Volume      AAPL      102223600.000000
            FB         18151900.000000
            GOOGL       1588300.000000
Name: 2018-01-02 00:00:00, dtype: float64

### ❓🔎 Concern on Time Series Data

1. Create a DataFrame by subsetting only the `Close` columns. Name it `closingprice`. 
2. Use a method to count the number of missing values in each of the columns present in `closingprice`. Is there any missing values?

___

1. Buatlah DataFrame dengan cara subset hanya kolom `Close`. Simpanlah ke object bernama `closingprice`,
2. Gunakan methode untuk menghitung jumlah missing value pada setiap kolom di object `closingprice`. Apakah ada missing value?

In [86]:
# your code here
closingprice = stock['Close']
closingprice

Symbols,AAPL,FB,GOOGL
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2018-01-02,43.064999,181.419998,1073.209961
2018-01-03,43.057499,184.669998,1091.520020
2018-01-04,43.257500,184.330002,1095.760010
2018-01-05,43.750000,186.850006,1110.290039
2018-01-08,43.587502,188.279999,1114.209961
...,...,...,...
2021-12-17,171.139999,333.790009,2834.500000
2021-12-20,169.750000,325.450012,2832.139893
2021-12-21,172.990005,334.200012,2869.449951
2021-12-22,175.639999,330.450012,2928.300049


In [87]:
closingprice.isna().sum()

Symbols
AAPL     0
FB       0
GOOGL    0
dtype: int64

❗️ Perhatikan index baris dari `stock`, terdapat beberapa hari yang terlewati dan tidak ada datanya seperti 2018-01-01, 2018-01-06, dan 2018-01-07. Pada akhir pekan serta hari libur nasional, semua pasar saham tutup.

In [91]:
closingprice.shape[0]

1003

Ketika kita bekerja dengan data runtun waktu (time series), kita harus memastikan data lengkap pada setiap periode waktu. Untuk kasus di atas kita harus melakukan **padding**, yaitu menyelipkan tanggal yang terlewati. 

❗️Kita dapat mengatur ulang index `Date` dengan method `reindex()` sehingga indexnya mengikuti rentang tanggal yang kita tentukan sendiri:

In [92]:
# data tanggal per harian dari 1 Januari sampai 31 Maret 2018
closingprice = stock['Close']
quarter1 = pd.date_range(start="2018-01-01", end="2018-03-31")
closingprice = closingprice.reindex(quarter1)
closingprice.head(8)

Symbols,AAPL,FB,GOOGL
2018-01-01,,,
2018-01-02,43.064999,181.419998,1073.209961
2018-01-03,43.057499,184.669998,1091.52002
2018-01-04,43.2575,184.330002,1095.76001
2018-01-05,43.75,186.850006,1110.290039
2018-01-06,,,
2018-01-07,,,
2018-01-08,43.587502,188.279999,1114.209961


In [94]:
closingprice.shape[0]

90

Note: `nan`: missing value untuk numerik (not a number)

Cek kembali missing value `NaN` yang terdapat pada `closingprice`:

In [95]:
# your code here
closingprice.isna().sum()

Symbols
AAPL     29
FB       29
GOOGL    29
dtype: int64

❓**Diskusi:** Bagaimana cara kita mengisi missing value tersebut?

In [96]:
# Imputasi menggunakan mean atau median
closingprice = closingprice.fillna(closingprice.median())

In [98]:
closingprice.head(8)

Symbols,AAPL,FB,GOOGL
2018-01-01,43.555,181.289993,1110.290039
2018-01-02,43.064999,181.419998,1073.209961
2018-01-03,43.057499,184.669998,1091.52002
2018-01-04,43.2575,184.330002,1095.76001
2018-01-05,43.75,186.850006,1110.290039
2018-01-06,43.555,181.289993,1110.290039
2018-01-07,43.555,181.289993,1110.290039
2018-01-08,43.587502,188.279999,1114.209961


## Reshaping

Reshaping data adalah salah satu komponen penting dalam tahap data wrangling, karena memungkinkan seorang analis untuk mempersiapkan data menjadi bentuk yang sesuai untuk tahap analisa data berikutnya.

### `stack()` and `unstack()`

Method yang berguna saat kita ingin mengubah bentuk Multi-Index DataFrame:

- `stack()`: mengubah level pada kolom menjadi pada baris
- `unstack()`: mengubah level pada baris menjadi pada kolom

<img src="../assets/reshaping_stack.png" width="600"/>

Untuk saat ini, `stock` memiliki 2-level kolom (`Attributes` dan `Symbols`) dan 1-level baris (`Date`).

In [None]:
# aplikasikan method stack


📈 Setelah mengaplikasikan method `stack()`, `Symbols` pindah dari yang sebelumnya level pada kolom menjadi baris. Kenapa `Symbols`? Karena secara default parameter `level=-1`, sehingga kolom dengan level paling dalam yang pindah menjadi baris.

❗️ Bagaimana cara kita memindahkan level `Attributes`nya menjadi baris?

Sedangkan `unstack()` adalah kebalikan dari `stack()`:

<img src="assets/reshaping_unstack.png" width="600"/>

Cobalah aplikasikan method `unstack()` pada dataframe `stock`:

---
### 📝 Summary Day 1

**Data Loading**
- Library `yfinance` digunakan untuk menarik data dari berbagai sumber terkait keuangan, misalnya data saham dari Yahoo! Finance.
- File pickle: file binary yang digunakan untuk menyimpan object Python (contohnya DataFrame)
    - `.to_pickle(path)`: method untuk [pickling/unpickling]
    - `pd.read_pickle(path)`: method untuk [pickling/unpickling]

**Slicing MultiIndex DataFrame**
- Gunakan ... untuk mengambil kolom pada **level teratas**
- Gunakan ... untuk mengambil kolom pada level lebih dalam, parameter: 
    - `key`: nama label yang ingin diambil
    - `level`: nama level dimana label tersebut berada
    - `axis`: level terdapat pada index/baris (0 untuk ..., 1 untuk ...)

**Datetime Padding**
- `pd.date_range(start, end)`: untuk membuat sebuah DatetimeIndex dari tanggal `start` sampai `end`
- `.reindex()`: untuk mengatur kembali index sesuai dengan yang diinginkan

**Reshaping: Stacking vs Unstacking**
- `stack()`: mengubah ... pada ... menjadi pada ...
- `unstack()`: mengubah ... pada ... menjadi pada ...
---

**END OF DAY 1**

---

**START OF DAY 2**

❗️ Apa yang terjadi ketika method `stack()` dilanjutkan dengan method `unstack()` (asumsi menggunakan parameter `level` default)?

In [None]:
# your code here


### 💭 Dive Deeper

1. How to swap the position (`level`) of Symbols and Attributes?

___

1. Bagaimana cara menukar posisi (`level`) dari Symbols dan Attributes?

In [None]:
# your code here


2. Based on your knowledge, what company (`Symbols`) worth invest on? (You may look on its fluctuations, means, etc)

___

2. Berdasarkan pengetahuan Anda, perusahaan (`Symbols`) apa yang layak untuk diinvestasikan? (Anda dapat melihat fluktuasi, means, dll)

In [None]:
# your code here


📈 Insight:

- ...
- ...
- ...

In [None]:
# TAMBAHAN: menggunakan coefficient of variance
import numpy as np
stock.stack().reset_index().pivot_table(
    index = 'Symbols',
    aggfunc = lambda x: np.std(x)/np.mean(x)
).sort_values(by='Symbols', ascending=False)

Info lebih lanjut terkait [coefficient of variance](https://www.investopedia.com/terms/c/coefficientofvariation.asp)

CoV = std dibagi dengan mean (rata-rata) = %

### ❓ Knowledge Check: Stack and Unstack

Which of the following statement is correct?

- [ ] `stack()` changes the DataFrame from wide to long
- [ ] `unstack()` changes the DataFrame from long to wide
- [ ] `unstack()` changes the DataFrame from wide to long

### Melt

Mirip dengan `stack()`, kita bisa menggunakan `melt()` untuk mengubah dataframe dari wide to long.

<img src="assets/reshaping_melt.png" width="600"/>

❓ Dari data `stock` silahkan slicing untuk mendapatkan data saham `AAPL`, simpan pada objek `aapl`:

In [None]:
# your code here


❓ Aplikasikan method `melt()` dan simpan pada objek `aapl_melted`

In [None]:
# code here


❓ Bandingkan ukuran `aapl` dan `aapl_melted`:

- `aapl` (wide): ...
- `aapl_melted` (long): ...

In [None]:
aapl.shape

In [None]:
aapl_melted.shape

#### 💭 Knowledge Check: Melt vs Stack

Persamaan antara `melt()` dan `stack()`: ...

Apa perbedaan antara `melt()` dan `stack()` ?

- `stack()` digunakan untuk ...
- `melt()` digunakan untuk ...

#### Identifier and Value

Dalam method `melt()`, terdapat dua parameter yang sering digunakan:
- `id_vars`: kolom yang menjadi identifier variables (kolom yang dipertahankan)
- `value_vars`: kolom yang menjadi value variables

Kita ingin kolom `Date` menjadi `id_vars`, namun belum bisa diakses sebagai kolom karena masih berupa index. Untuk itu kita menggunakan `reset_index()` sebelum `melt()`

In [None]:
# coba langsung mengaplikasikan melt


In [None]:
# menggunakan reset_index


❓ **Latihan:** Saya ingin melakukan melt terhadap data `aapl` hanya pada kolom `Close` dan `Open`, serta setiap observasinya dibedakan berdasarkan `Date`. Simpan pada objek `aapl_close_open`:

Parameter:
- `id_vars`: daftar kolom yang ingin kita pertahankan setelah hasil melt
- `value_vars`: daftar kolom yang ingin kita peroleh di kolom `variable`

In [None]:
# your code here


Tambahan parameter:

- `var_name` untuk memberi nama terhadap kolom `variable`
- `value_name` untuk memberi nama terhadap kolom `value`

### (Optional) Pivot: Inverse of Melt

Kebalikan dari method `melt()` adalah `pivot()`, yaitu mengubah dataframe dari long ke wide.

<img src="assets/reshaping_pivot.png" width="600"/>

Silahkan coba mengaplikasikan method `pivot()` pada objek `aapl_close_open`, sehingga index-nya berupa `Date` serta terdapat dua kolom `Close` dan `Open` (dari `Attributes`):

📌 Catatan tambahan:
 
- `pivot_table()` untuk membuat tabel agregasi (ada nilai yang dirangkum)
- `pivot()` hanya untuk reshaping (tidak ada nilai yang dirangkum)

📌 Method reshaping yang sudah dipelajari sampai tahap ini:

- `stack`, `unstack` (bekerja pada level untuk multi index)
- `melt`, `pivot` (bekerja pada index, column untuk single index dataframe)
- `reset_index` (level pada index menjadi kolom)

# Visualization

Tujuan Visualisasi:

- Exploratory: proses untuk memfamiliarkan diri (berkenalan) dengan data melalui visualisasi, sehingga mendapatkan sebuah insight. Visualisasi yang ditampilkan biasanya sederhana. Analogi: mencari dan mendapatkan batu permata di antara ratusan batu biasa.
- Explanatory: proses untuk menjelaskan atau menyajikan insight yang didapat dari hasil exploratory kepada user/audience. Visualisasi yang ditampilkan biasanya lebih menarik dan meng-highlight insight secara spesifik. Analogi: mempoles batu permata tersebut dan menawarkannya kepada pembeli.

Pada course ini, dititikberatkan pada bagaimana cara kita menampilkan visualisasi data yang **informatif dan tepat**. Untuk memperindah tampilan visualisasi dapat di-eksplorasi secara mandiri melalui dokumentasi yang tersedia.

## Pandas and Matplotlib

Sampai tahap ini mungkin Anda tidak sabar untuk melakukan visualisasi data di Python. Dengan cukup mudah, kita bisa membuat objek plot `matplotlib` dengan hanya menggunakan method `.plot()`. Kita dapat mengecek dependencies package `pandas` menggunakan `show_versions()`, dari situ kita bisa lihat bahwa `matplotlib` termasuk di dalamnya.

In [None]:
pd.show_versions()

❗️ Sekarang mari kita coba melakukan visualisasi untuk **10 observasi (baris) pertama `Volume` pada `stock`**

- Index akan menjadi sumbu horizontal pada plot (`Date`)
- Nilai akan menjadi sumbu vertikal pada plot
- Masing-masing kolom akan menjadi 1 komponen pada plot, dalam hal ini 1 `Symbols` menjadi 1 garis

In [None]:
# menyiapkan datanya terlebih dahulu


In [None]:
# visualisasi


📈 Insight:

- ...
- ...
- ...

🔻 Cukup mudah bukan? Method `plot()` sudah mempermudah kita dalam melakukan visualisasi langsung pada DataFrame, tanpa perlu mengerti cara penggunaan `matplotlib`. Kunjungi [dokumentasi matplotlib](https://matplotlib.org/tutorials/introductory/usage.html#sphx-glr-tutorials-introductory-usage-py) untuk detail mengenai `matplotlib`.

🔻 Namun, keterbatasan dari penggunaan `plot()` adalah minim kustomisasi dari visualisasi yang ada. Hanya terbatas pada parameter yang ada di dalam method tersebut. Kunjungi [dokumentasi method plot](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.html).

🔻 Salah satu kustomisasi yang dapat kita lakukan untuk memperindah visualisasi adalah melalui [matplotlib style sheet](https://matplotlib.org/tutorials/introductory/customizing.html). Kita dapat mengganti nilai 'default' pada method `plt.style.use()` dengan salah satu style yang tersedia, kemudian jalankan kembali code visualisasi untuk menerapkan style yang dipilih.

💡 **Tips:** Meskipun kode kita tidak menggunakan `matplotlib` secara eksplisit namun bergantung pada implementasi `pandas`, alangkah lebih baik kita tetap melakukan import untuk berinteraksi dengan plot: `import matplotlib.pyplot as plt`.

In [None]:
import matplotlib.pyplot as plt
print(plt.style.available)
plt.style.use('seaborn')

In [None]:
stock['Volume'].head(n=10).plot();

❓ Sekarang kita coba visualisasi dari object `aapl` berikut:

In [None]:
march = pd.date_range(start="2018-03-01", end="2019-03-31")
aapl = stock.xs('AAPL', level='Symbols', axis=1)
aapl = aapl.reindex(march)
aapl

In [None]:
# visualisasi


💭 **Diskusi:** Apakah visualisasi tersebut sudah cukup informatif dan tepat? Apabila belum, hal apa saja yang bisa di-improve dari visualisasi tersebut?

- [ ] Plot Volume tidak dapat digabung dengan attribute lain, karena satuannya berbeda
- [ ] Pastikan data tidak ada missing value agar garis tidak terputus-putus
- [ ] Menambahkan informasi judul (title), label vertikalnya (xlabel, ylabel)


In [None]:
# Attribute: High dan Low


Opsional: anatomi plot pada matplotlib https://matplotlib.org/stable/gallery/showcase/anatomy.html

## 📌 Types of Visualization

Secara default, `plot()` menampilkan visualisasi **line chart**. Ada beberapa tipe visualisasi lain yang dapat kita buat menggunakan `.plot`:

Visualisasi berikut hanya perlu menggunakan **satu** kolom:

- Data kategorik:
    - **`.plot.bar()` atau `.plot.barh()` untuk barplot (diagram batang)**
    - **`.plot.box()` atau `.boxplot()` untuk boxplot (berhubungan dengan five number summary)**
    - `.plot.pie()` untuk pie chart
    

- Data numerik:
    - **`.plot.hist()` untuk histogram**
    - `.plot.kde()` atau `.plot.density()` untuk density plot
    - `.plot.area()` untuk area plot

Visualisasi berikut perlu menggunakan **dua** kolom:

- Numerik vs numerik:
    - `.plot.scatter()` untuk scatter plot
    - `.plot.hexbin()` untuk hexagonal bin plot

💡 Panduan untuk menentukan tipe visualisasi yang tepat: https://www.data-to-viz.com/

**Silahkan mengacu referensi lengkapnya di [official documentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.html) untuk method `plot` apabila ingin eksplor visualisasi yang ada di luar lingkup course ini**

### 📊 Bar plot

❓ Menggunakan data `stock`, tampilkan visualisasi untuk **membandingkan** fluktuasi nilai `Open` pada masing-masing `Symbols`.

In [None]:
cov = stock['Open'].std()/stock['Open'].mean()
cov

📈 Insight:

- ...
- ...

❓ Gunakan parameter `kind='barh'` untuk menampilkan bar chart secara horizontal (mendatar)

In [None]:
# code here


---
### 📝 Summary Day 2

**Reshaping: Melt vs Pivot**

- `melt()`: mengubah bentuk DataFrame dari ... menjadi ..., parameter:
    - `id_vars`: kolom yang menjadi **identifier variables**
    - `value_vars`: kolom yang menjadi **value variables**
    - `var_name`: memberi **nama** terhadap kolom **variable**
    - `value_name`: memberi **nama** terhadap kolom **value**
- `pivot()`: mengubah bentuk DataFrame dari ... menjadi ..., parameter:
    - `index`: kolom yang menjadi **nama baris** pada hasil reshaping
    - `columns`: kolom yang menjadi **nama kolom** pada hasil reshaping
    - `values`: kolom yang merupakan **nilai** pada hasil reshaping
    - Perbedaannya dengan `pivot_table()` adalah pivot_table = agregasi sedangkan pivot = reshape

**Visualization**

Tujuan Visualisasi:
- Exploratory: proses menghasilkan visualisasi secara cepat dan sederhana untuk menggali insight
- Explanatory: proses untuk mempercantik visualisasi dan menyajikannya dalam bentuk dashboard/reporting

**Types of Visualization**

Pada `pandas`, kita dapat menggunakan method `.plot()` untuk melakukan visualisasi dengan bantuan package `matplotlib`
- Default: ...
- Bar plot: ...
    - Vertikal: `.plot(kind='bar')` atau `.plot.bar()`
    - Horizontal: `.plot(kind='barh')` atau `.plot.barh()`

---

**END OF DAY 2**

---

**START OF DAY 3**

### Histogram

Menggunakan data `stock`, tampilkan visualisasi histogram untuk mengetahui **persebaran** `Volume` pada saham `GOOGL`:

In [None]:
# menyiapkan data


In [None]:
# visualisasi


📈 Insight: ...

### 💭 Knowledge Check: Bar plot vs Histogram

Setelah membuat kedua plot di atas, apa perbedaan antara bar plot dengan histogram?

- Barplot digunakan untuk ...
- Histogram digunakan untuk ...

### Box plot

❓ Menggunakan data `stock`, tampilkan visualisasi box plot untuk membandingkan **persebaran** `Volume` untuk ketiga saham.

Box plot menggambarkan **five number summary** sebagai berikut: 

<img src="assets/boxplot.png" width="600"/>

- Q1: kuartil 1 (data ke 25%)
- Median: kuartil 2 (data ke 50%)
- Q3: kuartil 3 (data ke 75%)
- Lower whisker: pagar bawah
- Upper whisker: pagar atas
- Data di luar pagar akan dianggap sebagai outlier atau data pencilan

⚠️ Lower whisker bukan nilai minimum data. Upper whisker juga buka nilai maksimum data

In [None]:
# informasi mengenai quartile 1, 2, dan 3


Gunakan parameter `vert=False` untuk melihat boxplot secara horizontal:

📌 Catatan: visualisasi boxplot di atas kurang tepat, karena dalam dunia saham kita tidak boleh langsung membandingkan nilai volumenya secara absolute, melainkan biasanya kita melihatnya secara relatif / persentasenya tergantung lembar saham yang dijual.

❓ **Kasus**: Tampilkan **persebaran** Volume GOOGL untuk masing-masing periode `quarter`nya:

- Memindahkan index `Date` menjadi kolom
- Mengekstrak periode kuarter dari `Date` menggunakan `.dt.to_period()`, simpan ke kolom `quarter`

In [None]:
# mempersiapkan data


Alternatif `.plot(kind='box')`: Method `.boxplot()` akan mempermudah Anda ketika ingin membuat boxplot namun dikelompokkan berdasarkan kolom tertentu

In [None]:
# visualisasi


📈 Insight:

- Dari median: ...
- Dari lebar kotak: ...
- Dari outlier: ...

## (Additional) Other Python Libraries for Visualization

Apabila Anda tertarik mengenai visualisasi di Python, silahkan eksplorasi lebih lanjut package-package berikut:

- `matplotlib`: semua elemen pada visualisasi dapat dikustomisasi, namun membutuhkan code yang lebih panjang. [Dokumentasi Matplotlib](https://matplotlib.org/3.2.2/tutorials/index.html) 
- `seaborn`: dikembangkan dari `matplotlib`, lebih sedikit yang dapat dikustomisasi namun lebih mudah. [Dokumentasi Seaborn](https://seaborn.pydata.org/introduction.html)
- `plotly`: plot interaktif serta kompatibilitas dengan bahasa lain yang tinggi. [Dokumentasi Plotly](https://plotly.com/python/)
- `altair`: plot interaktif yang bersifat deklaratif, code relatif lebih mudah. [Dokumentasi Altair](https://altair-viz.github.io/index.html)

Referensi perbandingan library: https://askalgo-py.netlify.app/docs/dwv#adakah-library-visualisasi-data-di-python-selain-matplotlib

# Group By: Aggregation Table

Teknik yang tak kalah penting adalah operasi **group by**. Mungkin untuk Anda yang sudah pernah menggunakan SQL atau tools lain seperti `tidyverse` pada bahasa R akan familiar dengan operasi group by ini.

❗️ Misalkan kita punya dataframe `close_melted` yang ingin kita bandingkan nilai `Close` hariannya pada saham AAPL, FB, dan GOOGL:

In [None]:
close = stock.xs('Close', level='Attributes', axis=1)
close_melted = close.reset_index().melt(id_vars='Date', value_name='Close')
close_melted

❓ **Pertanyaan**: Di antara AAPL, FB, GOOGL, manakah saham yang memiliki **rata-rata** `Close` harian tertinggi?

Pertama, coba buatlah tabel agregasi dengan `crosstab()` dan juga `pivot_table()`:

In [None]:
# versi crosstab


In [None]:
# versi pivot_table: 


**Ingat kembali:** 

Persamaan antara `crosstab` dan `pivot_table` yaitu keduanya dapat digunakan untuk menghasilkan tabel agregasi yang memiliki parameter `index`, `columns`, `values`, and `aggfunc`.

Perbedaan antara `crosstab` dan `pivot_table` dapat dirangkum dalam tabel berikut:

|                                                                                    | `pd.crosstab()` | `pd.pivot_table()` |
|------------------------------------------------------------------------------------|-----------------|--------------------|
|                                                                          **Input** | Array of values/Series |          DataFrame (parameter `data`)|
|                                                              **Default `aggfunc`** |       `'count'` |           `'mean'` |
|                                                          **Parameter `columns`** |       Mandatory |      Optional |
|                                                          **Parameter `normalize`** |       Available |      Not Available |
| [**Computation Time**](https://ramiro.org/notebook/pandas-crosstab-groupby-pivot/) | Relatively Slower |  Relatively Faster |

Bandingkan dengan method `groupby()`:

In [None]:
# versi groupby


In [None]:
# mengurutkan tabel hasil groupby berdasarkan nilai Close


Istilah **group by** merupakan gabungan dari proses:

1. Split: mengelompokkan baris, co: dikelompokkan berdasarkan `Symbols`
2. Apply: menerapkan fungsi untuk masing-masing kelompok, co: dihitung mean untuk masing-masing `Symbols`
3. Combine: mengembalikan hasil dalam bentuk 1 tabel

Ilustrasi proses **split-apply-combine** dapat dilihat pada [Google Sheet](https://docs.google.com/spreadsheets/d/1i58D8cXXGfKVs_2yBzXp4vD1Dku2p6HvDaCJBLB_-rg/edit#gid=0)

## Visualizing Barchart for Comparison

Sampai di sini kita tahu bahwa GOOGL memiliki rata-rata `Close` transaksi harian tertinggi dari visualisasi bar plot yang dihasilkan pada bagian sebelumnya. Untuk selanjutnya, mari kita menganalisa `Close` dari saham GOOGL. Kita bisa menggunakan method `day_name()` untuk mengekstrak nama hari dari `Date`:

In [None]:
googl = stock.xs('GOOGL', level='Symbols', axis=1).copy()
googl['Close_Diff'] = googl['Close'].diff()
googl['Weekday'] = googl.index.day_name()
googl

Perhatikan kolom `Close_Diff` yang dibuat di atas, nilai ini merupakan perbedaan antara nilai `Close` pada hari tertentu dengan hari berikutnya.

❓ **Kasus:** Misalkan kita ingin membandingkan `Close_Diff` di setiap hari kerja. Untuk saham GOOGL, apakah secara rata-rata pada hari Kamis (Thursday) mencatat perbedaan yang lebih tinggi dibandingkan dengan hari Jumat (Friday)?

In [None]:
# mempersiapkan data: gunakan groupby


In [None]:
# visualisasi


❓ **Diskusi:** Apakah plot di atas sudah cukup efektif? Kalau belum, apa yang perlu diperbaiki dari plot di atas?

<!--
googl_close_diff = googl.groupby('Weekday').mean()['Close_Diff']
googl_close_diff.index

wday = ["Monday", "Tuesday", "Wednesday", "Thursday", "Friday"]
googl_close_diff.index = pd.CategoricalIndex(
    data = googl_close_diff.index,
    categories = wday,
    ordered = True)
googl_close_diff.index
-->

- mengurutkan berdasarkan nilai: `.sort_values()`
- mengurutkan berdasarkan index: `.sort_index()`

In [None]:
# visualisasi


📈 Insight: ...

Alternatif barplot horizontal:

📌 Note: preferensi pengurutan index: dari **kiri ke kanan** atau **atas ke bawah**

In [None]:
# alternatif 1 untuk mengubah urutan weekday pada horizontal barplot
googl_close_diff.sort_index(ascending=False).plot(kind='barh');

---
### 📝 Summary Day 3

**Types of Visualization (cont.)**

- Histogram: ...
    - `.plot(kind='hist')` atau `.plot.hist()`
- Boxplot: ...
    - `.plot(kind='box')` atau `.plot.box()` atau `.boxplot()`
    - Insight:
        - ...
        - ...
        - ...
        
- Istilah group by merupakan gabungan dari proses:
    - Mengelompokkan baris berdasarkan kolom tertentu: split
    - Menerapkan fungsi untuk masing-masing kelompok: apply
    - Mengembalikan hasil dalam bentuk 1 tabel: combine

- Syntax:

```
    df.groupby([COLUMNS_TO_GROUP])[[VALUES]].AGGFUNC()
    df.groupby([COLUMNS_TO_GROUP]).AGGFUNC()[[VALUES]]
```

- `COLUMNS_TO_GROUP` mengacu pada kolom yang ingin dikelompokkan, seperti parameter `index` atau `columns` pada `crosstab`/`pivot_table`
- `VALUES` mengacu pada kolom yang ingin di-agregasi, seperti parameter `values` pada `crosstab`/`pivot_table`
- `AGGFUNC` mengacu pada fungsi agregat yang ingin diterapkan pada `VALUES`, seperti parameter `aggfunc` pada `crosstab`/`pivot_table`. Dapat berupa method `.agg()` untuk menspesifikan fungsi agregat untuk masing-masing kolom.

---

**END OF DAY 3**

---

**START OF DAY 4**

## Using Grouped Barchart

💭 Masih ingat dengan dataframe `closingprice`? Kita akan coba memvisualisasikan **grouped barchart** untuk membandingkan nilai `Close` untuk ketiga saham **setiap bulannya** pada kuartal pertama tahun 2019.

- Pertama, kita memastikan `closingprice` tidak memiliki missing values dengan melakukan imputasi forward dan backward fill.
- Selanjutnya, gunakan objek `closingprice` untuk menampilkan nilai **rata-rata** `Close` untuk setiap bulannya. Simpan tabel agregasi ke objek `average_closing`.

📌 Note: untuk mengambil nama bulan tidak perlu `.dt` lagi, karena sudah berupa objek DatetimeIndex.

In [None]:
# mempersiapkan data
closingprice = closingprice.ffill().bfill()
closingprice['Month'] = closingprice.index.month_name()
average_closing = closingprice.groupby('Month').mean()
average_closing

Visualisasi:

- Index menjadi sumbu horizontal
- Column menjadi grouping untuk bar chartnya

In [None]:
# visualisasi


❓ **Diskusi:** Apakah plot di atas sudah cukup efektif? Kalau belum, apa yang perlu diperbaiki dari plot di atas?

<!--
months = ['January', 'February', 'March', 'April', 'May', 'June', 'July', 'August', 'September', 'October', 'November', 'December']
average_closing.index = pd.CategoricalIndex(
    data=...,
    categories=...,
    ordered=...)
-->

In [None]:
# improvement visualisasi


📈 Insight: ...

## 💭 Knowledge Check: Group By + Reshaping

Misal Anda dihadapkan dengan long DataFrame seperti pada `closingprice_melt` berikut:

In [None]:
closingprice_melt = closingprice.melt(id_vars='Month', value_name='Close')
closingprice_melt

❓ Kira-kira bagaimana cara kita mengubah bentuk `closingprice_melt` menjadi `average_closing`?

**Hint:** Gunakan teknik `groupby` dan juga reshaping

In [None]:
# your code here


In [None]:
# reshape agar bentuknya sama seperti average_closing


Ilustrasi group by pada kasus di atas dapat dilihat pada [Google Sheet](https://docs.google.com/spreadsheets/d/1i58D8cXXGfKVs_2yBzXp4vD1Dku2p6HvDaCJBLB_-rg/edit?usp=sharing)

## Combining `agg` and `groupby`

❗️ Perhatikan group by operation di bawah ini yang di-chaining dengan aggregate method `mean()`:

In [None]:
stock_long = stock.stack().reset_index()
stock_long.head()

In [None]:
# aggregasi biasa
stock_long.groupby('Symbols').mean()

Misalkan kita ingin membuat tabel agregasi dengan `aggfunc` yang berbeda-beda untuk masing-masing `Symbols` berupa:
- Maximum `stock` price (`max` dari `High`)
- Minimum `stock` price (`min` dari `Low`)
- Rata-rata closing price (`mean` dari `Close`)

Untuk mendapat hasil tersebut, kita harus melakukan chaining `groupby` dengan method `agg`. Kita harus menyertakan mapping (**dictionary**) untuk setiap kolom dengan fungsi agregasinya seperti berikut ini:

Syntax:

```
.agg({
    'NAMA_KOLOM': 'FUNGSI_AGREGASI'
})
```

In [None]:
# contoh penggunaan method agg untuk menerapkan fungsi std pada 1 kolom, yaitu Close


In [None]:
# contoh penggunaan untuk fungsi yang berbeda pada setiap kolonya
stock_summary = 


❓ Visualisasikan tabel agregasi di atas untuk membandingkan nilai tersebut:

In [None]:
# visualisasi


📈 Insight:

...

## 💭 Knowledge Check: Vizualization

Perhatikan dataframe `monthly_closing` berikut:

In [None]:
stock['YearMonth'] = stock.index.to_period('M')
monthly_closing = stock.groupby('YearMonth').mean()['Close']
monthly_closing.head()

Tipe plot mana yang paling sesuai untuk data di atas, apabila kita ingin melihat pergerakan nilai `Close` dari waktu ke waktu?

- [ ] Line plot `.plot()`
- [ ] Scatter plot `.plot.scatter(x, y)`
- [ ] Bar plot `.plot.bar()`
- [ ] Box plot `.plot.box()`

In [None]:
# your code here
# line plot
monthly_closing.plot()

In [None]:
# bar plot
monthly_closing.plot(kind='bar')

In [None]:
# box plot
monthly_closing.plot(kind='box')

In [None]:
monthly_closing.head()

In [None]:
monthly_closing.plot.scatter(x='AAPL', y='FB')