**Inclass material for Week 3: Data Wrangling and Visualization**

This notebook was made based on main materials `3_Reshaping_Visualization.ipynb`

Version: Newton - February 2021

---
**START OF DAY 1**

# Data Wrangling and Visualization

Berikut adalah method yang telah kita pelajari di dua course sebelumnya:

**Data Inspection** (Course: Python for Data Analysts)
- `.head()` and `.tail()`
- `.describe()`
- `.shape` and `.size`
- `.axes`
- `.dtypes`
- Subsetting using `.loc`, `.iloc` and conditionals

**Diagnostic and Exploratory** (Course: Exploratory Data Analysis)
- Tables
- Cross-Tables and Aggregates
- Using `aggfunc` for aggregate functions
- Pivot Tables
- Working with DateTime
- Working with Categorical Data
- Duplicates and Missing Value Treatment

---

**Training Objectives for Course Data Wrangling and Visualization**

- Working with MultiIndex DataFrames
- Stacking and Unstacking
- Reshaping your DataFrame with Melt
- Using Group By Effectively
- Visual Data Exploratory

# Reproducible Environment

Bayangkan Anda sedang mengerjakan suatu proyek yang membutuhkan kolaborasi dengan tim. Proyek tersebut diinisiasi oleh Anda, code dan packages pada komputer Anda berjalan dengan baik. Kemudian Anda ingin membagikan proyek tersebut kepada tim Anda. Apakah tim Anda harus melakukan instalasi package satu per satu secara manual? Tentu tidak, di sini Anda membuat suatu **environment** yang dapat di-reproducible (digandakan) dengan membuat suatu file `requirements.txt`.

Lihat pada folder `/assets`, Anda akan menemukan file `requirements.txt` yang isinya seperti ini:
```
backcall==0.1.0
certifi==2019.11.28
chardet==3.0.4
cycler==0.10.0
decorator==4.4.0
idna==2.9
ipython==7.7.0
...
```

File ini berisi daftar **packages beserta versinya** yang ada di environment dalam menjalankan proyek tertentu. File ini membantu tim Anda untuk mengembangkan suatu aplikasi dalam satu versi yang sama, sehingga mencegah terjadinya perubahan fungsi-fungsi yang tidak terduga.

## Importing Requirements

Misal Anda yang meneruskan proyek dan telah menerima file `txt` dari tim Anda, maka lakukanlah langkah berikut:

### File `txt`

1. Siapkan environment yang kosong
```
conda create -n <ENV_NAME> python=<PYTHON_VERSION>
```

2. Aktifkan environment tersebut
```
conda activate <ENV_NAME>
```

3. Navigasikan path ke folder di mana file `requirements_dwv.txt` berada
```
cd <PATH_TO_REQUIREMENTS>
```

4. Instalasi packages dari file tersebut
```
pip install -r requirements_dwv.txt
```

### (Optional) File `yml`

1. Navigasikan path ke folder di mana file `environment.yml` berada
```
cd <PATH_TO_ENVIRONMENT>
```

2. Ketikkan command berikut di base environment:
```
conda env create -f environment.yml
```

Reference: [Creating an environment from yml file](https://docs.conda.io/projects/conda/en/latest/user-guide/tasks/manage-environments.html#creating-an-environment-from-an-environment-yml-file)

⚠️ Jangan lupa instalasi kernel di dalam environment tersebut apabila ingin dapat diakses menggunakan jupyter notebook:
```
pip install ipykernel
python -m ipykernel install --user --name=<ENV_NAME>
```

## Exporting Requirements

Misal Anda ingin membagikan daftar packages suatu environment kepada tim Anda, maka lakukanlah langkah berikut:

1. Aktifkan environment
```
conda activate <ENV_NAME>
```

2. Navigasikan path ke folder tempat di mana file `requirements.txt` ingin disimpan
```
cd <PATH_TO_REQUIREMENTS_FOLDER>
```

3. Export environment

    - File `txt`: Command `freeze` digunakan untuk export daftar packages beserta versinya dalam format tertentu.
    ```
    pip freeze > requirements.txt
    ```

    - (Optional) File `yml`:
    ```
    conda env export > environment.yml
    ```

💡 Anda dapat menyimpan file dengan nama lain, namun sebagai **konvensi** biasa digunakan penamaan `requirements.txt` ataupun `environment.yml`.

# Data Wrangling and Reshaping

## Load Data

### `pandas_datareader`

Kita akan menggunakan library `pandas_datareader` untuk mengakses data saham yang tersedia pada [Yahoo! Finance](https://finance.yahoo.com/). Penarikan data menggunakan `pandas_datareader` membutuhkan koneksi internet.

Dokumentasi: https://pydata.github.io/pandas-datareader/

In [None]:
from pandas_datareader import data
import pandas as pd

In [None]:
# symbol = ['BBCA.JK', 'UNVR.JK']
# source = 'yahoo'
# start_date = '2021-01-04'
# end_date = '2021-02-19'
# stock = data.DataReader(symbol, source, start_date, end_date)
# stock.tail()

Source:
- `AAPL`: Apple Inc.
- `FB`: Facebook, Inc.
- `GOOGL`: Alphabet Inc. (Google)

Data description:
- `Date` - specifies trading date in `yyyy-mm-dd` format
- `High` - maximum price of the day
- `Low` - minimum price of the day
- `Open` - opening price at the start of the day
- `Close` - closing price at the end of the day
- `Adj Close` - adjusted closing price for both dividends and splits
- `Volume` - the number of shares that changed hands during a given day

The trading hours of [different stock markets differ](https://www.maybank-ke.com.sg/markets/markets-listing/trading-hours/) (the NYSE for example open its market floor from 9.30am to 4pm five days a week).

### File Pickle

Pickling/Serializing: **menyimpan** suatu objek Python ke sebuah file binary (byte stream).
- Gunakan method `.to_pickle()`
- Contohnya objek DataFrame `stock` disimpan sebagai file `stock_2`:

In [None]:
# stock.to_pickle('data_cache/stock_2')
# kemudian silahkan cek file pickle pada folder di mana file .ipynb ini berada

Unpickling/De-serializing: **membaca** suatu objek Python dari sebuah file binary (byte stream). 
- Gunakan method `pd.read_pickle()`
- Untuk selanjutnya, mari kita gunakan file pickle pada `data_cache/stock` yang untuk tanggal 2 Januari 2018 sampai 24 April 2019.

In [None]:
stock = pd.read_pickle('data_cache/stock')
stock.head()

Attributes,High,High,High,Low,Low,Low,Open,Open,Open,Close,Close,Close,Volume,Volume,Volume,Adj Close,Adj Close,Adj Close
Symbols,AAPL,FB,GOOGL,AAPL,FB,GOOGL,AAPL,FB,GOOGL,AAPL,FB,GOOGL,AAPL,FB,GOOGL,AAPL,FB,GOOGL
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2
2018-01-02,172.300003,181.580002,1075.97998,169.259995,177.550003,1053.02002,170.160004,177.679993,1053.02002,172.259995,181.419998,1073.209961,25555900.0,18151900.0,1588300.0,168.98732,181.419998,1073.209961
2018-01-03,174.550003,184.779999,1096.099976,171.960007,181.330002,1073.430054,172.529999,181.880005,1073.930054,172.229996,184.669998,1091.52002,29517900.0,16886600.0,1565900.0,168.957886,184.669998,1091.52002
2018-01-04,173.470001,186.210007,1104.079956,172.080002,184.100006,1094.26001,172.539993,184.899994,1097.089966,173.029999,184.330002,1095.76001,22434600.0,13880900.0,1302600.0,169.742706,184.330002,1095.76001
2018-01-05,175.369995,186.899994,1113.579956,173.050003,184.929993,1101.800049,173.440002,185.589996,1103.449951,175.0,186.850006,1110.290039,23660000.0,13574500.0,1512500.0,171.675278,186.850006,1110.290039
2018-01-08,175.610001,188.899994,1119.160034,173.929993,186.330002,1110.0,174.350006,187.199997,1111.0,174.350006,188.279999,1114.209961,20567800.0,17994700.0,1232200.0,171.037628,188.279999,1114.209961


💡 Tips: Dengan menggunakan file pickle kita "mengawetkan" struktur dari object Python, misal untuk DataFrame dapat terjaga tipe data dan indexnya.

In [None]:
# membuat dummy data lalu konversi tipe data
dummy = pd.DataFrame({
    'id': [1, 2, 3, 4],
    'gender': ['Male', 'Female', 'Male', 'Female'],
    'join_date': ['22 Feb 2021', '23 Feb 2021', '24 Feb 2021', '25 Feb 2021']
})
dummy['gender'] = dummy['gender'].astype('category')
dummy['join_date'] = dummy['join_date'].astype('datetime64')
dummy.dtypes

id                    int64
gender             category
join_date    datetime64[ns]
dtype: object

In [None]:
dummy

Unnamed: 0,id,gender,join_date
0,1,Male,2021-02-22
1,2,Female,2021-02-23
2,3,Male,2021-02-24
3,4,Female,2021-02-25


In [None]:
# simpan ke pickle
dummy.to_pickle('data_cache/dummy')

# baca dari pickle dan cek tipe data
pd.read_pickle('data_cache/dummy').dtypes

id                    int64
gender             category
join_date    datetime64[ns]
dtype: object

Bandingkan dengan menyimpannya ke file text biasa, yaitu csv misalnya:

In [None]:
# simpan ke file csv
dummy.to_csv('data_cache/dummy.csv', index=False)

# baca dari csv dan cek tipe data
pd.read_csv('data_cache/dummy.csv').dtypes

id            int64
gender       object
join_date    object
dtype: object

Note:

- file pickle cenderung lebih kecil file sizenya dibandingkan file csv (apabila data sudah cukup besar)
- file pickle ini hanya dapat di load menggunakan bahasa Python

## Slicing Multi-Index DataFrame
Perhatikan bahwa `stock` adalah Multi-Index DataFrame, dimana level dari column-nya terdiri dari: `Attributes` dan `Symbols`:

In [None]:
stock.index

DatetimeIndex(['2018-01-02', '2018-01-03', '2018-01-04', '2018-01-05',
               '2018-01-08', '2018-01-09', '2018-01-10', '2018-01-11',
               '2018-01-12', '2018-01-16',
               ...
               '2019-04-10', '2019-04-11', '2019-04-12', '2019-04-15',
               '2019-04-16', '2019-04-17', '2019-04-18', '2019-04-22',
               '2019-04-23', '2019-04-24'],
              dtype='datetime64[ns]', name='Date', length=329, freq=None)

In [None]:
stock.columns

MultiIndex([(     'High',  'AAPL'),
            (     'High',    'FB'),
            (     'High', 'GOOGL'),
            (      'Low',  'AAPL'),
            (      'Low',    'FB'),
            (      'Low', 'GOOGL'),
            (     'Open',  'AAPL'),
            (     'Open',    'FB'),
            (     'Open', 'GOOGL'),
            (    'Close',  'AAPL'),
            (    'Close',    'FB'),
            (    'Close', 'GOOGL'),
            (   'Volume',  'AAPL'),
            (   'Volume',    'FB'),
            (   'Volume', 'GOOGL'),
            ('Adj Close',  'AAPL'),
            ('Adj Close',    'FB'),
            ('Adj Close', 'GOOGL')],
           names=['Attributes', 'Symbols'])

Ketika kita subset menggunakan `[]`, maka kita hanya bisa mengakses kolom dengan level teratas, yaitu untuk `Attributes`. Melakukan subset pada kolom `High` akan menghasilkan DataFrame single index dengan `Symbols` sebagai levelnya.

In [None]:
stock['High']

Symbols,AAPL,FB,GOOGL
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2018-01-02,172.300003,181.580002,1075.979980
2018-01-03,174.550003,184.779999,1096.099976
2018-01-04,173.470001,186.210007,1104.079956
2018-01-05,175.369995,186.899994,1113.579956
2018-01-08,175.610001,188.899994,1119.160034
...,...,...,...
2019-04-17,203.380005,180.740005,1245.099976
2019-04-18,204.149994,178.880005,1245.939941
2019-04-22,204.940002,181.669998,1254.339966
2019-04-23,207.750000,184.220001,1274.430054


**Masalah:** Bagaimana caranya apabila kita ingin mengambil semua nilai `Attributes` untuk saham `GOOGL` saja?

In [None]:
# stock['GOOGL']
# KeyError: 'GOOGL'

**Solusi:** Kita harus menggunakan method `.xs()` (cross-section) untuk mengambil kolom (`axis=1`) pada level dalam

In [None]:
stock.head()

Attributes,High,High,High,Low,Low,Low,Open,Open,Open,Close,Close,Close,Volume,Volume,Volume,Adj Close,Adj Close,Adj Close
Symbols,AAPL,FB,GOOGL,AAPL,FB,GOOGL,AAPL,FB,GOOGL,AAPL,FB,GOOGL,AAPL,FB,GOOGL,AAPL,FB,GOOGL
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2
2018-01-02,172.300003,181.580002,1075.97998,169.259995,177.550003,1053.02002,170.160004,177.679993,1053.02002,172.259995,181.419998,1073.209961,25555900.0,18151900.0,1588300.0,168.98732,181.419998,1073.209961
2018-01-03,174.550003,184.779999,1096.099976,171.960007,181.330002,1073.430054,172.529999,181.880005,1073.930054,172.229996,184.669998,1091.52002,29517900.0,16886600.0,1565900.0,168.957886,184.669998,1091.52002
2018-01-04,173.470001,186.210007,1104.079956,172.080002,184.100006,1094.26001,172.539993,184.899994,1097.089966,173.029999,184.330002,1095.76001,22434600.0,13880900.0,1302600.0,169.742706,184.330002,1095.76001
2018-01-05,175.369995,186.899994,1113.579956,173.050003,184.929993,1101.800049,173.440002,185.589996,1103.449951,175.0,186.850006,1110.290039,23660000.0,13574500.0,1512500.0,171.675278,186.850006,1110.290039
2018-01-08,175.610001,188.899994,1119.160034,173.929993,186.330002,1110.0,174.350006,187.199997,1111.0,174.350006,188.279999,1114.209961,20567800.0,17994700.0,1232200.0,171.037628,188.279999,1114.209961


- `key`: kolom yang kita ingin ambil
- `level`: kolom tersebut ada di level apa?
- `axis=1`: merujuk pada kolom

In [None]:
stock.xs(key = "GOOGL", level = "Symbols", axis = 1)

Attributes,High,Low,Open,Close,Volume,Adj Close
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2018-01-02,1075.979980,1053.020020,1053.020020,1073.209961,1588300.0,1073.209961
2018-01-03,1096.099976,1073.430054,1073.930054,1091.520020,1565900.0,1091.520020
2018-01-04,1104.079956,1094.260010,1097.089966,1095.760010,1302600.0,1095.760010
2018-01-05,1113.579956,1101.800049,1103.449951,1110.290039,1512500.0,1110.290039
2018-01-08,1119.160034,1110.000000,1111.000000,1114.209961,1232200.0,1114.209961
...,...,...,...,...,...,...
2019-04-17,1245.099976,1232.900024,1237.000000,1240.140015,1518300.0,1240.140015
2019-04-18,1245.939941,1239.410034,1245.000000,1241.469971,1237500.0,1241.469971
2019-04-22,1254.339966,1233.369995,1236.670044,1253.760010,954200.0,1253.760010
2019-04-23,1274.430054,1251.969971,1256.640015,1270.589966,1593400.0,1270.589966


### Dive Deeper

1. Create a DataFrame by subsetting only the `Close` columns. Name it `closingprice`. 
2. Use `.isna().sum()` to count the number of missing values in each of the columns present in `closingprice`. Is there any missing values?

In [None]:
# your code here
closingprice = stock['Close']
closingprice.isna().sum()

Symbols
AAPL     0
FB       0
GOOGL    0
dtype: int64

Perhatikan index baris dari `stock`, terdapat beberapa hari yang terlewati dan tidak ada datanya seperti 2018-01-01, 2018-01-06, dan 2018-01-07. Pada akhir pekan serta hari libur nasional, semua pasar saham tutup.

In [None]:
stock.head()

Attributes,High,High,High,Low,Low,Low,Open,Open,Open,Close,Close,Close,Volume,Volume,Volume,Adj Close,Adj Close,Adj Close
Symbols,AAPL,FB,GOOGL,AAPL,FB,GOOGL,AAPL,FB,GOOGL,AAPL,FB,GOOGL,AAPL,FB,GOOGL,AAPL,FB,GOOGL
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2
2018-01-02,172.300003,181.580002,1075.97998,169.259995,177.550003,1053.02002,170.160004,177.679993,1053.02002,172.259995,181.419998,1073.209961,25555900.0,18151900.0,1588300.0,168.98732,181.419998,1073.209961
2018-01-03,174.550003,184.779999,1096.099976,171.960007,181.330002,1073.430054,172.529999,181.880005,1073.930054,172.229996,184.669998,1091.52002,29517900.0,16886600.0,1565900.0,168.957886,184.669998,1091.52002
2018-01-04,173.470001,186.210007,1104.079956,172.080002,184.100006,1094.26001,172.539993,184.899994,1097.089966,173.029999,184.330002,1095.76001,22434600.0,13880900.0,1302600.0,169.742706,184.330002,1095.76001
2018-01-05,175.369995,186.899994,1113.579956,173.050003,184.929993,1101.800049,173.440002,185.589996,1103.449951,175.0,186.850006,1110.290039,23660000.0,13574500.0,1512500.0,171.675278,186.850006,1110.290039
2018-01-08,175.610001,188.899994,1119.160034,173.929993,186.330002,1110.0,174.350006,187.199997,1111.0,174.350006,188.279999,1114.209961,20567800.0,17994700.0,1232200.0,171.037628,188.279999,1114.209961


Ketika kita bekerja dengan data runtun waktu (time series), kita harus memastikan data lengkap pada setiap periode waktu. Untuk kasus di atas kita harus melakukan **padding**, yaitu menyelipkan tanggal yang terlewati. Kita dapat mengatur ulang index `Date` dengan method `reindex()` sehingga indexnya mengikuti rentang tanggal yang kita tentukan sendiri:

In [None]:
# data tanggal per harian dari 1 Januari sampai 31 Maret 2019
pd.date_range(start="2019-01-01", end="2019-03-31")

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06', '2019-01-07', '2019-01-08',
               '2019-01-09', '2019-01-10', '2019-01-11', '2019-01-12',
               '2019-01-13', '2019-01-14', '2019-01-15', '2019-01-16',
               '2019-01-17', '2019-01-18', '2019-01-19', '2019-01-20',
               '2019-01-21', '2019-01-22', '2019-01-23', '2019-01-24',
               '2019-01-25', '2019-01-26', '2019-01-27', '2019-01-28',
               '2019-01-29', '2019-01-30', '2019-01-31', '2019-02-01',
               '2019-02-02', '2019-02-03', '2019-02-04', '2019-02-05',
               '2019-02-06', '2019-02-07', '2019-02-08', '2019-02-09',
               '2019-02-10', '2019-02-11', '2019-02-12', '2019-02-13',
               '2019-02-14', '2019-02-15', '2019-02-16', '2019-02-17',
               '2019-02-18', '2019-02-19', '2019-02-20', '2019-02-21',
               '2019-02-22', '2019-02-23', '2019-02-24', '2019-02-25',
      

In [None]:
closingprice = stock['Close']
quarter1 = pd.date_range(start="2019-01-01", end="2019-03-31")
closingprice = closingprice.reindex(quarter1)
closingprice.head(8)

Symbols,AAPL,FB,GOOGL
2019-01-01,,,
2019-01-02,157.919998,135.679993,1054.680054
2019-01-03,142.190002,131.740005,1025.469971
2019-01-04,148.259995,137.949997,1078.069946
2019-01-05,,,
2019-01-06,,,
2019-01-07,147.929993,138.050003,1075.920044
2019-01-08,150.75,142.529999,1085.369995


Cek kembali missing value `NaN` yang terdapat pada `closingprice`:

In [None]:
# your code here
closingprice.isna().sum()

Symbols
AAPL     29
FB       29
GOOGL    29
dtype: int64

**Diskusi:** Bagaimana cara kita mengisi missing value tersebut?

In [None]:
# your code here

# ffill untuk mengisi NA dari atas ke bawah
# bfill untuk mengisi NA dari bawah ke atas
closingprice.fillna(method='ffill').fillna(method='bfill')

Symbols,AAPL,FB,GOOGL
2019-01-01,157.919998,135.679993,1054.680054
2019-01-02,157.919998,135.679993,1054.680054
2019-01-03,142.190002,131.740005,1025.469971
2019-01-04,148.259995,137.949997,1078.069946
2019-01-05,148.259995,137.949997,1078.069946
...,...,...,...
2019-03-27,188.470001,165.869995,1178.010010
2019-03-28,188.720001,165.550003,1172.270020
2019-03-29,189.949997,166.690002,1176.890015
2019-03-30,189.949997,166.690002,1176.890015


## Reshaping: `stack()` and `unstack()`

Method yang berguna saat kita ingin mengubah bentuk Multi-Index DataFrame:

- `stack()`: mengubah level pada kolom menjadi pada baris
- `unstack()`: mengubah level pada baris menjadi pada kolom

<img src="assets/reshaping_stack.png" width="600"/>

Untuk saat ini, `stock` memiliki 2-level kolom (`Attributes` dan `Symbols`) dan 1-level baris (`Date`).

In [None]:
stock.head()

Attributes,High,High,High,Low,Low,Low,Open,Open,Open,Close,Close,Close,Volume,Volume,Volume,Adj Close,Adj Close,Adj Close
Symbols,AAPL,FB,GOOGL,AAPL,FB,GOOGL,AAPL,FB,GOOGL,AAPL,FB,GOOGL,AAPL,FB,GOOGL,AAPL,FB,GOOGL
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2
2018-01-02,172.300003,181.580002,1075.97998,169.259995,177.550003,1053.02002,170.160004,177.679993,1053.02002,172.259995,181.419998,1073.209961,25555900.0,18151900.0,1588300.0,168.98732,181.419998,1073.209961
2018-01-03,174.550003,184.779999,1096.099976,171.960007,181.330002,1073.430054,172.529999,181.880005,1073.930054,172.229996,184.669998,1091.52002,29517900.0,16886600.0,1565900.0,168.957886,184.669998,1091.52002
2018-01-04,173.470001,186.210007,1104.079956,172.080002,184.100006,1094.26001,172.539993,184.899994,1097.089966,173.029999,184.330002,1095.76001,22434600.0,13880900.0,1302600.0,169.742706,184.330002,1095.76001
2018-01-05,175.369995,186.899994,1113.579956,173.050003,184.929993,1101.800049,173.440002,185.589996,1103.449951,175.0,186.850006,1110.290039,23660000.0,13574500.0,1512500.0,171.675278,186.850006,1110.290039
2018-01-08,175.610001,188.899994,1119.160034,173.929993,186.330002,1110.0,174.350006,187.199997,1111.0,174.350006,188.279999,1114.209961,20567800.0,17994700.0,1232200.0,171.037628,188.279999,1114.209961


In [None]:
stock.stack()

Unnamed: 0_level_0,Attributes,High,Low,Open,Close,Volume,Adj Close
Date,Symbols,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2018-01-02,AAPL,172.300003,169.259995,170.160004,172.259995,25555900.0,168.987320
2018-01-02,FB,181.580002,177.550003,177.679993,181.419998,18151900.0,181.419998
2018-01-02,GOOGL,1075.979980,1053.020020,1053.020020,1073.209961,1588300.0,1073.209961
2018-01-03,AAPL,174.550003,171.960007,172.529999,172.229996,29517900.0,168.957886
2018-01-03,FB,184.779999,181.330002,181.880005,184.669998,16886600.0,184.669998
...,...,...,...,...,...,...,...
2019-04-23,FB,184.220001,181.479996,182.740005,183.779999,19954800.0,183.779999
2019-04-23,GOOGL,1274.430054,1251.969971,1256.640015,1270.589966,1593400.0,1270.589966
2019-04-24,AAPL,208.479996,207.050003,207.360001,207.160004,17540600.0,207.160004
2019-04-24,FB,185.139999,181.649994,184.490005,182.580002,37289900.0,182.580002


Setelah mengaplikasikan method `stack()`, `Symbols` pindah dari yang sebelumnya level pada kolom menjadi baris. Kenapa `Symbols`? Karena secara default parameter `level=-1`, sehingga kolom dengan level paling dalam yang pindah menjadi baris.

Bagaimana cara kita memindahkan level `Attributes`nya menjadi baris?

In [None]:
# circular indexing

contoh = ['Attributes', 'Symbols']
contoh[-1]

'Symbols'

In [None]:
contoh[0]

'Attributes'

In [None]:
contoh[-2]

'Attributes'

In [None]:
stock.stack(level=0) # ini boleh level=-2 juga

Unnamed: 0_level_0,Symbols,AAPL,FB,GOOGL
Date,Attributes,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2018-01-02,Adj Close,1.689873e+02,1.814200e+02,1.073210e+03
2018-01-02,Close,1.722600e+02,1.814200e+02,1.073210e+03
2018-01-02,High,1.723000e+02,1.815800e+02,1.075980e+03
2018-01-02,Low,1.692600e+02,1.775500e+02,1.053020e+03
2018-01-02,Open,1.701600e+02,1.776800e+02,1.053020e+03
...,...,...,...,...
2019-04-24,Close,2.071600e+02,1.825800e+02,1.260050e+03
2019-04-24,High,2.084800e+02,1.851400e+02,1.274000e+03
2019-04-24,Low,2.070500e+02,1.816500e+02,1.259810e+03
2019-04-24,Open,2.073600e+02,1.844900e+02,1.270590e+03


In [None]:
stock.stack(level='Attributes')

Unnamed: 0_level_0,Symbols,AAPL,FB,GOOGL
Date,Attributes,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2018-01-02,Adj Close,1.689873e+02,1.814200e+02,1.073210e+03
2018-01-02,Close,1.722600e+02,1.814200e+02,1.073210e+03
2018-01-02,High,1.723000e+02,1.815800e+02,1.075980e+03
2018-01-02,Low,1.692600e+02,1.775500e+02,1.053020e+03
2018-01-02,Open,1.701600e+02,1.776800e+02,1.053020e+03
...,...,...,...,...
2019-04-24,Close,2.071600e+02,1.825800e+02,1.260050e+03
2019-04-24,High,2.084800e+02,1.851400e+02,1.274000e+03
2019-04-24,Low,2.070500e+02,1.816500e+02,1.259810e+03
2019-04-24,Open,2.073600e+02,1.844900e+02,1.270590e+03


Sedangkan `unstack()` adalah kebalikan dari `stack()`:

<img src="assets/reshaping_unstack.png" width="600"/>

Cobalah aplikasikan method `unstack()` pada dataframe `stock`:

In [None]:
stock.unstack()

Attributes  Symbols  Date      
High        AAPL     2018-01-02     172.300003
                     2018-01-03     174.550003
                     2018-01-04     173.470001
                     2018-01-05     175.369995
                     2018-01-08     175.610001
                                      ...     
Adj Close   GOOGL    2019-04-17    1240.140015
                     2019-04-18    1241.469971
                     2019-04-22    1253.760010
                     2019-04-23    1270.589966
                     2019-04-24    1260.050049
Length: 5922, dtype: float64

Apa yang terjadi ketika method `stack()` dilanjutkan dengan method `unstack()` (asumsi menggunakan parameter `level` default)?

In [None]:
# your code here
stock.stack().unstack()
# sama seperti data stock di awal

Attributes,High,High,High,Low,Low,Low,Open,Open,Open,Close,Close,Close,Volume,Volume,Volume,Adj Close,Adj Close,Adj Close
Symbols,AAPL,FB,GOOGL,AAPL,FB,GOOGL,AAPL,FB,GOOGL,AAPL,FB,GOOGL,AAPL,FB,GOOGL,AAPL,FB,GOOGL
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2
2018-01-02,172.300003,181.580002,1075.979980,169.259995,177.550003,1053.020020,170.160004,177.679993,1053.020020,172.259995,181.419998,1073.209961,25555900.0,18151900.0,1588300.0,168.987320,181.419998,1073.209961
2018-01-03,174.550003,184.779999,1096.099976,171.960007,181.330002,1073.430054,172.529999,181.880005,1073.930054,172.229996,184.669998,1091.520020,29517900.0,16886600.0,1565900.0,168.957886,184.669998,1091.520020
2018-01-04,173.470001,186.210007,1104.079956,172.080002,184.100006,1094.260010,172.539993,184.899994,1097.089966,173.029999,184.330002,1095.760010,22434600.0,13880900.0,1302600.0,169.742706,184.330002,1095.760010
2018-01-05,175.369995,186.899994,1113.579956,173.050003,184.929993,1101.800049,173.440002,185.589996,1103.449951,175.000000,186.850006,1110.290039,23660000.0,13574500.0,1512500.0,171.675278,186.850006,1110.290039
2018-01-08,175.610001,188.899994,1119.160034,173.929993,186.330002,1110.000000,174.350006,187.199997,1111.000000,174.350006,188.279999,1114.209961,20567800.0,17994700.0,1232200.0,171.037628,188.279999,1114.209961
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2019-04-17,203.380005,180.740005,1245.099976,198.610001,178.360001,1232.900024,199.539993,179.600006,1237.000000,203.130005,178.779999,1240.140015,28906800.0,9973700.0,1518300.0,203.130005,178.779999,1240.140015
2019-04-18,204.149994,178.880005,1245.939941,202.520004,177.339996,1239.410034,203.119995,178.800003,1245.000000,203.860001,178.279999,1241.469971,24195800.0,11655600.0,1237500.0,203.860001,178.279999,1241.469971
2019-04-22,204.940002,181.669998,1254.339966,202.339996,178.250000,1233.369995,202.830002,178.250000,1236.670044,204.529999,181.440002,1253.760010,19439500.0,13389900.0,954200.0,204.529999,181.440002,1253.760010
2019-04-23,207.750000,184.220001,1274.430054,203.899994,181.479996,1251.969971,204.429993,182.740005,1256.640015,207.479996,183.779999,1270.589966,23323000.0,19954800.0,1593400.0,207.479996,183.779999,1270.589966


**END OF DAY 1**

---

**START OF DAY 2**

### Dive Deeper

1. How to swap the position (`level`) of Symbols and Attributes?

In [None]:
# your code here


2. Based on your knowledge, what company (`Symbols`) worth invest on? (You may look on its fluctuations, means, etc)

In [None]:
# your code here


### Knowledge Check: Stack and Unstack

Which of the following statement is correct?

- [ ] `stack()` changes the DataFrame from wide to long
- [ ] `unstack()` changes the DataFrame from long to wide
- [ ] `unstack()` changes the DataFrame from wide to long

### Reshaping: Melt

Mirip dengan `stack()`, kita bisa menggunakan `melt()` untuk mengubah dataframe dari wide to long.

<img src="assets/reshaping_melt.png" width="600"/>

Dari data `stock` silahkan slicing untuk mendapatkan data saham `AAPL`, simpan pada objek `aapl`:

In [None]:
# your code here
aapl = 

Aplikasikan method `melt()` dan simpan pada objek `aapl_melted`

In [None]:
aapl_melted = aapl.melt()
aapl_melted

Bandingkan ukuran `aapl` dan `aapl_melted`:

- `aapl` (wide): 329 baris dan 6 kolom (329*6 = 1974 nilai)
- `aapl_melted` (long): 1974 baris dan 2 kolom, kolom terdiri dari `Attributes` dan `value`

In [None]:
aapl.shape

In [None]:
aapl_melted.shape

### Knowledge Check: Melt vs Stack

Apa perbedaan antara `melt()` dan `stack()` ?

- `melt()` digunakan untuk ...
- `stack()` digunakan untuk ...

### Identifier and Value

Dalam method `melt()`, terdapat dua parameter yang sering digunakan:
- `id_vars`: kolom yang menjadi identifier variables (kolom yang dipertahankan)
- `value_vars`: kolom yang menjadi value variables

Kita ingin kolom `Date` menjadi `id_vars`, namun belum bisa diakses sebagai kolom karena masih berupa index. Untuk itu kita menggunakan `reset_index()` sebelum `melt()`

In [None]:
aapl.reset_index().melt(id_vars='Date')

Misal kita hanya ingin kolom `High` dan `Low` saja yang di-melt, tanpa menggunakan `id_vars`:

In [None]:
aapl.reset_index().melt(value_vars=['High', 'Low'])

**Latihan:** Saya ingin melakukan melt terhadap data `aapl` hanya pada kolom `Close` dan `Open`, serta setiap observasinya dibedakan berdasarkan `Date`. Simpan pada objek `aapl_close_open`:

In [None]:
# your code here
aapl_close_open = 

Tambahan parameter:

- `var_name` untuk memberi nama terhadap kolom `variable`
- `value_name` untuk memberi nama terhadap kolom `value`

### (Additional) Pivot: Inverse of Melt

Kebalikan dari method `melt()` adalah `pivot()`, yaitu mengubah dataframe dari long ke wide.

<img src="assets/reshaping_pivot.png" width="600"/>

Silahkan coba mengaplikasikan method `pivot()` pada objek `aapl_close_open`, sehingga index-nya berupa `Date` serta terdapat dua kolom `Close` dan `Open` (dari `Attributes`):

In [None]:
aapl_close_open.pivot(index='Date',
                      columns='Attributes',
                      values='value')

**NOTES**

- `pivot_table()` untuk membuat tabel agregasi (ada nilai yang dirangkum)
- `pivot()` hanya untuk reshaping (tidak ada nilai yang dirangkum)

# Visualization

Tujuan Visualisasi:

- Exploratory: proses untuk memfamiliarkan diri (berkenalan) dengan data melalui visualisasi, sehingga mendapatkan sebuah insight. Visualisasi yang ditampilkan biasanya sederhana. Analogi: mencari dan mendapatkan batu permata di antara ratusan batu biasa.
- Explanatory: proses untuk menjelaskan atau menyajikan insight yang didapat dari hasil exploratory kepada user/audience. Visualisasi yang ditampilkan biasanya lebih menarik dan meng-highlight insight secara spesifik. Analogi: mempoles batu permata tersebut dan menawarkannya kepada pembeli.

Pada course ini, dititikberatkan pada bagaimana cara kita menampilkan visualisasi data yang **informatif dan tepat**. Untuk memperindah tampilan visualisasi dapat di-eksplorasi secara mandiri melalui dokumentasi yang tersedia.

## Pandas and Matplotlib

Sampai tahap ini mungkin Anda tidak sabar untuk melakukan visualisasi data di Python. Dengan cukup mudah, kita bisa membuat objek plot `matplotlib` dengan hanya menggunakan method `.plot()`. Kita dapat mengecek dependencies package `pandas` menggunakan `show_versions()`, dari situ kita bisa lihat bahwa `matplotlib` termasuk di dalamnya.

In [None]:
pd.show_versions()

Sekarang mari kita coba melakukan visualisasi untuk 10 observasi pertama `Volume` pada `stock`

Insight: ...

Cukup mudah bukan? Method `plot()` sudah mempermudah kita dalam melakukan visualisasi langsung pada DataFrame, tanpa perlu mengerti cara penggunaan `matplotlib`. Kunjungi [dokumentasi matplotlib](https://matplotlib.org/tutorials/introductory/usage.html#sphx-glr-tutorials-introductory-usage-py) untuk detail mengenai `matplotlib`.

Namun, keterbatasan dari penggunaan `plot()` adalah minim kustomisasi dari visualisasi yang ada. Hanya terbatas pada parameter yang ada di dalam method tersebut. Kunjungi [dokumentasi method plot](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.html).

Salah satu kustomisasi yang dapat kita lakukan untuk memperindah visualisasi adalah melalui [matplotlib style sheet](https://matplotlib.org/tutorials/introductory/customizing.html). Kita dapat mengganti nilai 'default' pada method `plt.style.use()` dengan salah satu style yang tersedia, kemudian jalankan kembali code visualisasi untuk menerapkan style yang dipilih.

💡 **Tips:** Meskipun kode kita tidak menggunakan `matplotlib` secara eksplisit namun bergantung pada implementasi `pandas`, alangkah lebih baik kita tetap melakukan import untuk berinteraksi dengan plot: `import matplotlib.pyplot as plt`.

In [None]:
import matplotlib.pyplot as plt
print(plt.style.available)
plt.style.use('seaborn')

Sekarang kita coba visualisasi dari object `aapl` berikut:

In [None]:
march = pd.date_range(start="2018-03-01", end="2019-03-31")
aapl = stock.xs('AAPL', level='Symbols', axis=1)
aapl = aapl.reindex(march)
aapl

Note:

- Index (`Date`) akan menjadi sumbu horizontal pada plot
- Nilai pada masing-masing kolom (`Attributes`) akan menjadi 1 komponen pada plot, dalam hal ini menjadi garis

**Diskusi:** Apakah visualisasi tersebut sudah cukup informatif dan tepat? Apabila belum, hal apa saja yang bisa di-improve dari visualisasi tersebut?

## Types of Visualization

Secara default, `plot()` menampilkan visualisasi **line chart**. Ada beberapa tipe visualisasi lain yang dapat kita buat menggunakan `.plot`:

Visualisasi berikut hanya perlu menggunakan **satu** kolom:

- Data kategorik:
    - **`.plot.bar()` atau `.plot.barh()` untuk barplot (diagram batang)**
    - **`.plot.box()` atau `.boxplot()` untuk boxplot (berhubungan dengan five number summary)**
    - `.plot.pie()` untuk pie chart
    

- Data numerik:
    - **`.plot.hist()` untuk histogram**
    - `.plot.kde()` atau `.plot.density()` untuk density plot
    - `.plot.area()` untuk area plot

Visualisasi berikut perlu menggunakan **dua** kolom:

- numerik vs numerik:
    - `.plot.scatter()` untuk scatter plot
    - `.plot.hexbin()` untuk hexagonal bin plot

💡 Panduan untuk menentukan tipe visualisasi yang tepat berdasarkan tipe data yang dimiliki: https://www.data-to-viz.com/

**Silahkan mengacu referensi lengkapnya di [official documentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.html) untuk method `plot` apabila ingin eksplor visualisasi yang ada di luar lingkup course ini**

### Bar plot

Menggunakan data `stock`, tampilkan visualisasi untuk **membandingkan** rata-rata nilai `Open` pada masing-masing `Symbols`.

Gunakan parameter `kind='barh'` untuk menampilkan bar chart secara horizontal (mendatar)

Insight: Secara rata-rata, nilai `Open` tertinggi adalah saham ...

### Histogram

Menggunakan data `stock`, tampilkan visualisasi histogram untuk mengetahui **persebaran** `Volume` pada saham `GOOGL`:

Insight: Volume `GOOGL` paling banyak berkisar di antara nilai ...

Note: 1e6 adalah notasi scientific untuk 10 pangkat 6 artinya dalam satuan juta

### Knowledge Check: Bar plot vs Histogram

Setelah membuat kedua plot di atas, apa perbedaan antara bar plot dengan histogram?

- Barplot digunakan untuk ...
- Histogram digunakan untuk ...

### Box plot

Menggunakan data `stock`, tampilkan visualisasi box plot untuk membandingkan **persebaran** `Volume` untuk ketiga saham.

Box plot menggambarkan **five number summary** sebagai berikut: 

<img src="assets/boxplot.png" width="600"/>

- min: minimum value (bedakan dengan pagar bawah / lower whisker)
- 25%: kuartil 1
- 50%: kuartil 2 atau median
- 75%: kuartil 3
- max: maximum value (bedakan dengan pagar atas / upper whisker)

In [None]:
stock.describe()['Volume']

Tambahkan parameter `vert=False` untuk melihat boxplot secara horizontal:

Hanya menampilkan boxplot untuk Volume GOOGL

Insight:

- Dari median: Secara overall, saham dengan Volume tertinggi adalah ...
- Dari lebar kotak (IQR atau selisih 75% dengan 25%): saham dengan Volume yang paling bervariasi adalah ..., sedangkan yang paling tidak bervariasi adalah ...
- Dari outlier: paling banyak nilai Volume yang ekstrim pada saham ...

## (Additional) Other Python Libraries for Visualization

Apabila Anda tertarik mengenai visualisasi di Python, silahkan eksplorasi lebih lanjut package-package berikut:

- `matplotlib`: semua elemen pada visualisasi dapat dikustomisasi, namun membutuhkan code yang lebih panjang. [Dokumentasi Matplotlib](https://matplotlib.org/3.2.2/tutorials/index.html) 
- `seaborn`: dikembangkan dari `matplotlib`, lebih sedikit yang dapat dikustomisasi namun lebih mudah. [Dokumentasi Seaborn](https://seaborn.pydata.org/introduction.html)
- `plotly`: plot interaktif serta kompatibilitas dengan bahasa lain yang tinggi. [Dokumentasi Plotly](https://plotly.com/python/)
- `altair`: plot interaktif yang bersifat deklaratif, code relatif lebih mudah. [Dokumentasi Altair](https://altair-viz.github.io/index.html)

# Group By: Aggregation Table

Reshaping data adalah salah satu komponen penting dalam tahap data wrangling, karena memungkinkan seorang analis untuk mempersiapkan data menjadi bentuk yang sesuai untuk tahap analisa data berikutnya.

Teknik yang tak kalah penting adalah operasi **group by**. Mungkin untuk Anda yang sudah pernah menggunakan SQL atau tools lain seperti `tidyverse` pada bahasa R akan familiar dengan operasi group by ini.

Misalkan kita punya dataframe `volume_melted` yang ingin kita bandingkan `Volume` transaksi hariannya pada saham AAPL, FB, dan GOOGL:

In [None]:
volume = stock.xs('Volume', level='Attributes', axis=1)
volume_melted = volume.reset_index().melt(id_vars='Date', value_name='Volume')
volume_melted

**Pertanyaan**: Di antara AAPL, FB, GOOGL, manakah saham yang memiliki **rata-rata** `Volume` transaksi harian tertinggi?

Pertama, buatlah tabel agregasi dengan `crosstab()` dan juga `pivot_table()`:

**Ingat kembali:** 

Persamaan antara `crosstab` dan `pivot_table` yaitu keduanya dapat digunakan untuk menghasilkan tabel agregasi yang memiliki parameter `index`, `columns`, `values`, and `aggfunc`.

Perbedaan antara `crosstab` dan `pivot_table` dapat dirangkum dalam tabel berikut:

|                                                                                    | `pd.crosstab()` | `pd.pivot_table()` |
|------------------------------------------------------------------------------------|-----------------|--------------------|
|                                                                          **Input** | Array of values/Series |          DataFrame (parameter `data`)|
|                                                              **Default `aggfunc`** |       `'count'` |           `'mean'` |
|                                                          **Parameter `columns`** |       Mandatory |      Optional |
|                                                          **Parameter `normalize`** |       Available |      Not Available |
| [**Computation Time**](https://ramiro.org/notebook/pandas-crosstab-groupby-pivot/) | Relatively Slower |  Relatively Faster |

In [None]:
pd.options.display.float_format = '{:.3f}'.format

In [None]:
# versi crosstab


In [None]:
# versi pivot_table


Bandingkan dengan method `groupby()`:

In [None]:
# versi groupby


Istilah **group by** merupakan gabungan dari proses:

1. Split: mengelompokkan baris, co: dikelompokkan berdasarkan `Symbols`
2. Apply: menerapkan fungsi untuk masing-masing kelompok, co: dihitung mean untuk masing-masing `Symbols`
3. Combine: mengembalikan hasil dalam bentuk 1 tabel

Ilustrasi proses **split-apply-combine** dapat dilihat pada [Google Sheet](https://docs.google.com/spreadsheets/d/1CZHW4W_Ps9ggB-S6r_9ueozib-laXbEs8XZ8vUcO8P8/edit?usp=sharing)

## Visualizing Barchart for Comparison

Sampai di sini kita tahu bahwa AAPL memiliki rata-rata `Volume` transaksi harian tertinggi dari visualisasi bar plot yang dihasilkan pada bagian sebelumnya. Untuk selanjutnya, mari kita menganalisa `Volume` dari saham AAPL per hari-nya. Kita bisa menggunakan method `day_name()` untuk mengekstrak nama hari dari `Date`:

In [None]:
aapl = stock.xs('AAPL', level='Symbols', axis=1).copy()
aapl['Close_Diff'] = aapl['Close'].diff()
aapl['Weekday'] = aapl.index.day_name()
aapl

Perhatikan kolom `Close_Diff` yang dibuat di atas, nilai ini merupakan perbedaan antara nilai `Close` pada hari tertentu dengan hari berikutnya.

**Kasus:** Misalkan kita ingin membandingkan `Close_Diff` di setiap hari kerja. Secara rata-rata pada saham AAPL, apakah hari Kamis (Thursday) mencatat perbedaan yang lebih tinggi dibandingkan dengan hari Jumat (Friday)?

**Diskusi:** Apakah plot di atas sudah cukup efektif? Kalau belum, apa yang perlu diperbaiki dari plot di atas?

<!--
aapl_wday = aapl.groupby('Weekday').mean()['Close_Diff']
aapl_wday.index


wday = ["Monday", "Tuesday", "Wednesday", "Thursday", "Friday"]
aapl_wday.index = pd.CategoricalIndex(data = aapl_wday.index,
                                      categories = wday,
                                      ordered = True)
aapl_wday.index
-->

## Using Grouped Barchart

Masih ingat dengan dataframe `closingprice`? Kita akan coba memvisualisasikan **grouped barchart** untuk membandingkan nilai `Close` untuk ketiga saham **setiap bulannya** pada kuartal pertama tahun 2019.

Pertama, lihat `closingprice` dan pastikan bahwa data tidak memiliki missing values. Apabila ada, isi dengan metode yang sesuai.

In [None]:
closingprice = 

Selanjutnya, gunakan objek `closingprice` untuk menampilkan nilai **rata-rata** `Close` untuk setiap bulannya. Simpan tabel agregasi ke objek `average_closing`.

Note: untuk mengambil nama bulan tidak perlu `.dt` lagi, karena sudah berupa objek DatetimeIndex.

In [None]:
closingprice['Month'] = closingprice.index.month_name()
average_closing = closingprice.groupby('Month').mean()
average_closing

Visualisasi:

- Index menjadi sumbu horizontal
- Column menjadi grouping untuk bar chartnya

**Diskusi:** Apakah plot di atas sudah cukup efektif? Kalau belum, apa yang perlu diperbaiki dari plot di atas?

<!--
months = ['January', 'February', 'March', 'April', 'May', 'June', 'July', 'August', 'September', 'October', 'November', 'December']
average_closing.index = pd.CategoricalIndex(data=...,
                                            categories=...,
                                            ordered=...)
-->

Insight: ...

## Knowledge Check: Group By + Reshaping

Misal Anda dihadapkan dengan long DataFrame seperti pada `closingprice_melt` berikut:

In [None]:
closingprice_melt = closingprice.melt(id_vars='Month', value_name='Close')
closingprice_melt

Kira-kira bagaimana cara kita mengubah bentuk `closingprice_melt` menjadi `average_closing`?

**Hint:** Gunakan teknik `groupby` dan juga reshaping

In [None]:
average_closing

In [None]:
# your code here


Ilustrasi group by pada kasus di atas dapat dilihat pada [Google Sheet](https://docs.google.com/spreadsheets/d/1CZHW4W_Ps9ggB-S6r_9ueozib-laXbEs8XZ8vUcO8P8/edit#gid=1358100451)

## Combining `agg` and `groupby`

Perhatikan group by operation di bawah ini yang di-chaining dengan aggregate method `mean()`:

In [None]:
stock_long = stock.stack().reset_index()
stock_long

In [None]:
stock_long.groupby('Symbols').mean()

Misalkan kita ingin membuat tabel agregasi dengan `aggfunc` yang berbeda-beda untuk masing-masing `Symbols` berupa:
- Maximum `stock` price (`max` dari `High`)
- Minimum `stock` price (`min` dari `Low`)
- Rata-rata closing price (`mean` dari `Close`)

Untuk mendapat hasil tersebut, kita harus melakukan chaining `groupby` dengan method `agg`. Kita harus menyertakan mapping (**dictionary**) untuk setiap kolom dengan fungsi agregasinya seperti berikut ini:

In [None]:
stock_summary = stock_long.groupby('Symbols').agg({
    'Close': 'mean',
    'High': 'max',
    'Low': 'min'
})
stock_summary

Visualisasikan tabel agregasi di atas:

Insight: ...

## Knowledge Check: Vizualization

Perhatikan dataframe `monthly_closing` berikut:

In [None]:
stock['YearMonth'] = stock.index.to_period('M')
monthly_closing = stock.groupby('YearMonth').mean()['Close']
monthly_closing.head()

Tipe plot mana yang paling sesuai untuk data di atas, apabila kita ingin melihat pergerakan nilai `Close` dari hari ke hari?

- [ ] Line plot `.plot()`
- [ ] Scatter plot `.plot.scatter(x, y)`
- [ ] Bar plot `.plot.bar()`
- [ ] Box plot `.plot.box()`

In [None]:
# your code here
