<img src="../images/ilmudatapy-logo.png" width="350" align="center">
<br>

<center><h1>Box Plot</h1></center>
<hr>

__Halo, Learners!__ Di notebook ini, kita akan membahas __Box Plot__. Disini kita akan membuat <i>box plot</i> menggunakan dataset asli dengan menerapkan beberapa teknik data preparation di antaranya seperti melakukan <i>reshaping</i> sebelum visualisasi data. Kita juga akan mempraktekkan cara membuat subplot dengan Matplotlib.

<h2>Table of Contents</h2>
<div class="alert alert-block alert-info" style="margin-top: 25px">
    <ul>
        <li>
            Load Dataset
        </li>
        <li>
            Visualisasi data dengan <b>Box Plot</b>
            <ul>
                <li>Single Box Plot</li>
                <li>Multiple Box Plot</li>
            </ul>
        </li>
        <li>
            Horizontal Box Plot
        </li>
        <li>
            Membuat Subplot
        </li>
    </ul>
</div>

<hr>
<div class="alert alert-success" style="margin-top: 20px">
    <strong>Catatan:</strong> Untuk menjalankan kode program Python di Jupyter Notebook, klik pada <i>cell</i> yang ingin di-<i>run</i> lalu tekan <kbd>Shift</kbd> + <kbd>Enter</kbd>.
</div>

<div class="alert alert-danger" style="margin-top: 20px">
    <strong>Warning!:</strong> Jika ada kode program yang <i>error</i> atau output yang dihasilkan tidak sesuai, silahkan <b>Restart & Run All</b> kernel pada bagian menu <b>Kernel</b> di menu bar Jupyter Notebook, atau <b>Restart & Clear Output</b> kernel kemudian jalankan satu per satu <i>cell</i> secara berurutan dari atas ke bawah.
</div>
<hr>

## Load dataset

Dataset yang digunakan adalah dataset <a href='https://www.kaggle.com/szamil/who-suicide-statistics'>WHO Suicide Statistics</a> yang terdiri dari 43776 baris dan 6 kolom.

__Feature Information:__

* __country :__ nama negara yang terdata
* __year :__ tahun
* __sex :__ jenis kelamin 
* __age :__ rentang usia
* __suicides_no :__ jumlah orang yang melakukan bunuh diri
* __population :__ populasi penduduk 

Pertama kita <i>import</i> dahulu <i>library</i> yang akan digunakan. Dalam praktek ini, kita akan menggunakan Pandas dan Matplotlib.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

%matplotlib inline

plt.style.use('seaborn')    # style matplotlib

Kemudian kita <i>load</i> dataset menggunakan <code>read_csv()</code> dan menyimpannya dalam variabel <code>df</code>.

In [None]:
df = pd.read_csv("../datasets/who_suicide_statistics.csv")
df.head(10)

Selanjutnya mari kita mulai <i>plotting</i> data.

<hr>

## Visualisasi data dengan Box Plot

__Box plot__ adalah jenis visualisasi data yang secara statistik merepresentasikan distribusi data melalui lima dimensi utama, yaitu nilai minimum, kuartil 1, kuartil 2 (median), kuartil 3, dan nilai maksimum. Biasanya box plot digunakan untuk memeriksa keberadaan <i>outlier</i> dalam dataset.

Sebelum mulai membuat <i>box plot</i>, mari kita siapkan dahulu datasetnya. Disini kita akan melakukan <i>reshaping</i> atau mengubah bentuk dataset menjadi bentuk <i>pivot table</i>.

Di Python, kita dapat menggunakan <i>method</i> <code>pivot_table()</code> dengan memberikan beberapa parameter seperti <code>index</code>, <code>columns</code>, <code>values</code>, dan <code>aggfunc</code>.

Kita akan menjadikan <code>country</code> sebagai indeks, <code>year</code> sebagai kolom, <code>suicide_no</code> sebagai nilainya, dan <code>sum</code> sebagai fungsi agregasinya.

In [None]:
# Reshaping data

df_pivot = df.pivot_table(index='country', columns='year', values='suicides_no', aggfunc='sum')
df_pivot

Setelah mendapatkan dataframe yang ideal, kita dapat langsung membuat visualisasi data.

### Single Boxplot

Yang pertama kita akan membuat <i>single box plot</i>. Misalnya kita ingin melihat visualisasi data dengan <i>box plot</i> untuk data negara __Japan__.

Sebelumnya, kita akan membuat list tahun terlebih dahulu yang nantinya berfungsi untuk melakukan <i>filter</i> data.

In [None]:
# Membuat list tahun

years = list(range(1980, 2016))
years

Kemudian kita <i>filter</i> data menggunakan <code>loc</code> dengan memberikan nilai <code>['Japan']</code> sebagai indeks yang akan dipilih dan list <code>years</code> yang baru saja kita buat di atas sebagai kolom yang dipilih. 

Kita juga melakukan <code>transpose()</code> dataframe. Perhatikan kode di bawah ini.

In [None]:
# Filter dan transpose dataframe

df_japan = df_pivot.loc[['Japan'], years].transpose()
df_japan.head()

Selanjutnya kita membuat <i>box plot</i> dengan kode di bawah ini. Pastikan kita memberikan parameter <code>kind = 'box'</code> untuk menandakan bahwa yang ingin kita buat adalah <i>box plot</i>.

In [None]:
# Membuat box plot

df_japan.plot(kind='box', figsize=(8, 6))

plt.title('Box plot of Suicide Cases in Japan from 1980 - 2015\n', size=16)
plt.ylabel('Number of Suicide Cases\n', size=14)
plt.xticks(size=14)
plt.yticks(size=14)

plt.show()

Dari visualisasi di atas, kita dapat mengamati sekilas tentang dataset, di antaranya:

1. Nilai minimum dari kasus bunuh diri di Jepang dari tahun 1980 - 2015 adalah kurang sedikit dari 20000 kasus.
2. Nilai maksimum dari kasus bunuh diri di Jepang dari tahun 1980 - 2015 adalah sekitar 32000.
3. Nilai median (kuartil 2) dari kasus bunuh diri di Jepang dari tahun 1980 - 2015 adalah sekitar 24500.
4. Kuartil 1 atau 25% dari periode 1980 - 2015 memiliki jumlah kasus tahunan sekitar 21000.
5. Kuartil 3 atau 50% dari periode 1980 - 2015 memiliki jumlah kasus tahunan sekitar 30000.

Untuk melihat angka-angka sebenarnya, kita dapat menggunakan <i>method</i> <code>describe()</code> pada dataframe <code>df_japan</code> seperti di bawah ini.

In [None]:
# Melihat statistik dataframe

df_japan.describe()

### Multiple Boxplot

Kita juga dapat membuat beberapa <i>box plot</i> di dalam satu axes. Jika tadi kita hanya mengamati negara Jepang, sekarang kita akan mengamati beberapa negara sekaligus, misalnya Jepang, Korea, dan Amerika. 

Pertama kita harus mem-<i>filter</i> dataframe dan memasukkannya ke dalam variabel baru. Jangan lupa lakukan juga <code>transpose()</code> untuk data ini.

In [None]:
# Memfilter dan transpose dataframe

df_JKA = df_pivot.loc[['Japan', 'Republic of Korea', 'United States of America'], years].transpose()
df_JKA.head(10)

Setelah itu, untuk menampilkan visualisasinya, kita dapat melakukannya dengan cara yang sama persis seperti sebelumnya hanya saja kali ini diterapkan pada dataframe <code>df_JKA</code>.

In [None]:
# Visualisasi data dengan box plot

df_JKA.plot(kind='box', figsize=(12, 7))

plt.title('Box plot of Suicide Cases in Japan, South Korea, and USA from 1980 - 2015\n', size=18)
plt.ylabel('Number of Suicide Cases\n', size=14)
plt.xticks(size=14)
plt.yticks(size=14)

plt.show()

Sekarang mari kita lihat distribusi data detailnya.

In [None]:
# Menampilkan statistik data

df_JKA.describe()

<hr>

## Horizontal Boxplot

<i>Default box plot</i> adalah berbentuk vertikal seperti contoh sebelumnya. Namun, kita juga dapat mengaturnya menjadi bentuk horizontal dengan menambahkan parameter <code>vert = False</code>. 

Misalnya kita akan membuat <i>box plot</i> horizontal menggunakan dataframe <code>df_JKA</code>. Perhatikan kode di bawah ini.

In [None]:
# Box plot horizontal

df_JKA.plot(kind='box', figsize=(12, 7), color='red', vert=False)

plt.title('Box plot of Suicide Cases in Japan, South Korea, and USA from 1980 - 2015\n', size=18)
plt.xlabel('\nNumber of Suicide Cases', size=14)
plt.xticks(size=14)
plt.yticks(size=14)

plt.show()

<hr>

## Membuat Subplot

Terkadang kita mungkin ingin menampilkan beberapa plot di dalam satu <i>figure</i>. Misalnya kita ingin melakukan perbandingan dari dua plot, maka kita perlu menempatkannya bersebelahan agar lebih mudah dibandingkan.

Untuk memvisualisasikan beberapa plot bersamaan, kita dapat menggunakan cara <i>explicit</i> dengan membuat <code>figure</code> dan membaginya menjadi <code>subplot</code> yang masing-masingnya mengandung sebuah plot. 

Secara umum, kita dapat menuliskannya sebagai berikut:<br>
```python
    fig = plt.figure() # membuat figure
    ax = fig.add_subplot(nrows, ncols, plot_number) # membuat subplots
```
 dimana
 * `nrows` adalah jumlah baris axes yang diinginkan
 * `ncols` adalah jumlah kolom axes yang diinginkan
 * `plot_number` adalah nomor plotnya, digunakan untuk mengidentifikasi subplot tertentu. `plot_number` dimulai berurutan dari angka 1 sampai angka maksimumnya adalah `nrows` * `ncols`.

Sebagai contoh misalnya kita ingin membuat 2 plot (<i>box plot</i> dan <i>line plot</i>) bersebelahan yang artinya kita harus membuat <i>figure</i> yang terdiri dari 1 baris axes dan 2 kolom axes. Perhatikan kode berikut.

In [None]:
# Membuat subplot

fig = plt.figure() # membuat figure

ax0 = fig.add_subplot(1, 2, 1) # menambahkan subplot 1 (1 baris, 2 kolom, plot pertama)
ax1 = fig.add_subplot(1, 2, 2) # menambahkan subplot 2 (1 baris, 2 kolom, plot kedua). 

# Subplot 1: Box plot
df_JKA.plot(kind='box', color='blue', vert=False, figsize=(20, 7), ax=ax0) 
ax0.set_title('Box plot of Suicide Cases in Japan, South Korea, and USA from 1980 - 2015', size=14)
ax0.set_xlabel('Number of Suicide Cases')
ax0.set_ylabel('Countries')

# Subplot 2: Line plot
df_JKA.plot(kind='line', figsize=(20, 7), ax=ax1) 
ax1.set_title ('Line Plot of Suicide Cases in Japan, South Korea, and USA from 1980 - 2015', size=14)
ax1.set_ylabel('Number of Suicide Cases')
ax1.set_xlabel('Years')

plt.show()

Jika <code>nrows</code>, <code>ncols</code>, dan <code>plot_number</code>-nya kurang dari 10, kita dapat menuliskannya tanpa dipisahkan koma. 

Jadi, 

```python
   subplot(211) == subplot(2, 1, 1) 
```

<hr>

Copyright @ <a href="https://ilmudatapy.com/">ilmudatapy.com</a>