<img src="../images/ilmudatapy-logo.png" width="350" align="center">
<br>

<center><h1>Regression Plot</h1></center>
<hr>

__Halo, Learners!__ Di notebook ini, kita akan membahas __Regression Plot__. Disini kita akan membuat <i>regression plot</i> dari dataset asli dengan menggunakan <i>library</i> __Seaborn__.

<h2>Table of Contents</h2>
<div class="alert alert-block alert-info" style="margin-top: 25px">
    <ul>
        <li>
            Load dataset
        </li>
        <li>
            Visualisasi <b>Regression Plot</b> dengan Seaborn
            <ul>
                <li>Mengatur warna</li>
                <li>Mengatur ukuran figure</li>
                <li>Mengatur jenis titik (marker)</li>
                <li>Mengubah ukuran marker</li>
                <li>Mengatur ukuran huruf</li>
                <li>Mengatur background menjadi berwarna putih</li>
                <li>Menambahkan gridlines</li>
            </ul>
        </li>
    </ul>
</div>

<hr>
<div class="alert alert-success" style="margin-top: 20px">
    <strong>Catatan:</strong> Untuk menjalankan kode program Python di Jupyter Notebook, klik pada <i>cell</i> yang ingin di-<i>run</i> lalu tekan <kbd>Shift</kbd> + <kbd>Enter</kbd>.
</div>

<div class="alert alert-danger" style="margin-top: 20px">
    <strong>Warning!:</strong> Jika ada kode program yang <i>error</i> atau output yang dihasilkan tidak sesuai, silahkan <b>Restart & Run All</b> kernel pada bagian menu <b>Kernel</b> di menu bar Jupyter Notebook, atau <b>Restart & Clear Output</b> kernel kemudian jalankan satu per satu <i>cell</i> secara berurutan dari atas ke bawah.
</div>
<hr>

## Load dataset

Dataset yang digunakan adalah dataset <a href='https://www.kaggle.com/szamil/who-suicide-statistics'>WHO Suicide Statistics</a> yang terdiri dari 43776 baris dan 6 kolom.

__Feature Information:__

* __country :__ nama negara yang terdata
* __year :__ tahun
* __sex :__ jenis kelamin 
* __age :__ rentang usia
* __suicides_no :__ jumlah orang yang melakukan bunuh diri
* __population :__ populasi penduduk 

Pertama kita <i>import</i> dahulu <i>library</i> yang akan digunakan. Dalam praktek ini, kita akan menggunakan Pandas, Numpy, Matplotlib dan Seaborn.

In [None]:
import pandas as pd
import numpy as numpy
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

Kemudian kita <i>load</i> dataset menggunakan <code>read_csv()</code> dan menyimpannya dalam variabel <code>df</code>.

In [None]:
df = pd.read_csv("../datasets/who_suicide_statistics.csv")
df.head(10)

Sekarang kita lakukan pengecekan.

In [None]:
df.info()

Dari informasi di atas, kolom <code>suicides_no</code> dan <code>population</code> bertipe float, padahal itu mengandung bilangan integer. Karena itu kita akan mengubah tipe data <code>suicides_no</code> menjadi <code>Int64</code>. Sementara itu, kolom <code>populasi</code> kita akan membiarkannya karena tidak akan digunakan dalam praktek ini.

In [None]:
# Mengubah tipe data kolom suicides_no

df['suicides_no'] = df['suicides_no'].astype('Int64')
df['suicides_no'].dtypes

Misalnya kita ingin menampilkan grafik jumlah orang yang melakukan bunuh diri setiap tahunnya di dunia. Sebelumnya kita harus membuat dataframe baru yang menyediakan data tersebut.

Dari dataframe <code>df</code> di atas, kita akan melakukan <i>grouping</i> berdasarkan tahun atau kolom <code>year</code> dan menampilkan jumlah total orang yang melakukan bunuh diri atau kolom <code>suicides_no</code> menggunakan agregasi <code>sum</code>.

In [None]:
# Grouping data

df_year = df.groupby(['year'])[['suicides_no']].sum()
df_year

Sekarang kita telah mendapatkan data yang diperlukan. Indeks dari dataframe <code>df_year</code> adalah tahun atau <code>year</code>.

Jika kita lihat dari dataframe <code>df_year</code> di atas, baris dengan indeks __2016__ sangat sedikit jumlahnya dan dirasa tidak sesuai dengan tahun-tahun sebelumnya. Kemungkinan karena tidak semua negara telah memiliki data <i>suicides</i> pada tahun tersebut dan melaporkannya. Oleh karena itu, kita akan menghapus data tersebut karena merupakan <i>outliers</i>.

In [None]:
# Menghapus baris 2016

df_year = df_year.drop(2016, axis=0)
df_year.tail()

Dataframe <code>df_year</code> sudah siap digunakan untuk membuat <i>regression plot</i>.

<hr>

## Visualisasi data dengan Regression Plot

Dalam praktek visualisasi data dengan <i>regression plot</i> ini, kita akan menggunakan <i>library</i> __Seaborn__. 

> __Seaborn__ adalah sebuah <i>library</i> Python berdasarkan Matplotlib. Seaborn menyediakan <i>high-level interface</i> untuk membuat grafik statistik yang menarik. Anda dapat mempelajari lebih lanjut tentang Seaborn <a href='https://seaborn.pydata.org/'>disini</a>.

Salah satu <i>method</i> pada Seaborn yang dapat digunakan untuk membuat <i>regression plot</i> adalah <code>regplot()</code>. Silahkan lihat dokumentasi <a href='https://seaborn.pydata.org/generated/seaborn.regplot.html'>Regplot</a> untuk mempelajarinya lebih lanjut.

Penggunaan <code>regplot()</code> cukup mudah. Setidaknya kita harus memberikan 3 argumen pada <code>regplot()</code>, yaitu:

* <code>x</code> : Untuk mendefinisikan data yang akan ditampilkan pada sumbu X.
* <code>y</code> : Untuk mendefinisikan data yang akan ditampilkan pada sumbu Y.
* <code>data</code> : Untuk mendefinisikan dataframe yang digunakan.

Perhatikan kode berikut.

In [None]:
# Membuat regression plot

ax = sns.regplot(x=df_year.index.values, y='suicides_no', data=df_year)

### Mengatur warna

Untuk mengatur warna, kita dapat menambahkan parameter <code>color</code> seperti di bawah ini.

In [None]:
# Mengatur warna pada regression plot

ax = sns.regplot(x=df_year.index.values, y='suicides_no', data=df_year, color='green')

### Mengatur ukuran figure

Ukuran yang lebih besar tentunya akan lebih baik dilihat dibanding yang kecil. Nah, kita dapat mengubah ukuran <i>figure</i> menggunakan Matplotlib karena Seaborn bekerja berdasarkan Matplotlib. Perhatikan kode berikut.

In [None]:
# Mengatur ukuran figure

plt.figure(figsize=(15, 10))
ax = sns.regplot(x=df_year.index.values, y='suicides_no', data=df_year, color='green')

### Mengganti jenis titik (marker)

Jika Anda bosan dengan bentuk <i>marker</i> yang berupa titik, Anda dapat menggantinya dengan menambahkan parameter <code>marker</code>. Lihat kode di bawah ini.

In [None]:
# Mengatur jenis marker

plt.figure(figsize=(15, 10))
ax = sns.regplot(x=df_year.index.values, y='suicides_no', data=df_year, color='green', marker='+')

### Mengubah ukuran marker

Jika dirasa ukuran <i>marker</i> terlalu kecil atau besar, Anda dapat mengubahnya dengan memberikan parameter <code>scatter_kws</code> yang diberikan nilai berupa dictionary. <i>Key</i> untuk mengatur ukuran marker adalah <code>'s'</code>, kemudian Anda tinggal memberikan nilai integer yang diinginkan sebagai ukurannya. Perhatikan kode berikut.

In [None]:
# Mengubah ukuran marker

plt.figure(figsize=(15, 10))
ax = sns.regplot(x=df_year.index.values, 
                 y='suicides_no', 
                 data=df_year, 
                 color='green', 
                 marker='+', 
                 scatter_kws={'s': 200})
plt.show()

### Mengatur ukuran huruf

Untuk mengatur ukuran huruf pada <i>ticks</i>, label, ataupun judul <i>plot</i>, kita dapat menggunakan <i>method</i> <code>set()</code> dari Seaborn dan memberikan argumen berupa parameter <code>font_scale</code>. 

In [None]:
# Mengatur ukuran huruf

plt.figure(figsize=(15, 10))

sns.set(font_scale=1.5)

ax = sns.regplot(x=df_year.index.values, 
                 y='suicides_no', 
                 data=df_year, 
                 color='green', 
                 marker='+', 
                 scatter_kws={'s': 200})

ax.set(xlabel='Year', ylabel="Number of Suicide Cases")
ax.set_title("Number of Suicide Cases Per Year")
plt.show()

### Mengatur background menjadi berwarna putih

Seperti yang kita lihat pada output dari blok kode sebelumnya, warna <i>background</i>-nya adalah abu-abu. Nah, jika Anda ingin mengubah warna <i>background</i> tersebut menjadi putih, Anda dapat menambahkan kode <code>sns.set_style('ticks')</code> seperti di bawah ini.

In [None]:
# Mengatur background menjadi berwarna putih

plt.figure(figsize=(15, 10))

sns.set(font_scale=1.5)
sns.set_style('ticks') # mengubah background menjadi berwarna putih

ax = sns.regplot(x=df_year.index.values, 
                 y='suicides_no', 
                 data=df_year, 
                 color='green', 
                 marker='+', 
                 scatter_kws={'s': 200})

ax.set(xlabel='Year', ylabel="Number of Suicide Cases")
ax.set_title("Number of Suicide Cases Per Year")
plt.show()

### Menambahkan gridlines

Terkadang adanya <i>gridlines</i> membuat <i>plot</i> terlihat lebih menarik. Untuk menambahkan <i>gridlines</i> pada <i>regression plot</i>, kita dapat menambahkan kode <code>sns.set_style('whitegrid')</code>.

In [None]:
# Menambahkan gridlines

plt.figure(figsize=(15, 10))

sns.set(font_scale=1.5)
sns.set_style('whitegrid')     # menambahkan gridlines

ax = sns.regplot(x=df_year.index.values, 
                 y='suicides_no', 
                 data=df_year, 
                 color='green', 
                 marker='+', 
                 scatter_kws={'s': 200})

ax.set(xlabel='Year', ylabel="Number of Suicide Cases")
ax.set_title("Number of Suicide Cases Per Year")
plt.show()

<hr>

Copyright @ <a href="https://ilmudatapy.com/">ilmudatapy.com</a>