<img src="../images/ilmudatapy-logo.png" width="350" align="center">
<br>

<center><h1>Line Plot</h1></center>
<hr>

__Halo, Learners!__ Di notebook ini, kita akan membahas __Line Plot__. Disini kita akan membuat <i>line plot</i> menggunakan dataset asli dengan menerapkan beberapa teknik data preparation yang dibutuhkan sebelum visualisasi data. Kita juga akan mempraktekkan cara mengatur ukuran <i>figure</i>, label, <i>linestyle</i>, dan sebagainya.

<h2>Table of Contents</h2>
<div class="alert alert-block alert-info" style="margin-top: 25px">
    <ul>
        <li>
            Load Dataset
        </li>
        <li>
            Visualisasi data dengan <b>Line Plot</b>
            <ul>
                <li>Single line</li>
                <li>Multiple line</li>
            </ul>
        </li>
        <li>
            Pengaturan dasar
            <ul>
                <li>Figure size</li>
                <li>Title</li>
                <li>Label</li>
                <li>Ticks</li>
                <li>Legend</li>
                <li>Line color</li>
                <li>Line style</li>
                <li>Line width</li>
            </ul>
        </li>
    </ul>
</div>

<hr>
<div class="alert alert-success" style="margin-top: 20px">
    <strong>Catatan:</strong> Untuk menjalankan kode program Python di Jupyter Notebook, klik pada <i>cell</i> yang ingin di-<i>run</i> lalu tekan <kbd>Shift</kbd> + <kbd>Enter</kbd>.
</div>

<div class="alert alert-danger" style="margin-top: 20px">
    <strong>Warning!:</strong> Jika ada kode program yang <i>error</i> atau output yang dihasilkan tidak sesuai, silahkan <b>Restart & Run All</b> kernel pada bagian menu <b>Kernel</b> di menu bar Jupyter Notebook, atau <b>Restart & Clear Output</b> kernel kemudian jalankan satu per satu <i>cell</i> secara berurutan dari atas ke bawah.
</div>
<hr>

## Load dataset

Dataset yang digunakan adalah dataset <a href='https://www.kaggle.com/szamil/who-suicide-statistics'>WHO Suicide Statistics</a> yang terdiri dari 43776 baris dan 6 kolom.

__Feature Information:__

* __country :__ nama negara yang terdata
* __year :__ tahun
* __sex :__ jenis kelamin 
* __age :__ rentang usia
* __suicides_no :__ jumlah orang yang melakukan bunuh diri
* __population :__ populasi penduduk 

Pertama kita <i>import</i> dahulu <i>library</i> yang akan digunakan. Dalam praktek ini, kita akan menggunakan Pandas dan Matplotlib.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

Kemudian kita <i>load</i> dataset menggunakan <code>read_csv()</code> dan menyimpannya dalam variabel <code>df</code>.

In [None]:
df = pd.read_csv("../datasets/who_suicide_statistics.csv")
df.head(10)

Sekarang kita lakukan pengecekan.

In [None]:
df.info()

Dari informasi di atas, kolom <code>suicides_no</code> dan <code>population</code> bertipe float, padahal itu mengandung bilangan integer. Karena itu kita akan mengubah tipe data <code>suicides_no</code> menjadi <code>Int64</code>. Sementara itu, kolom <code>populasi</code> kita akan membiarkannya karena tidak akan digunakan dalam praktek ini.

In [None]:
# Mengubah tipe data kolom suicides_no

df['suicides_no'] = df['suicides_no'].astype('Int64')
df['suicides_no'].dtypes

Sekarang tipe data sudah berubah menjadi Int64.

<hr>

## Visualisasi data dengan Line Plot

Sebelumnya mari definisikan sedikit apa itu <i>line plot</i> ?

__Line plot__ atau <i>line chart</i> adalah jenis plot yang menampilkan informasi berupa rangkaian titik data yang terhubung dengan segmen garis lurus. Line plot merupakan jenis plot dasar dalam visualisasi data. Plot jenis ini dapat digunakan pada dataset yang memiliki nilai kontinu untuk melihat pergerakan data dari waktu ke waktu.

Sekarang mari kita mencoba melakukan visualisasi data dengan <i>line plot</i>. Disini kita akan mencoba <i>plotting</i> menggunakan satu data dan beberapa data atau kategori.

### Single line

Misalnya kita ingin menampilkan grafik jumlah orang yang melakukan bunuh diri setiap tahunnya di dunia. Sebelumnya kita harus membuat dataframe baru yang menyediakan data tersebut.

Dari dataframe <code>df</code> di atas, kita akan melakukan <i>grouping</i> berdasarkan tahun atau kolom <code>year</code> dan menampilkan jumlah total orang yang melakukan bunuh diri atau kolom <code>suicides_no</code> menggunakan agregasi <code>sum</code>.

Perhatikan kode berikut.

In [None]:
# Grouping data

df_year = df.groupby(['year'])[['suicides_no']].sum()
df_year

Sekarang kita telah mendapatkan data yang diperlukan. Indeks dari dataframe <code>df_year</code> adalah tahun atau <code>year</code>.

Jika kita lihat dari dataframe <code>df_year</code> di atas, baris dengan indeks __2016__ sangat sedikit jumlahnya dan dirasa tidak sesuai dengan tahun-tahun sebelumnya. Kemungkinan karena tidak semua negara telah memiliki data <i>suicides</i> pada tahun tersebut dan melaporkannya. Oleh karena itu, kita akan menghapus data tersebut karena merupakan <i>outliers</i>.

In [None]:
# Menghapus baris 2016

df_year = df_year.drop(2016, axis=0)
df_year.tail()

Sekarang saatnya kita membuat <i>line plot</i>.

Di Pandas, kita dapat dengan mudah membuat <i>line plot</i> dengan <i>method</i> <code>plot()</code> yang sudah disediakan oleh Python. Kita hanya perlu memasukkan dua nilai/data sebagai sumbu <code>x</code> dan <code>y</code> di dalam tanda kurung <code>()</code>.

Perhatikan contoh berikut.

In [None]:
# Plotting dengan Pandas

df_year.plot()

Jika menggunakan Pandas, kita hanya perlu menuliskan variabel dataframe/series-nya yang diikuti oleh <i>method</i> <code>.plot()</code>.

Bagaimana jika ingin menggunakan Matplotlib untuk menampilkan visualisasinya?

Pertama kita harus definisikan dahulu nilai x dan y. Disini untuk axis x akan ditempati oleh indeks <code>df_year</code>, sedangkan untuk axis y akan ditempati oleh <code>df_year['suicides_no']</code>. Dalam beberapa kasus, kita mungkin dapat langsung mendefinisikannya tanpa mengubahnya menjadi list. Namun, untuk mengantisipasi <i>error</i> yang mungkin terjadi, sebaiknya kita ubah dulu menjadi list seperti di bawah ini. 

__FYI:__ Awalnya saya tidak mengubahnya menjadi list, namun beberapa hari kemudian saat saya coba jalankan lagi notebook ini malah terjadi <i>error</i> di bagian ini.

In [None]:
# Mendefinisikan nilai x dan y

x = list(df_year.index)
y = list(df_year['suicides_no'])

Setelah itu kita buat plotnya dengan Matplotlib menggunakan cara <i>implicit</i> seperti di bawah ini.

In [None]:
# Visualisasi data dengan Matplotlib

plt.plot(x, y)

<code>df_year.index</code> yang dalam hal ini adalah tahunnya, menjadi sumbu <code>x</code>, sedangkan <code>df_year['suicides_no']</code> atau kolom yang berisi jumlah orang yang melakukan bunuh diri, menjadi sumbu <code>y</code>.

### Multiple line

Sekarang kita akan mencoba mempraktekkan <i>plotting</i> beberapa data. Jadi nanti dalam satu gambar ada beberapa garis yang mewakili masing-masing kategori.

Misalnya kita ingin menampilkan grafik data orang yang melakukan bunuh dari dari negara-negara tertentu pada rentang tahun tertentu. Disini kita akan ambil negara <code>Australia</code>, <code>Japan</code>, <code>Republic of Korea</code>, <code>United Kingdom</code>, dan <code>United States of America</code>. Sementara tahunnya, kita akan ambil dari tahun __2006__ hingga __2015__.

Pertama, kita buat dua buah kondisi untuk memilih <code>country</code> dan <code>year</code> seperti di bawah ini. Tanda <code>|</code> merupakan simbol <code>or</code> alias __'atau'__.

In [None]:
# Membuat kondisi

con_countries = (df['country']=='Australia') | (df['country']=='Japan') | (df['country']=='Republic of Korea') |     \
                (df['country']=='United Kingdom') | (df['country']=='United States of America')

con_years = (df['year']==2006) | (df['year']==2007) | (df['year']==2008) | (df['year']==2009) | (df['year']==2010) |   \
            (df['year']==2011) | (df['year']==2012) | (df['year']==2013) | (df['year']==2014) | (df['year']==2015)

Setelah membuat kondisi, sekarang coba kita lihat dataframe yang di-<i>filter</i> dengan kondisi tersebut. Misalnya kita akan menyimpan hasil <i>filter</i> tersebut ke dalam variabel <code>df_choice</code>. Jangan lupa untuk me-<i>reset</i> indeks dari dataframe tersebut.

In [None]:
# Membuat dataframe yang di-filter dengan kondisi

df_choice = df[con_countries & con_years].reset_index(drop=True)
df_choice

Sekarang kita telah mendapatkan dataframe yang dibutuhkan. Selanjutnya untuk memudahkan proses visualisasi dengan <i>line plot</i>, kita perlu mentransformasi dataframe di atas menjadi bentuk <i>pivot table</i> menggunakan <i>method</i> <code>pivot_table()</code> dari Python.

In [None]:
# Tranformasi menjadi pivot table

pivot_choice = df_choice.pivot_table(index='year', columns='country', values='suicides_no', aggfunc='sum')
pivot_choice

Ada beberapa parameter yang kita gunakan pada kode di atas untuk membuat <i>pivot table</i>.

* <code>index</code> untuk menentukan fitur/kolom yang akan menjadi indeksnya, 
* <code>columns</code> untuk menentukan fitur yang akan menjadi kolom, 
* <code>values</code> untuk menentukan fitur yang akan dijadikan nilai dari dataframe, dan 
* <code>aggfunc</code> adalah metode agregasi apa yang akan digunakan untuk memproses <i>values</i>.

Dari kode di atas, kita menjadikan <code>year</code> sebagai indeks dan <code>country</code> sebagai kolom. Sementara itu, nilainya sudah pasti adalah <code>suicides_no</code> dengan agregasi <code>sum</code> karena kita ingin mengetahui total jumlahnya.

Setelah mendapatkan bentuk dataframe yang ideal, sekarang mari kita melakukan <i>plotting</i>.

In [None]:
# Plotting data

pivot_choice.plot(kind='line')

Sekarang kita sudah mendapatkan visualisasi yang diinginkan. 

Namun seperti yang kita lihat, gambar visualisasi tersebut masih sangat sederhana. Ukurannya adalah ukuran <i>default</i>. Nah, untuk mengatur serta menambahkan beberapa komponen pada grafik tersebut, kita dapat menambahkan beberapa pengaturan.

<hr>

## Pengaturan dasar

Ada banyak <i>method</i> di Matplotlib yang dapat digunakan untuk mempercantik visualisasi data kita. Disini kita akan membahas beberapa <i>method</i> dasar untuk mengatur visualisasi data kita.

### Figure Size

Yang pertama adalah cara mengatur ukuran <i>figure</i>. Kita dapat dengan mudah mengatur ukuran <i>figure</i> dengan parameter <code>figsize</code> yang dapat diberikan nilai berupa tuple yang terdiri dari dua bilangan untuk mendefinisikan lebar dan tingginya.

Misalnya kita ingin memperbesar grafik kita dengan mengatur <i>figure size</i>-nya menjadi <code>figsize=(16, 8)</code>.

In [None]:
# Contoh pengaturan figure size

plt.style.use('ggplot')    # style matplotlib

# Mengatur figure size
pivot_choice.plot(kind='line', figsize=(16, 8))

plt.show()

### Title

Untuk menambahkan <i>title</i> atau judul di visualisasi data kita, kita dapat menggunakan <i>method</i> <code>.title()</code> pada Matplotlib <code>plt</code>.

In [None]:
# Contoh pengaturan title

plt.style.use('ggplot')    # style matplotlib

pivot_choice.plot(kind='line', figsize=(16, 8))

# Mengatur judul grafik
plt.title('WHO Suicide Statistics\n', size=25)

plt.show()

### Label

Kita juga dapat memberikan label sebagai keterangan sumbu <code>x</code> dan <code>y</code> menggunakan <i>method</i> <code>.xlabel()</code> dan <code>.ylabel()</code>.

* <code>.xlabel()</code> untuk memberikan label pada sumbu <code>x</code>.
* <code>.ylabel()</code> untuk memberikan label pada sumbu <code>y</code>.

Kita juga dapat mengatur ukuran hurufnya dengan menambahkan parameter <code>size</code>.

In [None]:
# Contoh pengaturan label

plt.style.use('ggplot')    # style matplotlib

pivot_choice.plot(kind='line', figsize=(16, 8))
plt.title('WHO Suicide Statistics\n', size=25)

# Mengatur label pada sumbu x dan y
plt.ylabel('Number of Suicide', size=20)
plt.xlabel('Years', size=20)

plt.show()

### Ticks

Untuk mengatur ukuran dari <i>ticks</i>, kita dapat menggunakan <code>.xticks()</code> dan <code>.yticks()</code> dengan memberikan parameter <code>size</code>. Perhatikan kode berikut.

In [None]:
# Contoh pengaturan ticks

plt.style.use('ggplot')    # style matplotlib

pivot_choice.plot(kind='line', figsize=(16, 8))
plt.title('WHO Suicide Statistics\n', size=25)
plt.ylabel('Number of Suicide', size=20)
plt.xlabel('Years', size=20)

# Mengatur xticks dan yticks
plt.xticks(size=16)
plt.yticks(size=16)

plt.show()

### Legend

<i>Legend</i> juga dapat kita atur ukurannya menggunakan <code>.legend()</code> seperti di bawah ini.

In [None]:
# Contoh pengaturan legend

plt.style.use('ggplot')    # style matplotlib

pivot_choice.plot(kind='line', figsize=(16, 8))
plt.title('WHO Suicide Statistics\n', size=25)
plt.ylabel('Number of Suicide', size=20)
plt.xlabel('Years', size=20)
plt.xticks(size=16)
plt.yticks(size=16)

# Mengatur legend
plt.legend(prop={'size': 14})

plt.show()

Jika tidak di-<i>set</i>, posisi <i>legend</i> akan otomatis mencari <i>space</i> yang kosong sehingga tidak menutupi <i>line</i>.

### Line color

Kita dapat mengatur <i>line color</i> atau warna garisnya dengan menambahkan parameter <code>color</code> atau dapat disingkat dengan <code>c</code>. Jadi misalnya kita ingin warna garisnya __orange__, maka kita dapat menambahkan <code>color = 'orange'</code> atau <code>c = 'orange'</code>.

In [None]:
# Contoh pengaturan line color

plt.figure(figsize=(16, 8))      # Mengatur figsize dengan Matplotlib

# Mengatur line color
plt.plot(x, y, color='orange')

plt.title('WHO Suicide Statistics Globally', size=25)
plt.ylabel('Number of Suicide', size=20)
plt.xlabel('Years', size=20)
plt.xticks(size=16)
plt.yticks(size=16)

plt.show()

Selain langsung menuliskan nama warnanya, kita juga dapat menggunakan kode warna <i>hexadecimal</i>.

In [None]:
# Contoh pengaturan line color

plt.figure(figsize=(16, 8))

# Mengatur line color dengan kode warna hexadecimal
plt.plot(x, y, c='#00b85a')

plt.title('WHO Suicide Statistics Globally', size=25)
plt.ylabel('Number of Suicide', size=20)
plt.xlabel('Years', size=20)
plt.xticks(size=16)
plt.yticks(size=16)

plt.show()

### Line style

Untuk mengatur jenis garis, kita dapat menggunakan parameter <code>linestyle</code> atau <code>ls</code>. Misalnya jika ingin menampilkan garis putus-putus, kita dapat menambahakan <code>linestyle = 'dashed'</code>.

In [None]:
# Contoh pengaturan line style

plt.figure(figsize=(16, 8))

# Mengatur line style
plt.plot(x, y, linestyle='dashed')

plt.title('WHO Suicide Statistics Globally', size=25)
plt.ylabel('Number of Suicide', size=20)
plt.xlabel('Years', size=20)
plt.xticks(size=16)
plt.yticks(size=16)

plt.show()

Kita juga dapat menggunakan simbol <code>'--'</code> untuk menampilkan garis putus-putus.

In [None]:
# Contoh pengaturan line style

plt.figure(figsize=(16, 8))

# Mengatur line style dengan simbol 
plt.plot(x, y, ls='--')

plt.title('WHO Suicide Statistics Globally', size=25)
plt.ylabel('Number of Suicide', size=20)
plt.xlabel('Years', size=20)
plt.xticks(size=16)
plt.yticks(size=16)

plt.show()

### Line width

Ketebalan garis juga dapat kita atur. Caranya yaitu dengan memberikan parameter <code>linewidth</code> atau <code>lw</code>, dimana nilai yang berisi bilaingan float.

In [None]:
# Contoh pengaturan line width

plt.figure(figsize=(16, 8))

# Mengatur line width
plt.plot(x, y, linewidth='5')

plt.title('WHO Suicide Statistics Globally', size=25)
plt.ylabel('Number of Suicide', size=20)
plt.xlabel('Years', size=20)
plt.xticks(size=16)
plt.yticks(size=16)

plt.show()

Kita juga dapat menggunakan <code>lw</code>.

In [None]:
# Contoh pengaturan line width

plt.figure(figsize=(16, 8))

# Mengatur line width
plt.plot(x, y, lw='15.5')

plt.title('WHO Suicide Statistics Globally', size=25)
plt.ylabel('Number of Suicide', size=20)
plt.xlabel('Years', size=20)
plt.xticks(size=16)
plt.yticks(size=16)

plt.show()

### Marker

Kita juga dapat menambahkan tanda pada setiap titik di <i>line plot</i> dengan parameter <code>marker</code>. Misalnya disini kita ingin garisnya berupa lingkaran-lingkaran kecil.

In [None]:
# Contoh pengaturan marker

plt.figure(figsize=(16, 8))

# Mengatur marker
plt.plot(x, y, marker='o')

plt.title('WHO Suicide Statistics Globally', size=25)
plt.ylabel('Number of Suicide', size=20)
plt.xlabel('Years', size=20)
plt.xticks(size=16)
plt.yticks(size=16)

plt.show()

Contoh di bawah ini adalah <i>line plot</i> dengan marker berupa kotak persegi.

In [None]:
# Contoh pengaturan marker

plt.figure(figsize=(16, 8))

# Mengatur marker
plt.plot(x, y, marker='s')

plt.title('WHO Suicide Statistics Globally', size=25)
plt.ylabel('Number of Suicide', size=20)
plt.xlabel('Years', size=20)
plt.xticks(size=16)
plt.yticks(size=16)

plt.show()

<hr>

Copyright @ <a href="https://ilmudatapy.com/">ilmudatapy.com</a>