<img src="../images/ilmudatapy-logo.png" width="350" align="center">
<br>

<center><h1>Area Plot</h1></center>
<hr>

__Halo, Learners!__ Di notebook ini, kita akan membahas __Area Plot__. Disini kita akan membuat <i>area plot</i> menggunakan dataset asli, baik itu <i>stacked</i> atau <i>unstacked area plot</i>, serta 100% <i>stacked area plot.

<h2>Table of Contents</h2>
<div class="alert alert-block alert-info" style="margin-top: 25px">
    <ul>
        <li>
            Load Dataset
        </li>
        <li>
            Visualisasi data dengan <b>Area Plot</b>
            <ul>
                <li>Mengatur warna</li>
                <li>Mengatur transparansi</li>
            </ul>
        </li>
        <li>
            Unstacked Area Plot
        </li>
        <li>
            100% Stacked Area Plot
        </li>
    </ul>
</div>

<hr>
<div class="alert alert-success" style="margin-top: 20px">
    <strong>Catatan:</strong> Untuk menjalankan kode program Python di Jupyter Notebook, klik pada <i>cell</i> yang ingin di-<i>run</i> lalu tekan <kbd>Shift</kbd> + <kbd>Enter</kbd>.
</div>

<div class="alert alert-danger" style="margin-top: 20px">
    <strong>Warning!:</strong> Jika ada kode program yang <i>error</i> atau output yang dihasilkan tidak sesuai, silahkan <b>Restart & Run All</b> kernel pada bagian menu <b>Kernel</b> di menu bar Jupyter Notebook, atau <b>Restart & Clear Output</b> kernel kemudian jalankan satu per satu <i>cell</i> secara berurutan dari atas ke bawah.
</div>
<hr>

## Load dataset

Dataset yang akan digunakan untuk praktek kali ini adalah dataset <a href='https://www.kaggle.com/vaishnavivenkatesan/world-population'>World Population</a> dari tahun 1960 - 2019.

__Feature Information:__

* __Country Name__ : Nama negara, termasuk benua dan kriteria lainnya yang dianalisis.
* __Country Code__ : Kode negara atau lainnya yang dianalisis.
* __Indicator Name__ : Indikator data
* __1960 - 2019__ : Data total populasi pada tahun tersebut (1960 - 2019).

Pertama kita <i>import</i> dulu <i>library</i> yang dibutuhkan seperti Pandas, Numpy, dan Matplotlib.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

plt.style.use('fivethirtyeight')

%matplotlib inline

Selanjutnya kita <i>load</i> dataset ke dalam dataframe Pandas dengan <code>read_csv()</code>.

In [None]:
# Load dataset dan menampilkan 10 data pertama

df = pd.read_csv("../datasets/world-population.csv")
df.head(10)

Agar lebih mudah dalam pengindeksan, kita akan mengatur <code>Country Name</code> menjadi indeks dengan <code>set_index()</code>.

In [None]:
# Set 'Country Name' menjadi indeks

df.set_index('Country Name', inplace=True)
df.head()

Dalam praktek kali ini, saya akan memvisualisasikan data top 5 negara dengan populasi terbanyak, jadi kita harus membuat dataframe baru untuk menampung data tersebut. Sebenarnya kita dapat men-<i>sorting</i> total populasi yang pada kolom <code>2019</code>, namun setelah diteliti dataset tersebut tidak hanya menghitung total populasi tiap negara tetapi juga benua dan kriteria lainnya. Oleh karena itu, kita tidak dapat menggunakan <i>sorting</i> untuk mengambil data top 5 populasi terbanyak.

Alternatifnya, kita harus mencari tahu apa 5 negara dengan populasi terbanyak di dunia, baik dengan teknik lain dari dataset tersebut ataupun langsung mencari tahunya di sumber lain. Disini, saya asumsikan 5 negara dengan total populasi terbanyak adalah __China__, __India__, __United States__, __Indonesia__, dan __Pakistan__.

Kemudian kita masukkan daftar negara tersebut ke dalam list, dan mem-<i>filter</i>-nya menggunakan <code>loc</code> seperti kode di bawah ini.

In [None]:
# Membuat list negara top 5
countries = ['China', 'India', 'United States', 'Indonesia', 'Pakistan']

# Memfilter dataframe dan memasukkannya ke dalam variabel baru df_top5
df_top5 = df.loc[countries, :]
df_top5

Lalu disini saya membuat list tahun dari 1960 - 2019 yang akan digunakan untuk memfilter kolom.

In [None]:
# Membuat list tahun

years = list(map(str, range(1960, 2020)))
print(years)

Selanjutnya <code>df_top5</code> tadi kita <i>filter</i> dengan hanya mengambil kolom tahun, lalu men-<i>transpose</i>-nya.

In [None]:
# Filter dan transpose dataframe df_top5

df_top5 = df_top5[years].transpose()
df_top5.head()

Sekarang dataframe telah siap untuk divisualisasikan dengan <i>Area Plot</i>.

<hr>

## Visualisasi data dengan Area Plot

Kita dapat membuat <i>area plot</i> dengan <code>stackplot()</code>. Untuk argumennya, kita harus memasukkan indeks dan kolom, serta parameter label untuk membuat <i>legend</i>. Perhatikan kode berikut.

In [None]:
# Membuat area plot dengan stackplot()

plt.figure(figsize=(14, 8))
plt.stackplot(df_top5.index, 
              [df_top5['China'], df_top5['India'], df_top5['United States'], df_top5['Indonesia'], df_top5['Pakistan']],
              labels=['China', 'India', 'United States', 'Indonesia', 'Pakistan'])

plt.title('Top 5 World Population', size=18)
plt.xlabel('\nYear', size=14)
plt.ylabel('Total Population\n', size=14)
plt.xticks(rotation=90)
plt.yticks(size=14)
plt.legend(fontsize=14, loc='upper left')
plt.margins(0,0)

plt.show()

Ada cara lain yang lebih <i>simple</i> untuk membuat <i>area plot</i> yaitu dengan menggunakan <code>plot()</code> dan menambahkan parameter <code>kind = 'area'</code> sebagai argumennya. Perhatikan kode berikut.

In [None]:
# Membuat area plot menggunakan plot()

df_top5.plot(kind='area', figsize=(14,8))

plt.title('Top 5 World Population', size=18)
plt.xlabel('\nYear', size=14)
plt.ylabel('Total Population\n', size=14)
plt.xticks(size=14)
plt.yticks(size=14)
plt.legend(fontsize=14)
plt.show()

### Mengatur warna

Sama seperti pengaturan warna dalam visualisasi data lainnya, kita dapat menggunakan parameter <code>color</code> untuk mengatur warna.

In [None]:
# Mengatur warna area plot

colors = ['magenta', 'purple', 'steelblue', 'green', 'lime']

df_top5.plot(kind='area', figsize=(14,8), color=colors)

plt.title('Top 5 World Population', size=18)
plt.xlabel('\nYear', size=14)
plt.ylabel('Total Population\n', size=14)
plt.xticks(size=14)
plt.yticks(size=14)
plt.legend(fontsize=14)
plt.show()

Kita juga dapat menggunakan <i>colormap</i> atau __cmap__. Misalnya disini kita menggunakan <code>cmap = 'plasma'</code>. Jenis <i>colormap</i> dapat dilihat pada website Matplotlib.

In [None]:
# Mengatur warna dengan cmap

df_top5.plot(kind='area', figsize=(14,8), cmap='plasma')

plt.title('Top 5 World Population', size=18)
plt.xlabel('\nYear', size=14)
plt.ylabel('Total Population\n', size=14)
plt.xticks(size=14)
plt.yticks(size=14)
plt.legend(fontsize=14)
plt.show()

### Mengatur transparansi

Kita dapat mengatur transparansi <i>area plot</i> dengan menambahkan parameter <code>alpha</code>. Misalnya disini kita memberikan nilai <code>alpha = 0.5</code>.

In [None]:
# Mengatur transparansi area plot

df_top5.plot(kind='area', figsize=(14,8), cmap='plasma', alpha=0.5)

plt.title('Top 5 World Population', size=18)
plt.xlabel('\nYear', size=14)
plt.ylabel('Total Population\n', size=14)
plt.xticks(size=14)
plt.yticks(size=14)
plt.legend(fontsize=14)
plt.show()

Mari kita bandingkan hasilnya jika kita memberikan nilai <code>alpha = 0.8</code>.

In [None]:
# Mengatur transparansi area plot dengan alpha = 0.8

df_top5.plot(kind='area', figsize=(14,8), cmap='plasma', alpha=0.8)

plt.title('Top 5 World Population', size=18)
plt.xlabel('\nYear', size=14)
plt.ylabel('Total Population\n', size=14)
plt.xticks(size=14)
plt.yticks(size=14)
plt.legend(fontsize=14)
plt.show()

<hr>

## Unstacked Area Plot

Contoh-contoh <i>area plot</i> sebelumnya memperlihatkan <i>stacked area plot</i> (<i>default</i>-nya <code>stacked = True</code>) yang berarti <i>area plot</i> untuk masing-masing kategori menumpuk dengan data pertama dalam dataframe adalah yang terbawah di <i>area plot</i>.

Nah, bagaimana jika kita tidak ingin membuat <i>area plot</i> yang menumpuk seperti itu?

Jika kita ingin membuat <i>unstacked area plot</i>, kita dapat menambahkan parameter <code>stacked = False</code>. Perhatikan kode berikut.

In [None]:
# Membuat unstacked area plot

df_top5.plot(kind='area', figsize=(14,8), cmap='plasma', alpha=0.5, stacked=False)

plt.title('Top 5 World Population', size=18)
plt.xlabel('\nYear', size=14)
plt.ylabel('Total Population\n', size=14)
plt.xticks(size=14)
plt.yticks(size=14)
plt.legend(fontsize=14)
plt.show()

Mari kita lihat contoh <i>unstacked area plot</i> lain dengan warna berbeda.

In [None]:
# Unstacked area plot 

colors = ['magenta', 'purple', 'steelblue', 'green', 'lime']

df_top5.plot(kind='area', figsize=(14,8), color=colors, stacked=False)

plt.title('Top 5 World Population', size=18)
plt.xlabel('\nYear', size=14)
plt.ylabel('Total Population\n', size=14)
plt.xticks(size=14)
plt.yticks(size=14)
plt.legend(fontsize=14)
plt.show()

<hr>

## 100% Stacked Area Plot

Kita juga dapat membuat <i>100% stacked area plot</i>. Apa maksudnya <i>100% stacked area plot</i>?

Jadi <i>area plot</i> yang akan ditampilkan berupa <i>full area</i>. Perhatikan contoh berikut.

Untuk membuat <i>100% stacked area plot</i>, kita perlu membagi dataframe terlebih dahulu. Perhatikan kode berikut. Misalnya disini kita menggunakan <i>method</i> <code>stackplot()</code> untuk membuat <i>area plot</i>.

In [None]:
# Membuat 100% stacked area plot

plt.figure(figsize=(14,8))

df_full = df_top5.divide(df_top5.sum(axis=1), axis=0)

plt.stackplot(df_full.index,
              [df_full['China'], df_full['India'],
               df_full['United States'], df_full['Indonesia'], df_full['Pakistan']],
              labels=['China', 'India', 'United States', 'Indonesia', 'Pakistan'],
              alpha=0.8)

plt.title('Top 5 World Population', size=18)
plt.xlabel('\nYear', size=14)
plt.ylabel('Total Population\n', size=14)
plt.xticks(rotation=90)
plt.yticks(size=14)
plt.legend(fontsize=14)
plt.margins(0,0)
plt.show()

Kita juga dapat menggunakan <code>plot()</code> untuk membuat <i>100% stacked area plot</i> seperti di bawah ini.

In [None]:
# Membuat 100% stacked area plot

df_full_top5 = df_top5.divide(df_top5.sum(axis=1), axis=0)

df_full_top5.plot(kind='area', figsize=(14,8), cmap='plasma', alpha=0.5)

plt.title('Top 5 World Population', size=18)
plt.xlabel('\nYear', size=14)
plt.ylabel('Total Population\n', size=14)
plt.xticks(size=14)
plt.yticks(size=14)
plt.legend(fontsize=14)

plt.show()

<hr>

Copyright @ <a href="https://ilmudatapy.com/">ilmudatapy.com</a>