<img src="../images/ilmudatapy-logo.png" width="350" align="center">
<br>

<center><h1>Bar Plot</h1></center>
<hr>

__Halo, Learners!__ Di notebook ini, kita akan membahas __Bar Plot__. Disini kita akan membuat <i>bar plot</i> menggunakan dataset asli, termasuk di antaranya membuat <i>horizontal bar chart</i>, <i>grouped bar chart</i>, dan <i>stacked bar chart</i>. Kita juga akan belajar cara menambahkan label di ujung bar, mengatur warna, serta menambahkan <i>error bar</i>.

<h2>Table of Contents</h2>
<div class="alert alert-block alert-info" style="margin-top: 25px">
    <ul>
        <li>
            Load Dataset
        </li>
        <li>
            Visualisasi data dengan <b>Bar Plot</b>
            <ul>
                <li>Mengatur warna</li>
                <li>Mengatur width</li>
                <li>Menambahkan label di ujung bar</li>
                <li>Error bars</li>
            </ul>
        </li>
        <li>
            Horizontal bar chart
        </li>
        <li>
            Grouped bar chart
        </li>
        <li>
            Stacked bar chart
        </li>
    </ul>
</div>

<hr>
<div class="alert alert-success" style="margin-top: 20px">
    <strong>Catatan:</strong> Untuk menjalankan kode program Python di Jupyter Notebook, klik pada <i>cell</i> yang ingin di-<i>run</i> lalu tekan <kbd>Shift</kbd> + <kbd>Enter</kbd>.
</div>

<div class="alert alert-danger" style="margin-top: 20px">
    <strong>Warning!:</strong> Jika ada kode program yang <i>error</i> atau output yang dihasilkan tidak sesuai, silahkan <b>Restart & Run All</b> kernel pada bagian menu <b>Kernel</b> di menu bar Jupyter Notebook, atau <b>Restart & Clear Output</b> kernel kemudian jalankan satu per satu <i>cell</i> secara berurutan dari atas ke bawah.
</div>
<hr>

## Load dataset

Dataset yang digunakan adalah dataset <a href='https://archive.ics.uci.edu/ml/datasets/automobile'>Automobile</a> yang berasal dari UCI Machine Learning Repository dengan informasi detail tentang tiap kolom (terurut dari awal sampai akhir) sebagai berikut:

__Attribute Information:__

1. __symboling:__ -3, -2, -1, 0, 1, 2, 3.
2. __normalized-losses:__ continuous from 65 to 256.
3. __make:__
alfa-romero, audi, bmw, chevrolet, dodge, honda,
isuzu, jaguar, mazda, mercedes-benz, mercury,
mitsubishi, nissan, peugot, plymouth, porsche,
renault, saab, subaru, toyota, volkswagen, volvo

4. __fuel-type:__ diesel, gas.
5. __aspiration:__ std, turbo.
6. __num-of-doors:__ four, two.
7. __body-style:__ hardtop, wagon, sedan, hatchback, convertible.
8. __drive-wheels:__ 4wd, fwd, rwd.
9. __engine-location:__ front, rear.
10. __wheel-base:__ continuous from 86.6 120.9.
11. __length:__ continuous from 141.1 to 208.1.
12. __width:__ continuous from 60.3 to 72.3.
13. __height:__ continuous from 47.8 to 59.8.
14. __curb-weight:__ continuous from 1488 to 4066.
15. __engine-type:__ dohc, dohcv, l, ohc, ohcf, ohcv, rotor.
16. __num-of-cylinders:__ eight, five, four, six, three, twelve, two.
17. __engine-size:__ continuous from 61 to 326.
18. __fuel-system:__ 1bbl, 2bbl, 4bbl, idi, mfi, mpfi, spdi, spfi.
19. __bore:__ continuous from 2.54 to 3.94.
20. __stroke:__ continuous from 2.07 to 4.17.
21. __compression-ratio:__ continuous from 7 to 23.
22. __horsepower:__ continuous from 48 to 288.
23. __peak-rpm:__ continuous from 4150 to 6600.
24. __city-mpg:__ continuous from 13 to 49.
25. __highway-mpg:__ continuous from 16 to 54.
26. __price:__ continuous from 5118 to 45400.

Pertama kita <i>import</i> dahulu <i>library</i> yang akan digunakan. Dalam praktek ini, kita akan menggunakan Pandas, Numpy, dan Matplotlib.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.style.use('ggplot')

%matplotlib inline

Selanjutnnya kita <i>load</i> dataset dengan <code>read_csv()</code> dan menyimpannya di dalam variabel <code>df</code>. Dataset ini belum memiliki nama kolom yang jelas, sehingga kita buat nama kolom yang mewakili data dari masing-masing kolom.

In [None]:
# list nama kolom
column_names = ['symboling', 'normalized-losses', 'make', 'fuel-type', 'aspiration', 'num-of-doors', 'body-style', 
              'drive-wheels', 'engine-location', 'wheel-base', 'length', 'width', 'height', 'curb-weight', 'engine-type',
              'num-of-cylinders', 'engine-size', 'fuel-system', 'bore', 'stroke', 'compression-ratio', 'horsepower',
              'peak-rpm', 'city-mpg', 'highway-mpg', 'price']

# read dataset
df = pd.read_csv('../datasets/automobile.data', names=column_names)

df.head()

Seperti yang kita lihat dari contoh dataframe <code>df</code>, ada beberapa <i>cell</i> yang mengandung <i>missing values</i> berupa simbol tanda tanya <code>?</code>. Oleh karena itu, kita harus menangani dulu <i>missing values</i> ini.

Pertama, kita harus mengubah dulu tanda <code>?</code> menjadi __NaN__.

In [None]:
# replace missing values '?' dengan NaN

df = df.replace('?', np.nan)
df.head()

Kemudian kita hapus data yang menganding NaN pada kolom <code>price</code> menggunakan <code>dropna()</code>. Sementara itu, untuk kolom lainnya, kita ganti nilai NaN dengan nilai tertentu seperti di bawah ini. Penjelasan tentang <i>missing values</i> yang lebih detail dapat Anda pelajari di modul <i>data preparation</i>, notebook <i>missing values</i>.

In [None]:
# Menghapus baris yang mengandung mising values di kolom price
df.dropna(subset=['price'], axis=0, inplace=True)

# Me-reset indeks karena ada data yang terhapus
df.reset_index(drop=True, inplace=True)

# Mengganti missing values dengan 'four' untuk kolom num-of-doors
df['num-of-doors'].fillna('four', inplace=True)

# Mengganti missing values dengan mean-nya untuk kolom lainnya
avg_norm = df['normalized-losses'].astype('float').mean(axis=0)
df['normalized-losses'].replace(np.nan, avg_norm, inplace=True)

avg_stroke = df['stroke'].astype('float').mean(axis=0)
df['stroke'].replace(np.nan, avg_stroke, inplace=True)

avg_bore = df['bore'].astype('float').mean(axis=0)
df['bore'].replace(np.nan, avg_bore, inplace=True)

avg_horse = df['horsepower'].astype('float').mean(axis=0)
df['horsepower'].replace(np.nan, avg_horse, inplace=True)

avg_peak = df['peak-rpm'].astype('float').mean(axis=0)
df['peak-rpm'].replace(np.nan, avg_norm, inplace=True)

df.head()

Selanjutnya kita ganti tipe datanya.

In [None]:
# Konversi tipe data

df[['bore', 'stroke', 'peak-rpm']] = df[['bore', 'stroke', 'peak-rpm']].astype('float')
df[['normalized-losses', 'horsepower']] = df[['normalized-losses', 'horsepower']].astype('int')
df[['price']] = df[['price']].astype('float')

Sekarang kita cek info dataframe <code>df</code> setelah penanganan <i>missing values</i>.

In [None]:
# Mengecek info dataframe

df.info()

<hr>

## Visualisasi data dengan Bar Plot

Dalam praktek kali ini, kita akan menggunakan kolom <code>make</code> untuk melihat total jumlah mobil dari masing-masing merek yang ada dalam dataframe tersebut.

Untuk memperoleh jumlah mobil atau data dari masing-masing merek, kita dapat menggunakan <i>method</i> <code>size()</code> dengan mengelompokkannya berdasarkan kolom <code>make</code>. Setelah itu, kita masukkan data tersebut menjadi sebuah dataframe baru, misalnya disini kita beri nama variabel dataframe baru dengan <code>df_tot</code>.

In [None]:
# Membuat dataframe total data untuk masing-masing merek mobil

group_make = df.groupby('make').size()
df_tot = pd.DataFrame(group_make).reset_index()
df_tot = df_tot.rename(columns={0: 'total'})
df_tot

Setelah dataframe siap, kita dapat memvisualisasikannya dengan <i>bar plot</i> seperti di bawah ini.

In [None]:
# Visualisasi dengan bar plot

plt.figure(figsize=(16,8))
plt.bar(df_tot['make'], df_tot['total'])

plt.title('Total for Each Make', size=18)
plt.xlabel('\nMake', size=14)
plt.ylabel('Total\n', size=14)
plt.xticks(size=14, rotation=90)
plt.yticks(size=14)
plt.show()

Kita dapat menggunakan <i>method</i> <code>bar()</code> dari Matplotlib yang diberi argumen berupa data yang akan dimasukkan ke sumbu x dan sumbu y. Dalam hal ini, kita menetapkan <code>df_tot['make']</code> sebagai sumbu x, dan <code>df_tot['total']</code> sebagai sumbu y.

### Mengatur warna

Untuk mengatur warna <i>bar</i>, kita dapat menambahkan parameter <code>color</code> dan memberikan nama warna yang diinginkan.

In [None]:
# Mengatur warna bar

plt.figure(figsize=(16,8))
plt.bar(df_tot['make'], df_tot['total'], color='green')

plt.title('Total for Each Make', size=18)
plt.xlabel('\nMake', size=14)
plt.ylabel('Total\n', size=14)
plt.xticks(size=14, rotation=90)
plt.yticks(size=14)
plt.show()

Selain dengan memberikan nama warnanya, kita juga dapat menggunakan kode warna <i>hexagonal</i> seperti di bawah ini.

In [None]:
# Menggunakan kode warna hexagonal

plt.figure(figsize=(16,8))
plt.bar(df_tot['make'], df_tot['total'], color='#c60cef')

plt.title('Total for Each Make', size=18)
plt.xlabel('\nMake', size=14)
plt.ylabel('Total\n', size=14)
plt.xticks(size=14, rotation=90)
plt.yticks(size=14)
plt.show()

### Mengatur width

Lebar dari <i>bar</i> juga dapat kita atur dengan menambahkan parameter <code>width</code> yang dapat kita berikan nilai berupa bilangan float antara 0 sampai 1. Misalnya di bawah ini kita mengatur <i>width</i> sebesar __0.9__.

In [None]:
# Mengatur width bar

plt.figure(figsize=(16,8))
plt.bar(df_tot['make'], df_tot['total'], width=0.9)

plt.title('Total for Each Make', size=18)
plt.xlabel('\nMake', size=14)
plt.ylabel('Total\n', size=14)
plt.xticks(size=14, rotation=90)
plt.yticks(size=14)
plt.show()

Sebagai perbandingan, mari kita coba berikan nilai __0.5__ untuk <i>width</i>-nya.

In [None]:
# Mengatur width bar

plt.figure(figsize=(16,8))
plt.bar(df_tot['make'], df_tot['total'], width=0.5)

plt.title('Total for Each Make', size=18)
plt.xlabel('\nMake', size=14)
plt.ylabel('Total\n', size=14)
plt.xticks(size=14, rotation=90)
plt.yticks(size=14)
plt.show()

Terlihat perbedaannya, bukan?

### Menambahkan label di ujung bar

Kita juga menambahkan label di ujung <i>bar</i>. Untuk menambahkan label, kita perlu menggunakan cara <i>explicit</i> yaitu dengan membuat <i>figure</i> dan <i>axes</i> karena agak rumit. Perhatikan kode di bawah ini.

In [None]:
fig, ax = plt.subplots(figsize=(16,8))

plot_data = ax.bar(df_tot['make'], df_tot['total'], color='#c60cef', width=0.85)

for rect in plot_data:
    height = rect.get_height()
    ax.annotate('{}'.format(height), 
                xy=(rect.get_x() + rect.get_width() / 2, height),
                xytext=(0, 2),  
                textcoords='offset points',
                ha='center', 
                va='bottom',
                fontsize=14)

plt.title('Total for Each Make', size=18)
plt.xlabel('\nMake', size=14)
plt.ylabel('Total\n', size=14)
plt.xticks(size=14, rotation=90)
plt.yticks(size=14)
plt.show()

Dari kode di atas untuk menambahkan label di atas masing-masing <i>bar</i>, kita dapat menggunakan <code>annotate()</code> yang diletakkan di dalam perulangan __for__. 

* <code>get_height()</code> digunakan untuk mendapatkan tinggi dari <i>bar</i>.
* <code>get_x()</code> digunakan untuk mendapatkan kooordinat kiri dari <i>bar</i>.
* <code>get_width()</code> digunakan untuk mendapatkan lebar dari <i>bar</i>.

Parameter dari <code>annotate()</code>.
* <code>xy</code> : Titik koordinat x,y atau titik dimana kita akan menuliskan label.
* <code>xytext</code> : Posisi penulisan label, <i>default</i>-nya adalah nilai <code>xy</code>.
* <code>textcoords</code> : Sistem koordinat, ada dua nilai yang dapat diberikan, yaitu __offset points__ atau __offset pixels__.
* <code>ha</code> : Horizontal Alignment
* <code>va</code> : Vertical Alignment
* <code>fontsize</code> : Ukuran huruf

Ada beberapa parameter lagi dari <code>annotate()</code> yang tidak digunakan di praktek ini, namun mungkin akan berguna untuk penggunaan lainnya.

### Error bars

Kita juga dapat menambahkan <i>error bars</i> di <i>bar plot</i>. Misalnya disini kita akan membuat <i>bar plot</i> nilai rata-rata <i>wheel base</i> untuk masing-masing merek mobil. Namun, kita juga ingin menambahkan <i>error bar</i> di setiap <i>bar</i>-nya yang berupa nilai standar deviasinya.

Pertama kita harus membuat dataframe baru yang terdiri dari 3 kolom, yaitu merek mobil, nilai <i>mean</i> untuk tiap merek, dan nilai std juga untuk tiap merek.

Sebelumnya kita harus mengelompokkan data berdasarkan kolom <code>make</code> yang menghitung nilai <code>mean</code> dan <code>std</code>-nya. Kemudian kita buat 2 dataframe, <code>df_mean</code> dan <code>df_std</code> dan <i>rename</i> nama kolomnya agar berbeda dan merepresentasikan data pada kolom tersebut.

In [None]:
# Mengelompokkan data berdasarkan 'make'
wheel_mean = df.groupby('make')['wheel-base'].mean()
wheel_std = df.groupby('make')['wheel-base'].std()

# Membuat dataframe mean dan std dari 'make'
df_mean = pd.DataFrame(wheel_mean).reset_index()
df_std = pd.DataFrame(wheel_std).reset_index()

# Rename kolom pada dataframe
df_mean = df_mean.rename(columns={'wheel-base': 'wheel-base-mean'})
df_std = df_std.rename(columns={'wheel-base': 'wheel-base-std'})

Selanjutnya setelah kita memiliki dua dataframe tersebut, kita dapat menggabungkannya menggunakan <code>merge()</code> seperti di bawah ini.

In [None]:
# Menggabungkan dataframe 

df_join = pd.merge(df_mean, df_std, on='make')
df_join

Setelah kita mendapatkan dataframe yang dibutuhkan, sekarang kita dapat membuat <i>bar plot</i> dengan menambahkan <i>error bar</i>. Untuk menambahkan <i>error bar</i>, kita dapat menambahkan parameter <code>yerr</code> pada <code>bar()</code> seperti di bawah ini.

In [None]:
# Membuat bar plot dengan error bar

plt.figure(figsize=(16,8))
plt.bar(df_join['make'], df_join['wheel-base-mean'], width=0.8, yerr=df_join['wheel-base-std'])

plt.title('Wheel Base for Each Make', size=18)
plt.xlabel('\nMake', size=14)
plt.ylabel('Wheel Base Mean\n', size=14)
plt.xticks(size=14, rotation=90)
plt.yticks(size=14)
plt.show()

<hr>

## Horizontal bar chart

Kita juga dapat membuat <i>horizontal bar chart</i>. Caranya mirip seperti membuat <i>vertical bar chart</i>, hanya saja berbeda <i>function</i> yang digunakan, yaitu menggunakan <code>barh()</code>. Perhatikan kode di bawah ini.

In [None]:
# Membuat horizontal bar chart

plt.figure(figsize=(16,12))
plt.barh(df_tot['make'], df_tot['total'], color='steelblue')

plt.title('Total for Each Make', size=18)
plt.xlabel('\nMake', size=14)
plt.ylabel('Total\n', size=14)
plt.xticks(size=14)
plt.yticks(size=12)
plt.show()

Kita juga dapat menambahkan label pada <i>horizontal bar chart</i> dengan menggunakan <code>annotate()</code> seperti di bawah ini.

In [None]:
# Membuat horizontal bar chart dengan label

plt.figure(figsize=(16,12))
plot_data = plt.barh(df_tot['make'], df_tot['total'], color='steelblue')

for index, value in enumerate(df_tot['total']): 
    plt.annotate(value, xy=(value+0.1, index), fontsize=12)

plt.title('Total for Each Make', size=18)
plt.xlabel('\nMake', size=14)
plt.ylabel('Total\n', size=14)
plt.xticks(size=14)
plt.yticks(size=12)
plt.show()

<hr>

## Grouped bar chart

Kita juga dapat membuat <i>grouped bar chart</i>. Misalnya kita ingin membuat <i>bar chart</i> dimana kita ingin menampilkan jumlah data untuk masing-masing <code>body-style</code> yang dikelompokkan juga berdasarkan <code>fuel-type</code>.

Pertama kita harus membuat dataframe baru untuk menampung data yang dibutuhkan. Disini, kita mengelompokkan data berdasarkan <code>body-style</code> dan <code>fuel-type</code> dan mengkalkulasi jumlahnya menggunakan <code>size()</code>. Setelah itu, kita buat dataframe dari pengelompokkan tersebut.

In [None]:
# Mengelompokkan data dan membuat dataframe

body_style = df.groupby(['body-style', 'fuel-type']).size()
df_body = pd.DataFrame(body_style).reset_index()
df_body = df_body.rename(columns={0: 'total'})
df_body

Kita perlu membuat list yang berisi nilai unik dari kolom <code>body-style</code> yang akan digunakan sebagai <i>xticklabels</i> nantinya.

In [None]:
# Membuat list nilai unik dari body-style

body = list(df_body['body-style'].unique())
body

Sekarang kita <i>filter</i> dataframe <code>df_body</code> untuk data dengan <code>fuel-type =='gas'</code> dan menyimpannya sebagai dataframe <code>gas</code>.

In [None]:
# Filter data dengan fuel-type == 'gas'

gas = df_body[df_body['fuel-type']=='gas'].sort_values(by='body-style').reset_index(drop=True)
gas

Lakukan hal yang sama untuk <code>fuel-type == 'diesel'</code>.

In [None]:
# Filter data dengan fuel-type == 'diesel'

diesel = df_body[df_body['fuel-type']=='diesel']
diesel

Jika kita lihat dari dataframe <code>diesel</code>, hanya ada 4 kategori <code>body-style</code>, sementara yang kita tahu ada 5 kategori. Jika dibiarkan, ini akan menjadi masalah perbedaan dimensi. Oleh karena itu, kita harus menambahkan data baru pada dataframe <code>diesel</code> yang menyatakan bahwa jenis __convertible__ dengan <i>fuel type</i> diesel berjumlah __0__. Perhatikan kode berikut.

In [None]:
# Menambahkan data baru pada dataframe diesel.

new_data = {'body-style': 'convertible', 'fuel-type': 'diesel', 'total': 0}
diesel = diesel.append(new_data, ignore_index=True).sort_values(by='body-style').reset_index(drop=True)
diesel

Sekarang kita telah memiliki dataframe yang dibutuhkan. Selanjutnya adalah visualisasi data. 

Untuk membuat <i>grouped bar chart</i>, kita mendefinisikan dua <i>bar plot</i> dalam satu <i>axes</i> yang kita simpan dalam variabel, misalnya <code>d1</code> dan <code>d2</code>. Kita juga perlu mendefinisikan panjang dari sumbu x, dalam hal ini ada berapa label pada sumbu x yang kita simpan pada variabel <code>x</code>. Selanjutnya kita juga harus mendefinisikan <i>width</i>-nya.

Untuk lebih jelasnya perhatikan kode berikut.

In [None]:
# Membuat grouped bar chart

x = np.arange(len(body))
width = 0.4
labels = body

fig, ax = plt.subplots(figsize=(16, 8))
d1 = ax.bar(x - width/2, gas['total'], width, label='Gas')
d2 = ax.bar(x + width/2, diesel['total'], width, label='Diesel')

ax.set_title('Total by Body Style and Fuel type', size=18)
ax.set_ylabel('Total', size=14)
ax.set_xticks(x)
ax.set_xticklabels(labels, size=14)
ax.legend(fontsize=16)

plt.show()

Kita dapat menambahkan label di atas tiap <i>bar</i>. Namun, untuk <i>grouped bar chart</i> akan lebih mudah jika kita membuat sebuah fungsi terpisah dari kode utama untuk menampilkan label. Kita tinggal memanggilnya saja di kode utama.

In [None]:
# Membuat fungsi untuk menampilkan label

def peaklabel(data):
    for rect in data:
        height = rect.get_height()
        ax.annotate('{}'.format(height), 
                    xy=(rect.get_x() + rect.get_width() / 2, height),
                    xytext=(0, 2), 
                    textcoords='offset points',
                    ha='center', 
                    va='bottom',
                    fontsize=14)

Sekarang kita buat kode seperti sebelumnya, namun ditambahkan dengan memanggil fungsi <code>peaklabel</code> untuk menampilkan label pada tiap <i>bar</i>.

In [None]:
# Membuat grouped bar chart dengan label

x = np.arange(len(body))
width = 0.4
labels = body

fig, ax = plt.subplots(figsize=(16, 8))
d1 = ax.bar(x - width/2, gas['total'], width, label='Gas')
d2 = ax.bar(x + width/2, diesel['total'], width, label='Diesel')

ax.set_title('Total by Body Style and Fuel type', size=18)
ax.set_ylabel('Total', size=14)
ax.set_xticks(x)
ax.set_xticklabels(labels, size=14)
ax.legend(fontsize=16)

peaklabel(d1)
peaklabel(d2)

plt.show()

<hr>

## Stacked bar chart

<i>Stacked bar chart</i> adalah <i>grouped bar chart</i> yang ditampilkan secara bersusun ke atas. Perhatikan kode berikut untuk cara membuatnya.

In [None]:
# Membuat stacked bar chart

x = np.arange(len(body))
labels = body

fig, ax = plt.subplots(figsize=(12, 8))
d1 = ax.bar(x, gas['total'], label='Gas')
d2 = ax.bar(x, diesel['total'], label='Diesel', bottom=gas['total'])

ax.set_title('Total by Body Style and Fuel type', size=18)
ax.set_ylabel('Total', size=14)
ax.set_xticks(x)
ax.set_xticklabels(labels, size=14)

ax.legend(fontsize=16)

plt.show()

Disini kita ingin meletakkan <i>bar</i> <code>d1</code> di bawah, sehingga kita tidak perlu menambahkan parameter apapun lagi. Sementara itu, untuk variabel <code>d2</code> kita harus menambahkan parameter <code>bottom</code> untuk mendefinisikan data apa yang ada di bawahnya.

<hr>

Copyright @ <a href="https://ilmudatapy.com/">ilmudatapy.com</a>