<img src="../images/ilmudatapy-logo.png" width="350" align="center">
<br>

<center><h1>Heatmap</h1></center>
<hr>

__Halo, Learners!__ Di notebook ini, kita akan membahas __Heatmap__. Disini kita akan membuat <i>heatmap</i> menggunakan dataset asli dengan <i>library</i> __Matplotlib__ dan __Seaborn__. Kita akan melakukan perbandingan mana yang lebih mudah dan efektif digunakan.

<h2>Table of Contents</h2>
<div class="alert alert-block alert-info" style="margin-top: 25px">
    <ul>
        <li>
            Load Dataset
        </li>
        <li>
            Membuat Heatmap dengan Seaborn
            <ul>
                <li>Menambahkan teks label</li>
                <li>Menambahkan grid lines</li>
                <li>Menghapus label axis X atau Y</li>
                <li>Menghilangkan colorbar</li>
                <li>Mengatur warna</li>
                <li>Melihat korelasi antarkolom dengan Heatmap</li>
            </ul>
        </li>
        <li>
            Membuat Heatmap dengan Matplotlib
            <ul>
                <li>Menambahkan teks label</li>
            </ul>
        </li>
    </ul>
</div>

<hr>
<div class="alert alert-success" style="margin-top: 20px">
    <strong>Catatan:</strong> Untuk menjalankan kode program Python di Jupyter Notebook, klik pada <i>cell</i> yang ingin di-<i>run</i> lalu tekan <kbd>Shift</kbd> + <kbd>Enter</kbd>.
</div>

<div class="alert alert-danger" style="margin-top: 20px">
    <strong>Warning!:</strong> Jika ada kode program yang <i>error</i> atau output yang dihasilkan tidak sesuai, silahkan <b>Restart & Run All</b> kernel pada bagian menu <b>Kernel</b> di menu bar Jupyter Notebook, atau <b>Restart & Clear Output</b> kernel kemudian jalankan satu per satu <i>cell</i> secara berurutan dari atas ke bawah.
</div>
<hr>

## Load dataset

Dataset yang digunakan adalah dataset <a href='https://archive.ics.uci.edu/ml/datasets/automobile'>Automobile</a> yang berasal dari UCI Machine Learning Repository dengan informasi detail tentang tiap kolom (terurut dari awal sampai akhir) sebagai berikut:

__Attribute Information:__

1. __symboling:__ -3, -2, -1, 0, 1, 2, 3.
2. __normalized-losses:__ continuous from 65 to 256.
3. __make:__
alfa-romero, audi, bmw, chevrolet, dodge, honda,
isuzu, jaguar, mazda, mercedes-benz, mercury,
mitsubishi, nissan, peugot, plymouth, porsche,
renault, saab, subaru, toyota, volkswagen, volvo

4. __fuel-type:__ diesel, gas.
5. __aspiration:__ std, turbo.
6. __num-of-doors:__ four, two.
7. __body-style:__ hardtop, wagon, sedan, hatchback, convertible.
8. __drive-wheels:__ 4wd, fwd, rwd.
9. __engine-location:__ front, rear.
10. __wheel-base:__ continuous from 86.6 120.9.
11. __length:__ continuous from 141.1 to 208.1.
12. __width:__ continuous from 60.3 to 72.3.
13. __height:__ continuous from 47.8 to 59.8.
14. __curb-weight:__ continuous from 1488 to 4066.
15. __engine-type:__ dohc, dohcv, l, ohc, ohcf, ohcv, rotor.
16. __num-of-cylinders:__ eight, five, four, six, three, twelve, two.
17. __engine-size:__ continuous from 61 to 326.
18. __fuel-system:__ 1bbl, 2bbl, 4bbl, idi, mfi, mpfi, spdi, spfi.
19. __bore:__ continuous from 2.54 to 3.94.
20. __stroke:__ continuous from 2.07 to 4.17.
21. __compression-ratio:__ continuous from 7 to 23.
22. __horsepower:__ continuous from 48 to 288.
23. __peak-rpm:__ continuous from 4150 to 6600.
24. __city-mpg:__ continuous from 13 to 49.
25. __highway-mpg:__ continuous from 16 to 54.
26. __price:__ continuous from 5118 to 45400.

Seperti biasa, kita harus meng-<i>import</i> dulu <i>library</i> yang dibutuhkan. Untuk praktek kali ini, selain Pandas, Numpy dan Matplotlib, kita juga membutuhkan Seaborn karena pembuatan Heatmap lebih mudah menggunakan Seaborn.

In [None]:
# Import libraries

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

Selanjutnnya kita <i>load</i> dataset dengan <code>read_csv()</code> dan menyimpannya di dalam variabel <code>df</code>. Dataset ini belum memiliki nama kolom yang jelas, sehingga kita buat nama kolom yang mewakili data dari masing-masing kolom.

In [None]:
# list nama kolom
column_names = ['symboling', 'normalized-losses', 'make', 'fuel-type', 'aspiration', 'num-of-doors', 'body-style', 
              'drive-wheels', 'engine-location', 'wheel-base', 'length', 'width', 'height', 'curb-weight', 'engine-type',
              'num-of-cylinders', 'engine-size', 'fuel-system', 'bore', 'stroke', 'compression-ratio', 'horsepower',
              'peak-rpm', 'city-mpg', 'highway-mpg', 'price']

# read dataset
df = pd.read_csv('../datasets/automobile.data', names=column_names)

df.head()

Seperti yang kita lihat dari contoh dataframe <code>df</code>, ada beberapa <i>cell</i> yang mengandung <i>missing values</i> berupa simbol tanda tanya <code>?</code>. Oleh karena itu, kita harus menangani dulu <i>missing values</i> ini.

Pertama, kita harus mengubah dulu tanda <code>?</code> menjadi __NaN__.

In [None]:
# replace missing values '?' dengan NaN

df = df.replace('?', np.nan)
df.head()

Kemudian kita hapus data yang menganding NaN pada kolom <code>price</code> menggunakan <code>dropna()</code>. Sementara itu, untuk kolom lainnya, kita ganti nilai NaN dengan nilai tertentu seperti di bawah ini. Penjelasan tentang <i>missing values</i> yang lebih detail dapat Anda pelajari di modul <i>data preparation</i>, notebook <i>missing values</i>.

In [None]:
# Menghapus baris yang mengandung mising values di kolom price
df.dropna(subset=['price'], axis=0, inplace=True)

# Me-reset indeks karena ada data yang terhapus
df.reset_index(drop=True, inplace=True)

# Mengganti missing values dengan 'four' untuk kolom num-of-doors
df['num-of-doors'].fillna('four', inplace=True)

# Mengganti missing values dengan mean-nya untuk kolom lainnya
avg_norm = df['normalized-losses'].astype('float').mean(axis=0)
df['normalized-losses'].replace(np.nan, avg_norm, inplace=True)

avg_stroke = df['stroke'].astype('float').mean(axis=0)
df['stroke'].replace(np.nan, avg_stroke, inplace=True)

avg_bore = df['bore'].astype('float').mean(axis=0)
df['bore'].replace(np.nan, avg_bore, inplace=True)

avg_horse = df['horsepower'].astype('float').mean(axis=0)
df['horsepower'].replace(np.nan, avg_horse, inplace=True)

avg_peak = df['peak-rpm'].astype('float').mean(axis=0)
df['peak-rpm'].replace(np.nan, avg_norm, inplace=True)

df.head()

Selanjutnya kita ganti tipe datanya.

In [None]:
# Konversi tipe data

df[['bore', 'stroke', 'peak-rpm']] = df[['bore', 'stroke', 'peak-rpm']].astype('float')
df[['normalized-losses', 'horsepower']] = df[['normalized-losses', 'horsepower']].astype('int')
df[['price']] = df[['price']].astype('float')

Sekarang kita cek info dataframe <code>df</code> setelah penanganan <i>missing values</i>.

In [None]:
# Mengecek info dataframe

df.info()

<hr>

## Membuat Heatmap dengan Seaborn

__Heatmap__ adalah salah satu jenis visualisasi data yang memetakan kolom-kolom pada dataframe ke dalam axis X dan Y sebagai kotak-kotak berwarna. Heatmap lebih mudah dibuat menggunakan <i>library</i> __Seaborn__ karena memiliki <i>method</i> tersendiri, yaitu <code>heatmap()</code>, untuk men-<i>generate</i>-nya.
    
__Seaborn__ sendiri merupakan salah satu <i>library</i> visualisasi data sama seperti Matplotlib. Perbedaan pada fungsionalitasnya adalah Matplotlib baik digunakan untuk membuat pola-pola dasar, sedangkan Seaborn baik digunakan jika ingin membuat variasi pola visualisasi.

Sebelum memulai praktek membuat heatmap dengan Seaborn, kita harus menyiapkan dahulu dataframenya. Untuk lebih mudah, kita akan melakukan <i>reshaping</i> terlebih dahulu terhadap dataframe <code>df</code> menggunakan <code>pivot_table()</code>. 

Misalnya disini kita akan menjadikan <code>drive-wheels</code> sebagai indeksnya, <code>body-style</code> sebagai kolomnya, dan <code>price</code> sebagai nilainya. Untuk <i>aggregate function</i>-nya kita akan menggunakan <i>mean</i>. Jadi nanti yang tampil sebagai nilainya adalah <i>mean</i> dari harganya.

In [None]:
# Membuat pivot tabel

df_pivot = df.pivot_table(index='drive-wheels', columns='body-style', values='price', aggfunc='mean')
df_pivot

Setelah itu, dengan menggunakan <i>method</i> <code>heatmap()</code> dari Seaborn, kita dapat dengan mudah menghasilkan heatmap. Perhatikan kode berikut. 

In [None]:
# Membuat heatmap

sns.heatmap(df_pivot)

Mudah bukan membuat heatmap dengan Seaborn?!

Dua kotak di sebelah kiri atas tidak terbentuk (berwarna putih) karena memang nilai tersebut adalah __NaN__.

Nah, kita juga pasti ingin mempercantik heatmap tersebut seperti dengan mengatur ukuran <i>figure</i> maupun label, bukan?! Untuk itu, kita dapat menggunakan Matplotlib.

In [None]:
# Menggunakan Matplotlib untuk mengatur plot

plt.figure(figsize=(12,7))    # Mengatur ukuran figure

# Membuat heatmap
sns.heatmap(df_pivot)

plt.title('Harga Rata-rata Mobil Berdasarkan Body Style dan Drive Wheels\n', size=16)
plt.xlabel('\nBody Style', size=14)
plt.ylabel('Drive Wheels\n', size=14)
plt.xticks(size=14)
plt.yticks(size=14)
plt.show()

Sekarang heatmap kita sudah diatur agar terlihat lebih besar dan mudah dibaca.

### Menambahkan teks label

Kita juga dapat menambahkan teks pada kotak-kotak tersebut. Teks disini maksudnya nilai yang ada pada dataframe, dalam hal ini nilai rata-ratanya. 

Untuk menampilkan teks, kita cukup menambahkan argumen <code>annot = True</code> pada <code>heatmap()</code>. Nah, karena nilai yang ada di dataframe <code>df_pivot</code> tersebut panjang (angka di belakang koma ditulis semua), kita juga akan mengatur jumlah angka di belakang koma. Disini kita tambahkan argumen <code>fmt='.2f'</code> yang berarti kita hanya ingin menampilkan 2 angka di belakang koma desimal.

In [None]:
# Menambahkan teks pada heatmap

plt.figure(figsize=(12,7))    # Mengatur ukuran figure

# Membuat heatmap dengan teks
sns.heatmap(df_pivot, annot=True, fmt='.2f')

plt.title('Harga Rata-rata Mobil Berdasarkan Body Style dan Drive Wheels\n', size=16)
plt.xlabel('\nBody Style', size=14)
plt.ylabel('Drive Wheels\n', size=14)
plt.xticks(size=14)
plt.yticks(size=14)
plt.show()

### Menambahkan grid lines

Kita dapat menambahkan <i>grid lines</i> atau garis di antara kotak-kotak tersebut dengan menambahkan parameter <code>linewidth</code>. Untuk warna garisnya kita dapat menambahakan parameter <code>linecolor</code>. Perhatikan kode di bawah ini.

In [None]:
# Menambahkan grid lines pada heatmap

plt.figure(figsize=(12,7))    # Mengatur ukuran figure

# Membuat heatmap dengan teks dan gridlines
sns.heatmap(df_pivot, annot=True, fmt='.2f', linewidths=3.5, linecolor='pink')

plt.title('Harga Rata-rata Mobil Berdasarkan Body Style dan Drive Wheels\n', size=16)
plt.xlabel('\nBody Style', size=14)
plt.ylabel('Drive Wheels\n', size=14)
plt.xticks(size=14)
plt.yticks(size=14)
plt.show()

Dapat dilihat sekarang heatmap-nya memiliki garis berwarna pink yang membatasi kotak-kotaknya.

### Menghapus label axis X atau Y

Katakanlah kita ingin menghilangkan label axis X pada heatmap, kita dapat menambahkan argumen <code>xticklabels = False</code> pada <code>heatmap()</code>. Lihat contoh di bawah ini.

In [None]:
# Menghapus label axis X

plt.figure(figsize=(12,7))    # Mengatur ukuran figure

sns.heatmap(df_pivot, annot=True, fmt='.2f', xticklabels=False)

plt.title('Harga Rata-rata Mobil Berdasarkan Body Style dan Drive Wheels\n', size=16)
plt.xlabel('\nBody Style', size=14)
plt.ylabel('Drive Wheels\n', size=14)
plt.xticks(size=14)
plt.yticks(size=14)
plt.show()

Jika ingin menghilangkan label axis Y, Anda dapat mengatur <code>yticklabels = False</code>.

Kita juga dapat mengatur untuk kelipatan berapa label axis X atau Y yang ingin dimunculkan. Misalnya pada contoh berikut, kita mengatur <code>xticklabels=2</code> maka label axis X yang muncul akan lompat satu angka. Silahkan jalankan <i>cell</i> di bawah ini untuk melihat hasilnya.

In [None]:
# Mengatur xticklabels

plt.figure(figsize=(12,7))    # Mengatur ukuran figure

sns.heatmap(df_pivot, annot=True, fmt='.2f', xticklabels=2)

plt.title('Harga Rata-rata Mobil Berdasarkan Body Style dan Drive Wheels\n', size=16)
plt.xlabel('\nBody Style', size=14)
plt.ylabel('Drive Wheels\n', size=14)
plt.xticks(size=14)
plt.yticks(size=14)
plt.show()

### Menghilangkan colorbar

Kita dapat menghilangkan <i>colorbar</i> dengan menambahkan argumen <code>cbar = False</code> pada <code>heatmap()</code>.

In [None]:
# Menghilangkan colorbar pada heatmap

plt.figure(figsize=(12,7))    # Mengatur ukuran figure

sns.heatmap(df_pivot, annot=True, fmt='.2f', cbar=False)

plt.title('Harga Rata-rata Mobil Berdasarkan Body Style dan Drive Wheels\n', size=16)
plt.xlabel('\nBody Style', size=14)
plt.ylabel('Drive Wheels\n', size=14)
plt.xticks(size=14)
plt.yticks(size=14)
plt.show()

### Mengatur warna

Warna pada heatmap dapat diatur dengan <i>colormap</i> atau cmap. Anda dapat menambahkan parameter <code>cmap</code> yang diisi nama <i>colorbar</i> apa yang diinginkan pada <code>heatmap()</code>. Misalnya pada contoh di bawah ini, kita menggunakan <code>cmap = 'plasma'</code>.

In [None]:
# Mengatur warna heatmap

plt.figure(figsize=(12,7))    # Mengatur ukuran figure

sns.heatmap(df_pivot, annot=True, fmt='.2f', cmap='plasma')

plt.title('Harga Rata-rata Mobil Berdasarkan Body Style dan Drive Wheels\n', size=16)
plt.xlabel('\nBody Style', size=14)
plt.ylabel('Drive Wheels\n', size=14)
plt.xticks(size=14)
plt.yticks(size=14)
plt.show()

Sekarang lihat bagaimana jika kita memberikan warna <code>cmap = 'Blues'</code> ?!

In [None]:
# Mengatur warna heatmap

plt.figure(figsize=(12,7))    # Mengatur ukuran figure

sns.heatmap(df_pivot, annot=True, fmt='.2f', cmap='Blues')

plt.title('Harga Rata-rata Mobil Berdasarkan Body Style dan Drive Wheels\n', size=16)
plt.xlabel('\nBody Style', size=14)
plt.ylabel('Drive Wheels\n', size=14)
plt.xticks(size=14)
plt.yticks(size=14)
plt.show()

<code>cmap = 'YlGnBu'</code> juga dapat dijadikan pilihan. __YlGnBu__ berarti <i>yellow, green, blue</i>.

In [None]:
# Mengatur warna heatmap

plt.figure(figsize=(12,7))    # Mengatur ukuran figure

sns.heatmap(df_pivot, annot=True, fmt='.2f', cmap='YlGnBu')

plt.title('Harga Rata-rata Mobil Berdasarkan Body Style dan Drive Wheels\n', size=16)
plt.xlabel('\nBody Style', size=14)
plt.ylabel('Drive Wheels\n', size=14)
plt.xticks(size=14)
plt.yticks(size=14)
plt.show()

### Melihat korelasi antarkolom dengan Heatmap

Selain untuk visualisasi kolom kategori seperti contoh-contoh di atas, <code>heatmap()</code> juga dapat digunakan untuk melihat korelasi antarkolom numerik pada dataframe. Untuk menghasilkan nilai korelasi, kita dapat menggunakan <i>method</i> <code>corr()</code> pada dataframe <code>df</code>. Perhatikan contoh berikut.

In [None]:
# Melihat korelasi antarkolom dengan heatmap

plt.figure(figsize=(14,8))    # Mengatur ukuran figure

# Membuat heatmap untuk melihat korelasi kolom numerik
sns.heatmap(df.corr(), annot=True, fmt='.2f', cmap='YlGnBu')

plt.title('Korelasi Antar-variabel\n', size=18)
plt.xticks(size=14)
plt.yticks(size=14)
plt.show()

<hr>

## Membuat Heatmap dengan Matplotlib

Jika Anda tidak ingin menggunakan Seaborn, Anda juga dapat membuat heatmap dengan Matplotlib. Disini kita akan menggunakan dataframe <code>df_pivot</code> seperti pada contoh di atas.

Sebelumnya, mari kita lihat lagi dataframe <code>df_pivot</code>.

In [None]:
# Menampilkan dataframe df_pivot

df_pivot

Untuk membuat heatmap dengan Matplotlib, kita dapat menggunakan <i>method</i> <code>imshow()</code>. Perhatikan contoh di bawah ini.

In [None]:
# Membuat heatmap dengan Matplotlib

plt.figure(figsize=(12,7))    # Mengatur ukuran figure

# Membuat heatmap dengan imshow()
plt.imshow(df_pivot, cmap='Reds')

plt.title('Harga Rata-rata Mobil Berdasarkan Body Style dan Drive Wheels\n', size=16)
plt.colorbar()             # Menampilkan colorbar

plt.xlabel('\nBody Style', size=14)
plt.ylabel('Drive Wheels\n', size=14)
plt.xticks(range(len(df_pivot.columns)),df_pivot.columns, size=14)     # Menampilkan xticklabel
plt.yticks(range(len(df_pivot.index)),df_pivot.index, size=14)       # Menampilkan yticklabel
plt.show()

Sekarang kita coba melihat korelasi kolom numerik pada dataframe <code>df</code> dengan Matplotlib.

In [None]:
# Membuat heatmap dengan Matplotlib

plt.figure(figsize=(12,8))    # Mengatur ukuran figure

# Membuat heatmap dengan imshow()
plt.imshow(df.corr(), cmap='Purples')

plt.title('Harga Rata-rata Mobil Berdasarkan Body Style dan Drive Wheels\n', size=16)
plt.colorbar()             # Menampilkan colorbar

plt.xticks(range(len(df.corr().columns)),df.corr().columns, size=14, rotation=90)     # Menampilkan xticklabel
plt.yticks(range(len(df.corr().index)),df.corr().index, size=14)                      # Menampilkan yticklabel
plt.show()

Kita juga dapat menggunakan <i>method</i> <code>pcolor()</code> untuk membuat heatmap di Matplotlib.

In [None]:
plt.figure(figsize=(12,7))    # Mengatur ukuran figure

# Membuat heatmap dengan pcolor()
plt.pcolor(df_pivot, cmap='Reds')

plt.title('Harga Rata-rata Mobil Berdasarkan Body Style dan Drive Wheels\n', size=16)
plt.colorbar()             # Menampilkan colorbar

plt.xlabel('\nBody Style', size=14)
plt.ylabel('Drive Wheels\n', size=14)

plt.xticks(np.arange(0.5, len(df_pivot.columns), 1), df_pivot.columns, size=14)     # Menampilkan xticklabel
plt.yticks(np.arange(0.5, len(df_pivot.index), 1), df_pivot.index, size=14)       # Menampilkan yticklabel
plt.show()

### Menambahkan label

Untuk menambahkan label pada heatmap menggunakan Matplotlib agak rumit karena harus menambahkan beberapa baris kode. Pada contoh ini, kita akan memisahkan blok kode untuk menampilkan label atau nilai pada dataframe pada heatmap dengan membuat fungsi tersendiri yang dapat dipanggil pada blok kode utama. Misalnya kita membuat fungsi bernama <code>show_values()</code> seperti di bawah ini.

In [None]:
def show_values(pc, fmt="%.2f", **kw):
    pc.update_scalarmappable()
    ax = pc.axes
    for p, color, value in zip(pc.get_paths(), pc.get_facecolors(), pc.get_array()):
        x, y = p.vertices[:-2, :].mean(0)
        if np.all(color[:3] > 0.5):
            color = (0.0, 0.0, 0.0)
        else:
            color = (1.0, 1.0, 1.0)
        ax.text(x, y, fmt % value, ha="center", va="center", color=color, **kw)

Setelah itu, kita buat blok kode utama untuk menampilkan heatmap dengan Matplotlib dan memanggil fungsi <code>show_values()</code>. Perhatikan kode berikut.

In [None]:
# Menambahkan label/values

fig, ax = plt.subplots(figsize=(12,7))

# Membuat heatmap dengan pcolor()
heatmap = ax.pcolor(df_pivot, cmap='Reds')

fig.colorbar(heatmap)  # Menampilkan colorbar
show_values(heatmap)   # Menampilkan teks/label/values
    
plt.title('Harga Rata-rata Mobil Berdasarkan Body Style dan Drive Wheels\n', size=16)

plt.xlabel('\nBody Style', size=14)
plt.ylabel('Drive Wheels\n', size=14)

plt.xticks(np.arange(0.5, len(df_pivot.columns), 1), df_pivot.columns, size=14)     # Menampilkan xticklabel
plt.yticks(np.arange(0.5, len(df_pivot.index), 1), df_pivot.index, size=14)       # Menampilkan yticklabel
plt.show()

Sekarang heatmap-nya sudah berlabel. 

Jika kita bandingkan membuat heatmap dengan Seaborn dan Matplotlib tentunya lebih mudah menggunakan Seaborn, bukan?! Pada Seaborn untuk menambahkan label nilai, kita cukup memberikan parameter <code>annot = True</code>, sedangkan jika menggunakan Matplotlib kita harus menambahkan beberapa baris kode yang harus disesuaikan secara manual.

<hr>

Copyright @ <a href="https://ilmudatapy.com/">ilmudatapy.com</a>