### **Data Visualization 6: Heatmap**.


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Apa itu Heatmap?

Heatmap adalah grafik 2 dimensi yang mana representasi dari tiap nilai yang terdapat pada matriks atau datanya adalah warna (color encoded).

In [None]:
plt.figure(figsize = [10, 10])
sns.heatmap(
    sns.load_dataset("flights").pivot("year", "month", "passengers"),
    cmap = "YlGnBu"
)


Heatmap umum digunakan saat dealing dengan multiple asset, contoh use-cases:
- Cek korelasi antar variable.
- Cek penjualan atau sales pada suatu bulan over the year.
- dll.

# Bagaimana membuatnya?

Untuk membuat heatmap ada banyak cara, bisa menggunakan **imshow** atau **pcolormesh** yang telah disediakan oleh matplotlib atau bisa menggunakan **heatmap** dari seaborn.

Sekilas mengenai **Seaborn** dan **Matplotlib**: <br>
**Seaborn** adalah library visualisasi data selayaknya **Matplotlib**, **Seaborn** dibangun berdasarkan **Matplotlib** sehingga memiliki kelebihan yaitu lebih *friendly* untuk digunakan.

Sintaks penggunaan heatmap pada seaborn adalah sebagai berikut: <br>
> `sns.heatmap(data)` <br>

**data** disini adalah berupa matriks atau DataFrame atau ndarray. <br>
**data** harus mempunyai:<br>
- index atau row dan kolom yang bertipe data numerik maupun kategorikal.
- index atau row dan kolom ini masing-masing harus satu satuan atau satu unit atau satu skala.
- nilainya harus berupa numerik baik itu bulat atau pecahan.

In [None]:
sns.load_dataset("flights")

Contoh pada DataFrame diatas row atau index merupakan satu unit atau 1 skala sedangkan kolomnya tidak, ada yang berupa tahun, jumlah penumpang dan bahkan bulan yang nilainya bukan lagi numerik.

In [None]:
sns.heatmap(
    sns.load_dataset("flights"),
    cmap = "YlGnBu"
)

Contoh diatas adalah kejadian yang akan timbul jika terdapat nilai yang bukan merupakan numerik, karena bukan numerik tidak bisa dikuantisasi.
Menghilangkan kolom yang non numerik tersebut.

In [None]:
plt.figure(figsize = [10, 10])
sns.heatmap(
    sns.load_dataset("flights").drop(columns = "month"),
    cmap = "YlGnBu"
)

Tidak bisa mendapatkan apapun. Hal ini dikarenakan meski telah sama-sama numerik tapi unit atau skalanya berbeda. <br>
Solusinya tergantung kebutuhan dari
- Apa yang ingin ditampilkan?
- Apa hal yang kita inginkan tersebut didukung oleh data yang kita miliki?

Jika dilihat kembali data yang masih utuh, maka kita dapat intuisi bahwa sebenarnya data pada kolom **passengers** adalah data jumlah penumpang pada bulan dan tahun tertentu. <br>
<br>
Membuat heatmap dari **passengers** vs **year** yang mana pada percobaan kali ini index akan berupa **year**.

In [None]:
plt.figure(figsize = [10, 10])
sns.heatmap(
    sns.load_dataset("flights").drop(columns = ["month"]).set_index("year"),
    cmap = "YlGnBu"
)

Dari heatmap diatas didapatkan bahwa pada tahun 1960 terdapat lonjakan penumpang, hal itu juga terjadi pada tahun 1959, 1958, 1957, dsb. Cukup berguna ya?<br>
<br>
Namun kita akan buat lebih berguna lagi, kita tau bahwa nilai pada **passengers** merupakan jumlah penumpang pada tahun dan bulan tertentu. Maka dari itu saat ini kita akan menambahkan **month** pada grafik.<br>
<br>
Ingat, bayangkan **heatmap** itu adalah matriks 2 dimensi. Kita harus membuat data kita berbentuk seperti itu dengan menggunkan pivot table. Untuk membuat pivot table kita membutuhkan 3 buah variabel atau kolom yaitu 2 kolom untuk mengisi *axis x* dan *axis y* sendangkan 1 lagi untuk mengisi nilainya. <br>
<br>
Untungnya pandas sudah menyiapkan fungsi yang dapat mempermudah kita dalam membuat pivot table. Sintaks fungsinya adalah <br>
> `pivot([y_axis], [x_axis], [nilai_matriks])`

In [None]:
sns.load_dataset("flights").pivot("year", "month", "passengers")

In [None]:
plt.figure(figsize = [10, 10])
sns.heatmap(
    sns.load_dataset("flights").pivot("year", "month", "passengers"),
    cmap = "YlGnBu"
)

# Kostumisasi Heatmap

- Mengganti nilai min dan maks representasi dari variable **pessengers**.
- Mengganti warna pada heatmap.
- Menampilkan nilai pada tiap sel pada heatmap.
- Resize heatmap.
- Menampilkan garis diatara sell.

### 1. Mengganti nilai min dan maks representasi dari variable **pessengers**.

Mengganti nilai min dan maks representasi dapat dilakukan dengan menambahkan paramter berupa:
- **vmin** untuk nilai minimumnya.
- **vmax** untuk nilai maksimumnya.

In [None]:
plt.figure(figsize = [10, 10])
sns.heatmap(
    sns.load_dataset("flights").pivot("year", "month", "passengers"),
    cmap = "YlGnBu",
    vmin = 0,
    vmax = 1000
)

### 2. Mengganti warna heatmap.

matplotlib: <br>
https://matplotlib.org/stable/tutorials/colors/colormaps.html. <br>

> `cmap = 'nama color map'`. <br>
<br>

Bersifat **CASE SENSITIVE**.

In [None]:
plt.figure(figsize = [10, 10])
sns.heatmap(
    sns.load_dataset("flights").pivot("year", "month", "passengers"),
    cmap = "Pastel1",
    vmin = 0,
    vmax = 1000
)

### 3. Menampilkan nilai pada tiap sel pada heatmap.

In [None]:
plt.figure(figsize = [10, 10])
sns.heatmap(
    sns.load_dataset("flights").pivot("year", "month", "passengers"),
    cmap = "Pastel1",
    vmin = 0,
    vmax = 1000,
    annot = True
)

Pada heatmap diatas nilai ditiap selnya terlalu berdempetan, sehingga perlu resize!

### 4. Resize heatmap.

> `plt.figure(figsize = [horizontal_size, vertical_size])`

In [None]:
plt.figure(figsize = [20, 20])
sns.heatmap(
    sns.load_dataset("flights").pivot("year", "month", "passengers"),
    cmap = "YlGnBu",
    vmin = 0,
    vmax = 1000,
    annot = True
)

### 5. Menampilkan garis diatara sell.

> `linewidths = [nilai_ketebalan_garis]`


In [None]:
plt.figure(figsize = [20, 20])
sns.heatmap(
    sns.load_dataset("flights").pivot("year", "month", "passengers"),
    cmap = "Pastel1",
    vmin = 0,
    vmax = 1000,
    annot = True,
    linewidths = 3
)