### **Data Visualization 9: Pairplot**.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

# Apa itu Pairplot?

Pairplot adalah salah satu tipe grafik 2 dimensi namun tidak hanya ada 1 dan tipe plotnya bisa bermacam-macam. Semua *x-axis* grafik pairplot pada satu kolom memiliki definisi yang sama, begitu pula dengan *y-axis*, *y-axis* grafik pairplot pada satu baris memliki definisi yang sama.

In [None]:
sns.pairplot(
    data = sns.load_dataset("flights")
)

Pairplot umum digunakan saat kita mempunyai suatu data dengan jumlah variable atau kolom yang > 2 dan kita ingin melihat bagaimana korelasi antar variable tersebut, contoh use-cases:
- Melihat korelasi antara budget marketing spending pada channel atau medium iklan dengan jumlah sales.
- Membandingkan dan melihat pola atau behavior belanja dari customers.
- dll.

# Bagaimana membuatnya?

Sekilas mengenai **Seaborn** dan **Matplotlib**: <br>
**Seaborn** adalah library visualisasi data selayaknya **Matplotlib**, **Seaborn** dibangun berdasarkan **Matplotlib** sehingga memiliki kelebihan yaitu lebih *friendly* untuk digunakan. <br>

Sintaks membuat **pairplot** pada seaborn adalah sebagai berikut: <br>
> `sns.pairplot(data = DataFrame)` <br>
<br>
> **data**: berupa DataFrame yang mana terdiri dari kolom dan baris, kolomnya harus merupakan jenis observasi atau variable dan barisnya adalah observasinya. <br>


Agar bisa tampil pada **pairplot** maka data observasinya harus bertipe numerikal bukan kategorikal.

In [None]:
sns.load_dataset("flights").head(24)

Contoh pada DataFrame diatas terlihat bahwa **month** bukanlah bertipe numerikal dan yang lain secara visual bertipe numerikal, Jika demikian maka yang akan tampil hanya kolom **year** dan kolom **passenger**. Namun ada walkaround yang dapat dilakukan, yaitu melakukan encoding pada data pada kolom **month** ke dalam coding numerikal. Dengan begini maka kolom **month** dapat tampil pada **pairplot**.<br>

In [None]:
sns.pairplot(
    data = sns.load_dataset("flights")
)

Sekarang kita coba untuk encoding data pada kolom **month** ke coding numerikal.

In [None]:
dataset = sns.load_dataset("flights").copy()
dataset["month_encoded"] = dataset["month"].map(dataset.assign(month_map = lambda x: x["month"].astype("category").cat.codes).drop_duplicates("month").drop(columns = ["year", "passengers"]).set_index("month").to_dict()["month_map"]).astype(int)

In [None]:
sns.pairplot(
    data = dataset
)

Sekarang kita sudah mendapatkan insight baru dari tampilnya data **month** ini. <br>
<br>
Lalu bagaimana jika datanya tadi yang dimasukkan ke fungsi **pairplot** bukan DataFrame?

In [None]:
dataset_dict = dataset.to_dict()

In [None]:
type(dataset_dict)

In [1]:
dataset_dict

NameError: name 'dataset_dict' is not defined

In [None]:
sns.pairplot(
    data = dataset_dict
)

# Apa saja yang bisa dilakukan dengan Pairplot?

1. Menyesuaikan grafik pada bagian diagonal. <br>
Sering kali kita melihat secara singkat grafik bagian diagonal dari **pairplot** tidak *make sense*, seperti pada **pairplot** sebelumnya pada kolom **year** vs **year** terutama dibagian *y-axis*nya. <br>
Apa maksudnya data pada tahun 1950 (*x-axis*) nilainya adalah 1958 (*y-axis*)? <br>
Sayangnya grafik tersebut merupakan grafik distribusi yang mana terdapat istilah *bins* atau pengelompokan pada tampilannya, hal ini disayangkan karena jika tidak benar maka akan berpengaruh terhadap tampilannya. <br>
<br>
Solusinya bagaimana? <br>
Solusinya adalah dengan memberikan nilai *bins* yang benar.

In [None]:
sns.pairplot(
    data = dataset
)

In [None]:
sns.pairplot(
    data = dataset,
    diag_kws = {"bins" : 12, "kde" : True}
)

In [None]:
dataset["year"].value_counts()

Ya betul, semua tahun atau **year** memiliki jumlah yang sama karena 1 tahun ada 12 bulan dan kebetulan memang record datanya tidak ada yang bolong. <br>
Pemilihan nilai **bins** yang benar ini cukup tricky ya, semakin banyak sampai ke tiap data point itu bisa tapi membuat banyak *noise* muncul sedangkan semakin sedikit itu juga bisa tapi membuat grafiknya tidak lagi berguna karena tidak bisa memberikan informasi apa-apa. <br> <br>
Umumnya pemilihan nilai **bins** dengan menggunakan nilai **akar dari jumlah observasi**, dalam kasus ini akar dari 144 adalah 12. Jadi kita menggunakan 12 sebagai nilai **bins**.

2. Kita akan memberikan *Legend* atau akan kita "pisah"kan data tersebut berdasarkan bulan.

In [None]:
sns.pairplot(
    data = dataset,
    hue = "month",
)

Sayangnya dengan membedakan berdasarkan bulan malah membuatnya sulit dilihat dan dibaca, coba kita buang kolom **month_decoded** karena itu sama saja dengan **month**.

In [None]:
sns.pairplot(
    data = dataset,
    vars = ["year", "passengers"],
    hue = "month"
)

3. Seperti biasa kalian dapat membuat plotnya lebih besar dengan menggunakan parameter:
> `height = nilai height dalam int` <br>
<br>

In [None]:
sns.pairplot(
    data = dataset,
    vars = ["year", "passengers"],
    hue = "month",
    height = 8
)

4. Kemudian kalian juga dapat mengganti warnanya.

In [None]:
sns.pairplot(
    data = dataset,
    vars = ["year", "passengers"],
    hue = "month",
    height = 8,
    palette = "viridis"
)

In [None]:
sns.pairplot(
    data = dataset,
    hue = "month",
    height = 8,
    palette = "viridis"
)