### **Data Visualization 10: EDA**.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

# Apa itu Lineplot?

line plot adalah salah satu tipe grafik 2 dimensi yang mana menggunakan garis untuk menggambarkan dan membandingkan suatu kelompok nilai numerik.

In [None]:
plt.figure(figsize = [10, 10])
sns.lineplot(
    x = sns.load_dataset("flights").query("year == 1960")["month"],
    y = sns.load_dataset("flights").query("year == 1960")["passengers"]
)


Lineplot umum digunakan saat kita mempunyai suatu data time series dan kita ingin melihat pola tren dan/atau seasonality, contoh use-cases:
- Melihat jumlah visitor website over the time.
- Membandingkan dan melihat pola penjualan dalam kurun waktu tertentu.
- dll.

# Bagaimana membuatnya?

Sekilas mengenai **Seaborn** dan **Matplotlib**: <br>
**Seaborn** adalah library visualisasi data selayaknya **Matplotlib**, **Seaborn** dibangun berdasarkan **Matplotlib** sehingga memiliki kelebihan yaitu lebih *friendly* untuk digunakan. <br>

Sintaks membuat lineplot pada seaborn adalah sebagai berikut: <br>
> `sns.lineplot(x = data_x_axis, y = data_y_axis)` <br>
<br>
> **x**: berupa data kategorikal maupun numerikal yang akan mengelompokkan data pada *y axis*. Paling tepat digunakan pada data time series. <br>
> **y**: berupa data numerkal baik diskrit maupun kontinu yang dikelompokkan oleh data pada *x axis*. Tidak dianjurkan data kategorikal karena tidak sesuai dengan tujuan dari lineplot yang untuk melihat pola dari suatu data numerkal timeseries.<br>
> <br>

In [None]:
sns.load_dataset("flights").head(24)

Contoh pada DataFrame diatas terlihat bahwa passengers dapat dikelompokkan berdasarkan **year** dan **month** yang mana kolom tersebut sebetulnya adalah data timeseries, sehingga salah satu dari kedua kolom tersebut yang dapat dimasukkan ke *x-axis* sedangkan kolom **passengers** atau kolom yang dikelompokkan harus bertipe data numerikal dan dapat dimasukkan ke *y-axis*. <br>
<br>
Bagaimana jika terbalik?

In [None]:
plt.figure(figsize = [10, 10])
sns.lineplot(
    x = sns.load_dataset("flights")["passengers"],
    y = sns.load_dataset("flights")["year"]
)

Jika terbalik maka lineplot tidak akan berguna. Kita tidak dapat apapun dari lineplot tersebut. <br>

# Apa saja yang bisa dilakukan dengan lineplot?

1. Dapatkan 95% Confidence Interval pada grafik anda.
Bagimana caranya?
Cukup masukkan semua data tanpa difilter apapun, seperti contoh disini tidak di filter oleh **year**.

In [None]:
dataset = sns.load_dataset("flights").copy()
plt.figure(figsize = [10, 10])
sns.lineplot(
    x = dataset["month"],
    y = dataset["passengers"]
)

2. Ada style lain? Ya ada, mungkin kelian ingin pakai error style bar instead of area.
Bagaimana caranya?
Tambahkan saja parameter berikut:
> `err_style = "bars"` <br>


Kalian juga bisa menentukan error tersebut mau berdasarkan CI berapa persen?
Caranya?
Tambahkan saja parameter berikut:
> `ci = nilai confidence interval yang dikehendaki` <br>

In [None]:
plt.figure(figsize = [10, 10])
sns.lineplot(
    x = dataset["month"],
    y = dataset["passengers"],
    err_style = "bars",
    ci = 10
)

3. Plot semua data, tidak hanya 1 bagian, dalam 1 plot yang sama dan dengan warna yang berbeda-beda.
Bagaimana caranya?
Cukup tambahkan parameter:
> `hue = kolom yang grouping *y-axis* anda` <br>


In [None]:
plt.figure(figsize = [10, 10])
sns.lineplot(
    x = dataset["month"],
    y = dataset["passengers"],
    hue = dataset["year"]
)

Pilihan lain selain warnanya yang berbeda?
1. Ketebalan yang berbeda.
2. Jenis garisnya yang berbeda.

Caranya?
Ganti parameter **hue** dengan **size** untuk nomor 1 dan **style** untuk nomor 2.

In [None]:
plt.figure(figsize = [10, 10])
sns.lineplot(
    x = dataset["month"],
    y = dataset["passengers"],
    size = dataset["year"]
)

In [None]:
plt.figure(figsize = [10, 10])
sns.lineplot(
    x = dataset["month"],
    y = dataset["passengers"],
    style = dataset["year"]
)

4. Mengganti warna dari plot.
Bagaimana caranya? 
Tambahkan saja parameter berikut:
> `palette = nama palette` <br>


Dapat dari mana nama palettenya? <br>
https://matplotlib.org/stable/tutorials/colors/colormaps.html.


In [None]:
plt.figure(figsize = [10, 10])
sns.lineplot(
    x = dataset["month"],
    y = dataset["passengers"],
    hue = dataset["year"],
    size = dataset["year"],
    style = dataset["year"],
    palette = "Pastel1"
)