# Visualisasi Data (part 1)


Dalam hal ini dengan data covid-19 di Indonesia akan diberikan tutorial visualisasi dengan menggunakan python. Adapun jenis visualisasi yang akan diterapkan di sini adalah:

1. Line chart
2. Histogram
3. Box plot
4. Pie chart

In [None]:
import pandas as pd

df = pd.read_csv("../input/covid19-indonesia/covid_19_indonesia_time_series_all.csv")
df

Setelah kita baca data seperti di atas, langkah selanjutnya adalah kita harus menemukan `basic informasi` atau deskripsi dari data tersebut.

In [None]:
df.info()

Dari informasi tersebut diperoleh bahwa data tersebut memiliki 37 kolom, dengan hanya terdapat tiga tipe data: float, int, dan object. Selanjutnya dapat diperhatikan pada kolom `Non-Null Count`, dapat diketahui bahwa beberapa kolom memiliki nilai yang kosong. 

Untuk lebih memperjelas informasi perihal banyaknya nilai yang kosong pada tiap kolom, kita dapat gunakan visualiasi heatmap sebagai berikut

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(10,10))

sns.heatmap(df.isnull(), cbar=False)

plt.show()

Nampak bahwa pada kolom `City or Regency` dan `Special Status` mayoritas datanya adalah kosong. Sehingga sebaiknya untuk proses berikutnya kolom tersebut kita abaikan saja.

## Line Chart

In [None]:
df['bulan'] = [i.split('/')[0] for i in df['Date']] 

new_df = df[['bulan', 'Total Cases']].groupby('bulan').sum()
new_df

ax = sns.lineplot(new_df.index, new_df['Total Cases'])

Dari chart di atas, diperoleh bahwa terjadi kenaikan jumlah kasus dari bulan ke-3 sampai dengan bulan ke-7. Chart ini mungkin dapat dibaca dengan jelas, namun kiranya lebih bagus lagi apabila angka bulan tersebut kita ganti dengan nama bulan. Cara mengganti ini tentu banyak caranya, dalam hal ini kita akan ganti dengan menggunakan library datetime.

In [None]:
from datetime import datetime

df['nama_bulan'] = [datetime.strptime(i, '%m/%d/%Y').strftime("%B") for i in df['Date']]

new_df = df[['nama_bulan', 'Total Cases']].groupby('nama_bulan', sort=False).sum()

plt.figure(figsize=(10,10))
ax = sns.lineplot(x=new_df.index, y=new_df['Total Cases'], sort=False)
plt.xlabel('bulan')

Dari dua line chart di atas dapat diperhatikan bahwa `x` merupakan data kategorik sementara untuk `y` merupakan data numerik.

**Apa itu data kategorik?**

Data kategorik adalah tipe data yang merepresentasikan karakteristik dari suatu objek. Contoh: jenis kelamin, tipe rumah, atau kategori buku.

**Apa itu data numerik?**

Data numerik adalah tipe data yang merepresentasikan suatu hitungan/pengukuran tertentu. Contoh: tinggi, berat badan, suhu, dll. 



### Bukan kah, bulan tadi bentuknya berupa angka? Apakah dia bukan numerik?

Dalam representasi angka bulan bisa saja masuk ke dalam data numerik, dengan lebih spesifik lagi sebagai data diskret. Menyoal numerik dan kategorik erat kaitannya konsteks penggunaannya. Data diskret mungkin saja data kategorik, tapi tidak selalu data diskret merupakan data kategorik. Sebagai contoh, banyaknya orang di suatu ruangan merupakan suatu data numerik dan diskret karena muskil untuk menyebut ada setengah manusia atau satu setengah manusia. 

oke, visualisasi lain akan ada di part selanjutnya