# Data dan Visualisasi Data
oleh : Afif A. Iskandar

Machine learning, Data Mining dan sebagian besar dari Artificial Intelligence memerlukan analisis dan perhitungan statistik pada data. Dalam notebook ini, Anda akan mempelajari beberapa konsep dasar yang terkait dengan data dan visualisasi data.

## Pengenalan Mengenai Data

Statistik didasarkan pada data, yang terdiri dari kumpulan potongan informasi tentang hal-hal yang ingin Anda ketahui. Informasi ini dapat berupa deskripsi, besaran, pengukuran, dan pengamatan lainnya.
Biasanya, kita berkutat dengan *dataset*, yang sering kali terdiri dari kumpulan *pengamatan* atau *observasi*.
Umumnya, kumpulan data ini berbetuk tabular yang terdiri dari baris untuk setiap pengamatan atau sampel, dan kolom untuk setiap titik data individu yang terkait dengan pengamatan itu, kita menyebut hal tersebut dengan *atribut* atau *fitur*, dan masing-masing menggambarkan karakteristik dari hal yang kita amati.

Berikut adalah contoh dari data. Pada tahun 1886, Francis Galton melakukan penelitian tentang hubungan antara tinggi badan orang tua dan anak-anak mereka (dewasa).
Data tersebut dapat kita akses dengan menggunakan library *statsmodel*, namun nantinya kita juga akan pelajari bagaimana cara membuka data kita sendiri dengan menggunakan Python.

Jalankan kode Python dibawah ini untuk mengakses data tersebut

In [None]:
import statsmodels.api as sm

df = sm.datasets.get_rdataset('GaltonFamilies', package='HistData').data
df

### Tipe Data

Dari data diatas, ada 933 pengamatan / sampel, masing-masing mencatat informasi yang berkaitan dengan seorang anak. Informasi yang dicatat terdiri dari fitur-fitur berikut:

- **family**: Identifier terkait anggota keluarga yang bersangkutan
- **father**: Tinggi badan ayah.
- **mother**: Tinggi badan Ibu.
- **midparentHeight**: Titik tengah antara tinggi badan ayah dan ibu (dihitung menggunakan formulasi *(father + 1.08 x mother) &div; 2*)
- **children**: Jumlah anak pada keluarga tersebut.
- **childNum**: Urutan anak (berdasarkan tinggi, jika tinggi anak sama maka diurutkan laki-laki terlebih dahulu)
- **gender**: Jenis kelamin anak.
- **childHeight**: Tinggi badan anak.

Sebagai catatan, ada beberapa jenis data berbeda yang muncul di sini. Ada beberapa fitur yang mewakili *kualitas*, atau karakteristik anak - misalnya, **gender**, ada juga fitur lain yang mewakili *kuantitas* atau pengukuran, seperti **childHeight**. Secara garis besar, kita dapat membagi data menjadi *kualitatif* dan *kuantitatif*.

#### Data Kualitatif
Jenis data ini bersifat kategorik, digunakan untuk mengkategorikan atau mengidentifikasi entitas yang diamati. Kadang-kadang Anda akan melihat fitur jenis ini digambarkan sebagai *faktor*.

##### Data Nominal
Dalam pengamatannya tentang tinggi badan anak-anak, Galton menetapkan pengenal untuk setiap keluarga dan dia mencatat jenis kelamin setiap anak. Perhatikan bahwa meskipun pengidentifikasi **keluarga** adalah angka, itu bukan ukuran atau kuantitas. Keluarga 002 tidak "lebih besar" dari keluarga 001, seperti halnya nilai **gender** dari "laki-laki" tidak menunjukkan nilai yang lebih besar atau lebih kecil dari "perempuan". Ini hanyalah nilai bernama untuk beberapa karakteristik anak, dan karena itu mereka dikenal sebagai data *nominal*.

##### Data Ordinal
Lalu bagaimana dengan fitur **childNum**? Ini bukan ukuran atau kuantitas, ini hanya cara untuk mengidentifikasi anak-anak secara individu dalam sebuah keluarga. Namun, nomor yang diberikan untuk setiap anak memiliki beberapa arti tambahan sehingga nomor tersebut diurutkan. Anda dapat menemukan data serupa yang berbasis teks, misalnya, data tentang kursus pelatihan mungkin menyertakan atribut "level" yang menunjukkan tingkat kursus sebagai "dasar, "menengah", atau "lanjutan". Jenis data ini, di mana nilainya bukan kuantitas atau pengukuran , tetapi menunjukkan semacam urutan atau hierarki bawaan, yang dikenal sebagai data *ordinal*.

#### Data Kuantitatif
Jenis data ini bersifat numerik, seringkali dihasilkan dari hasil pengukuran, penghitungan dan semacamnya

##### Data Diskrit
Pengamatan Galton mencakup jumlah **children** di setiap keluarga. Ini adalah nilai data kuantitatif *diskrit*, ini adalah sesuatu yang di*hitung*. Tidak mungkin Anda mendata suatu keluarga memiliki 3.14 anak.

##### Data Kontinu
Kumpulan data juga menyertakan nilai tinggi badan untuk **father**, **mother**, **midparentHeight**, dan **childHeight**. Ini adalah pengukuran di sepanjang skala, oleh karena itu data ini digambarkan sebagai sesuatu yang *kontinu*.

### Populasi vs Sampel

Dataset Galton mencakup 933 pengamatan. Artinya Galton tidak memperhitungkan setiap orang di dunia, atau bahkan hanya Inggris, pada tahun 1886 ketika data dikumpulkan. Dengan kata lain, data Galton mewakili *sampel* dari *populasi* yang lebih besar. Mari kita diskusikan, apakah data ini (sampel) representatif terhadap sesuatu yang lebih besar (populasi) ?

## Visualisasi Data
Visualisasi data adalah salah satu cara utama di mana kita dapat memeriksa data dan mendapatkan insight darinya. Jika sebuah gambar bernilai seribu kata, maka grafik atau bagan yang baik bernilai berapa pun tabel datanya.

Mari kita coba beberapa jenis grafik yang sering digunakan untuk visualisasi data
#### Diagram batang
*Diagram batang* adalah cara yang baik untuk membandingkan jumlah atau jumlah numerik di seluruh kategori. Misalnya, dalam kumpulan data Galton, Anda mungkin ingin membandingkan jumlah anak perempuan dan laki-laki.

Berikut beberapa kode Python untuk membuat diagram batang yang menunjukkan jumlah anak dari setiap jenis kelamin.

In [None]:
import statsmodels.api as sm
from matplotlib import pyplot as plt

# load data
df = sm.datasets.get_rdataset('GaltonFamilies', package='HistData').data

# Hitung jumlah gender dari kolom gender
jumlah_anak_per_gender = df['gender'].value_counts()

# Gambar diagram batang
jumlah_anak_per_gender.plot(kind='bar', title='Jumlah Anak per Gender')
plt.xlabel('Gender')
plt.ylabel('Jumlah Anak')

Dari grafik ini, Anda dapat melihat bahwa jumlah anak laki-laki sedikit lebih banyak daripada anak perempuan; tetapi data tersebut cukup terbagi rata antara kedua jenis kelamin.

Grafik batang biasanya digunakan untuk membandingkan nilai data kategorikal (kualitatif), tetapi dalam beberapa kasus Anda mungkin memperlakukan nilai data kuantitatif diskrit sebagai sebuah kategori. Misalnya, dalam kumpulan data Galton jumlah anak di setiap keluarga dapat digunakan sebagai cara untuk mengkategorikan keluarga. Kita mungkin ingin melihat berapa banyak keluarga yang memiliki satu anak, dibandingkan dengan berapa banyak yang memiliki dua anak, dll.

Berikut beberapa kode Python untuk membuat diagram batang untuk menampilkan jumlah anak dalam sebuah keluarga

In [None]:
# Ambil kolom yang dibutuhkan
families = df[['family', 'children']].drop_duplicates()
# Hitung jumlah keluarga yang memiliki jumlah anak tertentu, diurutkan berdasarkan jumlah anak
jumlah_anak = families['children'].value_counts().sort_index()

# Gambar diagram batang
jumlah_anak.plot(kind='bar', title='Jumlah Anak dalam Keluarga')
plt.xlabel('Jumlah Anak')
plt.ylabel('Jumlah Keluarga')

Bagaimana cara menceritakan grafik diatas ?


#### Histogram

Diagram batang berfungsi dengan baik untuk membandingkan nilai numerik kategorikal atau diskrit. Saat Anda perlu membandingkan nilai kuantitatif kontinu, Anda dapat menggunakan bentuk bagan serupa yang disebut histogram. Histogram berbeda dari bagan batang dalam hal mereka mengelompokkan nilai berkelanjutan ke dalam rentang, jadi bagan tidak menunjukkan batang untuk setiap nilai individual, melainkan batang untuk setiap rentang nilai yang dikumpulkan. Karena bagan ini mewakili data berkelanjutan daripada data diskrit, batang tidak dipisahkan oleh celah. Biasanya, histogram digunakan untuk menunjukkan frekuensi relatif nilai dalam kumpulan data.

Berikut beberapa kode Python untuk membuat histogram untuk kolom **father** di dataset Galton, yang mencatat tinggi ayah:

In [None]:
# Plot histogram

df['father'].plot.hist(title='Tinggi Ayah')
plt.xlabel('Tinggi')
plt.ylabel('Frekuensi')

Bagaimana cara menceritakan grafik diatas ?

Anda bisa melakukan modifikasi histogram dengan menambahkan argumen `bins` untuk mengubah rentang dari masing-masing batang

In [None]:
# Plot histogram

df['father'].plot.hist(title='Tinggi Ayah', bins=15)
plt.xlabel('Tinggi')
plt.ylabel('Frekuensi')

#### Pie Chart

Pie chart adalah cara lain untuk membandingkan jumlah kategori yang relatif sebagai alternatif dari diagram batang.

In [None]:
# Agregasi data dari kolom `gender`
jumlah_anak_per_gender = df['gender'].value_counts()

jumlah_anak_per_gender.plot(kind='pie', title='Jumlah Anak per Gender', figsize=(6,6))
plt.legend()

Perhatikan bahwa grafik menyertakan legenda/keterangan untuk memperjelas kategori apa yang diwakili oleh setiap area berwarna dalam pie chart ini.
Bisakah anda menceritakan grafik diatas ?

#### Scatter Plot

Seringkali kita ingin mengetahui hubungan antara dua variabel yang ada pada dataset kita. Jika Anda sudah mempelajari mengenai *machine learing*, Anda memerlukan proses EDA (Exploratory Data Analysis) yang salah satunya adalah melihat apakah ada korelasi yang terbentuk dari 2 fitur yang kita miliki sebelum kita membuat model *machine learning*.
Salah satu grafik yang sangat berguna untuk kasus diatas adalah scatterplot

Berikut adalah contoh dari scatterplot dari kolom **midparentHeight** pada sumbu x, dan **childHeight** pada sumbu y

In [None]:
# Ambil 2 kolom yang ingin diperhatikan
berat_orangtua_anak = df[['midparentHeight', 'childHeight']]

# buat scatterplot
berat_orangtua_anak.plot(kind='scatter', title='Tinggi Orang Tua vs Anak', x='midparentHeight', y='childHeight')
plt.xlabel('midparentHeight')
plt.ylabel('childHeight')

Dapatkah anda menceritakan grafik diatas ?

#### Grafik Korelasi

Apabila kita ingin sekaligus mendapatkan hubungan antar variabel tanpa harus membandingkannya per dua kolom, Anda bisa menggunakan korelasi.
Matriks korelasi dapat divisualisasikan dengan menggunakan heatmap

In [None]:
import seaborn as sns

#Melihat korelasi antar variabel dalam suatu heatmap
plt.figure(figsize=(8,10))
sns.heatmap(df.corr(), annot=True)
plt.title("Heatmap korelasi")

#### Diagram Garis

Diagram garis adalah diagram yang bagus untuk melihat perubahan nilai di sepanjang data, biasanya (tetapi tidak selalu) berdasarkan periode waktu. Kumpulan data Galton tidak menyertakan data jenis ini, jadi kita akan menggunakan kumpulan data berbeda yang mencakup pengamatan suhu rata-rata tahunan di New Haven antara tahun 1912 dan 1971 untuk contoh ini

In [None]:
# akses data menggunakan statsmodel
df = sm.datasets.get_rdataset('nhtemp', package='datasets').data


df.plot(title='Rata-rata Suhu di New Haven', x='time', y='value')
plt.xlabel('Tahun')
plt.ylabel('Rata-rata Suhu')

Dapatkah Anda menceritakan grafik diatas ? 