# Naive Bayes dengan Data Kategorikal

Pada percobaan kedua ini, kita akan menggunakan data riil untuk melakukan klasifikasi dengan Naive Bayes. Data yang digunakan adalah **tennis-predict.csv**. Data tersebut menggambarkan apakah seseorang akan bermasin tennis jika cuaca mendungkung.

Isikan identitas berikut <br>
**Nama  : Mochammad Hairullah** <br>
**NIM   : 2041720074** <br>
**Kelas : TI-3H**

## Inspeksi Data

Pada tahap ini kita akan melakukan loading data dan inspeksi data. Hal ini dilakukan untuk mengetahui apakah kita perlu melakukan proses pendahuluan sebelum melakukan training

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import numpy as np
import pandas as pd

# Load data Excel ke Data Frame
df = pd.read_csv('./dataset/tennis-predict.csv')

# Cek data
df.head()

Unnamed: 0,outlook,temp,humidity,windy,play
0,sunny,hot,high,False,no
1,sunny,hot,high,True,no
2,overcast,hot,high,False,yes
3,rainy,mild,high,False,yes
4,rainy,cool,normal,False,yes


Berdasarkan pengecekan data, terdapat data bernilai kategorial pada fitur (variabel) ***outlook***, ***temp***, ***humidity***. Kita harus melakukan encoding terhadap nilai dari fitur tersebut. Meskipun secara sekilas nilai kategorial menunjukkan tendesi ke tipe data nominal, namun kita tidak akan menggunakan tendik encoding One Hot Encoder atau Ordinal Encoder. Naive Bayes berkerja berdasarkan prinsip probabilitas berkelompok (_play_). 

Hal ini membuat merepresentasikan nilai variabel dalam bentuk encoding sebetulnya tidak terlalu penting. Encoding diperlukan hanya untuk menamai ulang nilai kategori dalam bentuk angka dan kebutuhan library scikit-learn yang menggunakan angka sebagai parameter input.

Percobaan kali ini merupakan penerapan klasik algoritma Naive Bayes. Perhatikan kembali contoh intuisi perhitungan Naive Bayes pada modul Jobsheet 3. Meskipun nilai asli dari fitur tidak diketahui, kita masih dapat melakukan proses klasifikasi dengan Naive Bayes.

## Tahap Persiapan

Pada tahap ini kita akan melakukan beberapa hal, yaitu,

1. Encoding nilai kategorikal untuk kebutuhan training
2. Memisahkan fitur dan label
3. Split data training dan testing

### Encoding

In [None]:
# Encoding
# Fungsi encoding yang akan digunakan adalah LabelEncoder
# Hal ini karena kita hanya mengganti nilai variabel dari nama berupa string menjadi angka. Sama halnya dengan label

from sklearn.preprocessing import LabelEncoder

# Inisiasi label encoder
encode = LabelEncoder()

# Terpakan label encoder
df['outlook'] = encode.fit_transform(df['outlook'])
df['temp'] = encode.fit_transform(df['temp'])
df['humidity'] = encode.fit_transform(df['humidity'])
df['windy'] = encode.fit_transform(df['windy'])

# Cek hasil
df.head()

Unnamed: 0,outlook,temp,humidity,windy,play
0,2,1,0,0,no
1,2,1,0,1,no
2,0,1,0,0,yes
3,1,2,0,0,yes
4,1,0,1,0,yes


### Memisahkan Fitur dan Label

In [None]:
X = df.iloc[:, :-1]
y = df.iloc[:, -1]

print(X)

    outlook  temp  humidity  windy
0         2     1         0      0
1         2     1         0      1
2         0     1         0      0
3         1     2         0      0
4         1     0         1      0
5         1     0         1      1
6         0     0         1      1
7         2     2         0      0
8         2     0         1      0
9         1     2         1      0
10        2     2         1      1
11        0     2         0      1
12        0     1         1      0
13        1     2         0      1


### Split Data Training dan Testing

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=10)

## Training dan Evaluasi Model

In [None]:
# Kita akan menggunakan CategoricalNB untuk kasus ini
from sklearn.naive_bayes import CategoricalNB
from sklearn.metrics import accuracy_score

# Inisasi CategoricalNB
cnb = CategoricalNB()

# Fit model
# Label y harus dalam bentu 1D atau (n_samples,)
cnb.fit(X_train, y_train)

# Prediksi dengan data training
y_train_pred = cnb.predict(X_train)

# Evaluasi akurasi training
acc_train = accuracy_score(y_train, y_train_pred)

# Prediksi test data
y_test_pred = cnb.predict(X_test)

# Evaluasi model dengan metric akurasi
acc_test = accuracy_score(y_test, y_test_pred)

# Print hasil evaluasi
print(f'Hasil akurasi data train: {acc_train}')
print(f'Hasil akurasi data test: {acc_test}')

Hasil akurasi data train: 0.9090909090909091
Hasil akurasi data test: 0.6666666666666666
