# Naive  Bayes
 
## Pengertian

**Naive Bayes** merupakan algoritma statistika yang digunakan untuk melakukan klasifikasi berdasarkan pada *teorema Bayes*. Teorema Bayes dibuat oleh **Thomas Bayes**.

## Contoh Kasus

Beberapa contoh kasus yang bisa didekati penyelesaiannya menggunakan Naive Bayes:
1. Penentuan klasifikasi konsumen kredit (kredibel, tidak kredibel)
2. Penentuan klasifikasi e-mail (spam, bukan spam)

## Paket Python yang Digunakan

In [26]:
import pandas as pd
from sklearn import preprocessing
from sklearn.naive_bayes import GaussianNB
import numpy as np

## Menyiapkan Data

In [7]:
df = pd.read_csv("04-dataset.csv")
df

Unnamed: 0,Usia,Pendapatan,Mahasiswa,Rating Kredit,Beli
0,Muda,Tinggi,Tidak,Cukup,Tidak
1,Muda,Tinggi,Tidak,Sangat Bagus,Tidak
2,Dewasa,Tinggi,Tidak,Cukup,Ya
3,Senior,Menengah,Tidak,Cukup,Ya
4,Senior,Rendah,Ya,Cukup,Ya
5,Senior,Rendah,Ya,Sangat Bagus,Tidak
6,Dewasa,Rendah,Ya,Sangat Bagus,Ya
7,Muda,Menengah,Tidak,Cukup,Tidak
8,Muda,Rendah,Ya,Cukup,Ya
9,Senior,Menengah,Ya,Cukup,Ya


In [11]:
usia = df["Usia"]
pendapatan = df["Pendapatan"]
mahasiswa = df["Mahasiswa"]
rating_kredit = df["Rating Kredit"]
beli = df["Beli"]

beli

0     Tidak
1     Tidak
2        Ya
3        Ya
4        Ya
5     Tidak
6        Ya
7     Tidak
8        Ya
9        Ya
10       Ya
11       Ya
12       Ya
13    Tidak
Name: Beli, dtype: object

## Membuat Label

Setiap data yang non-numerik harus di-*encode* ke numerik. Fasilitas yang digunakan adalah *LabelEncoder* dari scikit-learn. *fit_transform* digunakan untuk keperluan tersebut. Setelah itu *LabelEncoder.classes_* digunakan untuk mengetahui konversi tersebut.

In [59]:
#creating labelEncoder
le = preprocessing.LabelEncoder()
# Converting string labels into numbers.
usia_encoded=le.fit_transform(usia)
print(le.classes_)
pendapatan_encoded=le.fit_transform(pendapatan)
print(le.classes_)
mahasiswa_encoded=le.fit_transform(mahasiswa)
print(le.classes_)
rating_kredit_encoded=le.fit_transform(rating_kredit)
print(le.classes_)
beli_encoded=le.fit_transform(beli)
print(le.classes_)

['Dewasa' 'Muda' 'Senior']
['Menengah' 'Rendah' 'Tinggi']
['Tidak' 'Ya']
['Cukup' 'Sangat Bagus']
['Tidak' 'Ya']


## Data Encoded

Data yang sudah di-*encode* digabungkan dan diubah menjadi array 2D.

In [79]:
f = np.dstack((usia_encoded, pendapatan_encoded, mahasiswa_encoded, rating_kredit_encoded))

features = np.reshape(f, (14,-1))
features

array([[1, 2, 0, 0],
       [1, 2, 0, 1],
       [0, 2, 0, 0],
       [2, 0, 0, 0],
       [2, 1, 1, 0],
       [2, 1, 1, 1],
       [0, 1, 1, 1],
       [1, 0, 0, 0],
       [1, 1, 1, 0],
       [2, 0, 1, 0],
       [1, 0, 1, 1],
       [0, 0, 0, 1],
       [0, 2, 1, 0],
       [2, 0, 0, 1]])

## Membuat Model

In [80]:
model = GaussianNB()
model.fit(features,beli_encoded)

GaussianNB()

## Prediksi 

In [81]:
# Prediksi
# 
# Usia => ['Dewasa' 'Muda' 'Senior']
# Pendapatan => ['Menengah' 'Rendah' 'Tinggi']
# Mahasiswa? => ['Tidak' 'Ya']
# Rating Kredit => ['Cukup' 'Sangat Bagus']
# Beli => ['Tidak' 'Ya']
#
# Prediksi untuk:
# Muda, pendapatan menengah, masih mahasiswa, rating kredit cukup
# 1,0,1,0
#
prediksi = model.predict([[1,0,1,0]])
print("Hasil prediksi: ", prediksi)

Hasil prediksi:  [1]


## Simpulan

Dari hasil di atas - [1] - kita mengetahui bahwa konsumen target masuk ke kelompok 1. Jika dilihat pada LabelEncode di atas, maka arti **1** adalah **BELI**