# Rekomendasi Makanan Pendamping ASI Bayi Menggunakan Naive Bayes

## Importing the libraries

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

## Importing the dataset

Import dataset digunakan untuk memanggil data kedalam program atau biasa disebut dengan pembacaan data

In [2]:
df = pd.read_csv('finaldata.csv')
df.head(100)

Unnamed: 0,umur,jk,bb,alergi,kebutuhankalori,kalori_asi,jml_kebutuhankalori,rekomendasimakanan
0,6,P,5.7,Beras,682,486,196,Bubur Kentang
1,6,P,6.5,Gabus,682,486,196,Bubur Kentang
2,6,P,8.2,Semangka,682,486,196,Bubur Kentang
3,7,P,6.0,Ayam,682,486,196,Bubur Kentang
4,7,L,6.8,Tahu,682,486,196,Bubur Kentang
5,7,P,8.6,Pisang Raja,682,486,196,Bubur Kentang
6,8,P,6.3,Ikan layang,682,486,196,Bubur Kentang
7,8,P,7.0,Tempe,682,486,196,Bubur Kentang
8,8,P,9.0,Pepaya,682,486,196,Bubur Kentang
9,9,P,6.5,Bayam,830,375,455,Bubur Beras


## Label Encoder

Pada data diatas masih terdapat data yang berupa kategorikal, sehingga di butuhkan proses untuk mengubah data Kategorikal menjadi Numerik atau angka sehingga bisa di proses dengan menggunakan algoritma Naive Bayes.

Label encoder sendiri mempunyai fungsi untuk mengubah nilai dari Kategorikal menjadi numerik berdasarkan kesamaan dari banyaknya data yang digunakan pada dataset yang kita gunakan.

Penerapannya:
Pada data kita dapat melihat bahwa terdapat 3 Atribut/variabel yang mempunyai type data Kategorikal, yaitu Jenis Kelamin atau disingkat jk, Alergi, dan rekomendasimakanan. Dari ketiga data tersebut belum bisa diproses karena masih bersifat kategorikal data sehingga digunakanlah metode Label Encoder untuk mengubah value/nilai dari atribut-atribut yang digunakan, khususnya pada data yang bertipe Kategorikal.

In [3]:
# Fungsi untuk melakukan label encoder
from sklearn.preprocessing import LabelEncoder

labelencoder = LabelEncoder()
df['jk'] = labelencoder.fit_transform(df['jk'])
df['alergi'] = labelencoder.fit_transform(df['alergi'])
df['rekomendasimakanan'] = labelencoder.fit_transform(df['rekomendasimakanan'])

# Fungsi Untuk Menampilkan Data
df.head(51)

Unnamed: 0,umur,jk,bb,alergi,kebutuhankalori,kalori_asi,jml_kebutuhankalori,rekomendasimakanan
0,6,1,5.7,4,682,486,196,2
1,6,1,6.5,11,682,486,196,2
2,6,1,8.2,39,682,486,196,2
3,7,1,6.0,2,682,486,196,2
4,7,0,6.8,41,682,486,196,2
5,7,1,8.6,34,682,486,196,2
6,8,1,6.3,17,682,486,196,2
7,8,1,7.0,44,682,486,196,2
8,8,1,9.0,32,682,486,196,2
9,9,1,6.5,3,830,375,455,1


## Memisahkan Data Label dengan Atribut

Label ialah hasil rekomendasi makanan, sedangkan Atribut nilai-nilai yang mempengaruhi rekomendasi makanan yang direkomendasikan. Pemisahan ini dilakukan untuk memberikan pengujian di naive bayes dalam hal mengenali/memprediksi asupan makanan yang direkomendasikan.

In [4]:
X = df.iloc[:, :-1].values
y = df.iloc[:, -1].values

## Splitting the dataset into the Training set and Test set

Spiliting dataset adalah proses pemisalahan data Training dan data Testing, dimana untuk pembagian ini data yang digunakan dibagi kedalam 20% untuk testing data dan untuk training sebesar 80%.

In [41]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)

In [42]:
# Cetak data kelompok data X Train
print(X_train)

[[1.500e+01 1.000e+00 1.090e+01 6.000e+00 1.092e+03 3.130e+02 7.790e+02]
 [2.000e+01 1.000e+00 8.400e+00 4.600e+01 1.092e+03 3.130e+02 7.790e+02]
 [2.000e+01 1.000e+00 9.400e+00 1.400e+01 1.092e+03 3.130e+02 7.790e+02]
 [8.000e+00 1.000e+00 7.000e+00 4.400e+01 6.820e+02 4.860e+02 1.960e+02]
 [1.000e+01 1.000e+00 9.600e+00 1.000e+00 8.300e+02 3.750e+02 4.550e+02]
 [1.700e+01 1.000e+00 7.900e+00 2.900e+01 1.092e+03 3.130e+02 7.790e+02]
 [2.400e+01 1.000e+00 9.000e+00 4.100e+01 1.092e+03 3.130e+02 7.790e+02]
 [1.200e+01 1.000e+00 7.000e+00 4.300e+01 1.092e+03 3.130e+02 7.790e+02]
 [2.300e+01 0.000e+00 1.000e+01 1.600e+01 1.092e+03 3.130e+02 7.790e+02]
 [1.700e+01 1.000e+00 1.140e+01 4.000e+01 1.092e+03 3.130e+02 7.790e+02]
 [1.100e+01 1.000e+00 6.900e+00 4.200e+01 8.300e+02 3.750e+02 4.550e+02]
 [7.000e+00 1.000e+00 8.600e+00 3.400e+01 6.820e+02 4.860e+02 1.960e+02]
 [1.500e+01 1.000e+00 7.600e+00 4.500e+01 1.092e+03 3.130e+02 7.790e+02]
 [1.100e+01 0.000e+00 7.700e+00 9.000e+00 8.300e+02

In [47]:
# Cetak data kelompok data X Test
print (X_test)

[[1.500e+01 1.000e+00 8.500e+00 4.800e+01 1.092e+03 3.130e+02 7.790e+02]
 [1.800e+01 0.000e+00 9.100e+00 3.500e+01 1.092e+03 3.130e+02 7.790e+02]
 [9.000e+00 1.000e+00 9.300e+00 0.000e+00 8.300e+02 3.750e+02 4.550e+02]
 [1.700e+01 0.000e+00 8.900e+00 7.000e+00 1.092e+03 3.130e+02 7.790e+02]
 [6.000e+00 1.000e+00 8.200e+00 3.900e+01 6.820e+02 4.860e+02 1.960e+02]
 [1.600e+01 1.000e+00 7.700e+00 2.200e+01 1.092e+03 3.130e+02 7.790e+02]
 [1.900e+01 1.000e+00 9.200e+00 3.600e+01 1.092e+03 3.130e+02 7.790e+02]
 [1.600e+01 1.000e+00 1.110e+01 2.100e+01 1.092e+03 3.130e+02 7.790e+02]
 [1.400e+01 1.000e+00 1.060e+01 3.700e+01 1.092e+03 3.130e+02 7.790e+02]
 [7.000e+00 0.000e+00 6.800e+00 4.100e+01 6.820e+02 4.860e+02 1.960e+02]
 [9.000e+00 1.000e+00 7.300e+00 2.500e+01 8.300e+02 3.750e+02 4.550e+02]
 [1.300e+01 0.000e+00 8.100e+00 2.700e+01 1.092e+03 3.130e+02 7.790e+02]
 [1.600e+01 1.000e+00 8.700e+00 4.700e+01 1.092e+03 3.130e+02 7.790e+02]]


In [54]:
# Cetak data kelompok data Y Test
print(y_test)

[0 0 1 0 2 0 0 0 0 2 1 0 0]


In [55]:
# Cetak data kelompok data Y Train
print(y_train)

[0 0 0 2 1 0 0 0 0 0 1 2 0 1 0 0 0 2 1 0 1 0 0 2 1 0 0 2 0 0 0 0 1 0 0 2 2
 0 0]


## Feature Scaling

StandardScaler adalah class dari sklearn untuk melakukan normalisasi data agar data yang digunakan tidak memiliki penyimpangan yang besar. Satu hal penting dalam Data Analysis adalah membuat DataFrame dari dataset. Lalu menampilkan 5 data teratas untuk memastikan data seperti apa yang akan di analisis.

In [10]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

In [40]:
# Hasil StandardScaler untuk data X_train
print (X_train)

[[ 0.06947572  0.42640143  1.50752283 -1.21426729  0.72153099 -0.64452815
   0.70484278]
 [ 0.97266012  0.42640143 -0.07635083  1.5034615   0.72153099 -0.64452815
   0.70484278]
 [ 0.97266012  0.42640143  0.55719863 -0.67072153  0.72153099 -0.64452815
   0.70484278]
 [-1.19498243  0.42640143 -0.96332008  1.36757507 -1.73112217  1.9990168
  -1.81933588]
 [-0.83370867  0.42640143  0.68390852 -1.55398339 -0.8457742   0.30286946
  -0.69795977]
 [ 0.43074948  0.42640143 -0.39312556  0.34842677  0.72153099 -0.64452815
   0.70484278]
 [ 1.69520763  0.42640143  0.30377885  1.16374541  0.72153099 -0.64452815
   0.70484278]
 [-0.47243491  0.42640143 -0.96332008  1.29963185  0.72153099 -0.64452815
   0.70484278]
 [ 1.51457076 -2.34520788  0.93732831 -0.53483509  0.72153099 -0.64452815
   0.70484278]
 [ 0.43074948  0.42640143  1.82429756  1.09580219  0.72153099 -0.64452815
   0.70484278]
 [-0.65307179  0.42640143 -1.02667503  1.23168863 -0.8457742   0.30286946
  -0.69795977]
 [-1.37561931  0.42640

In [56]:
# Hasil StandardScaler untuk data X_test
print (X_test)

[[1.500e+01 1.000e+00 8.500e+00 4.800e+01 1.092e+03 3.130e+02 7.790e+02]
 [1.800e+01 0.000e+00 9.100e+00 3.500e+01 1.092e+03 3.130e+02 7.790e+02]
 [9.000e+00 1.000e+00 9.300e+00 0.000e+00 8.300e+02 3.750e+02 4.550e+02]
 [1.700e+01 0.000e+00 8.900e+00 7.000e+00 1.092e+03 3.130e+02 7.790e+02]
 [6.000e+00 1.000e+00 8.200e+00 3.900e+01 6.820e+02 4.860e+02 1.960e+02]
 [1.600e+01 1.000e+00 7.700e+00 2.200e+01 1.092e+03 3.130e+02 7.790e+02]
 [1.900e+01 1.000e+00 9.200e+00 3.600e+01 1.092e+03 3.130e+02 7.790e+02]
 [1.600e+01 1.000e+00 1.110e+01 2.100e+01 1.092e+03 3.130e+02 7.790e+02]
 [1.400e+01 1.000e+00 1.060e+01 3.700e+01 1.092e+03 3.130e+02 7.790e+02]
 [7.000e+00 0.000e+00 6.800e+00 4.100e+01 6.820e+02 4.860e+02 1.960e+02]
 [9.000e+00 1.000e+00 7.300e+00 2.500e+01 8.300e+02 3.750e+02 4.550e+02]
 [1.300e+01 0.000e+00 8.100e+00 2.700e+01 1.092e+03 3.130e+02 7.790e+02]
 [1.600e+01 1.000e+00 8.700e+00 4.700e+01 1.092e+03 3.130e+02 7.790e+02]]


## Prediksi Menggunakan Naive Bayes

Algoritma Naive Bayes merupakan salah satu pengklasifikasi statistik, dimana pengklasifikasi ini dapat memprediksi probabilitas keanggotaan kelas suatu data yang akan masuk ke dalam kelas tertentu, sesuai dengan perhitungan probabilitas.

Pada penelitian ini penulis menggunakan Library dari python, dimana dalam library tersebut telah tersedia Algoritma Naive Bayes di dalamnya yang dapat langsung digunakan untuk studi kasus kita.

In [36]:
# Implementasi ALgoritma Naive Bayes menggunakan Library Python
from sklearn.naive_bayes import GaussianNB
classifier = GaussianNB()
classifier.fit(X_train, y_train)

# Pengujian Data
#umur, jk, bb,alergi, kebutuhankalori, kalori_asi, jml_kebutuhankalori
DataTesting = sc.transform([[12, 1,5, 44, 1000, 300, 778]])


# Menampilkan Hasil Prediksi
cl = classifier.predict(DataTesting)

if (cl == 0):
    print ("Makanan yang Bisa di Konsumsi : Bubur Kentang, Biskuit atau Ayam")

if (cl == 1):
    print ("Bubur Wortel, Udang, atau Pisang")
    
if (cl == 2):
    print ("Bubur Beras, Tahu, Bayam")

Makanan yang Bisa di Konsumsi : Bubur Kentang, Biskuit atau Ayam


## Pengujian Matrix Confussinon

Confusion matrix (matriks kebingungan)adalah gambar atau tabel yang digunakan untuk mendeskripsikan kinerja sebuah penggolongan (klasifikasi). Ini biasanya diekstrak dari  dataset pengujian yang kebenaran dasarnya diketahui. 

Kita bandingkan setiap kelas dengan setiap kelas lainnya dan lihat berapa banyak sampel yang salah diklasifikasikan. Selama pembuatan tabel ini, kami sebenarnya menemukan beberapa metrik utama sangat penting di bidang pembelajaran mesin. 

Mari kita pertimbangkan kasus klasifikasi biner dengan output 0 atau 1: 

- Positif benar: Ini adalah sampel yang kami prediksi 1 sebagai output dan kebenaran dasarnya adalah 1 juga. 
- Negatif benar: Ini adalah sampel yang kami perkirakan 0 sebagai keluarannya dan kebenaran dasarnya adalah 0 juga. 
- Positif palsu: Ini adalah sampel yang kami prediksi 1 sebagai output tetapi kebenaran dasarnya adalah 0. Ini juga dikenal sebagai kesalahan Tipe I. 
- Negatif palsu: Ini adalah sampel yang kami perkirakan 0 sebagai keluarannya tetapi kebenaran dasarnya adalah 1. Ini juga dikenal sebagai kesalahan Tipe II.

# Selesai