## Naive Bayes

### Tujuan Klasifikasi?
Adalah untuk mengelompokkan sebuah data dari kelas yang sudah ditentukan sebelumnya
### Lantas apa perbedaan antara Klasifikasi dengan Clustering?
Kita sudah tahu sebelumnya bahwa klasifikasi adalah proses/prosedur untuk mengelompokkan sebuah data berdasarkan kelas yang sudah ada di sebuah dataset. Sedangkan Clustering sendiri adalah proses/prosedur untuk mengelompokkan data berdasarkan kemiripan data dari masing-masing atribut (dataset masih belum memiliki kelas). Untuk penentuan banyaknya kelas dapat dibantu dengan hasil grafik dari sebuah scatter plot
### Probabilitas prior
Probabilitas prior adalah persentase kemungkinan berdasarkan proporsi suatu kelas pada dataset/sampel
### Probabilitas posterior
Hampir sama seperti probabilitas prior, probabilitas posterior tidak hanya menitikberatkan pada proporsi suatu kelas saja, tetapi juga berdasarkan nilai atribut pada sebuah dataset

### Implementasi Naive Bayes pada dataset titanic

In [16]:
#blok 1
import pandas as pd
df = pd.read_csv("titanic.csv")
df.head()

Unnamed: 0,PassengerId,Name,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Survived
0,1,"Braund, Mr. Owen Harris",3,male,22.0,1,0,A/5 21171,7.25,,S,0
1,2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",1,female,38.0,1,0,PC 17599,71.2833,C85,C,1
2,3,"Heikkinen, Miss. Laina",3,female,26.0,0,0,STON/O2. 3101282,7.925,,S,1
3,4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",1,female,35.0,1,0,113803,53.1,C123,S,1
4,5,"Allen, Mr. William Henry",3,male,35.0,0,0,373450,8.05,,S,0


Seperti biasa, pada `blok 1` ini kita akan import dataset `titanic` yang berbentuk csv untuk nantinya digunakan sebagai dataset utama pada algoritma naive bayes

In [17]:
#blok 2
df.drop(['PassengerId','Name','SibSp','Parch','Ticket','Cabin','Embarked'],axis='columns',inplace=True)
df.head()


Unnamed: 0,Pclass,Sex,Age,Fare,Survived
0,3,male,22.0,7.25,0
1,1,female,38.0,71.2833,1
2,3,female,26.0,7.925,1
3,1,female,35.0,53.1,1
4,3,male,35.0,8.05,0


Blok 2, kita lakukan penghapusan beberapa kolom yang tidak kita gunakan pada dataset `df` menggunakan atribut `inplace` dengan nilai `True` yang ada di `drop()`

In [18]:
#blok 3
inputs = df.drop('Survived',axis='columns')
target = df.Survived
target


0      0
1      1
2      1
3      1
4      0
      ..
886    0
887    1
888    0
889    1
890    0
Name: Survived, Length: 891, dtype: int64

Blok 3, kita pisahkan kolom yang ada di dataset berdasarkan kegunaannya nanti. Untuk kolom data, akan kita masukkan ke variabel `inputs`, sedangkan untuk kolom kelas akan kita masukkan ke variabel `target`

In [19]:
inputs

Unnamed: 0,Pclass,Sex,Age,Fare
0,3,male,22.0,7.2500
1,1,female,38.0,71.2833
2,3,female,26.0,7.9250
3,1,female,35.0,53.1000
4,3,male,35.0,8.0500
...,...,...,...,...
886,2,male,27.0,13.0000
887,1,female,19.0,30.0000
888,3,female,,23.4500
889,1,male,26.0,30.0000


In [20]:
#blok 4
dummies = pd.get_dummies(inputs.Sex)
dummies.head(3)

Unnamed: 0,female,male
0,0,1
1,1,0
2,1,0


Blok 4, di sini kita lakukan `get_dummies` di kolom sex untuk membuat sebuah matriks yang menghasilkan nilai boolean yang direpresentasikan berdasarkan nilai `0` dan `1`. `0` = `False` dan `1` = `True`. Jadi semisal di kolom `male` menghasilkan nilai 1 berarti dia merupakan laki-laki begitupun seterusnya

In [21]:
#blok 5
inputs = pd.concat([inputs,dummies],axis='columns')
inputs.head(3)

Unnamed: 0,Pclass,Sex,Age,Fare,female,male
0,3,male,22.0,7.25,0,1
1,1,female,38.0,71.2833,1,0
2,3,female,26.0,7.925,1,0


Blok5, setelah kita memiliki variabel dummies dan variabel inputs maka kita akan lakukan concat (penggabungan) antara keduanya. Untuk hasilnya kita timpa di variabel inputs

In [22]:
#blok 6
inputs.drop(['Sex','male'],axis='columns',inplace=True)
inputs.head()

Unnamed: 0,Pclass,Age,Fare,female
0,3,22.0,7.25,0
1,1,38.0,71.2833,1
2,3,26.0,7.925,1
3,1,35.0,53.1,1
4,3,35.0,8.05,0


Blok 6, karena kolom Sex, male dan female dapat diwakilkan satu sama lain maka sebaiknya kita hapus 2 diantaranya. Sehingga di blok ini kita akan menghapus kolom sex dan male lalu kita sisakan variabel female.

In [23]:
# 5.	jelaskan output kode blok 7 - 9. apakah yang yang dilakukan pada kode blok 14
#blok 7
inputs.columns[inputs.isna().any()]


Index(['Age'], dtype='object')

blok 7, kita lakukan pengecekan, ada tidak cell pada baris dan kolom tertentu yang datanya None atau kosong. Jika ada, kita akan proses di blok selanjutnya

In [24]:
#blok 9
inputs.Age = inputs.Age.fillna(inputs.Age.mean())
inputs.head()



Unnamed: 0,Pclass,Age,Fare,female
0,3,22.0,7.25,0
1,1,38.0,71.2833,1
2,3,26.0,7.925,1
3,1,35.0,53.1,1
4,3,35.0,8.05,0


blok 9, karena di blok 7 terdapat kolom yang tidak memiliki data yaitu kolom age maka di kolom age ini setiap data yang nilainya kosong akan kita isi berdasarkan banyaknya rata-rata dari data sebelumnya di kolom age.

In [25]:
#blok 10
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(inputs,target,test_size=0.3)


blok 10, karena data yang kita miliki sudah siap untuk digunakan maka kita tinggal memisah data tersebut menjadi data training data data testing. Di sini kita gunakan train_test_split untuk memisah data tersebut berdasarkan skala tertentu. Di kasus ini untuk skalanya saya gunakan 0,3 untuk banyaknya data testing sedangkan sisanya untuk data training

In [26]:
# 7.	jelaskan tahapan klasifikasi yang dilakukan pada kode blok 11
#blok 11
from sklearn.naive_bayes import GaussianNB
model = GaussianNB()
model.fit(X_train,y_train)
model.score(X_test,y_test)


0.7985074626865671

blok 11, pemrosesan utama terjadi di sini dengan bantuan algoritma gaussianNB di naive bayes classifier. Data training yang kita miliki kita latih menggunakan function fit, sedangkan untuk data test kita gunakan untuk pengecekan menggunakan function score di gaussianNB. Bisa kita lihat, untuk score akurasi dari data training dan data testing ternyata sebanyak 0,798 (dengan 3 derajat ketelitian) atau setara dengan 79,8%

In [28]:
#blok 12
X_test[0:10]


Unnamed: 0,Pclass,Age,Fare,female
18,3,31.0,18.0,1
539,1,22.0,49.5,1
169,3,28.0,56.4958,0
534,3,30.0,8.6625,1
693,3,25.0,7.225,0
161,2,40.0,15.75,1
201,3,29.699118,69.55,0
467,1,56.0,26.55,0
336,1,29.0,66.6,0
328,3,31.0,20.525,1


Blok 12, untuk melihat 10 baris data train 

In [31]:
#blok 13
y_test[0:10]


18     0
539    1
169    0
534    0
693    0
161    1
201    0
467    0
336    0
328    1
Name: Survived, dtype: int64

Blok 13, untuk melihat 10 baris data test

In [32]:
#blok 14
model.predict(X_test[0:10])


array([1, 1, 0, 1, 0, 1, 0, 0, 0, 1], dtype=int64)

Blok 14, sedangkan blok ini bertujuan untuk melihat hasil prediksi dari kelasnya

In [33]:
#blok 15
model.predict_proba(X_test[:10])


array([[0.42184818, 0.57815182],
       [0.05784722, 0.94215278],
       [0.93980806, 0.06019194],
       [0.41719356, 0.58280644],
       [0.96107535, 0.03892465],
       [0.24997985, 0.75002015],
       [0.9154318 , 0.0845682 ],
       [0.72783354, 0.27216646],
       [0.60702929, 0.39297071],
       [0.42050488, 0.57949512]])

Blok 15, hampir sama seperti sebelumnya, tapi di hasil blok ini adalah sebuah array dengan sejumlah baris dan 2 kolom. Untuk menentukan dia ada di kelas mana kita bisa cek dengan melihat data yang memiliki probabilitas tertinggi (mendekati 1, atau lebih besar dari angka pembandingnya). Contoh untuk baris satu, nilai pembandingnya antara 0,42 dengan 0,58. karena 0,58 lebih besar dari 0,42 dan berada di kolom 2 (indeks 1) maka bisa dipastikan untuk baris 1 (indeks pertama dari array multi dimensi) memiliki kelas 1