## Klasifikasi Naive Bayes

### Import Library

Kode import pandas as pd berfungsi untuk mengimpor library Pandas ke dalam kode program dan menetapkan alias (nama panggilan) "pd" yang digunakan sebagai singkatan dari "Pandas".
Kode import sklearn digunakan untuk mengimport library scikit-learn ke dalam kode program. Library ini adalah salah satu library yang populer digunakan dalam machine learning.

In [33]:
import pandas as pd
import sklearn

### Import Dataset

pd.read_csvdigunakan untuk membaca dataset yang tersimpan dalam format file CSV dari suatu URL yang diakses melalui internet. Dataset yang dibaca adalah dataset tentang kanker payudara yang tersedia di GitHub repository bernama "datasets".

Fungsi pd.read_csv() adalah fungsi bawaan dari library Pandas yang digunakan untuk membaca file CSV dan mengubahnya menjadi suatu objek DataFrame.

In [18]:
dataset = pd.read_csv('https://raw.githubusercontent.com/datasets/breast-cancer/master/data/breast-cancer.csv')
dataset.head(8)

Unnamed: 0,age,mefalsepause,tumor-size,inv-falsedes,falsede-caps,deg-malig,breast,breast-quad,irradiat,class
0,40-49,premefalse,15-19,0-2,True,3,right,left_up,False,recurrence-events
1,50-59,ge40,15-19,0-2,False,1,right,central,False,false-recurrence-events
2,50-59,ge40,35-39,0-2,False,2,left,left_low,False,recurrence-events
3,40-49,premefalse,35-39,0-2,True,3,right,left_low,True,false-recurrence-events
4,40-49,premefalse,30-34,3-5,True,2,left,right_up,False,recurrence-events
5,50-59,premefalse,25-29,3-5,False,2,right,left_up,True,false-recurrence-events
6,50-59,ge40,40-44,0-2,False,3,left,left_up,False,false-recurrence-events
7,40-49,premefalse,10-14,0-2,False,2,left,left_up,False,false-recurrence-events


### Preprocessing / Normalisasi Data

Kode from sklearn.preprocessing import LabelEncoder digunakan untuk mengimpor class LabelEncoder dari library sklearn.preprocessing.

Class LabelEncoder pada scikit-learn berfungsi untuk mengubah label atau nilai-nilai kategori pada suatu fitur menjadi nilai bilangan bulat secara berurutan, dimulai dari 0 hingga N-1, di mana N adalah jumlah kategori yang unik.

Kode le = LabelEncoder() digunakan untuk membuat objek LabelEncoder yang akan digunakan untuk mengubah nilai-nilai kategori menjadi bilangan bulat.

Kode dataset = dataset.apply(le.fit_transform) digunakan untuk menerapkan metode fit_transform() pada objek LabelEncoder dan mengubah nilai-nilai kategori pada dataset menjadi bilangan bulat. Method fit_transform() adalah gabungan dari method fit() dan transform(). Method fit() digunakan untuk mempelajari data training dan method transform() digunakan untuk mengubah data menjadi format yang diinginkan.



In [3]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
dataset = dataset.apply(le.fit_transform)

In [4]:
print(dataset.head())

   age  mefalsepause  tumor-size  inv-falsedes  falsede-caps  deg-malig  \
0    2             2           2             0             1          2   
1    3             0           2             0             0          0   
2    3             0           6             0             0          1   
3    2             2           6             0             1          2   
4    2             2           5             4             1          1   

   breast  breast-quad  irradiat  class  
0       1            2         0      1  
1       1            0         0      0  
2       0            1         0      1  
3       1            1         1      0  
4       0            4         0      1  


Kode from sklearn.preprocessing import MinMaxScaler digunakan untuk mengimpor class MinMaxScaler dari library sklearn.preprocessing.

Class MinMaxScaler pada scikit-learn berfungsi untuk melakukan normalisasi data dengan mengubah rentang nilai pada setiap fitur menjadi rentang yang diinginkan, dalam hal ini antara 0 dan 1. 

Kode scaler = MinMaxScaler() digunakan untuk membuat objek MinMaxScaler yang akan digunakan untuk melakukan normalisasi pada dataset.

Kode dataset = scaler.fit_transform(dataset) digunakan untuk menerapkan metode fit_transform() pada objek MinMaxScaler dan melakukan normalisasi pada dataset. Method fit_transform() adalah gabungan dari method fit() dan transform(). Method fit() digunakan untuk mempelajari data training dan method transform() digunakan untuk mengubah data menjadi format yang diinginkan.

In [6]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
dataset = scaler.fit_transform(dataset)

In [8]:
print(dataset)

[[0.4 1.  0.2 ... 0.4 0.  1. ]
 [0.6 0.  0.2 ... 0.  0.  0. ]
 [0.6 0.  0.6 ... 0.2 0.  1. ]
 ...
 [0.2 1.  0.5 ... 0.8 0.  0. ]
 [0.6 1.  0.2 ... 0.2 0.  0. ]
 [0.6 0.  0.7 ... 0.8 0.  0. ]]


### Split Data


Pada tahap ini dataset dibagi menggunakan fungsi train_test_split, yang berguna untuk membagi dataset menjadi data latih dan data uji. Fungsi ini digunakan untuk membagi dataset menjadi data latih dan data uji secara acak, sehingga data latih dan data uji dapat merepresentasikan dataset secara keseluruhan.

Pada baris kedua dan ketiga, variabel independen (X) dan variabel dependen (y) diinisialisasi dengan slicing dari dataset. Slicing dilakukan untuk memilih kolom-kolom dari dataset, di mana ':' menunjukkan semua baris dan '-1' menunjukkan kolom terakhir.

In [9]:
from sklearn.model_selection import train_test_split
X = dataset[:, :-1]
y = dataset[:, -1]

Fungsi train_test_split() pada sklearn berfungsi untuk membagi dataset menjadi data training dan data testing secara acak, dengan parameter yang ditentukan. Parameter yang digunakan pada kode tersebut adalah sebagai berikut:

X adalah variabel yang berisi fitur atau variabel independen dari dataset. y adalah variabel yang berisi label atau variabel dependen dari dataset. test_size adalah proporsi ukuran dataset yang akan digunakan sebagai data testing. Dalam hal ini, data testing akan digunakan sebanyak 30% dari seluruh dataset. random_state adalah bilangan integer atau angka yang digunakan sebagai seed (benih) pada algoritma pengacakan. Pada kasus ini, random_state diatur menjadi 42 untuk memastikan bahwa pembagian dataset yang dihasilkan dapat direproduksi atau sama jika dijalankan di mesin lain. 

In [10]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

### Training Data


Tahap ini merupakan tahapan training untuk melakukan prediksi pada data uji, dengan mengimport kelas GaussianNB dari library Scikit-learn (sklearn.naive_bayes) dan membuat objek GNB dari kelas GaussianNB.

Kemudian, fungsi fit() dipanggil pada objek GNB yang telah dibuat dengan parameter X_train dan y_train, yaitu data latih (variabel independen dan dependen) yang digunakan untuk melatih model.

Setelah melakukan training, model GNB dapat digunakan untuk melakukan prediksi pada data uji.

In [11]:
from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()
gnb.fit(X_train, y_train)

### Predict

Fungsi predict() pada objek GNB digunakan untuk melakukan prediksi kelas pada variabel dependen (y) pada data uji (X_test). Hasil prediksi tersebut disimpan pada variabel y_pred.

Tujuannya adalah untuk mengevaluasi sejauh mana model dapat memprediksi kelas dengan benar pada data yang belum pernah dilihat sebelumnya.

In [12]:
y_pred = gnb.predict(X_test)

### Accuracy

Fungsi accuracy_score() akan menghitung jumlah prediksi yang benar dan membaginya dengan jumlah total data uji untuk mendapatkan nilai akurasi. Akurasi adalah metrik evaluasi yang digunakan untuk mengukur seberapa akurat model dalam memprediksi kelas pada data uji.

Dalam hal ini, nilai akurasi yang dihasilkan akan disimpan pada variabel ac,semakin tinggi nilai akurasi, semakin baik kinerja model.

In [14]:
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test, y_pred)

In [15]:
print("Accuracy Score : ", accuracy)

Accuracy Score :  0.7195121951219512


## Klasifikasi KNN

### Import Library

Kode import pandas as pd berfungsi untuk mengimpor library Pandas ke dalam kode program dan menetapkan alias (nama panggilan) "pd" yang digunakan sebagai singkatan dari "Pandas".
Kode import sklearn digunakan untuk mengimport library scikit-learn ke dalam kode program. Library ini adalah salah satu library yang populer digunakan dalam machine learning.

In [None]:
import pandas as pd
import sklearn

### Import Dataset

pd.read_csvdigunakan untuk membaca dataset yang tersimpan dalam format file CSV dari suatu URL yang diakses melalui internet. Dataset yang dibaca adalah dataset tentang kanker payudara yang tersedia di GitHub repository bernama "datasets".

Fungsi pd.read_csv() adalah fungsi bawaan dari library Pandas yang digunakan untuk membaca file CSV dan mengubahnya menjadi suatu objek DataFrame.

In [34]:
dataset = pd.read_csv('https://raw.githubusercontent.com/datasets/breast-cancer/master/data/breast-cancer.csv')
dataset.head(8)

Unnamed: 0,age,mefalsepause,tumor-size,inv-falsedes,falsede-caps,deg-malig,breast,breast-quad,irradiat,class
0,40-49,premefalse,15-19,0-2,True,3,right,left_up,False,recurrence-events
1,50-59,ge40,15-19,0-2,False,1,right,central,False,false-recurrence-events
2,50-59,ge40,35-39,0-2,False,2,left,left_low,False,recurrence-events
3,40-49,premefalse,35-39,0-2,True,3,right,left_low,True,false-recurrence-events
4,40-49,premefalse,30-34,3-5,True,2,left,right_up,False,recurrence-events
5,50-59,premefalse,25-29,3-5,False,2,right,left_up,True,false-recurrence-events
6,50-59,ge40,40-44,0-2,False,3,left,left_up,False,false-recurrence-events
7,40-49,premefalse,10-14,0-2,False,2,left,left_up,False,false-recurrence-events


### Preprocessing / Normalisasi Data

Kode from sklearn.preprocessing import LabelEncoder digunakan untuk mengimpor class LabelEncoder dari library sklearn.preprocessing.

Class LabelEncoder pada scikit-learn berfungsi untuk mengubah label atau nilai-nilai kategori pada suatu fitur menjadi nilai bilangan bulat secara berurutan, dimulai dari 0 hingga N-1, di mana N adalah jumlah kategori yang unik.

Kode le = LabelEncoder() digunakan untuk membuat objek LabelEncoder yang akan digunakan untuk mengubah nilai-nilai kategori menjadi bilangan bulat.

Kode dataset = dataset.apply(le.fit_transform) digunakan untuk menerapkan metode fit_transform() pada objek LabelEncoder dan mengubah nilai-nilai kategori pada dataset menjadi bilangan bulat. Method fit_transform() adalah gabungan dari method fit() dan transform(). Method fit() digunakan untuk mempelajari data training dan method transform() digunakan untuk mengubah data menjadi format yang diinginkan.

In [35]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
dataset = dataset.apply(le.fit_transform)

In [36]:
print(dataset.head())

   age  mefalsepause  tumor-size  inv-falsedes  falsede-caps  deg-malig  \
0    2             2           2             0             1          2   
1    3             0           2             0             0          0   
2    3             0           6             0             0          1   
3    2             2           6             0             1          2   
4    2             2           5             4             1          1   

   breast  breast-quad  irradiat  class  
0       1            2         0      1  
1       1            0         0      0  
2       0            1         0      1  
3       1            1         1      0  
4       0            4         0      1  


Kode from sklearn.preprocessing import MinMaxScaler digunakan untuk mengimpor class MinMaxScaler dari library sklearn.preprocessing.

Class MinMaxScaler pada scikit-learn berfungsi untuk melakukan normalisasi data dengan mengubah rentang nilai pada setiap fitur menjadi rentang yang diinginkan, dalam hal ini antara 0 dan 1. 

Kode scaler = MinMaxScaler() digunakan untuk membuat objek MinMaxScaler yang akan digunakan untuk melakukan normalisasi pada dataset.

Kode dataset = scaler.fit_transform(dataset) digunakan untuk menerapkan metode fit_transform() pada objek MinMaxScaler dan melakukan normalisasi pada dataset. Method fit_transform() adalah gabungan dari method fit() dan transform(). Method fit() digunakan untuk mempelajari data training dan method transform() digunakan untuk mengubah data menjadi format yang diinginkan.

In [37]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
dataset = scaler.fit_transform(dataset)

In [38]:
print(dataset)

[[0.4 1.  0.2 ... 0.4 0.  1. ]
 [0.6 0.  0.2 ... 0.  0.  0. ]
 [0.6 0.  0.6 ... 0.2 0.  1. ]
 ...
 [0.2 1.  0.5 ... 0.8 0.  0. ]
 [0.6 1.  0.2 ... 0.2 0.  0. ]
 [0.6 0.  0.7 ... 0.8 0.  0. ]]


### Split Data

Pada tahap ini dataset dibagi menggunakan fungsi train_test_split, yang berguna untuk membagi dataset menjadi data latih dan data uji. Fungsi ini digunakan untuk membagi dataset menjadi data latih dan data uji secara acak, sehingga data latih dan data uji dapat merepresentasikan dataset secara keseluruhan.

Pada baris kedua dan ketiga, variabel independen (X) dan variabel dependen (y) diinisialisasi dengan slicing dari dataset. Slicing dilakukan untuk memilih kolom-kolom dari dataset, di mana ':' menunjukkan semua baris dan '-1' menunjukkan kolom terakhir.

In [39]:
from sklearn.model_selection import train_test_split
X = dataset[:, :-1]
y = dataset[:, -1]

Fungsi train_test_split() pada sklearn berfungsi untuk membagi dataset menjadi data training dan data testing secara acak, dengan parameter yang ditentukan. Parameter yang digunakan pada kode tersebut adalah sebagai berikut:

X adalah variabel yang berisi fitur atau variabel independen dari dataset. y adalah variabel yang berisi label atau variabel dependen dari dataset. test_size adalah proporsi ukuran dataset yang akan digunakan sebagai data testing. Dalam hal ini, data testing akan digunakan sebanyak 30% dari seluruh dataset. random_state adalah bilangan integer atau angka yang digunakan sebagai seed (benih) pada algoritma pengacakan. Pada kasus ini, random_state diatur menjadi 42 untuk memastikan bahwa pembagian dataset yang dihasilkan dapat direproduksi atau sama jika dijalankan di mesin lain. 

In [40]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

### Training Data

Tahap ini merupakan tahapan training untuk melakukan prediksi pada data uji, dengan mengimport kelas KNeighborsClassifier dari library Scikit-learn (sklearn.neighbors) dan membuat objek knn dari kelas tersebut.

Selanjutnya, fungsi fit() dipanggil pada objek knn yang telah dibuat dengan parameter X_train dan y_train, yaitu data latih (variabel independen dan dependen) yang digunakan untuk melatih model. Pada saat pemanggilan fungsi fit(), objek knn akan mempelajari pola keterkaitan antara variabel independen dan dependen pada data latih yang telah diberikan.

Setelah proses pelatihan selesai, model KNeighborsClassifier yang telah dilatih dapat digunakan untuk melakukan prediksi kelas pada data uji.

In [41]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier()
knn.fit(X_train, y_train)

### Predict

Fungsi predict() pada objek knn digunakan untuk melakukan prediksi kelas pada variabel dependen (y) pada data uji (X_test). Hasil prediksi tersebut disimpan pada variabel y_pred.
Tujuannya adalah untuk mengevaluasi sejauh mana model dapat memprediksi kelas dengan benar pada data yang belum pernah dilihat sebelumnya.

In [42]:
y_pred = knn.predict(X_test)

### Accuracy

Pada tahap ini yaitu melakukan perhitungan akurasi dengan mengimport fungsi accuracy_score dari library Scikit-learn (sklearn.metrics) dan menggunakan fungsi tersebut untuk menghitung nilai akurasi (accuracy) dari model K-Nearest Neighbors (KNN) yang telah dilatih pada data latih dan diuji pada data uji.

In [43]:
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test, y_pred)

In [47]:
print('Accuracy Score : ', accuracy)

Accuracy Score :  0.6951219512195121
