# UTS Pendat

## Klasifikasi Data dengan Naive Bayes




### Import Library

Langkah pertama, yaitu import Library yang akan digunakan dimana menggunakan Library Pandas dan Scikit-learn agar nantinya dapat memanfaatkan berbagai fungsi dan algoritma yang disediakan library - library tersebut. Sehingga dapat membantu proses analisis dan pemodelan data secara lebih efisien dan mudah.

Pandas adalah library Python yang menyediakan struktur data yang efisien dan mudah digunakan untuk melakukan manipulasi data dalam format tabel, termasuk membaca dan menulis data dari/ke berbagai format file seperti CSV, Excel, SQL, dan lain-lain.

Scikit-learn adalah library Python yang populer digunakan untuk machine learning. Modul ini menyediakan algoritma dan fungsi untuk melakukan preprocessing data, pemilihan model, pelatihan model, evaluasi model, dan sebagainya.

In [1]:
import numpy as np
import pandas as pd
import sklearn

### Import Dataset

Langkah kedua yaitu Import Dataset yang tersimpan dalam repositori pada Github dimana data tersebut berupa data breast-cancer dengan format file CSV.

"pd.read_csv" yaitu untuk membaca file CSV yang ada di repositpri Github dan menyimpannya ke dalam variabel dataset. kemudian "dataset.head(10)" digunakan untuk menampilkan sepuluh baris pertama dari dataset, sehingga pengguna dapat melihat secara ringkas isi dataset tersebut.



In [2]:
dataset = pd.read_csv('https://raw.githubusercontent.com/datasets/breast-cancer/master/data/breast-cancer.csv')
dataset.head(10)

Unnamed: 0,age,mefalsepause,tumor-size,inv-falsedes,falsede-caps,deg-malig,breast,breast-quad,irradiat,class
0,40-49,premefalse,15-19,0-2,True,3,right,left_up,False,recurrence-events
1,50-59,ge40,15-19,0-2,False,1,right,central,False,false-recurrence-events
2,50-59,ge40,35-39,0-2,False,2,left,left_low,False,recurrence-events
3,40-49,premefalse,35-39,0-2,True,3,right,left_low,True,false-recurrence-events
4,40-49,premefalse,30-34,3-5,True,2,left,right_up,False,recurrence-events
5,50-59,premefalse,25-29,3-5,False,2,right,left_up,True,false-recurrence-events
6,50-59,ge40,40-44,0-2,False,3,left,left_up,False,false-recurrence-events
7,40-49,premefalse,10-14,0-2,False,2,left,left_up,False,false-recurrence-events
8,40-49,premefalse,0-4,0-2,False,2,right,right_low,False,false-recurrence-events
9,40-49,ge40,40-44,15-17,True,2,right,left_up,True,false-recurrence-events


### Preprocessing / Normalisasi Data

Pada langkah ini, dilakukan preprocessing untuk mengubah nilai- nilai kategorikal menjadi numerik .

Dengan mengimport class LabelEncoder dari library Scikit-learn (sklearn.preprocessing) dan menginisialisasi objek LabelEncoder dengan nama variabel 'le'.

Selanjutnya, dataset yang sudah dimuat sebelumnya diterapkan transformasi label encoding dengan memanggil method 'fit_transform' dari objek LabelEncoder pada setiap kolomnya.

Transformasi label encoding mengubah nilai-nilai kategorikal menjadi nilai numerik diskrit. 

In [3]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
dataset = dataset.apply(le.fit_transform)

In [4]:
print(dataset.head())

   age  mefalsepause  tumor-size  inv-falsedes  falsede-caps  deg-malig  \
0    2             2           2             0             1          2   
1    3             0           2             0             0          0   
2    3             0           6             0             0          1   
3    2             2           6             0             1          2   
4    2             2           5             4             1          1   

   breast  breast-quad  irradiat  class  
0       1            2         0      1  
1       1            0         0      0  
2       0            1         0      1  
3       1            1         1      0  
4       0            4         0      1  


Masih dalam tahap preprocessing untuk mengubah nilai- nilai numerik dalam dataset menjadi nilai yang berkisar antara 0 dan 1.

Dengan mengimport class MinMaxScaler dari library Scikit-learn (sklearn.preprocessing) dan menginisialisasi objek MinMaxScaler dengan nama variabel 'sc'.

Selanjutnya, dataset yang sudah dimuat sebelumnya diubah menggunakan transformasi Min-Max Scaling dengan memanggil method 'fit_transform' dari objek MinMaxScaler pada dataset.

Transformasi Min-Max Scaling adalah sebuah teknik preprocessing data yang sering digunakan untuk menormalkan nilai-nilai numerik dari suatu dataset agar memiliki rentang nilai yang sama (biasanya rentang 0 hingga 1). 

kemudian variabel 'dataset' diubah nilainya setelah dilakukan transformasi Min-Max Scaling sehingga nilainya sudah dinormalisasi dan berskala seragam antar fitur yang ada di dalamnya.

In [5]:
from sklearn.preprocessing import MinMaxScaler
sc = MinMaxScaler()
dataset = sc.fit_transform(dataset)

In [6]:
print(dataset)

[[0.4 1.  0.2 ... 0.4 0.  1. ]
 [0.6 0.  0.2 ... 0.  0.  0. ]
 [0.6 0.  0.6 ... 0.2 0.  1. ]
 ...
 [0.2 1.  0.5 ... 0.8 0.  0. ]
 [0.6 1.  0.2 ... 0.2 0.  0. ]
 [0.6 0.  0.7 ... 0.8 0.  0. ]]


### Split Data


Pada tahap ini dataset dibagi menggunakan fungsi train_test_split, yang berguna untuk membagi dataset menjadi data latih dan data uji. Fungsi ini digunakan untuk membagi dataset menjadi data latih dan data uji secara acak, sehingga data latih dan data uji dapat merepresentasikan dataset secara keseluruhan.

Pada baris kedua dan ketiga, variabel independen (X) dan variabel dependen (y) diinisialisasi dengan slicing dari dataset. Slicing dilakukan untuk memilih kolom-kolom dari dataset, di mana ':' menunjukkan semua baris dan '-1' menunjukkan kolom terakhir.



In [7]:
from sklearn.model_selection import train_test_split
X = dataset[: , :-1]
y = dataset[: , -1]

pada tahap selanjutnya merupakan implementasi dari fungsi train_test_split dari library Scikit-learn (sklearn.model_selection) untuk membagi dataset menjadi data latih dan data uji.

Variabel X_train dan y_train akan berisi data latih (training set) yang akan digunakan untuk melatih model.
Variabel X_test dan y_test akan berisi data uji (test set) yang akan digunakan untuk menguji kinerja model pada data yang belum pernah dilihat sebelumnya.

Argumen 'test_size' pada fungsi train_test_split digunakan untuk menentukan proporsi dari data yang akan diambil sebagai data uji. Pada Code ini data uji akan diambil sebesar 30% dari seluruh dataset.

Argumen 'random_state' digunakan untuk menentukan nilai seed (nilai awal) untuk proses pengacakan data yang dilakukan oleh fungsi train_test_split. Pada code ini di-set sebagai 42, yang artinya setiap kali fungsi train_test_split dijalankan dengan nilai 'random_state' yang sama, data akan diacak dengan cara yang sama dan menghasilkan data latih dan data uji yang sama pula.

In [8]:
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size = 0.3 , random_state = 42)

### Training Data

Tahap ini merupakan tahapan training untuk melakukan prediksi pada data uji, dengan mengimport kelas GaussianNB dari library Scikit-learn (sklearn.naive_bayes) dan membuat objek GNB dari kelas GaussianNB.

Kemudian, fungsi fit() dipanggil pada objek GNB yang telah dibuat dengan parameter X_train dan y_train, yaitu data latih (variabel independen dan dependen) yang digunakan untuk melatih model.

Setelah melakukan training, model GNB dapat digunakan untuk melakukan prediksi pada data uji.

In [9]:
from sklearn.naive_bayes import GaussianNB
GNB = GaussianNB()
GNB.fit(X_train,y_train)

### Predict

In [10]:
y_pred = GNB.predict(X_test)

Fungsi predict() pada objek GNB digunakan untuk melakukan prediksi kelas pada variabel dependen (y) pada data uji (X_test). Hasil prediksi tersebut disimpan pada variabel y_pred.

Tujuannya adalah untuk mengevaluasi sejauh mana model dapat memprediksi kelas dengan benar pada data yang belum pernah dilihat sebelumnya.

### Accuracy

Fungsi accuracy_score() akan menghitung jumlah prediksi yang benar dan membaginya dengan jumlah total data uji untuk mendapatkan nilai akurasi. Akurasi adalah metrik evaluasi yang digunakan untuk mengukur seberapa akurat model dalam memprediksi kelas pada data uji.

Dalam hal ini, nilai akurasi yang dihasilkan akan disimpan pada variabel ac,semakin tinggi nilai akurasi, semakin baik kinerja model.


In [11]:
from sklearn.metrics import accuracy_score
ac = accuracy_score(y_test,y_pred)

In [12]:
print('Accuracy Score :', ac)

Accuracy Score : 0.7195121951219512


## Klasifikasi Data dengan KNN

### Import Library

Langkah pertama, yaitu import Library yang akan digunakan dimana menggunakan Library Pandas dan Scikit-learn agar nantinya dapat memanfaatkan berbagai fungsi dan algoritma yang disediakan library - library tersebut. Sehingga dapat membantu proses analisis dan pemodelan data secara lebih efisien dan mudah.

Pandas adalah library Python yang menyediakan struktur data yang efisien dan mudah digunakan untuk melakukan manipulasi data dalam format tabel, termasuk membaca dan menulis data dari/ke berbagai format file seperti CSV, Excel, SQL, dan lain-lain.

Scikit-learn adalah library Python yang populer digunakan untuk machine learning. Modul ini menyediakan algoritma dan fungsi untuk melakukan preprocessing data, pemilihan model, pelatihan model, evaluasi model, dan sebagainya.

In [13]:
import pandas as pd
import sklearn

### Import Dataset

Langkah kedua yaitu Import Dataset yang tersimpan dalam repositori pada Github dimana data tersebut berupa data breast-cancer dengan format file CSV.

"pd.read_csv" yaitu untuk membaca file CSV yang ada di repositpri Github dan menyimpannya ke dalam variabel data. kemudian "dataset.head(10)" digunakan untuk menampilkan sepuluh baris pertama dari dataset, sehingga pengguna dapat melihat secara ringkas isi dataset tersebut.

In [14]:
data = pd.read_csv('https://raw.githubusercontent.com/datasets/breast-cancer/master/data/breast-cancer.csv')
data.head(10)

Unnamed: 0,age,mefalsepause,tumor-size,inv-falsedes,falsede-caps,deg-malig,breast,breast-quad,irradiat,class
0,40-49,premefalse,15-19,0-2,True,3,right,left_up,False,recurrence-events
1,50-59,ge40,15-19,0-2,False,1,right,central,False,false-recurrence-events
2,50-59,ge40,35-39,0-2,False,2,left,left_low,False,recurrence-events
3,40-49,premefalse,35-39,0-2,True,3,right,left_low,True,false-recurrence-events
4,40-49,premefalse,30-34,3-5,True,2,left,right_up,False,recurrence-events
5,50-59,premefalse,25-29,3-5,False,2,right,left_up,True,false-recurrence-events
6,50-59,ge40,40-44,0-2,False,3,left,left_up,False,false-recurrence-events
7,40-49,premefalse,10-14,0-2,False,2,left,left_up,False,false-recurrence-events
8,40-49,premefalse,0-4,0-2,False,2,right,right_low,False,false-recurrence-events
9,40-49,ge40,40-44,15-17,True,2,right,left_up,True,false-recurrence-events


### Preprocessing / Normalisasi Data

Pada langkah ini, dilakukan preprocessing untuk mengubah nilai- nilai kategorikal menjadi numerik .

Dengan mengimport class LabelEncoder dari library Scikit-learn (sklearn.preprocessing) dan menginisialisasi objek LabelEncoder dengan nama variabel 'le'.

Selanjutnya, dataset yang sudah dimuat sebelumnya diterapkan transformasi label encoding dengan memanggil method 'fit_transform' dari objek LabelEncoder pada setiap kolomnya.

Transformasi label encoding mengubah nilai-nilai kategorikal menjadi nilai numerik diskrit.

In [15]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
data = data.apply(le.fit_transform)

In [16]:
print(data.head())

   age  mefalsepause  tumor-size  inv-falsedes  falsede-caps  deg-malig  \
0    2             2           2             0             1          2   
1    3             0           2             0             0          0   
2    3             0           6             0             0          1   
3    2             2           6             0             1          2   
4    2             2           5             4             1          1   

   breast  breast-quad  irradiat  class  
0       1            2         0      1  
1       1            0         0      0  
2       0            1         0      1  
3       1            1         1      0  
4       0            4         0      1  


Masih dalam tahap preprocessing untuk mengubah nilai- nilai numerik dalam dataset menjadi nilai yang berkisar antara 0 dan 1.

Transformasi Min-Max Scaling adalah sebuah teknik preprocessing data yang sering digunakan untuk menormalkan nilai-nilai numerik dari suatu dataset agar memiliki rentang nilai yang sama (biasanya rentang 0 hingga 1).

kemudian variabel 'data' diubah nilainya setelah dilakukan transformasi Min-Max Scaling sehingga nilainya sudah dinormalisasi dan berskala seragam antar fitur yang ada di dalamnya.

In [17]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
data = scaler.fit_transform(data)

In [18]:
print(data)

[[0.4 1.  0.2 ... 0.4 0.  1. ]
 [0.6 0.  0.2 ... 0.  0.  0. ]
 [0.6 0.  0.6 ... 0.2 0.  1. ]
 ...
 [0.2 1.  0.5 ... 0.8 0.  0. ]
 [0.6 1.  0.2 ... 0.2 0.  0. ]
 [0.6 0.  0.7 ... 0.8 0.  0. ]]


### Split Data

Pada tahap ini dataset dibagi menggunakan fungsi train_test_split, yang berguna untuk membagi dataset menjadi data latih dan data uji

Variabel X_train dan y_train akan berisi data latih (training set) yang akan digunakan untuk melatih model. Variabel X_test dan y_test akan berisi data uji (test set) yang akan digunakan untuk menguji kinerja model pada data yang belum pernah dilihat sebelumnya.

Argumen 'test_size' pada fungsi train_test_split digunakan untuk menentukan proporsi dari data yang akan diambil sebagai data uji. Pada Code ini data uji akan diambil sebesar 20% dari seluruh data.

Argumen 'random_state' digunakan untuk menentukan nilai seed (nilai awal) untuk proses pengacakan data yang dilakukan oleh fungsi train_test_split. 

In [19]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

### Training Data

Tahap ini merupakan tahapan training untuk melakukan prediksi pada data uji, dengan mengimport kelas KNeighborsClassifier dari library Scikit-learn (sklearn.neighbors) dan membuat objek knn dari kelas tersebut.

Selanjutnya, fungsi fit() dipanggil pada objek knn yang telah dibuat dengan parameter X_train dan y_train, yaitu data latih (variabel independen dan dependen) yang digunakan untuk melatih model. Pada saat pemanggilan fungsi fit(), objek knn akan mempelajari pola keterkaitan antara variabel independen dan dependen pada data latih yang telah diberikan.

Setelah proses pelatihan selesai, model KNeighborsClassifier yang telah dilatih dapat digunakan untuk melakukan prediksi kelas pada data uji.

In [20]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier()
knn.fit(X_train, y_train)

### Predict

Fungsi predict() pada objek knn digunakan untuk melakukan prediksi kelas pada variabel dependen (y) pada data uji (X_test). Hasil prediksi tersebut disimpan pada variabel y_pred.
Tujuannya adalah untuk mengevaluasi sejauh mana model dapat memprediksi kelas dengan benar pada data yang belum pernah dilihat sebelumnya.

In [21]:
y_pred = knn.predict(X_test)

### Accuracy

Pada tahap ini yaitu melakukan perhitungan akurasi dengan mengimport fungsi accuracy_score dari library Scikit-learn (sklearn.metrics) dan menggunakan fungsi tersebut untuk menghitung nilai akurasi (accuracy) dari model K-Nearest Neighbors (KNN) yang telah dilatih pada data latih dan diuji pada data uji.


In [22]:
from sklearn.metrics import accuracy_score
ac = accuracy_score(y_test, y_pred)


In [23]:
print("Accuracy:", ac)

Accuracy: 0.7454545454545455


Fungsi accuracy_score() pada code tersebut menerima dua parameter y_test dan y_pred. Parameter y_test adalah variabel dependen pada data uji yang merupakan kelas sebenarnya atau target nilai, sedangkan y_pred adalah prediksi yang dihasilkan oleh model.

Fungsi accuracy_score() akan menghitung jumlah prediksi yang benar dan membaginya dengan jumlah total data uji untuk mendapatkan nilai akurasi. Akurasi adalah metrik evaluasi yang digunakan untuk mengukur seberapa akurat model dalam memprediksi kelas pada data uji.