#**Penghitungan Klasifikasi data Kanker Payudara dengan Metode Naive Bayes dan KNN**

---

##**Menggunakan Metode Naive Bayes***

### 1. Importing the Libraries

Pertama, kita mengimport beberapa library yang diperlukan yaitu pandas untuk membaca data dari CSV, GaussianNB untuk menginisialisasi model Naive Bayes, train_test_split untuk membagi data menjadi data train dan test, serta accuracy_score untuk menghitung akurasi model.

In [14]:
import pandas as pd
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

### 2. Importing Dataset

Kemudian, kita memuat dataset dari URL yang disediakan menggunakan Pandas dan menyimpannya ke dalam dataframe

In [15]:
from google.colab import drive
drive.mount ('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [16]:
%cd /content/drive/MyDrive/Pendata

/content/drive/MyDrive/Pendata


In [17]:
# Load dataset
url = 'breast-cancer.csv'
df = pd.read_csv(url)

### 3. Change data form

Disini kita mengubah bentuk data agar dapat diolah

In [18]:
# Convert string to numeric values using one-hot encoding
df = pd.get_dummies(df, columns=['age', 'mefalsepause', 'tumor-size', 'inv-falsedes', 'falsede-caps', 'deg-malig', 'breast', 'breast-quad', 'irradiat'])

### 4. Separates the features and targets of the dataset

Selanjutnya, kita memisahkan antara fitur dan target dari dataset. Kita menghapus kolom "Class" dari dataset dan menyimpannya ke dalam variabel y sebagai target, serta memasukkan semua fitur ke dalam variabel X.

In [28]:
# Split features and target variable
X = df.drop('class', axis=1)
y = df['class']

### 5. Splitting the dataset into the Training set and Test set

Setelah itu, kita membagi data menjadi data train dan data test menggunakan train_test_split dari library sklearn. Kita mengatur test_size=0.2, yang artinya data test akan berukuran 20% dari seluruh data yang ada.

In [20]:
# Split into train and test set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

### 6. Initialize Gaussian Naive Bayes model

Kemudian, kita menginisialisasi model Gaussian Naive Bayes menggunakan library sklearn.

In [21]:
# Initialize Gaussian Naive Bayes model
model = GaussianNB()

### 7. Train the model using the training sets

Setelah model diinisialisasi, kita melatih model tersebut dengan menggunakan data train yang telah kita pisahkan sebelumnya.

In [22]:
# Train the model using the training sets
model.fit(X_train, y_train)

### 8. Predict the response for test dataset

Selanjutnya, kita menggunakan model untuk melakukan prediksi pada data test.

In [23]:
# Predict the response for test dataset
y_pred = model.predict(X_test)

### 9. Model Accuracy and Predict

Akhirnya, kita menghitung akurasi model menggunakan accuracy_score dari library sklearn dan juga hasil prediksinya

In [29]:
# Model Accuracy, how often is the classifier correct?
# Menampilkan hasil prediksi
print("Accuracy:", accuracy_score(y_test, y_pred))
print ("--------------------------------------------------------------------")
print("Predictions:", y_pred)

Accuracy: 0.32727272727272727
--------------------------------------------------------------------
Predictions: ['recurrence-events' 'recurrence-events' 'recurrence-events'
 'recurrence-events' 'recurrence-events' 'recurrence-events'
 'false-recurrence-events' 'recurrence-events' 'recurrence-events'
 'recurrence-events' 'recurrence-events' 'recurrence-events'
 'recurrence-events' 'recurrence-events' 'recurrence-events'
 'recurrence-events' 'recurrence-events' 'recurrence-events'
 'recurrence-events' 'recurrence-events' 'false-recurrence-events'
 'recurrence-events' 'recurrence-events' 'recurrence-events'
 'recurrence-events' 'recurrence-events' 'false-recurrence-events'
 'recurrence-events' 'recurrence-events' 'recurrence-events'
 'recurrence-events' 'false-recurrence-events' 'recurrence-events'
 'recurrence-events' 'recurrence-events' 'recurrence-events'
 'recurrence-events' 'recurrence-events' 'false-recurrence-events'
 'recurrence-events' 'false-recurrence-events' 'recurrence-events

##**Menggunakan Metode KNN**

### 1. Importing the Libraries

Pertama, kita mengimport beberapa library yang diperlukan yaitu pandas untuk membaca data dari CSV, GaussianNB untuk menginisialisasi model Naive Bayes, train_test_split untuk membagi data menjadi data train dan test, serta accuracy_score untuk menghitung akurasi model.

In [32]:
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

### 2. Importing Dataset

Kemudian, kita memuat dataset dari URL yang disediakan menggunakan Pandas dan menyimpannya ke dalam dataframe

In [33]:
from google.colab import drive
drive.mount ('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [34]:
%cd /content/drive/MyDrive/Pendata

/content/drive/MyDrive/Pendata


In [35]:
# Load dataset
url = 'breast-cancer.csv'
df = pd.read_csv(url)

### 3. Change data form

Disini kita mengubah bentuk data agar dapat diolah

In [36]:
# Convert string to numeric values using one-hot encoding
df = pd.get_dummies(df, columns=['age', 'mefalsepause', 'tumor-size', 'inv-falsedes', 'falsede-caps', 'deg-malig', 'breast', 'breast-quad', 'irradiat'])

### 4. Separates the features and targets of the dataset

Selanjutnya, kita memisahkan antara fitur dan target dari dataset. Kita menghapus kolom "Class" dari dataset dan menyimpannya ke dalam variabel y sebagai target, serta memasukkan semua fitur ke dalam variabel X.

In [37]:
# Split features and target variable
X = df.drop('class', axis=1)
y = df['class']

### 5. Splitting the dataset into the Training set and Test set

Setelah itu, kita membagi data menjadi data train dan data test menggunakan train_test_split dari library sklearn. Kita mengatur test_size=0.2, yang artinya data test akan berukuran 20% dari seluruh data yang ada.

In [38]:
# Split into train and test set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

### 6. Initialize Gaussian Naive Bayes model

Kemudian, kita menginisialisasi model KNN menggunakan library sklearn deng K=5

In [39]:
# Inisialisasi model KNN dengan K=5
model = KNeighborsClassifier(n_neighbors=5)

### 7. Train the model using the training sets

Setelah model diinisialisasi, kita melatih model tersebut dengan menggunakan data train yang telah kita pisahkan sebelumnya.

In [40]:
# Train the model using the training sets
model.fit(X_train, y_train)

### 8. Predict the response for test dataset

Selanjutnya, kita menggunakan model untuk melakukan prediksi pada data test.

In [41]:
# Predict the response for test dataset
y_pred = model.predict(X_test)

### 9. Model Accuracy and Predict

Akhirnya, kita menghitung akurasi model menggunakan accuracy_score dari library sklearn dan juga hasil prediksinya

In [42]:
# Model Accuracy, how often is the classifier correct?
# Menampilkan hasil prediksi
print("Accuracy:", accuracy_score(y_test, y_pred))
print ("--------------------------------------------------------------------")
print("Predictions:", y_pred)

Accuracy: 0.7272727272727273
--------------------------------------------------------------------
Predictions: ['false-recurrence-events' 'false-recurrence-events'
 'false-recurrence-events' 'false-recurrence-events'
 'false-recurrence-events' 'false-recurrence-events'
 'false-recurrence-events' 'false-recurrence-events'
 'false-recurrence-events' 'false-recurrence-events'
 'false-recurrence-events' 'false-recurrence-events' 'recurrence-events'
 'false-recurrence-events' 'false-recurrence-events' 'recurrence-events'
 'false-recurrence-events' 'false-recurrence-events'
 'false-recurrence-events' 'recurrence-events' 'false-recurrence-events'
 'recurrence-events' 'false-recurrence-events' 'recurrence-events'
 'false-recurrence-events' 'false-recurrence-events'
 'false-recurrence-events' 'false-recurrence-events'
 'false-recurrence-events' 'false-recurrence-events'
 'false-recurrence-events' 'false-recurrence-events' 'recurrence-events'
 'recurrence-events' 'recurrence-events' 'false-recur