# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [12]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [13]:
data = pd.read_csv('data_cleaned.csv')
data.head()

Unnamed: 0,gender,age,hypertension,heart_disease,ever_married,work_type,Residence_type,avg_glucose_level,bmi,smoking_status,stroke,Kelas_Outlier,Cluster
0,1,67.0,0,1,1,2,1,228.69,36.6,1,1,False,1
1,1,80.0,0,1,1,2,0,105.92,32.5,2,1,False,0
2,0,49.0,0,0,1,2,1,171.23,34.4,3,1,False,1
3,0,79.0,1,0,1,3,0,174.12,24.0,2,1,False,1
4,1,81.0,0,0,1,2,1,186.21,29.0,1,1,False,1


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [14]:
X = data.drop(columns=['age','avg_glucose_level'])
y = data['Cluster']

In [15]:
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=42)

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

Algorima yang saya pakai adalah RandomForest. Saya pilih ini karena algoritma ini tahan terhadap data yang tidak seimbang

In [16]:
model = RandomForestClassifier(random_state=42)
model.fit(X_train,y_train)

Kemudian saya ingin uji dengan menggunakan algoritma SVM

In [17]:
svm_model =SVC(random_state=42)
svm_model.fit(X_train,y_train)
y_pred_svm = svm_model.predict(X_test)

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [18]:
y_pred = model.predict(X_test)

In [19]:
coufution_matrix = pd.crosstab(y_test,y_pred)
print('Confusion Matrix:')
print(coufution_matrix)

report = classification_report(y_test,y_pred)
print(report)

accuracy = accuracy_score(y_test,y_pred)
print(f'Akurasi: {accuracy}')

Confusion Matrix:
col_0      0    1
Cluster          
0        841    0
1          0  141
              precision    recall  f1-score   support

           0       1.00      1.00      1.00       841
           1       1.00      1.00      1.00       141

    accuracy                           1.00       982
   macro avg       1.00      1.00      1.00       982
weighted avg       1.00      1.00      1.00       982

Akurasi: 1.0


In [20]:
accuracy_svm = accuracy_score(y_test,y_pred_svm)
print(f'Akurasi dengan SVM: {accuracy_svm}')

classification_report_svm = classification_report(y_test,y_pred_svm,zero_division=0)
print('Classification Report (SVM):')
print(classification_report_svm)

confusion_matrix_svm = confusion_matrix(y_test,y_pred_svm)
print('Confusion Matrix (SVM):')
print(confusion_matrix_svm)

Akurasi dengan SVM: 0.9898167006109979
Classification Report (SVM):
              precision    recall  f1-score   support

           0       0.99      1.00      0.99       841
           1       1.00      0.93      0.96       141

    accuracy                           0.99       982
   macro avg       0.99      0.96      0.98       982
weighted avg       0.99      0.99      0.99       982

Confusion Matrix (SVM):
[[841   0]
 [ 10 131]]


1. Ketika Menggunakan model SVM
- hasil dari precision munjukkan 0.99,dan f1-score yang menunjukkan nilai 0.99,Ini menunjukan model SVM memiliki performa yang sangat baik, dengan akurasi tinggi (98.98%)
Precision untuk kelas 1 sempurna (1.00), yang berarti semua prediksi kelas 1 benar
2.  Selanjutnya adalah memilih model Algoritma yang lebih kompleks yaitu Random Forest.
- Hasil dari nilai precision dan f1-score yang memiliki nilali 1.0. Akurasi yang diberikan dari Random Forest adalah 1.0

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [21]:
#Type your code here

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [22]:
#Type your code here

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan) :
- SVM memiliki akurasi 98.98%, tetapi recall untuk kelas 1 lebih rendah (0.93), menunjukkan beberapa kesalahan klasifikasi.
- Random Forest memiliki akurasi 100%, tanpa kesalahan klasifikasi.
2. Identifikasi kelemahan model, seperti:
-  Precision atau Recall rendah untuk kelas tertentu.

  SVM memiliki recall rendah (0.93) untuk kelas 1, yang berarti 10 sampel kelas 1 salah diklasifikasikan sebagai kelas 0.

  Random Forest tidak memiliki kelemahan ini karena recall untuk semua kelas adalah 1.00.


- Apakah model mengalami overfitting atau underfitting?

  Random Forest memiliki akurasi 100%, yang mungkin menunjukkan overfitting jika performanya menurun saat diuji dengan data baru.

  SVM memiliki akurasi lebih realistis (98.98%), yang bisa menunjukkan bahwa model masih cukup generalizable.



3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan :

  Tindakan lanjutan bisa berupa hyperparameter tuning, cross-validation, dan mencoba algoritma lain jika hasil belum optimal.