# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [56]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix, precision_score, recall_score, roc_auc_score, classification_report
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV
from sklearn.impute import SimpleImputer
from imblearn.over_sampling import SMOTE
import matplotlib.pyplot as plt
import seaborn as sns

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [23]:
df = pd.read_csv('./data/result_clustering.csv')
df_encoded.head()

Unnamed: 0,id,age,hypertension,heart_disease,avg_glucose_level,bmi,stroke,Cluster,Cluster_Selected,gender_Male,gender_Other,ever_married_Yes,work_type_Never_worked,work_type_Private,work_type_Self-employed,work_type_children,Residence_type_Urban,smoking_status_formerly smoked,smoking_status_never smoked,smoking_status_smokes
0,9046,67.0,0,1,228.69,36.6,1,0,0,True,False,True,False,True,False,False,True,True,False,False
1,51676,61.0,0,0,202.21,28.893237,1,3,3,False,False,True,False,False,True,False,False,False,True,False
2,31112,80.0,0,1,105.92,32.5,1,2,2,True,False,True,False,True,False,False,False,False,True,False
3,60182,49.0,0,0,171.23,34.4,1,1,1,False,False,True,False,True,False,False,True,False,False,True
4,1665,79.0,1,0,174.12,24.0,1,0,0,False,False,True,False,False,True,False,False,False,True,False


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [24]:
# Memisahkan fitur dan target
X = df.drop(['id', 'stroke', 'Cluster', 'Cluster_Selected'], axis=1)
y = df['stroke']

# Membagi dataset menjadi data latih dan data uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

Tulis narasi atau penjelasan algoritma yang Anda gunakan.

In [36]:
df_encoded = pd.get_dummies(df, drop_first=True)

X = df_encoded.drop('stroke', axis=1) 
y = df_encoded['stroke']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Menggunakan algoritma logistic regression dengan menaikkan iterasi menjadi 200
log_reg = LogisticRegression(random_state=42, max_iter=200)
log_reg.fit(X_train_scaled, y_train)

In [35]:
# Membuat model Random Forest
rf = RandomForestClassifier(random_state=42)
rf.fit(X_train_scaled, y_train)

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

Tulis hasil evaluasi algoritma yang digunakan, jika Anda menggunakan 2 algoritma, maka bandingkan hasilnya.

In [39]:
# Prediksi data uji untuk model logistic regression
y_pred_log_reg = log_reg.predict(X_test_scaled)

# Prediksi data uji untuk model Random forest
y_pred_rf = rf.predict(X_test_scaled)

In [40]:
# Menghitung metrik evaluasi dari model logistic regression menggunakan accuracy dan f1-score
accuracy_log_reg = accuracy_score(y_test, y_pred_log_reg)
f1_log_reg = f1_score(y_test, y_pred_log_reg)

# Menghitung metrik evaluasi dari model random forest menggunakan accuracy dan f1-score
accuracy_rf = accuracy_score(y_test, y_pred_rf)
f1_rf = f1_score(y_test, y_pred_rf)

In [41]:
print(f'Logistic Regression - Accuracy: {accuracy_log_reg:.4f}')
print(f'Logistic Regression - F1 Score: {f1_log_reg:.4f}')
print('Confusion Matrix:\n', confusion_matrix(y_test, y_pred_log_reg))

Logistic Regression - Accuracy: 0.9393
Logistic Regression - F1 Score: 0.0000
Confusion Matrix:
 [[960   0]
 [ 62   0]]


In [42]:
print(f'Random Forest - Accuracy: {accuracy_rf:.4f}')
print(f'Random Forest - F1 Score: {f1_rf:.4f}')
print('Confusion Matrix:\n', confusion_matrix(y_test, y_pred_rf))

Random Forest - Accuracy: 0.9393
Random Forest - F1 Score: 0.0000
Confusion Matrix:
 [[960   0]
 [ 62   0]]


## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [43]:
log_reg = LogisticRegression(random_state=42, max_iter=200, class_weight='balanced')
log_reg.fit(X_train_scaled, y_train)

rf = RandomForestClassifier(random_state=42, class_weight='balanced')
rf.fit(X_train_scaled, y_train)

In [54]:
# Menggunakan SMOTE untuk menangani ketidakseimbangan kelas
smote = SMOTE(random_state=42)
X_train_res, y_train_res = smote.fit_resample(X_train_scaled, y_train)

param_dist = {
    'n_estimators': [100, 200, 300],
    'max_depth': [10, 20, 30, None],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4],
    'class_weight': ['balanced', None]
}

rf = RandomForestClassifier(random_state=42)

# Menggunakan RandomizedSearchCV untuk pencarian acak
random_search = RandomizedSearchCV(rf, param_distributions=param_dist, n_iter=100, cv=3, random_state=42, n_jobs=-1, verbose=2)
random_search.fit(X_train_res, y_train_res)

print("Best Parameters: ", random_search.best_params_)



Fitting 3 folds for each of 100 candidates, totalling 300 fits
Best Parameters:  {'n_estimators': 200, 'min_samples_split': 2, 'min_samples_leaf': 1, 'max_depth': None, 'class_weight': None}


## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [58]:
# Menggunakan model terbaik dari RandomizedSearchCV
best_rf_model = random_search.best_estimator_

# Prediksi pada data testing
y_pred = best_rf_model.predict(X_test_scaled)

# Menghitung metrik evaluasi
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
roc_auc = roc_auc_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)
accuracy = accuracy_score(y_test, y_pred)

# Menampilkan hasil evaluasi
print("Random Forest - Precision: ", precision)
print("Random Forest - Recall: ", recall)
print("Random Forest - F1 Score: ", f1)
print("Random Forest - ROC AUC: ", roc_auc)
print("Confusion Matrix:\n", conf_matrix)
print(f"Accuracy: {accuracy * 100:.2f}%")
print("\nClassification Report:\n", classification_report(y_test, y_pred))

Random Forest - Precision:  0.25
Random Forest - Recall:  0.08064516129032258
Random Forest - F1 Score:  0.12195121951219512
Random Forest - ROC AUC:  0.5325100806451613
Confusion Matrix:
 [[945  15]
 [ 57   5]]
Accuracy: 92.95%

Classification Report:
               precision    recall  f1-score   support

           0       0.94      0.98      0.96       960
           1       0.25      0.08      0.12        62

    accuracy                           0.93      1022
   macro avg       0.60      0.53      0.54      1022
weighted avg       0.90      0.93      0.91      1022



## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.