# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import RandomizedSearchCV

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [None]:
df = pd.read_csv('df_cleaned (2).csv')
df

Unnamed: 0,Gender,Provinsi,Kab/Kota,Bidang,Jenjang Lomba,Jenjang Sekolah,Kelas,Medali,Tahun,Cluster
0,L,Jawa Timur,Kota Surabaya,Biologi,SMA,SMA,11.0,Partisipan,2016,2
1,L,Aceh,Kota Banda Aceh,Ekonomi,SMA,SMA,11.0,Partisipan,2021,2
2,L,Kalimantan Timur,Kab. Soppeng,IPA,SMA,SMA,11.0,Partisipan,2022,0
3,L,Aceh,Kota Banda Aceh,Fisika,SMA,SMA,11.0,Partisipan,2022,2
4,L,Aceh,Kota Banda Aceh,Kimia,SMA,SMA,11.0,Partisipan,2022,2
...,...,...,...,...,...,...,...,...,...,...
19322,L,Kalimantan Timur,Kab. Soppeng,IPA,SMA,SMA,7.0,Partisipan,2024,0
19323,L,Riau,Kab. Kuantan Singingi,IPS,SMP,SMP,11.0,Partisipan,2016,1
19324,L,Kalimantan Timur,Kab. Soppeng,IPA,SMA,SMA,7.0,Partisipan,2024,0
19325,P,Sumatera Utara,Kab. Deli Serdang,IPS,SMP,SMP,11.0,Partisipan,2021,1


In [None]:
kolom= ["Gender","Provinsi","Kab/Kota","Bidang","Jenjang Lomba","Jenjang Sekolah","Medali"]
label_encoder = {col: LabelEncoder() for col in kolom}
for col in kolom:
    df[col] = label_encoder[col].fit_transform(df[col])
df

Unnamed: 0,Gender,Provinsi,Kab/Kota,Bidang,Jenjang Lomba,Jenjang Sekolah,Kelas,Medali,Tahun,Cluster
0,0,11,459,1,0,0,11.0,0,2016,2
1,0,0,380,2,0,0,11.0,0,2021,2
2,0,15,322,5,0,0,11.0,0,2022,0
3,0,0,380,3,0,0,11.0,0,2022,2
4,0,0,380,9,0,0,11.0,0,2022,2
...,...,...,...,...,...,...,...,...,...,...
19322,0,15,322,5,0,0,7.0,0,2024,0
19323,0,30,165,6,1,1,11.0,0,2016,1
19324,0,15,322,5,0,0,7.0,0,2024,0
19325,1,38,89,6,1,1,11.0,0,2021,1


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [None]:
X = df.drop(columns=['Cluster'])
y = df['Cluster']

In [None]:
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=42)

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

1.Untuk Algorima yang saya gunakan adalah RandomForest. Alasan saya memilih adalah algoritma ini tahan terhadap data yang tidak seimbang

In [None]:
model = RandomForestClassifier(random_state=42)
model.fit(X_train,y_train)


2.Kemudian saya menggunakan algortima svm

In [None]:
svm_model =SVC(random_state=42)
svm_model.fit(X_train,y_train)
y_pred_svm = svm_model.predict(X_test)

Tulis narasi atau penjelasan algoritma yang Anda gunakan.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [None]:
y_pred = model.predict(X_test)

In [None]:
coufution_matrix = pd.crosstab(y_test,y_pred)
print('Confusion Matrix:')
print(coufution_matrix)

report = classification_report(y_test,y_pred)
print(report)

accuracy = accuracy_score(y_test,y_pred)
print(f'Akurasi: {accuracy}')

Confusion Matrix:
col_0       0    1     2
Cluster                 
0        1941    0     0
1           0  606     0
2           0    0  1319
              precision    recall  f1-score   support

           0       1.00      1.00      1.00      1941
           1       1.00      1.00      1.00       606
           2       1.00      1.00      1.00      1319

    accuracy                           1.00      3866
   macro avg       1.00      1.00      1.00      3866
weighted avg       1.00      1.00      1.00      3866

Akurasi: 1.0


In [None]:
accuracy_svm = accuracy_score(y_test,y_pred_svm)
print(f'Akurasi dengan SVM: {accuracy_svm}')

classification_report_svm = classification_report(y_test,y_pred_svm,zero_division=0)
print('Classification Report (SVM):')
print(classification_report_svm)

confusion_matrix_svm = confusion_matrix(y_test,y_pred_svm)
print('Confusion Matrix (SVM):')
print(confusion_matrix_svm)


Akurasi dengan SVM: 0.991722710812209
Classification Report (SVM):
              precision    recall  f1-score   support

           0       0.99      0.99      0.99      1941
           1       1.00      0.98      0.99       606
           2       0.99      1.00      0.99      1319

    accuracy                           0.99      3866
   macro avg       0.99      0.99      0.99      3866
weighted avg       0.99      0.99      0.99      3866

Confusion Matrix (SVM):
[[1921    0   20]
 [  12  594    0]
 [   0    0 1319]]


1. Ketika Menggunakan model SVM
hasil dari precision munjukkan 0.99,dan f1-score juga 0.99 ,hal ini sudah cukup untuk memenuhi syarat yang diperlukan. Akurasi yang diberikan dari svm adalah 0.99
2. Langkah Selanjutnya adalah memilih model Algoritma yang lebih kompleks seperti Random Forest.
Disini dihasilkan nilai precision dan f1-score yang memiliki nilali 1.0. Akurasi yang diberikan dari Random Forest adalah 1.0

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [None]:
model = RandomForestClassifier(random_state=42)

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [None]:
param_dist = {
    'n_estimators': [50, 100, 200, 300],
    'max_depth': [ 10, 20, 30, None],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4],
    'bootstrap': [True, False]
}

In [None]:
random_search = RandomizedSearchCV(model, param_distributions=param_dist, n_iter=10, cv=3, scoring='accuracy', random_state=42, n_jobs=-1)
random_search.fit(X, y)

In [None]:
best_params = random_search.best_params_
print("Best Parameters:", best_params)

Best Parameters: {'n_estimators': 100, 'min_samples_split': 10, 'min_samples_leaf': 1, 'max_depth': 20, 'bootstrap': True}


In [None]:
best_model = RandomForestClassifier(**best_params, random_state=42)
best_model.fit(X, y)

In [None]:
y_pred = best_model.predict(X)

accuracy = accuracy_score(y, y_pred)
report = classification_report(y, y_pred)

print(f"Accuracy: {accuracy:.4f}")
print("Classification Report:\n", report)

Accuracy: 1.0000
Classification Report:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00      9735
           1       1.00      1.00      1.00      3117
           2       1.00      1.00      1.00      6475

    accuracy                           1.00     19327
   macro avg       1.00      1.00      1.00     19327
weighted avg       1.00      1.00      1.00     19327



## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Berdasarkan hasil tunggin dan evaluasi yang diberikan,dapat dilihat bahwa setelah di tuning menggunakan randomized search menunjukkan bahwa angka recal di masing-masing target mengalami peningkatan yang artinya hasil tunning tersebut baik dan mengalami peningkatan.
2. Identifikasi kelemahan model, seperti:
  - Precision dan Recall pada model menggunakan algoritma SVM dibawah dari randomforest.
  - Kemungkinan besar model mengalami overvitting,dimana model belajar terlalu spesifik terhadap data latih.
3. Rekomendasi yang diberikan untuk kedepannya adalah,gunakan data uji yang berbeda,kurangi kompleksitas model,gunakan cross validation dan menambahkan regularization/pruning/