# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix, classification_report
from sklearn.model_selection import GridSearchCV

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [3]:
df = pd.read_csv('pengeluaran_clustered.csv')
print("5 Baris Pertama Dataset:")
print(df.head())

5 Baris Pertama Dataset:
   provinsi    daerah     jenis     tahun      peng  Cluster
0 -1.683251 -1.172604 -1.224745 -1.822033 -1.159879        2
1 -1.683251 -1.172604 -1.224745 -1.595566 -1.092133        2
2 -1.683251 -1.172604 -1.224745 -1.369098 -1.009920        2
3 -1.683251 -1.172604 -1.224745 -1.142631 -0.928637        2
4 -1.683251 -1.172604 -1.224745 -0.916164 -0.836078        2


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [4]:
X = df.drop(columns=['Cluster'])
y = df['Cluster']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("\nUkuran Data Latih:", X_train.shape)
print("Ukuran Data Uji:", X_test.shape)


Ukuran Data Latih: (3696, 5)
Ukuran Data Uji: (924, 5)


# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [5]:
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

print("\nHasil Prediksi:")
print(y_pred)


Hasil Prediksi:
[0 2 0 2 2 1 2 2 2 1 0 0 2 1 0 2 1 2 1 2 0 2 2 0 0 2 2 1 1 0 0 2 0 0 1 0 2
 1 2 0 2 1 2 0 1 2 0 1 0 1 2 0 2 0 2 1 1 1 2 0 0 2 1 0 2 2 0 0 0 0 1 0 2 0
 1 2 0 0 2 2 1 2 0 0 2 1 0 2 0 1 1 2 0 1 2 0 2 1 0 0 0 2 2 2 0 0 0 0 2 2 2
 0 0 1 1 2 0 1 2 1 1 2 2 1 2 0 0 2 2 2 0 0 1 2 0 2 0 0 2 2 1 0 0 2 0 2 2 1
 0 1 0 0 0 2 0 2 0 2 0 2 0 0 0 1 0 0 1 1 0 1 1 0 1 0 2 2 2 0 2 2 0 0 1 2 0
 1 2 0 2 0 1 1 1 0 0 2 1 1 2 0 0 1 2 2 2 2 0 2 1 1 2 2 2 0 2 2 0 2 2 0 0 2
 0 2 2 0 2 0 2 1 2 0 0 0 1 2 0 1 0 2 1 0 2 0 0 1 2 0 2 0 2 0 2 2 0 2 0 1 2
 1 1 0 2 2 2 0 0 2 2 0 1 2 0 1 1 1 2 1 1 2 2 2 2 1 0 0 2 2 1 2 1 0 0 2 2 1
 2 0 0 0 0 2 2 2 2 2 2 2 2 1 0 1 1 2 2 0 0 2 0 2 2 0 0 1 2 1 1 2 0 0 1 2 2
 2 0 0 2 2 1 2 2 2 2 0 2 2 2 1 2 1 2 0 0 2 2 0 0 1 0 1 0 0 0 2 1 2 1 2 1 2
 0 1 0 2 0 1 2 2 2 2 2 0 1 0 1 2 2 2 2 0 2 0 2 0 1 0 2 0 2 2 1 0 0 1 0 1 1
 0 0 0 0 0 0 1 2 2 2 0 1 0 2 0 1 0 2 2 0 0 0 0 0 0 0 0 2 0 1 0 0 0 0 1 1 2
 0 2 0 0 1 2 2 1 1 1 2 2 0 0 2 1 0 0 0 0 0 0 1 0 1 0 0 0 1 2 1 0 1 0 0 2 0
 2 0 0 1

Tulis narasi atau penjelasan algoritma yang Anda gunakan.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [6]:
accuracy = accuracy_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred, average='weighted')

print("\nEvaluasi Model:")
print(f"Accuracy: {accuracy:.2f}")
print(f"F1-Score: {f1:.2f}")
print("\nConfusion Matrix:")
print(confusion_matrix(y_test, y_pred))
print("\nClassification Report:")
print(classification_report(y_test, y_pred))


Evaluasi Model:
Accuracy: 0.99
F1-Score: 0.99

Confusion Matrix:
[[352   0   1]
 [  0 227   2]
 [  1   3 338]]

Classification Report:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00       353
           1       0.99      0.99      0.99       229
           2       0.99      0.99      0.99       342

    accuracy                           0.99       924
   macro avg       0.99      0.99      0.99       924
weighted avg       0.99      0.99      0.99       924



Tulis hasil evaluasi algoritma yang digunakan, jika Anda menggunakan 2 algoritma, maka bandingkan hasilnya.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [7]:
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10]
}
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)

print("\nParameter Terbaik:")
print(grid_search.best_params_)

best_model = grid_search.best_estimator_


Parameter Terbaik:
{'max_depth': None, 'min_samples_split': 2, 'n_estimators': 50}


## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [9]:
y_pred_tuned = best_model.predict(X_test)
accuracy_tuned = accuracy_score(y_test, y_pred_tuned)
f1_tuned = f1_score(y_test, y_pred_tuned, average='weighted')

print("\nEvaluasi Model setelah Tuning:")
print(f"Accuracy: {accuracy_tuned:.2f}")
print(f"F1-Score: {f1_tuned:.2f}")

print("\nConfusion Matrix setelah Tuning:")
print(confusion_matrix(y_test, y_pred_tuned))

print("\nClassification Report setelah Tuning:")
print(classification_report(y_test, y_pred_tuned))


Evaluasi Model setelah Tuning:
Accuracy: 0.99
F1-Score: 0.99

Confusion Matrix setelah Tuning:
[[352   0   1]
 [  0 227   2]
 [  3   3 336]]

Classification Report setelah Tuning:
              precision    recall  f1-score   support

           0       0.99      1.00      0.99       353
           1       0.99      0.99      0.99       229
           2       0.99      0.98      0.99       342

    accuracy                           0.99       924
   macro avg       0.99      0.99      0.99       924
weighted avg       0.99      0.99      0.99       924



## **e. Analisis Hasil Evaluasi Model Klasifikasi**

In [10]:
# Analisis hasil evaluasi
print("\nAnalisis Hasil Evaluasi:")
print(f"Accuracy Sebelum Tuning: {accuracy:.2f}")
print(f"Accuracy Setelah Tuning: {accuracy_tuned:.2f}")
print(f"F1-Score Sebelum Tuning: {f1:.2f}")
print(f"F1-Score Setelah Tuning: {f1_tuned:.2f}")

# Identifikasi kelemahan model
print("\nIdentifikasi Kelemahan Model:")
print("1. Precision atau Recall rendah untuk kelas tertentu.")
print("2. Model mungkin mengalami overfitting atau underfitting.")

# Rekomendasi tindakan lanjutan
print("\nRekomendasi Tindakan Lanjutan:")
print("1. Coba algoritma lain seperti Gradient Boosting atau SVM.")
print("2. Kumpulkan data tambahan untuk meningkatkan kualitas dataset.")
print("3. Lakukan feature engineering untuk meningkatkan performa model.")


Analisis Hasil Evaluasi:
Accuracy Sebelum Tuning: 0.99
Accuracy Setelah Tuning: 0.99
F1-Score Sebelum Tuning: 0.99
F1-Score Setelah Tuning: 0.99

Identifikasi Kelemahan Model:
1. Precision atau Recall rendah untuk kelas tertentu.
2. Model mungkin mengalami overfitting atau underfitting.

Rekomendasi Tindakan Lanjutan:
1. Coba algoritma lain seperti Gradient Boosting atau SVM.
2. Kumpulkan data tambahan untuk meningkatkan kualitas dataset.
3. Lakukan feature engineering untuk meningkatkan performa model.


Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.