# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [6]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, f1_score, classification_report
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.decomposition import PCA

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [7]:
data = pd.read_csv('clustered_database.csv')

data.head()

Unnamed: 0,provinsi,tahun,upah,jenis_x,daerah_x,periode,gk,ump,daerah_y,jenis_y,peng,avg_wage_permonth,pca1,pca2,cluster,dbs_category
0,ACEH,2015,11226,MAKANAN,PERKOTAAN,MARET,293697.0,1900000.0,PERDESAAN,MAKANAN,395136.0,1975776,-1.22125,-0.390123,0,Middle
1,ACEH,2015,11226,MAKANAN,PERKOTAAN,MARET,293697.0,1900000.0,PERDESAAN,NONMAKANAN,260183.0,1975776,-1.359359,-0.744973,1,Middle
2,ACEH,2015,11226,MAKANAN,PERKOTAAN,MARET,293697.0,1900000.0,PERDESAAN,TOTAL,655319.0,1975776,-0.954983,0.294011,2,Middle
3,ACEH,2015,11226,MAKANAN,PERKOTAAN,MARET,293697.0,1900000.0,PERKOTAAN,MAKANAN,466355.0,1975776,-1.148366,-0.202857,3,Middle
4,ACEH,2015,11226,MAKANAN,PERKOTAAN,MARET,293697.0,1900000.0,PERKOTAAN,NONMAKANAN,529945.0,1975776,-1.083289,-0.035652,4,Middle


In [8]:
print("\nDataset shape:", data.shape)


Dataset shape: (40733, 16)


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [9]:
original_features = ['upah', 'gk', 'ump', 'peng', 'avg_wage_permonth']
pca_features = ['pca1', 'pca2']
target = 'cluster'

In [10]:
X = data[original_features]
y = data[target]

In [11]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [1]:
def evaluate_features(X_train, X_test, y_train, y_test):
    rf = RandomForestClassifier(random_state=42)
    rf.fit(X_train, y_train)
    y_pred = rf.predict(X_test)

    print(f"Accuracy Score: {accuracy_score(y_test, y_pred):.3f}")
    print(f"F1 Score: {f1_score(y_test, y_pred, average='weighted'):.3f}")

print("Performance with original features:")
X_train_orig = X_train[original_features]
X_test_orig = X_test[original_features]
evaluate_features(X_train_orig, X_test_orig, y_train, y_test)

print("\nPerformance with PCA components:")
pca = PCA(n_components=2)
X_train_pca = pca.fit_transform(X_train[original_features])
X_test_pca = pca.transform(X_test[original_features])
evaluate_features(X_train_pca, X_test_pca, y_train, y_test)

Performance with original features:


NameError: name 'X_train' is not defined

In [None]:
def evaluate_features(X_train, X_test, y_train, y_test):
    rf = LogisticRegression(max_iter=100, random_state=42)
    rf.fit(X_train, y_train)
    y_pred = rf.predict(X_test)

    print(f"Accuracy Score: {accuracy_score(y_test, y_pred):.3f}")
    print(f"F1 Score: {f1_score(y_test, y_pred, average='weighted'):.3f}")

print("Performance with original features:")
X_train_orig = X_train[original_features]
X_test_orig = X_test[original_features]
evaluate_features(X_train_orig, X_test_orig, y_train, y_test)

print("\nPerformance with PCA components:")
pca = PCA(n_components=2)
X_train_pca = pca.fit_transform(X_train[original_features])
X_test_pca = pca.transform(X_test[original_features])
evaluate_features(X_train_pca, X_test_pca, y_train, y_test)

Tulis narasi atau penjelasan algoritma yang Anda gunakan.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [None]:
param_grid_rf = {
    'n_estimators': [50],
    'max_depth': [None],
    'min_samples_split': [2]
}

grid_search_rf = GridSearchCV(RandomForestClassifier(random_state=42),
                              param_grid_rf,
                              cv=3,
                              scoring='f1_weighted',
                              n_jobs=-1)
grid_search_rf.fit(X_train, y_train)

# Best Random Forest Model
print("\nBest Random Forest Parameters:", grid_search_rf.best_params_)
best_rf_model = grid_search_rf.best_estimator_

# Evaluate Best Model
y_test_pred_best_rf = best_rf_model.predict(X_test)
print("\nBest Random Forest Model Performance:")
print(f"Testing Accuracy: {accuracy_score(y_test, y_test_pred_best_rf):.2f}")
print(f"Testing F1-Score: {f1_score(y_test, y_test_pred_best_rf, average='weighted'):.2f}")

Tulis hasil evaluasi algoritma yang digunakan, jika Anda menggunakan 2 algoritma, maka bandingkan hasilnya.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.