# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [15]:
# Import pustaka utama untuk manipulasi data dan visualisasi
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Import modul dari Scikit-learn untuk preprocessing, model, evaluasi, dan validasi
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split, StratifiedKFold, GridSearchCV, cross_val_score
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix, classification_report

# Import beberapa algoritma klasifikasi yang digunakan
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier


# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [16]:
# Memuat dataset dari hasil clustering
from google.colab import drive
drive.mount('/content/drive')
df = pd.read_csv('/content/drive/MyDrive/Submission Akhir BMLP/Hasil_data_clustering(1).csv')
df

print(df.head())

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
   BHK   Rent  Size  Bathroom  Price per Square Foot  \
0    2  10000  1100         2                      9   
1    2  20000   800         1                     25   
2    2  17000  1000         1                     17   
3    2  10000   800         1                     12   
4    2   7500   850         1                      8   

   Furnishing Status_Semi-Furnished  Furnishing Status_Unfurnished  \
0                                 0                              1   
1                                 1                              0   
2                                 1                              0   
3                                 0                              1   
4                                 0                              1   

   Area Type_Carpet Area  Area Type_Super Area  City_Chennai  City_Delhi  \
0                      0             

# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [17]:
# Memisahkan fitur dan label dari dataset
fitur = df.drop(columns='Cluster')
label = df['Cluster']

# Membagi dataset menjadi data latih dan data uji (80:20)
X_train, X_test, y_train, y_test = train_test_split(
    fitur, label, test_size=0.2, random_state=42
)

# Melakukan standardisasi pada data fitur
normalizer = StandardScaler()
X_train_scaled = normalizer.fit_transform(X_train)
X_test_scaled = normalizer.transform(X_test)

# Menampilkan dimensi hasil transformasi
print(f"Ukuran data latih (X_train): {X_train_scaled.shape}")
print(f"Ukuran data uji (X_test): {X_test_scaled.shape}")


Ukuran data latih (X_train): (3796, 16)
Ukuran data uji (X_test): (950, 16)


# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [18]:
# Membuat objek model dari berbagai algoritma klasifikasi
model_lr = LogisticRegression(max_iter=1000, random_state=42)
model_rf = RandomForestClassifier(random_state=42)
model_dt = DecisionTreeClassifier(random_state=42)
model_svm = SVC(random_state=42)
model_knn = KNeighborsClassifier()

# Melatih semua model dengan data training
model_lr.fit(X_train_scaled, y_train)
model_rf.fit(X_train_scaled, y_train)
model_dt.fit(X_train_scaled, y_train)
model_svm.fit(X_train_scaled, y_train)
model_knn.fit(X_train_scaled, y_train)

# Melakukan prediksi pada data uji
pred_lr = model_lr.predict(X_test_scaled)
pred_rf = model_rf.predict(X_test_scaled)
pred_dt = model_dt.predict(X_test_scaled)
pred_svm = model_svm.predict(X_test_scaled)
pred_knn = model_knn.predict(X_test_scaled)


Tulis narasi atau penjelasan algoritma yang Anda gunakan.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [19]:
def tampilkan_evaluasi(y_actual, y_prediksi, nama_model):
    print(f"\nHasil Evaluasi Model: {nama_model} (Pra-Tuning)")
    print(f"Akurasi       : {accuracy_score(y_actual, y_prediksi):.4f}")
    print(f"Skor F1 (rata): {f1_score(y_actual, y_prediksi, average='weighted'):.4f}")
    print("Matriks Kebingungan:")
    print(confusion_matrix(y_actual, y_prediksi))
    print("Laporan Klasifikasi:")
    print(classification_report(y_actual, y_prediksi))

# Menjalankan evaluasi untuk tiap model yang telah dilatih
tampilkan_evaluasi(y_test, pred_lr, "Logistic Regression")
tampilkan_evaluasi(y_test, pred_rf, "Random Forest")
tampilkan_evaluasi(y_test, pred_dt, "Decision Tree")
tampilkan_evaluasi(y_test, pred_svm, "Support Vector Machine")
tampilkan_evaluasi(y_test, pred_knn, "K-Nearest Neighbors")



Hasil Evaluasi Model: Logistic Regression (Pra-Tuning)
Akurasi       : 0.9979
Skor F1 (rata): 0.9981
Matriks Kebingungan:
[[893   0   0]
 [  1  54   1]
 [  0   0   1]]
Laporan Klasifikasi:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00       893
           1       1.00      0.96      0.98        56
           2       0.50      1.00      0.67         1

    accuracy                           1.00       950
   macro avg       0.83      0.99      0.88       950
weighted avg       1.00      1.00      1.00       950


Hasil Evaluasi Model: Random Forest (Pra-Tuning)
Akurasi       : 1.0000
Skor F1 (rata): 1.0000
Matriks Kebingungan:
[[893   0   0]
 [  0  56   0]
 [  0   0   1]]
Laporan Klasifikasi:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00       893
           1       1.00      1.00      1.00        56
           2       1.00      1.00      1.00         1

    accuracy               

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Tulis hasil evaluasi algoritma yang digunakan, jika Anda menggunakan 2 algoritma, maka bandingkan hasilnya.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [20]:
# Konfigurasi Stratified K-Fold Cross-Validation (5 bagian dengan data teracak)
stratified_cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)


In [21]:
# Fungsi untuk melakukan pencarian kombinasi parameter terbaik
def optimasi_model(model_klasifikasi, grid_param, data_latih, target_latih, cv_strategy):
    pencarian = GridSearchCV(estimator=model_klasifikasi, param_grid=grid_param,
                             cv=cv_strategy, scoring='accuracy')
    pencarian.fit(data_latih, target_latih)
    return pencarian.best_estimator_

# Grid parameter untuk masing-masing model
grid_logreg = {
    'C': [0.001, 0.01, 0.1, 1, 10],
    'penalty': ['l1', 'l2']
}
logreg_optimal = optimasi_model(
    LogisticRegression(random_state=42, max_iter=2000, solver='liblinear'),
    grid_logreg, X_train, y_train, stratified_cv
)

grid_rf = {
    'n_estimators': [50, 100, 200],
    'max_depth': [10, 20, 30, None],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}
rf_optimal = optimasi_model(RandomForestClassifier(random_state=42), grid_rf, X_train, y_train, stratified_cv)

grid_dt = {
    'max_depth': [10, 20, 30, None],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}
dt_optimal = optimasi_model(DecisionTreeClassifier(random_state=42), grid_dt, X_train, y_train, stratified_cv)

grid_svm = {
    'C': [0.1, 1, 10],
    'kernel': ['linear', 'rbf']
}
svm_optimal = optimasi_model(SVC(random_state=42), grid_svm, X_train, y_train, stratified_cv)

grid_knn = {
    'n_neighbors': [3, 5, 7],
    'weights': ['uniform', 'distance']
}
knn_optimal = optimasi_model(KNeighborsClassifier(), grid_knn, X_train, y_train, stratified_cv)




## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [22]:
# Fungsi untuk mengevaluasi model yang telah di-tuning
def tampilkan_evaluasi_setelah_tuning(y_actual, model_optimal, nama_model):
    prediksi_terbaik = model_optimal.predict(X_test)
    print(f"\nEvaluasi {nama_model} (Setelah Tuning):")
    print(f"Akurasi       : {accuracy_score(y_actual, prediksi_terbaik):.4f}")
    print(f"Skor F1 (rata): {f1_score(y_actual, prediksi_terbaik, average='weighted'):.4f}")
    print("Matriks Kebingungan:")
    print(confusion_matrix(y_actual, prediksi_terbaik))
    print("Laporan Klasifikasi:")
    print(classification_report(y_actual, prediksi_terbaik))

# Evaluasi hasil tuning pada setiap model
tampilkan_evaluasi_setelah_tuning(y_test, logreg_optimal, "Logistic Regression")
tampilkan_evaluasi_setelah_tuning(y_test, rf_optimal, "Random Forest")
tampilkan_evaluasi_setelah_tuning(y_test, dt_optimal, "Decision Tree")
tampilkan_evaluasi_setelah_tuning(y_test, svm_optimal, "Support Vector Machine")
tampilkan_evaluasi_setelah_tuning(y_test, knn_optimal, "K-Nearest Neighbors")



Evaluasi Logistic Regression (Setelah Tuning):
Akurasi       : 1.0000
Skor F1 (rata): 1.0000
Matriks Kebingungan:
[[893   0   0]
 [  0  56   0]
 [  0   0   1]]
Laporan Klasifikasi:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00       893
           1       1.00      1.00      1.00        56
           2       1.00      1.00      1.00         1

    accuracy                           1.00       950
   macro avg       1.00      1.00      1.00       950
weighted avg       1.00      1.00      1.00       950


Evaluasi Random Forest (Setelah Tuning):
Akurasi       : 1.0000
Skor F1 (rata): 1.0000
Matriks Kebingungan:
[[893   0   0]
 [  0  56   0]
 [  0   0   1]]
Laporan Klasifikasi:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00       893
           1       1.00      1.00      1.00        56
           2       1.00      1.00      1.00         1

    accuracy                           1.00

In [23]:
# Fungsi untuk menghitung performa model menggunakan cross-validation
def evaluasi_kinerja_cv(model_terbaik, X_data, y_data, skf_stratifikasi):
    akurasi_cv = cross_val_score(model_terbaik, X_data, y_data, cv=skf_stratifikasi, scoring='accuracy')
    f1_cv = cross_val_score(model_terbaik, X_data, y_data, cv=skf_stratifikasi, scoring='f1_weighted')
    return akurasi_cv, f1_cv

# Daftar model yang sudah dituning beserta nama-nama model
# Use the variables assigned during model optimization
list_model_tuned = [logreg_optimal, rf_optimal, dt_optimal, svm_optimal, knn_optimal]
nama_model_tuned = ["Logistic Regression", "Random Forest", "Decision Tree", "SVM", "K-Nearest Neighbors"]

# Assuming 'fitur' and 'label' from your original code are your features and target
X = fitur  # Assign your feature data to X
y = label  # Assign your target variable to y

# Import and initialize StratifiedKFold if not already done

skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Menampilkan hasil cross-validation untuk setiap model
for model, nama in zip(list_model_tuned, nama_model_tuned):
    akurasi_cv, f1_cv = evaluasi_kinerja_cv(model, X, y, skf) # Now X, y, and skf are defined
    print(f"\nHasil Cross-validation untuk {nama}:")
    print(f"Akurasi    : {akurasi_cv.mean():.4f} ± {akurasi_cv.std():.4f}")
    print(f"Skor F1    : {f1_cv.mean():.4f} ± {f1_cv.std():.4f}")




Hasil Cross-validation untuk Logistic Regression:
Akurasi    : 0.9970 ± 0.0015
Skor F1    : 0.9961 ± 0.0020





Hasil Cross-validation untuk Random Forest:
Akurasi    : 0.9992 ± 0.0008
Skor F1    : 0.9989 ± 0.0010

Hasil Cross-validation untuk Decision Tree:
Akurasi    : 0.9998 ± 0.0004
Skor F1    : 0.9997 ± 0.0006





Hasil Cross-validation untuk SVM:
Akurasi    : 0.9998 ± 0.0004
Skor F1    : 0.9997 ± 0.0006





Hasil Cross-validation untuk K-Nearest Neighbors:
Akurasi    : 0.9998 ± 0.0004
Skor F1    : 0.9997 ± 0.0006


## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.


#### 1. **Perbandingan Performa Model**
- **Logistic Regression** mencatatkan akurasi sebesar **99.70%** dan nilai F1-Score **99.61%**.
- **Random Forest** memperoleh akurasi **99.92%** dan F1-Score **99.89%**.
- **Decision Tree** dan **Support Vector Machine (SVM)** sama-sama menunjukkan performa tertinggi, masing-masing dengan akurasi dan F1-Score mencapai **99.98%** dan **99.97%**.

Secara keseluruhan, **Decision Tree dan SVM** memberikan hasil yang sangat konsisten dan unggul, dengan selisih performa yang tipis namun signifikan dibandingkan model lainnya. Meskipun Logistic Regression dan Random Forest sedikit tertinggal, keduanya tetap menunjukkan performa klasifikasi yang sangat baik.

#### 2. **Potensi Kelemahan Model**
- **Distribusi Kelas dan Bias**: Perlu dilakukan pengamatan lebih lanjut pada nilai **precision dan recall per kelas** untuk memastikan bahwa model tidak bias terhadap kelompok mayoritas, terutama jika terdapat kelas minoritas yang rawan salah klasifikasi.
- **Overfitting/Underfitting**: Berdasarkan evaluasi **cross-validation**, tidak ditemukan indikasi yang kuat terhadap overfitting atau underfitting. Model seperti Decision Tree dan SVM menunjukkan kestabilan tinggi, sedangkan variasi hasil pada Logistic Regression dan Random Forest masih dalam batas yang dapat diterima.

#### 3. **Saran Tindakan Selanjutnya**
- **Penambahan Data**: Jika ditemukan ketidakseimbangan performa antar kelas, terutama pada kelas dengan jumlah data kecil, maka pengumpulan data tambahan untuk kelas tersebut sangat disarankan.
- **Eksplorasi Algoritma Tambahan**: Pertimbangkan untuk mencoba algoritma canggih lainnya seperti **XGBoost** atau **LightGBM**, yang dikenal memiliki performa tinggi pada masalah klasifikasi dan juga mendukung teknik ensemble.
- **Pemeriksaan Mendalam Precision dan Recall**: Dalam kasus di mana konsekuensi dari false positive atau false negative sangat penting, analisis mendalam terhadap precision dan recall tiap kelas perlu dilakukan.
- **Optimasi Hyperparameter Lebih Lanjut**: Walaupun sudah dilakukan tuning awal, proses **penyesuaian hyperparameter** lebih lanjut menggunakan teknik seperti **RandomizedSearchCV** mungkin memberikan peningkatan performa terutama pada model seperti Random Forest dan SVM.

