# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, StratifiedKFold, GridSearchCV, cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix, classification_report
import matplotlib.pyplot as plt
import seaborn as sns

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [2]:
# Memuat dataset dari hasil clustering
df = pd.read_csv('/content/clustered_data.csv')
print(df.head())

   BHK   Rent  Size  Bathroom  Price per Square Foot  \
0    2  10000  1100         2                      9   
1    2  20000   800         1                     25   
2    2  17000  1000         1                     17   
3    2  10000   800         1                     12   
4    2   7500   850         1                      8   

   Furnishing Status_Semi-Furnished  Furnishing Status_Unfurnished  \
0                                 0                              1   
1                                 1                              0   
2                                 1                              0   
3                                 0                              1   
4                                 0                              1   

   Area Type_Carpet Area  Area Type_Super Area  City_Chennai  City_Delhi  \
0                      0                     1             0           0   
1                      0                     1             0           0   
2             

# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [3]:
X = df.drop('Cluster', axis=1)
y = df['Cluster']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Standarisasi fitur
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

print(f"Dimensi X_train: {X_train.shape}")
print(f"Dimensi X_test: {X_test.shape}")

Dimensi X_train: (3796, 16)
Dimensi X_test: (950, 16)


# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [4]:
# Inisialisasi model
log_reg = LogisticRegression(max_iter=1000, random_state=42)
rf_clf = RandomForestClassifier(random_state=42)
dt_clf = DecisionTreeClassifier(random_state=42)
svm_clf = SVC(random_state=42)
knn_clf = KNeighborsClassifier()

# Melatih model
log_reg.fit(X_train, y_train)
rf_clf.fit(X_train, y_train)
dt_clf.fit(X_train, y_train)
svm_clf.fit(X_train, y_train)
knn_clf.fit(X_train, y_train)

# Prediksi
y_pred_log_reg = log_reg.predict(X_test)
y_pred_rf = rf_clf.predict(X_test)
y_pred_dt = dt_clf.predict(X_test)
y_pred_svm = svm_clf.predict(X_test)
y_pred_knn = knn_clf.predict(X_test)

Tulis narasi atau penjelasan algoritma yang Anda gunakan.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [5]:
def evaluate_model(y_test, y_pred, model_name):
    print(f"\nEvaluasi {model_name} sebelum tuning:")
    print(f"Accuracy: {accuracy_score(y_test, y_pred):.4f}")
    print(f"F1-Score: {f1_score(y_test, y_pred, average='weighted'):.4f}")
    print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred))
    print(classification_report(y_test, y_pred))

# Evaluasi masing-masing model
evaluate_model(y_test, y_pred_log_reg, "Logistic Regression")
evaluate_model(y_test, y_pred_rf, "Random Forest")
evaluate_model(y_test, y_pred_dt, "Decision Tree")
evaluate_model(y_test, y_pred_svm, "SVM")
evaluate_model(y_test, y_pred_knn, "K-Nearest Neighbors")


Evaluasi Logistic Regression sebelum tuning:
Accuracy: 0.9979
F1-Score: 0.9981
Confusion Matrix:
 [[893   0   0]
 [  1  54   1]
 [  0   0   1]]
              precision    recall  f1-score   support

           0       1.00      1.00      1.00       893
           1       1.00      0.96      0.98        56
           2       0.50      1.00      0.67         1

    accuracy                           1.00       950
   macro avg       0.83      0.99      0.88       950
weighted avg       1.00      1.00      1.00       950


Evaluasi Random Forest sebelum tuning:
Accuracy: 1.0000
F1-Score: 1.0000
Confusion Matrix:
 [[893   0   0]
 [  0  56   0]
 [  0   0   1]]
              precision    recall  f1-score   support

           0       1.00      1.00      1.00       893
           1       1.00      1.00      1.00        56
           2       1.00      1.00      1.00         1

    accuracy                           1.00       950
   macro avg       1.00      1.00      1.00       950
weighted 

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Tulis hasil evaluasi algoritma yang digunakan, jika Anda menggunakan 2 algoritma, maka bandingkan hasilnya.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [7]:
# Cross-validation setup
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

In [8]:
# Hyperparameter Tuning dengan GridSearchCV

def tune_model(model, param_grid, X_train, y_train, skf):
    grid_search = GridSearchCV(model, param_grid, cv=skf, scoring='accuracy')
    grid_search.fit(X_train, y_train)
    return grid_search.best_estimator_

# Tuning untuk masing-masing model
param_grid_log_reg = {'C': [0.001, 0.01, 0.1, 1, 10], 'penalty': ['l1', 'l2']}
best_log_reg = tune_model(LogisticRegression(random_state=42, max_iter=2000, solver='liblinear'), param_grid_log_reg, X_train, y_train, skf)

param_grid_rf = {'n_estimators': [50, 100, 200], 'max_depth': [10, 20, 30, None], 'min_samples_split': [2, 5, 10], 'min_samples_leaf': [1, 2, 4]}
best_rf_clf = tune_model(RandomForestClassifier(random_state=42), param_grid_rf, X_train, y_train, skf)

param_grid_dt = {'max_depth': [10, 20, 30, None], 'min_samples_split': [2, 5, 10], 'min_samples_leaf': [1, 2, 4]}
best_dt_clf = tune_model(DecisionTreeClassifier(random_state=42), param_grid_dt, X_train, y_train, skf)

param_grid_svm = {'C': [0.1, 1, 10], 'kernel': ['linear', 'rbf']}
best_svm_clf = tune_model(SVC(random_state=42), param_grid_svm, X_train, y_train, skf)

param_grid_knn = {'n_neighbors': [3, 5, 7], 'weights': ['uniform', 'distance']}
best_knn_clf = tune_model(KNeighborsClassifier(), param_grid_knn, X_train, y_train, skf)



## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [9]:
def evaluate_tuned_model(y_test, best_model, model_name):
    y_pred_best = best_model.predict(X_test)
    print(f"\nEvaluasi {model_name} setelah tuning:")
    print(f"Accuracy: {accuracy_score(y_test, y_pred_best):.4f}")
    print(f"F1-Score: {f1_score(y_test, y_pred_best, average='weighted'):.4f}")
    print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred_best))
    print(classification_report(y_test, y_pred_best))

# Evaluasi model setelah tuning
evaluate_tuned_model(y_test, best_log_reg, "Logistic Regression")
evaluate_tuned_model(y_test, best_rf_clf, "Random Forest")
evaluate_tuned_model(y_test, best_dt_clf, "Decision Tree")
evaluate_tuned_model(y_test, best_svm_clf, "SVM")
evaluate_tuned_model(y_test, best_knn_clf, "K-Nearest Neighbors")


Evaluasi Logistic Regression setelah tuning:
Accuracy: 1.0000
F1-Score: 1.0000
Confusion Matrix:
 [[893   0   0]
 [  0  56   0]
 [  0   0   1]]
              precision    recall  f1-score   support

           0       1.00      1.00      1.00       893
           1       1.00      1.00      1.00        56
           2       1.00      1.00      1.00         1

    accuracy                           1.00       950
   macro avg       1.00      1.00      1.00       950
weighted avg       1.00      1.00      1.00       950


Evaluasi Random Forest setelah tuning:
Accuracy: 1.0000
F1-Score: 1.0000
Confusion Matrix:
 [[893   0   0]
 [  0  56   0]
 [  0   0   1]]
              precision    recall  f1-score   support

           0       1.00      1.00      1.00       893
           1       1.00      1.00      1.00        56
           2       1.00      1.00      1.00         1

    accuracy                           1.00       950
   macro avg       1.00      1.00      1.00       950
weighted 

In [10]:
# Cross-validation
def cross_val_performance(model, X, y, skf):
    cross_val_accuracy = cross_val_score(model, X, y, cv=skf, scoring='accuracy')
    cross_val_f1 = cross_val_score(model, X, y, cv=skf, scoring='f1_weighted')
    return cross_val_accuracy, cross_val_f1

# Cross-validation untuk masing-masing model
models = [best_log_reg, best_rf_clf, best_dt_clf, best_svm_clf, best_knn_clf]
model_names = ["Logistic Regression", "Random Forest", "Decision Tree", "SVM", "K-Nearest Neighbors"]

for model, name in zip(models, model_names):
    cross_val_accuracy, cross_val_f1 = cross_val_performance(model, X, y, skf)
    print(f"\nCross-validation untuk {name}:")
    print(f"Accuracy: {cross_val_accuracy.mean():.4f} ± {cross_val_accuracy.std():.4f}")
    print(f"F1-Score: {cross_val_f1.mean():.4f} ± {cross_val_f1.std():.4f}")




Cross-validation untuk Logistic Regression:
Accuracy: 0.9970 ± 0.0015
F1-Score: 0.9961 ± 0.0020





Cross-validation untuk Random Forest:
Accuracy: 0.9992 ± 0.0008
F1-Score: 0.9989 ± 0.0010

Cross-validation untuk Decision Tree:
Accuracy: 0.9998 ± 0.0004
F1-Score: 0.9997 ± 0.0006

Cross-validation untuk SVM:
Accuracy: 0.9998 ± 0.0004
F1-Score: 0.9997 ± 0.0006





Cross-validation untuk K-Nearest Neighbors:
Accuracy: 0.9998 ± 0.0004
F1-Score: 0.9997 ± 0.0006


## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.

Berdasarkan hasil evaluasi model (Logistic Regression, Random Forest, Decision Tree, dan SVM), berikut adalah analisis dan rekomendasi tindakan lanjutan:

#### 1. **Perbandingan Hasil Evaluasi**
- **Logistic Regression**: Akurasi 0.9970, F1-Score 0.9961
- **Random Forest**: Akurasi 0.9992, F1-Score 0.9989
- **Decision Tree**: Akurasi 0.9998, F1-Score 0.9997
- **SVM**: Akurasi 0.9998, F1-Score 0.9997

Secara umum, **Decision Tree** dan **SVM** menunjukkan hasil terbaik dengan akurasi dan F1-Score yang sangat tinggi dan stabil. **Logistic Regression** dan **Random Forest** juga menunjukkan performa baik, meskipun sedikit lebih rendah.

#### 2. **Identifikasi Kelemahan Model**
- **Precision dan Recall**: Penting untuk memeriksa apakah ada kelas tertentu yang memiliki precision atau recall rendah, terutama pada kelas minoritas. Meski hasilnya sangat baik, perlu dicek apakah model cenderung bias terhadap kelas mayoritas.
- **Overfitting atau Underfitting**: Berdasarkan hasil cross-validation, model tidak menunjukkan tanda-tanda overfitting atau underfitting. **Decision Tree** dan **SVM** cukup stabil, sedangkan **Random Forest** dan **Logistic Regression** sedikit lebih bervariasi, tetapi hasilnya tetap bagus.

#### 3. **Rekomendasi Tindakan Lanjutan**
- **Pengumpulan Data Tambahan**: Jika model menghadapi kesulitan dengan kelas minoritas, mengumpulkan lebih banyak data untuk kelas tersebut bisa membantu meningkatkan performa model.
- **Eksplorasi Algoritma Lain**: Mencoba algoritma lain seperti **XGBoost** atau **LightGBM** yang mungkin menawarkan hasil lebih baik. Metode ensemble juga bisa dipertimbangkan.
- **Evaluasi Precision dan Recall Secara Terpisah**: Untuk aplikasi yang sensitif terhadap false positives/negatives, memastikan untuk memeriksa precision dan recall untuk masing-masing kelas.
- **Tuning Hyperparameter**: Menggunakan **GridSearchCV** atau **RandomizedSearchCV** untuk meningkatkan performa model, terutama untuk Random Forest dan SVM.