<a href="https://colab.research.google.com/github/Belvanz/submission-akhir-BMLP/blob/main/%5BKlasifikasi%5D_Submission_Akhir_BMLP_Belvan_Savero_Achmady.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [1]:
# Import Library
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, f1_score, classification_report, confusion_matrix
from sklearn.model_selection import GridSearchCV

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [2]:
# Memuat Dataset dari Hasil Clustering
df = pd.read_csv("https://raw.githubusercontent.com/Belvanz/submission-akhir-BMLP/refs/heads/main/dataset_car_sales/car_sales_clustered.csv")

# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [4]:
# Membersihkan nama kolom dari spasi tambahan
df.columns = df.columns.str.strip()

# Identifikasi dan encode kolom kategorikal
categorical_cols = ["Company", "Model", "Engine", "Transmission", "Color", "Body Style", "Dealer_Region", "Gender"]
df_encoded = pd.get_dummies(df, columns=categorical_cols, drop_first=True)

# Data Splitting
X = df_encoded.drop(columns=["Cluster", "Car_id", "Date", "Customer Name", "Dealer_Name", "Dealer_No"], errors='ignore')
y = df_encoded["Cluster"]
# Membagi dataset menjadi data latih dan data uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Scaling data
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("Data Latih:", X_train_scaled.shape)
print("Data Uji:", X_test_scaled.shape)

Data Latih: (18580, 201)
Data Uji: (4645, 201)


# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [5]:
# Membangun model klasifikasi dengan Random Forest
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train_scaled, y_train)
y_pred = model.predict(X_test_scaled)

Saya menggunakan Random Forest Classifier, yaitu algoritma yang menggunakan banyak pohon keputusan untuk mengklasifikasikan data.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [6]:
# Evaluasi model
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)

print("Akurasi Model:", accuracy)
print("Laporan Klasifikasi:\n", report)

Akurasi Model: 1.0
Laporan Klasifikasi:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00      2159
           1       1.00      1.00      1.00      1962
           2       1.00      1.00      1.00       524

    accuracy                           1.00      4645
   macro avg       1.00      1.00      1.00      4645
weighted avg       1.00      1.00      1.00      4645



Evaluasi Model Random Forest Classifier
Model Random Forest Classifier yang digunakan menunjukkan performa sangat baik dengan akurasi 100% dan F1-Score 100% pada data uji.

- Cluster 0 : F1-Score 100% artinya model sangat baik dalam mengklasifikasikan kategori ini tanpa kesalahan.
- Cluster 1 : F1-Score 100% dan Recall: 100% artinya semua sampel dalam kelas ini berhasil diidentifikasi dengan benar.
- Cluster 2 : F1-Score: 100% artinya tidak ada kesalahan klasifikasi yang terjadi, menunjukkan model bekerja sempurna pada semua kelas.

Kesimpulan
Model ini memiliki akurasi sempurna (100%), yang menunjukkan bahwa model berhasil mengklasifikasikan semua sampel dengan benar.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [7]:
# Tuning Model Klasifikasi
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5, 10]
}

grid_search = GridSearchCV(RandomForestClassifier(random_state=42), param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train_scaled, y_train)

best_model = grid_search.best_estimator_
print("Best Parameters:", grid_search.best_params_)

Best Parameters: {'max_depth': None, 'min_samples_split': 2, 'n_estimators': 50}


## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [8]:
# Evaluasi Model Setelah Tuning (Optional)
best_model = grid_search.best_estimator_
y_pred_best = best_model.predict(X_test_scaled)
print("\n Evaluasi Model Setelah Tuning")
print("Accuracy:", accuracy_score(y_test, y_pred_best))
print("\nClassification Report:\n", classification_report(y_test, y_pred_best))


 Evaluasi Model Setelah Tuning
Accuracy: 1.0

Classification Report:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00      2159
           1       1.00      1.00      1.00      1962
           2       1.00      1.00      1.00       524

    accuracy                           1.00      4645
   macro avg       1.00      1.00      1.00      4645
weighted avg       1.00      1.00      1.00      4645



## **e. Analisis Hasil Evaluasi Model Klasifikasi**

#### **1. Perbandingan Sebelum dan Setelah Tuning**
- Akurasi sebelum tuning: 1.00
- Akurasi setelah tuning: 1.00
- Setelah dilakukan tuning menggunakan GridSearchCV, akurasi model tetap berada di angka 1.00.  
- Hal ini menunjukkan bahwa model sudah mencapai performa maksimal sejak sebelum tuning, sehingga proses tuning tidak memberikan perubahan yang berarti dalam klasifikasi data pelanggan.  

#### **2. Evaluasi Berdasarkan Confusion Matrix dan Classification Report**
- **Cluster 0**  
  - Precision: 100% (tetap)  
  - Recall: 100% (tetap)  
  - Model sangat akurat dalam mengklasifikasikan pelanggan pada cluster ini sebelum dan setelah tuning.
  
- **Cluster 1**  
  - Precision: 100% (tetap)  
  - Recall: 100% (tetap)  
  - Model berhasil mengidentifikasi pelanggan di cluster ini dengan sempurna sebelum dan setelah tuning.

- **Cluster 2**  
  - Precision: 100% (tetap)  
  - Recall: 100% (tetap)  
  - Model mempertahankan kinerja sempurna dalam klasifikasi pelanggan pada cluster ini.

#### **3. Kelemahan Model**
- Risiko overfitting tetap perlu diperhatikan, terutama jika model diuji pada data baru yang memiliki distribusi berbeda.

#### **4. Rekomendasi Tindakan Lanjutan**
- Melakukan validasi dengan data baru untuk memastikan model tetap memiliki performa tinggi di kondisi nyata.
- Karena akurasi sudah maksimal, ada kemungkinan model mengalami overfitting. Gunakan teknik seperti cross-validation atau evaluasi dengan data uji dari distribusi yang berbeda.
- Mengurangi kompleksitas model jika diperlukan, agar tetap efisien tanpa kehilangan akurasi yang sudah sangat tinggi.
- Meninjau kembali fitur yang digunakan, untuk melihat apakah ada fitur yang bisa dihapus tanpa mengurangi performa model.
