# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, mean_squared_error, confusion_matrix

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel data.

In [2]:
data = pd.read_csv('./data/result.csv')

# **3. Data Splitting & Preprocessing**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [3]:
# Preprocessing data
# Pakai label encoder saja
label_encoder = LabelEncoder()
data['Kategori'] = label_encoder.fit_transform(data['Kategori'])
x = data[['Harga', 'Kategori']]
y = data['Cluster']

# Data splitting
X_train, X_test, Y_train, Y_test = train_test_split(x, y, test_size=0.2, random_state=42)

# Standardize fitur
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [4]:
# Training pada RandomForestClassifier
model = RandomForestClassifier(random_state=42)
model.fit(X_train, Y_train)

1. `model = RandomForestClassifier(random_state=42)`

Pembuatan model Random Forest Classifier. Parameter random_state=42 untuk memastikan hasil konsisten setiap kali dijalankan.
Keputusan memakai RandomForest datang setelah beberapa percobaan, saya menemukan bahwa model ini yang mampu menghasilkan akurasi yang paling tinggi.

2. `model.fit(X_train, Y_train)`

Melatih model menggunakan data latih (X_train untuk fitur dan Y_train untuk label atau target). Di sini, model mempelajari pola dari data.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [5]:
# Prediksi data test
Y_pred = model.predict(X_test)

# Evaluasi model
accuracy = accuracy_score(Y_test, Y_pred) * 100
report = classification_report(Y_test, Y_pred) # Hasil detail per kelas
mse = mean_squared_error(Y_test, Y_pred)
rmse = np.sqrt(mse)
cm = confusion_matrix(Y_test, Y_pred)


### 1. Akurasi

In [6]:

print(f'Accuracy: {accuracy}%')

Accuracy: 99.2094861660079%


### 2. Laporan Klasifikasi

In [7]:
print(f'Laporan klasifikasi:\n {report}')

Laporan klasifikasi:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00       245
           1       1.00      1.00      1.00        66
           2       1.00      0.95      0.97        40
           3       1.00      0.96      0.98        52
           5       1.00      1.00      1.00         1
           6       1.00      1.00      1.00        58
           7       1.00      1.00      1.00         8
           8       0.78      1.00      0.88         7
           9       0.97      1.00      0.98        29

    accuracy                           0.99       506
   macro avg       0.97      0.99      0.98       506
weighted avg       0.99      0.99      0.99       506



### 3. Mean Squared Error

In [8]:
print(f'MSE: {mse}')

MSE: 0.19960474308300397


### 4. Root Mean Squared Error

In [9]:
print(f'RMSE: {rmse}')

RMSE: 0.44677146628114467


### 5. Confusion Matrix

In [10]:
print(f"Confusion Matrix:\n{cm}")

Confusion Matrix:
[[245   0   0   0   0   0   0   0   0]
 [  0  66   0   0   0   0   0   0   0]
 [  1   0  38   0   0   0   0   1   0]
 [  0   0   0  50   0   0   0   1   1]
 [  0   0   0   0   1   0   0   0   0]
 [  0   0   0   0   0  58   0   0   0]
 [  0   0   0   0   0   0   8   0   0]
 [  0   0   0   0   0   0   0   7   0]
 [  0   0   0   0   0   0   0   0  29]]


## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [11]:
# Tidak melakukan tuning karena opsional.

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [12]:
# Tidak melakukan tuning karena opsional.

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.

## Jawaban:


1. Identifikasi Kelemahan Model

    a. Precision dan Recall Rendah untuk Kelas Tertentu
    - **Kelas 2 dan 3:**  
      - Precision: Tinggi (1.00).  
      - Recall: Sedikit lebih rendah (0.95 untuk kelas 2 dan 0.96 untuk kelas 3).  
      - Analisis: Beberapa sampel dari kedua kelas ini tak terdeteksi dengan benar.  
    - **Kelas 8:**  
      - Precision: Rendah (0.78).  
      - Recall: Tinggi (1.00).  
      - Analisis: Ada prediksi yang salah dari kelas lain ke kelas 8.

    b. Kemungkinan Overfitting atau Underfitting
    - **Overfitting:**  
      - Akurasi tinggi (99.2%) pada data uji memungkinkan untuk terjadi overfitting jika performa menurun pada data validasi atau data nyata.  
    - **Underfitting:**  
      - Sepertinya tidak, karena hasil yang ditunjukkan sangat baik.

    c. Distribusi Data Tidak Merata (Berhubungan dengan data awal)
    - **Ketidakseimbangan Kelas:**  
      - Contoh: Kelas 5 (1 sampel) dan kelas 8 (7 sampel) memiliki jumlah data yang sangat kecil dibandingkan kelas 0 (245 sampel).  
      - Dampak: Performa di kelas minoritas kurang optimal.  


2. Rekomendasi Tindakan Lanjutan

    a. Perbaikan Data
    - **Kumpulkan Data Tambahan:**  
      Tingkatkan jumlah sampel untuk kelas minoritas (5 dan 8) agar model memiliki representasi yang lebih baik.  
    - **Data Augmentation:**  
      Bisa digunakan untuk meningkatkan variasi sampel dari kelas minoritas jika sulit menemukan data baru.  

    b. Penyesuaian Model
    - **Penanganan Ketidakseimbangan:**  
      - Oversampling: Gunakan SMOTE untuk menambah sampel kelas minoritas.  
      - Undersampling: Kurangi dominasi kelas mayoritas. 
    - **Pakai Algoritma Lain:**  
      - Coba algoritma selain RandomForest yang mungkin lebih baik.

    c. Evaluasi Ulang Performansi
    - **Cross-Validation:**  
      - Pastikan performa model konsisten pada data validasi untuk menghindari overfitting.   

    d. Analisis Kesalahan
    - **Confusion Matrix:**  
      - Identifikasi pola kesalahan, contohnya seperti kelas yang sering salah diprediksi menjadi kelas lain. 


  Secara keseluruhan, yang harus ditingkatkan adalah representasi data untuk kelas minoritas dan mengatasi potensi overfitting.
