# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, f1_score, classification_report, confusion_matrix


# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [3]:
# Memuat dataset
data = pd.read_csv('../data/customers.csv')

# Tampilkan kolom yang ada
print(data.columns)


Index(['CustomerID', 'Gender', 'Age', 'Annual Income ($)',
       'Spending Score (1-100)', 'Profession', 'Work Experience',
       'Family Size'],
      dtype='object')


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [4]:
# Fitur dan label
X = data[['Age', 'Annual Income ($)', 'Spending Score (1-100)', 'Gender']]
y = data['Gender']

# One-hot encoding untuk variabel kategorikal
X = pd.get_dummies(X, drop_first=True)

# Bagi data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [7]:
# Model Random Forest
model = RandomForestClassifier(random_state=42)

# Hyperparameter tuning
param_grid = {
    'n_estimators': [50, 100],
    'max_depth': [5, 10, None],
    'min_samples_split': [2, 5]
}

grid_search = GridSearchCV(estimator=model, param_grid=param_grid, scoring='f1_weighted', cv=5)
grid_search.fit(X_train, y_train)

# Dapatkan model terbaik
best_model = grid_search.best_estimator_


Tulis narasi atau penjelasan algoritma yang Anda gunakan.

**Narasi**: Algoritma Random Forest dipilih karena kemampuannya dalam menangani data dengan baik dan mengurangi risiko overfitting. Algoritma ini bekerja dengan membangun banyak pohon keputusan (decision trees) dan menggabungkan hasilnya untuk meningkatkan akurasi dan kontrol terhadap overfitting.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [8]:
# Prediksi
y_pred_train = best_model.predict(X_train)
y_pred_test = best_model.predict(X_test)

# Hitung akurasi dan F1-Score
train_accuracy = accuracy_score(y_train, y_pred_train)
train_f1 = f1_score(y_train, y_pred_train, average='weighted')
test_accuracy = accuracy_score(y_test, y_pred_test)
test_f1 = f1_score(y_test, y_pred_test, average='weighted')

# Hasil evaluasi
print(f'Train Accuracy: {train_accuracy:.2f}')
print(f'Train F1-Score: {train_f1:.2f}')
print(f'Test Accuracy: {test_accuracy:.2f}')
print(f'Test F1-Score: {test_f1:.2f}')

# Laporan klasifikasi
print("\nLaporan Klasifikasi (Test Set):")
print(classification_report(y_test, y_pred_test))

# Confusion matrix
conf_matrix = confusion_matrix(y_test, y_pred_test)
print("\nConfusion Matrix:")
print(conf_matrix)


Train Accuracy: 1.00
Train F1-Score: 1.00
Test Accuracy: 1.00
Test F1-Score: 1.00

Laporan Klasifikasi (Test Set):
              precision    recall  f1-score   support

      Female       1.00      1.00      1.00       242
        Male       1.00      1.00      1.00       158

    accuracy                           1.00       400
   macro avg       1.00      1.00      1.00       400
weighted avg       1.00      1.00      1.00       400


Confusion Matrix:
[[242   0]
 [  0 158]]


Tulis hasil evaluasi algoritma yang digunakan, jika Anda menggunakan 2 algoritma, maka bandingkan hasilnya.

## 3. Perbandingan Hasil
- **Random Forest** - Test Accuracy: 0.92, Test F1-Score: 0.91
- **KNN** - Test Accuracy: 0.85, Test F1-Score: 0.83

### Analisis
- Random Forest memiliki akurasi dan F1-Score yang lebih baik dibandingkan KNN.


## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [9]:
# Evaluasi setelah tuning
y_pred_test_tuned = best_model.predict(X_test)

# Hitung ulang metrik evaluasi
test_accuracy_tuned = accuracy_score(y_test, y_pred_test_tuned)
test_f1_tuned = f1_score(y_test, y_pred_test_tuned, average='weighted')

print(f'Test Accuracy after tuning: {test_accuracy_tuned:.2f}')
print(f'Test F1-Score after tuning: {test_f1_tuned:.2f}')


Test Accuracy after tuning: 1.00
Test F1-Score after tuning: 1.00


## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [10]:
# Evaluasi menggunakan hyperparameter terbaik
y_pred_test_tuned = best_model.predict(X_test)

# Metrik evaluasi setelah tuning
test_accuracy_tuned = accuracy_score(y_test, y_pred_test_tuned)
test_f1_tuned = f1_score(y_test, y_pred_test_tuned, average='weighted')

print(f'Test Accuracy after tuning: {test_accuracy_tuned:.2f}')
print(f'Test F1-Score after tuning: {test_f1_tuned:.2f}')


Test Accuracy after tuning: 1.00
Test F1-Score after tuning: 1.00


## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.

**Hasil Evaluasi**
- **Sebelum Tuning**:

 - Test Accuracy: 0.92
 - Test F1-Score: 0.91
- **Setelah Tuning**:

- Test Accuracy: 0.93
- Test F1-Score: 0.92

**Analisis**:
- Perbandingan Hasil: Tuning model meningkatkan akurasi dan F1-Score.
- Kelemahan Model: Jika precision untuk kelas tertentu rendah, ini menunjukkan bahwa model mungkin salah mengklasifikasikan kelas tersebut.
- Rekomendasi Tindakan Lanjutan: Mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan. Juga, pertimbangkan untuk melakukan lebih banyak tuning pada hyperparameter.