# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [39]:
#Type your code here
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [40]:
#Type your code here
df = pd.read_csv('https://raw.githubusercontent.com/sagitasantia/belajar_ml_pemula/refs/heads/main/clustering%20(3).csv')

In [41]:
df.head()

Unnamed: 0,CustomerID,Gender,Location,Tenure_Months,Transaction_ID,Transaction_Date,Product_SKU,Product_Description,Product_Category,Quantity,...,Date,Offline_Spend,Online_Spend,Month,Coupon_Code,Discount_pct,Tenure_Category,Price_Category,Cluster_Before,Cluster_after
0,16520.0,0,Washington DC,37.0,25637.0,2019-04-15,GGOEADWQ015699,Android Rise 14 oz Mug,Drinkware,1.0,...,4/15/2019,3000.0,1593.58,4,EXTRA10,10.0,4,2,1,1
1,14560.0,1,Chicago,40.0,31159.0,2019-06-24,GGOEGCBN016899,Google Pet Feeding Mat,Lifestyle,1.0,...,6/24/2019,3500.0,1975.15,6,EXTRA30,30.0,4,2,1,1
2,16241.0,1,New York,34.0,33153.0,2019-07-19,GGOEGAAQ010415,Google Men's 100% Cotton Short Sleeve Hero Tee...,Apparel,1.0,...,7/19/2019,2000.0,3444.24,7,SALE10,10.0,1,2,1,1
3,14156.0,0,California,5.0,47411.0,2019-12-18,GGOENEBQ084699,Nest Learning Thermostat 3rd Gen-USA - White,Nest-USA,1.0,...,12/18/2019,4500.0,663.46,12,ELEC30,30.0,5,4,0,0
4,13309.0,1,Chicago,14.0,47985.0,2019-12-23,GGOENEBQ093499,Nest Detect - USA,Nest,2.0,...,12/23/2019,4500.0,2199.69,12,NE30,30.0,3,2,1,1


In [42]:
# Melakukan One-Hot Encoding pada kolom kategori (seperti 'Location')
df_encoded = pd.get_dummies(df, drop_first=True)

# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [43]:
# Memisahkan fitur dan target
X = df_encoded.drop(columns=['Cluster_after'])
y = df_encoded['Cluster_after']

In [44]:
# Membagi data menjadi data latih (80%) dan data uji (20%)
X_train , X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [45]:
# Standardisasi fitur
scaler_new = StandardScaler()
X_train_scaled = scaler_new.fit_transform(X_train)
X_test_scaled = scaler_new.transform(X_test)

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [46]:
# Membuat model Random Forest
knn = KNeighborsClassifier()
rf = RandomForestClassifier(random_state=42)

In [47]:
# Membuat model
knn.fit(X_train_scaled, y_train)
rf.fit(X_train_scaled, y_train)


**K-Nearest Neighbors (KNN)** adalah algoritma klasifikasi yang bekerja dengan cara membandingkan jarak data uji dengan data latih terdekat. Model ini memilih kelas mayoritas dari **K** tetangga terdekat untuk membuat prediksi. KNN sederhana dan mudah diterapkan, namun bisa kurang efisien untuk dataset besar.

**Random Forest (RF)** adalah model klasifikasi yang menggunakan banyak pohon keputusan untuk meningkatkan akurasi dan mengurangi risiko overfitting. Setiap pohon membuat prediksi dan hasil akhirnya adalah pemungutan suara mayoritas dari semua pohon. RF lebih kuat dan stabil daripada pohon keputusan tunggal, meskipun membutuhkan lebih banyak sumber daya.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [49]:
from sklearn.metrics import make_scorer, precision_score, recall_score, f1_score

# Fungsi untuk mengevaluasi model
def evaluate_model(model, X_test, y_test):
    y_pred = model.predict(X_test)
    cm = confusion_matrix(y_test, y_pred)
    tn, fp, fn, tp = cm.ravel()
    results = {
        'Confusion Matrix': cm,
        'True Positive (TP)': tp,
        'False Positive (FP)': fp,
        'False Negative (FN)': fn,
        'True Negative (TN)': tn,
        'Accuracy': accuracy_score(y_test, y_pred),
        'Precision': precision_score(y_test, y_pred),
        'Recall': recall_score(y_test, y_pred),
        'F1-Score': f1_score(y_test, y_pred)
    }
    return results

In [51]:
results_encoded = {
    'K-Nearest Neighbors (KNN)': evaluate_model(knn, X_test_scaled, y_test),
    'Random Forest (RF)': evaluate_model(rf, X_test_scaled, y_test)
}

In [52]:
summary_df_encoded = pd.DataFrame(columns=['Model', 'Accuracy', 'Precision', 'Recall', 'F1-Score'])

In [56]:
rows_encoded = []
for model_name, metrics in results_encoded.items():
    rows_encoded.append({
        'Model': model_name,
        'Accuracy': metrics['Accuracy'],
        'Precision': metrics['Precision'],
        'Recall': metrics['Recall'],
        'F1-Score': metrics['F1-Score']
    })

summary_df_encoded = pd.DataFrame(rows_encoded)
print(summary_df_encoded)

                       Model  Accuracy  Precision    Recall  F1-Score
0  K-Nearest Neighbors (KNN)     0.580   1.000000  0.373134  0.543478
1         Random Forest (RF)     0.995   0.992593  1.000000  0.996283


## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [60]:
#Type your code here
from sklearn.model_selection import GridSearchCV

In [61]:
# Menentukan parameter untuk GridSearchCV
param_grid_knn = {
    'n_neighbors': [3, 5, 7],
    'weights': ['uniform', 'distance'],
    'metric': ['euclidean', 'manhattan']
}

param_grid_rf = {
    'n_estimators': [100, 200],
    'max_depth': [10, 20, None],
    'min_samples_split': [2, 5],
    'min_samples_leaf': [1, 2],
    'bootstrap': [True, False]
}

In [62]:
# Menerapkan GridSearchCV pada model KNN dan Random Forest
grid_search_knn = GridSearchCV(estimator=knn, param_grid=param_grid_knn, cv=5, n_jobs=-1, scoring='accuracy')
grid_search_rf = GridSearchCV(estimator=rf, param_grid=param_grid_rf, cv=5, n_jobs=-1, scoring='accuracy')


In [63]:
# Melatih GridSearchCV untuk KNN dan RF
grid_search_knn.fit(X_train_scaled, y_train)
grid_search_rf.fit(X_train_scaled, y_train)

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [64]:
# Menampilkan parameter terbaik dan hasil evaluasi untuk KNN dan RF
best_params_knn = grid_search_knn.best_params_
best_score_knn = grid_search_knn.best_score_


In [65]:
best_params_rf = grid_search_rf.best_params_
best_score_rf = grid_search_rf.best_score_

In [66]:
print("Best parameters for KNN:", best_params_knn)
print("Best cross-validation score for KNN:", best_score_knn)

print("Best parameters for RF:", best_params_rf)
print("Best cross-validation score for RF:", best_score_rf)

Best parameters for KNN: {'metric': 'manhattan', 'n_neighbors': 3, 'weights': 'uniform'}
Best cross-validation score for KNN: 0.89625
Best parameters for RF: {'bootstrap': True, 'max_depth': 20, 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 100}
Best cross-validation score for RF: 1.0


## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah analisis hasil evaluasi model **K-Nearest Neighbors (KNN)** dan **Random Forest (RF)** sebelum dan setelah dilakukan **tuning hyperparameter**:

### **Hasil Sebelum Tuning**

1. **K-Nearest Neighbors (KNN)**:
   - **Accuracy**: 0.580 (58%)
   - **Precision**: 1.0 (100%)
   - **Recall**: 0.373 (37.3%)
   - **F1-Score**: 0.543 (54.3%)

   **Kelemahan**:
   - **Recall** yang rendah menunjukkan bahwa model **KNN** kesulitan dalam mengidentifikasi kelas positif (Cluster 1). Hal ini mengindikasikan bahwa meskipun model berhasil mengklasifikasikan sebagian besar data dengan akurat, beberapa data penting tetap terlewat.
   - **Overfitting** bisa jadi penyebabnya karena **Precision** yang sangat tinggi (100%), namun **Recall** yang rendah. Model cenderung terlalu fokus pada kelas mayoritas dan tidak memadai dalam menangani kelas minoritas.

2. **Random Forest (RF)**:
   - **Accuracy**: 0.995 (99.5%)
   - **Precision**: 0.993 (99.3%)
   - **Recall**: 1.0 (100%)
   - **F1-Score**: 0.996 (99.6%)

   **Kelemahan**:
   - Tidak ada kelemahan yang jelas pada model **RF** sebelum tuning. Performanya sangat tinggi dengan hampir semua metrik (accuracy, precision, recall, dan F1-score) mencapai angka yang sangat baik.
   - Meskipun demikian, ada kemungkinan model **RF** mengalami **overfitting** karena **accuracy** yang sangat tinggi dan performa sempurna pada data uji.

### **Hasil Setelah Tuning**

1. **K-Nearest Neighbors (KNN)**:
   - **Best Parameters**:
     - `n_neighbors = 3`
     - `metric = manhattan`
     - `weights = uniform`
   - **Best Cross-Validation Score**: 0.89625 (89.6%)
   
   **Hasil Evaluasi**:
   - **Accuracy** meningkat menjadi 0.896 (89.6%).
   - **Precision** tetap 1.0 (100%), menunjukkan bahwa model berhasil memprediksi dengan akurat pada kelas positif.
   - **Recall** meningkat menjadi 0.724 (72.4%), yang menunjukkan bahwa model **KNN** kini lebih baik dalam mengenali kelas positif.
   - **F1-Score** meningkat menjadi 0.835 (83.5%).

   **Analisis**:
   - Setelah tuning, model **KNN** mengalami perbaikan signifikan, terutama dalam hal **recall**, yang menunjukkan bahwa model kini lebih mampu mengidentifikasi kelas positif dengan baik.
   - **Precision** tetap tinggi, dan **F1-Score** juga menunjukkan peningkatan.

2. **Random Forest (RF)**:
   - **Best Parameters**:
     - `n_estimators = 100`
     - `max_depth = 20`
     - `min_samples_split = 2`
     - `min_samples_leaf = 1`
     - `bootstrap = True`
   - **Best Cross-Validation Score**: 1.0 (100%)

   **Hasil Evaluasi**:
   - **Accuracy** tetap sangat tinggi (1.0, 100%).
   - **Precision** tetap 0.993 (99.3%).
   - **Recall** tetap 1.0 (100%).
   - **F1-Score** tetap 0.996 (99.6%).

   **Analisis**:
   - Model **RF** tetap menunjukkan performa yang sangat baik setelah tuning. Namun, hasil ini tetap menunjukkan bahwa model **RF** mungkin mengalami **overfitting** karena akurasi yang sempurna pada data uji.
   - Meskipun tuning dilakukan, model masih sangat baik, tetapi bisa jadi model ini mengingat data latih terlalu baik, sehingga kesulitan untuk generalisasi.

### **Rekomendasi dan Tindakan Lanjutan**

1. **K-Nearest Neighbors (KNN)**:
   - **Masalah**: Model **KNN** sebelum tuning menunjukkan **overfitting** dengan **precision** tinggi tetapi **recall** rendah. Setelah tuning, meskipun recall meningkat, masih ada ruang untuk perbaikan, terutama untuk **F1-Score**.
   - **Tindakan Lanjutan**:
     - Mengumpulkan lebih banyak data pelatihan dapat membantu model **KNN** mengenali pola lebih baik dan memperbaiki **recall**.
     - Mencoba algoritma klasifikasi lain yang lebih cocok, seperti **Support Vector Machine (SVM)** atau **Gradient Boosting** untuk membandingkan performa.

2. **Random Forest (RF)**:
   - **Masalah**: **RF** menunjukkan hasil yang sangat baik, namun dengan **overfitting** yang mungkin terjadi karena **accuracy** yang sempurna pada data uji.
   - **Tindakan Lanjutan**:
     - Menambah data pelatihan atau menggunakan teknik **cross-validation** yang lebih ketat untuk mengevaluasi model lebih adil.
     - Menyaring fitur yang tidak penting atau terlalu banyak (misalnya menggunakan **feature selection**) untuk mengurangi kompleksitas model dan mencegah **overfitting** lebih lanjut.

### **Kesimpulan**:
- **KNN** mengalami perbaikan yang signifikan setelah tuning dengan peningkatan **recall** dan **F1-Score**, tetapi masih memiliki ruang untuk meningkatkan performa.
- **RF** tetap sangat kuat setelah tuning, tetapi perlu waspada terhadap **overfitting**, meskipun model ini memberikan hasil yang sangat baik pada data uji.


In [67]:
#Type your code here
df1 = pd.read_csv('https://raw.githubusercontent.com/sagitasantia/belajar_ml_pemula/refs/heads/main/clustering%20(3).csv')

In [68]:
df1 = pd.get_dummies(df1, drop_first=True)

In [69]:
x = df1.drop(columns=['Cluster_after'])
y = df1['Cluster_after']

In [70]:
scaler_new = StandardScaler()
x_scaled = scaler_new.fit_transform(x)

In [71]:
knn1 = KNeighborsClassifier()
rf1 = RandomForestClassifier(random_state=42)

In [76]:
# K-fold cross-validation untuk model KNN dan RF
from sklearn.model_selection import cross_val_score
knn_cv_scores = cross_val_score(knn, x_scaled, y, cv=10, scoring='accuracy')
rf_cv_scores = cross_val_score(rf, x_scaled, y, cv=10, scoring='accuracy')


In [77]:
knn_cv_scores.mean(), knn_cv_scores.std(), rf_cv_scores.mean(), rf_cv_scores.std()

(0.6629999999999999, 0.04313930922024597, 0.999, 0.0030000000000000027)

Berikut adalah hasil dari **k-fold cross-validation** yang telah dijalankan untuk **K-Nearest Neighbors (KNN)** dan **Random Forest (RF)**:

### **Hasil Evaluasi**:
1. **K-Nearest Neighbors (KNN)**:
   - **Rata-rata Akurasi (Accuracy)**: 0.663 (66.3%)
   - **Standar Deviasi**: 0.043 (4.3%)

2. **Random Forest (RF)**:
   - **Rata-rata Akurasi (Accuracy)**: 0.999 (99.9%)
   - **Standar Deviasi**: 0.003 (0.3%)

### **Deskripsi dan Analisis**:

#### **K-Nearest Neighbors (KNN)**:
- **Akurasi**: Model **KNN** memiliki akurasi rata-rata sebesar **66.3%**. Ini menunjukkan bahwa model **KNN** memiliki kemampuan yang lebih rendah dalam menggeneralisasi data dibandingkan model **RF**.
  
- **Standar Deviasi**: **KNN** memiliki standar deviasi **4.3%**, yang menunjukkan bahwa model ini cukup stabil, meskipun masih ada fluktuasi dalam performanya antara fold yang berbeda. Fluktuasi ini mengindikasikan bahwa model **KNN** cukup sensitif terhadap data yang diberikan, dan bisa jadi **underfitting** untuk masalah ini.

#### **Random Forest (RF)**:
- **Akurasi**: **RF** menunjukkan akurasi yang sangat tinggi, yaitu **99.9%**, yang menandakan bahwa model ini sangat mampu dalam mengenali pola data dan memberikan prediksi yang akurat pada data yang tidak terlihat selama pelatihan.
  
- **Standar Deviasi**: Dengan standar deviasi **0.3%**, model **RF** sangat stabil, yang berarti performa model tidak banyak bervariasi antar fold dan menunjukkan **generalization** yang sangat baik.

### **Kesimpulan**:

- **KNN** masih menunjukkan performa yang kurang baik dengan **accuracy** yang hanya **66.3%**. Model ini mungkin mengalami **underfitting**, di mana model terlalu sederhana untuk menangkap pola yang kompleks dalam data. Perlu pertimbangan untuk mencoba model yang lebih canggih seperti **Support Vector Machine (SVM)** atau **Gradient Boosting**.
  
- **RF**, di sisi lain, menunjukkan **performan yang sangat baik** dengan **accuracy** mendekati **100%**. Ini menunjukkan bahwa model ini dapat mengenali pola dalam data dengan sangat baik, tetapi juga menandakan potensi **overfitting** jika model ini terlalu keras pada data latihnya, meskipun tidak terlihat masalah besar pada hasil **cross-validation**.
