# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [23]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler, MinMaxScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [24]:
df = pd.read_csv('/content/hasil_clustering.csv')
df

Unnamed: 0,Diet_type,Cuisine_type,Protein(g),Carbs(g),Fat(g),Cluster
0,caribbean,american,5.22,1.29,3.20,5
1,caribbean,south east asian,181.55,28.62,146.14,2
2,caribbean,american,30.91,302.59,96.76,5
3,caribbean,mexican,9.62,75.78,59.89,8
4,caribbean,chinese,39.84,54.08,71.55,6
...,...,...,...,...,...,...
7801,american,italian,85.20,288.14,137.15,3
7802,american,american,141.98,123.18,323.50,0
7803,american,world,0.01,0.39,0.00,2
7804,american,american,155.38,239.88,260.84,0


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [25]:
X = df.drop('Cluster', axis=1)
y = df['Cluster']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [26]:
models = {
    "Decision Tree": DecisionTreeClassifier(),
    "Random Forest": RandomForestClassifier(),
}

In [27]:
encoder = LabelEncoder()

for col in X_train.select_dtypes(include=['object']).columns:
    X_train[col] = encoder.fit_transform(X_train[col])
    X_test[col] = encoder.transform(X_test[col])

Tulis narasi atau penjelasan algoritma yang Anda gunakan.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [28]:
results = {}
for name, model in models.items():
    # Fit the model on the training data
    model.fit(X_train, y_train)

    # Predict the target variable for the test data
    y_pred = model.predict(X_test)

    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred, average='weighted')
    recall = recall_score(y_test, y_pred, average='weighted')
    f1 = f1_score(y_test, y_pred, average='weighted')
    cm = confusion_matrix(y_test, y_pred)

    results[name] = {
        "accuracy": accuracy,
        "precision": precision,
        "recall": recall,
        "f1_score": f1,
        "confusion_matrix": cm
    }

    print(f"Hasil evaluasi model {name}:")
    print(f"Accuracy: {accuracy:.4f}")
    print(f"Precision: {precision:.4f}")
    print(f"Recall: {recall:.4f}")
    print(f"F1-score: {f1:.4f}")
    print("Confusion Matrix:")
    print(cm)
    print("-" * 20)

Hasil evaluasi model Decision Tree:
Accuracy: 0.9744
Precision: 0.9739
Recall: 0.9744
F1-score: 0.9740
Confusion Matrix:
[[289   0   0   0   5   0   0   0   0]
 [  0  75   0   0   0   0   0   0   0]
 [  0   0 139   0   0   0   0   0   0]
 [  0   0   0 158   0   0   3   0   0]
 [  5   0   0   0  54   6   0   0   0]
 [  3   0   0   0   0 309   0   0   0]
 [  0   0   0   1   0   0 175   1   0]
 [  0   1   2   6   0   0   0  43   2]
 [  0   0   0   0   0   0   0   5 280]]
--------------------
Hasil evaluasi model Random Forest:
Accuracy: 0.9853
Precision: 0.9854
Recall: 0.9853
F1-score: 0.9850
Confusion Matrix:
[[294   0   0   0   0   0   0   0   0]
 [  0  75   0   0   0   0   0   0   0]
 [  0   0 139   0   0   0   0   0   0]
 [  0   0   0 159   0   0   2   0   0]
 [  6   0   0   0  56   3   0   0   0]
 [  3   0   0   0   0 309   0   0   0]
 [  0   0   0   0   0   0 177   0   0]
 [  0   0   0   4   0   0   1  47   2]
 [  0   0   0   0   0   0   0   2 283]]
--------------------


Tulis hasil evaluasi algoritma yang digunakan, jika Anda menggunakan 2 algoritma, maka bandingkan hasilnya.

Berikut adalah hasil evaluasi dan perbandingan dua algoritma yang digunakan, yaitu **Decision Tree** dan **Random Forest**:

### 1. **Decision Tree**
- **Accuracy**: 0.9744
- **Precision**: 0.9739
- **Recall**: 0.9744
- **F1-score**: 0.9740
- **Confusion Matrix**:
  ```
  [[289   0   0   0   5   0   0   0   0]
   [  0  75   0   0   0   0   0   0   0]
   [  0   0 139   0   0   0   0   0   0]
   [  0   0   0 158   0   0   3   0   0]
   [  5   0   0   0  54   6   0   0   0]
   [  3   0   0   0   0 309   0   0   0]
   [  0   0   0   1   0   0 175   1   0]
   [  0   1   2   6   0   0   0  43   2]
   [  0   0   0   0   0   0   0   5 280]]
  ```

**Kelebihan Decision Tree**:
- Mudah diinterpretasi.
- Cepat dalam proses pelatihan, terutama untuk dataset kecil.
  
**Kekurangan Decision Tree**:
- Lebih rentan terhadap overfitting.
- Kurang stabil terhadap perubahan data kecil.

---

### 2. **Random Forest**
- **Accuracy**: 0.9853
- **Precision**: 0.9854
- **Recall**: 0.9853
- **F1-score**: 0.9850
- **Confusion Matrix**:
  ```
  [[294   0   0   0   0   0   0   0   0]
   [  0  75   0   0   0   0   0   0   0]
   [  0   0 139   0   0   0   0   0   0]
   [  0   0   0 159   0   0   2   0   0]
   [  6   0   0   0  56   3   0   0   0]
   [  3   0   0   0   0 309   0   0   0]
   [  0   0   0   0   0   0 177   0   0]
   [  0   0   0   4   0   0   1  47   2]
   [  0   0   0   0   0   0   0   2 283]]
  ```

**Kelebihan Random Forest**:
- Lebih akurat dibanding Decision Tree karena menggunakan teknik ensemble.
- Tahan terhadap overfitting dengan melakukan rata-rata prediksi beberapa pohon.

**Kekurangan Random Forest**:
- Waktu pelatihan lebih lama dibanding Decision Tree.
- Sulit diinterpretasi karena melibatkan banyak pohon.

---

### 3. **Perbandingan Kinerja**
| Metode          | Accuracy | Precision | Recall | F1-Score |
|------------------|----------|-----------|--------|----------|
| **Decision Tree** | 0.9744   | 0.9739    | 0.9744 | 0.9740   |
| **Random Forest** | 0.9853   | 0.9854    | 0.9853 | 0.9850   |

Dari hasil evaluasi, **Random Forest** memberikan performa yang lebih baik dibandingkan dengan **Decision Tree** pada semua metrik evaluasi. Hal ini menunjukkan bahwa Random Forest lebih andal dalam menangani dataset dengan kompleksitas lebih tinggi dan mampu mengurangi risiko overfitting.



## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [29]:
#Type your code here

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [30]:
#Type your code here

## **e. Analisis Hasil Evaluasi Model Klasifikasi**



### **1. Identifikasi Model**
Berdasarkan hasil evaluasi yang telah dilakukan, kita dapat menganalisis metrik dan hasil confusion matrix dari **Decision Tree** dan **Random Forest**:

#### **Precision, Recall, dan F1-Score**
- **Decision Tree**:
  - **Precision**: 0.9739
  - **Recall**: 0.9744
  - **F1-Score**: 0.9740
- **Random Forest**:
  - **Precision**: 0.9854
  - **Recall**: 0.9853
  - **F1-Score**: 0.9850

Semua metrik menunjukkan performa yang sangat baik untuk kedua model. Nilai precision, recall, dan F1-score yang tinggi mengindikasikan bahwa kedua model bekerja dengan baik dalam mengklasifikasikan data. Namun, perlu diperhatikan bahwa **Random Forest** sedikit lebih unggul dibandingkan dengan **Decision Tree**.

#### **Confusion Matrix**
Confusion Matrix untuk kedua model:
```
[[289   0   0   0   5   0   0   0   0]
 [  0  75   0   0   0   0   0   0   0]
 [  0   0 139   0   0   0   0   0   0]
 [  0   0   0 158   0   0   3   0   0]
 [  5   0   0   0  54   6   0   0   0]
 [  3   0   0   0   0 309   0   0   0]
 [  0   0   0   1   0   0 175   1   0]
 [  0   1   2   6   0   0   0  43   2]
 [  0   0   0   0   0   0   0   5 280]]
```

- **Temuan**:
  - Secara umum, kedua model menunjukkan performa yang baik, dengan hanya sedikit kesalahan di beberapa kelas. Misalnya, **kelas 5** dan **kelas 8** memiliki beberapa **False Positives** dan **False Negatives** yang menunjukkan adanya kesalahan klasifikasi pada kelas-kelas tersebut.
  - Tidak ada prediksi positif yang signifikan untuk kelas minoritas di beberapa kasus. Ini mengindikasikan bahwa ada kemungkinan ketidakseimbangan kelas pada dataset.

---

### **2. Analisis Fitting**
#### **Overfitting**
- **Decision Tree** mungkin mengalami **overfitting**, terutama jika pohon terlalu dalam dan model hanya menyesuaikan diri dengan data pelatihan, meskipun hasil confusion matrix menunjukkan performa yang baik. Random Forest cenderung lebih robust terhadap overfitting karena menggunakan banyak pohon dan menggabungkan hasilnya.

#### **Underfitting**
- Tidak ada indikasi **underfitting** pada kedua model, karena metrik evaluasi yang sangat tinggi menunjukkan bahwa model telah belajar dengan baik dari data dan menangkap pola yang relevan.

---

### **3. Rekomendasi Tindakan Lanjutan**

Berdasarkan hasil analisis, berikut adalah beberapa rekomendasi untuk langkah selanjutnya:

#### **a. Validasi Model dengan Cross-Validation**
- Disarankan untuk menggunakan **k-fold cross-validation** untuk memastikan bahwa performa model konsisten pada seluruh dataset. Hal ini akan membantu mengurangi bias akibat pembagian data yang tidak representatif.

#### **b. Analisis Dataset**
- **Ketidakseimbangan Kelas**: Karena kita melihat bahwa beberapa kelas minoritas memiliki masalah dalam prediksi (misalnya, kelas 5 dan kelas 8), disarankan untuk menerapkan teknik penanganan ketidakseimbangan kelas. Beberapa teknik yang dapat diterapkan adalah:
  - **Oversampling (SMOTE)** pada kelas minoritas.
  - **Undersampling** pada kelas mayoritas.
  - Menyesuaikan **class-weight** pada model untuk memberi bobot lebih besar pada kelas yang kurang terwakili.
  
- **Distribusi Data**: Analisis distribusi data untuk setiap fitur dan kelas sangat penting untuk memastikan bahwa dataset cukup representatif terhadap masalah dunia nyata. Jika ada ketidakseimbangan atau kesalahan dalam distribusi data, perlu dilakukan penyesuaian pada dataset.

#### **c. Eksperimen dengan Dataset yang Lebih Kompleks**
- Jika dataset terlalu sederhana, pertimbangkan untuk **memperluas dataset** dengan data baru atau data yang lebih bervariasi. Dataset yang lebih kompleks dan beragam akan lebih mencerminkan dunia nyata dan meningkatkan kemampuan generalisasi model.

#### **d. Coba Algoritma dan Pendekatan Lain**
- Selain **Decision Tree** dan **Random Forest**, kita juga bisa mencoba algoritma lain seperti:
  - **Logistic Regression** untuk klasifikasi linier.
  - **SVM (Support Vector Machine)**, yang sering kali memberikan hasil yang baik pada masalah klasifikasi.
  - **Ensemble methods** seperti **XGBoost** atau **LightGBM**, yang dapat mengatasi ketidakseimbangan kelas dan meningkatkan akurasi model secara keseluruhan.

#### **e. Tuning Hyperparameter**
- Gunakan **grid search** atau **random search** untuk mencari kombinasi hyperparameter terbaik, terutama pada **Random Forest** dan **K-Nearest Neighbors**. Hyperparameter seperti jumlah pohon (n_estimators) dan kedalaman pohon (max_depth) pada Random Forest, serta jumlah tetangga (n_neighbors) pada KNN, dapat mempengaruhi performa model secara signifikan.

#### **f. Evaluasi dengan Data Baru**
- Jika memungkinkan, **uji model dengan dataset eksternal** atau data baru untuk menguji kemampuannya dalam **generalize** pada data yang tidak terlihat sebelumnya. Ini akan memberi gambaran yang lebih jelas tentang kinerja model dalam situasi dunia nyata.

#### **g. Tambahkan Metrik Evaluasi Lain**
- Selain **Precision**, **Recall**, dan **F1-Score**, kami juga menyarankan untuk menggunakan metrik evaluasi tambahan seperti **ROC-AUC** atau **PR-AUC** (Precision-Recall AUC). Metrik ini sangat berguna, terutama pada dataset yang tidak seimbang, karena dapat memberikan gambaran yang lebih jelas tentang performa model pada seluruh distribusi kelas.

---
