# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score
from sklearn.metrics import classification_report

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [3]:
#ini load data hasil clustering
df = pd.read_csv('Beverage_cluster_normalized.csv')

# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [4]:
#ini untuk bagian data splitting sudah dilakukan
x = df.drop(columns=['Cluster'])
y = df['Cluster']
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=1)

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [5]:
knn = KNeighborsClassifier().fit(x_train, y_train)
dt = DecisionTreeClassifier().fit(x_train, y_train)
rf = RandomForestClassifier().fit(x_train, y_train)
svm = SVC().fit(x_train, y_train)
nb = GaussianNB().fit(x_train, y_train)

Disini saya menggunakan 5 algoritma berbeda yang umum digunakan dalam klasifikasi untuk menentukan mana algoritma terbaik untuk dataset ini
- KNN : Algoritma ini merupakan algoritma yang melakukan klasifikasi berdasarkan kedekatannya dengan data yang sudah diberi label, kekurangannya yang utama algoritma ini membutuhkan daya komputasi yang besar dan sensitif terhadap noise.
- Decision Tree : Algoritma ini membagi data menjadi subset yang lebih kecil berdasarkan fitur tertentu hingga mencapai keputusan akhir di node daun,
algoritma ini cocok untuk data numerik dan kategorikal namun sensitif terhadpa noise.
- Random Forest : Algoritma ini merupakan gabungan dari beberapa Decision tree dan hasil akhir ditentukan melalui voting atau rata-rata, keunggulan algoritma ini adalah robust terhadap overfitting dan kekurangannya membutuhkan memori yang besar.
- SVM : Algoritma ini bekerja dengan cara mencari hyperplane yang optimal untuk memisahkan data ke dalam kelas-kelas yang berbeda, algoritma ini efektif pada dimensi tinggi namun membutuhkan banyak memori dan sulit untuk interpretasi model
- Naive Bayes : Algoritma ini adalah algoritma berbasis probabilitas yang berdasarkan pada teorema bayes, algoritma ini dapat menangani data besar tanpa memerlukan banyak sumber daya komputasi, kekurangannya algoritma ini mengasumsikan setiap fitur independen dan tidak terkait.


## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [6]:
def evaluate_model(model, x_test, y_test):
    y_pred = model.predict(x_test)
    cm = confusion_matrix(y_test, y_pred)
    report = classification_report(y_test, y_pred, output_dict=True)
    results = {
        'Confusion Matrix': cm,
        'Accuracy': accuracy_score(y_test, y_pred),
        'Precision': report['weighted avg']['precision'],
        'Recall': report['weighted avg']['recall'],
        'F1-Score': report['weighted avg']['f1-score']
    }
    return results

results_test = {
    'K-Nearest Neighbors (KNN)': evaluate_model(knn, x_test, y_test),
    'Decision Tree (DT)': evaluate_model(dt, x_test, y_test),
    'Random Forest (RF)': evaluate_model(rf, x_test, y_test),
    'Support Vector Machine (SVM)': evaluate_model(svm, x_test, y_test),
    'Naive Bayes (NB)': evaluate_model(nb, x_test, y_test)
}

results_train = {
    'K-Nearest Neighbors (KNN)': evaluate_model(knn, x_train, y_train),
    'Decision Tree (DT)': evaluate_model(dt, x_train, y_train),
    'Random Forest (RF)': evaluate_model(rf, x_train, y_train),
    'Support Vector Machine (SVM)': evaluate_model(svm, x_train, y_train),
    'Naive Bayes (NB)': evaluate_model(nb, x_train, y_train)
}

summary_df = pd.DataFrame(columns=['Model', 'Accuracy', 'Precision', 'Recall', 'F1-Score'])

rows = []
print('Train Score')
for model_name, metrics in results_train.items():
    rows.append({
        'Model': model_name,
        'Accuracy': metrics['Accuracy'],
        'Precision': metrics['Precision'],
        'Recall': metrics['Recall'],
        'F1-Score': metrics['F1-Score']
    })
 
summary_df = pd.DataFrame(rows)
 
print(summary_df)

rows = []
print('Test Score')
for model_name, metrics in results_test.items():
    rows.append({
        'Model': model_name,
        'Accuracy': metrics['Accuracy'],
        'Precision': metrics['Precision'],
        'Recall': metrics['Recall'],
        'F1-Score': metrics['F1-Score']
    })
 
summary_df = pd.DataFrame(rows)
 
print(summary_df)

Train Score
                          Model  Accuracy  Precision    Recall  F1-Score
0     K-Nearest Neighbors (KNN)  0.992892   0.992905  0.992892  0.992894
1            Decision Tree (DT)  1.000000   1.000000  1.000000  1.000000
2            Random Forest (RF)  1.000000   1.000000  1.000000  1.000000
3  Support Vector Machine (SVM)  0.990111   0.990133  0.990111  0.990113
4              Naive Bayes (NB)  0.983622   0.983714  0.983622  0.983610
Test Score
                          Model  Accuracy  Precision    Recall  F1-Score
0     K-Nearest Neighbors (KNN)  0.980173   0.980232  0.980173  0.980176
1            Decision Tree (DT)  0.995674   0.995679  0.995674  0.995674
2            Random Forest (RF)  0.995314   0.995326  0.995314  0.995313
3  Support Vector Machine (SVM)  0.986662   0.986683  0.986662  0.986662
4              Naive Bayes (NB)  0.980534   0.980572  0.980534  0.980519


Hasil evaluasi model menunjukkan bahwa secara keseluruhan semua model menunjukkan hasil yang cukup baik dengan akurasi minimum sebesar 0.98 dan akurasi maksimum sebesar 0.99 pada Test Score, perbandingan Train score terhadap Test score juga menghasilkan selisih yang kecil di keseluruhan model yang mengindikasikan tidak adanya overfitting berlebih maupun underfitting. Dari hasil evaluasi menunjukkan bahwa algoritma decision tree mendapatkan score tertinggi mungkin dikarenakan sebagian besar fitur merupakan jenis kategorikal

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [7]:
#Type your code here

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [8]:
#Type your code here

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

### Analisis Hasil Evaluasi Model Klasifikasi
Data yang digunakan adalah hasil clustering dari `Beverage_cluster_normalized.csv`, yang telah dinormalisasi dan diberi label cluster. Disini saya menggunakan lima model klasifikasi: K-Nearest Neighbors (KNN), Decision Tree (DT), Random Forest (RF), Support Vector Machine (SVM), dan Naive Bayes (NB). Hasil perbandingan dapat dilihat pada cell diatas.

DT dipilih sebagai model terbaik karena skor tertinggi dan selisih kecil antara train (1.0) dan test (0.9975), menunjukkan generalisasi yang baik tanpa overfitting signifikan.