# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [1]:
import pandas as pd
import numpy as np  

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

Dataset yang dimuat adalah hasil preprocessing untuk mempermudah proses klasifikasi.

In [2]:
df = pd.read_csv('insurance_clustered.csv')

# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [3]:
from sklearn.model_selection import train_test_split, cross_val_score

X = df.drop('Cluster', axis=1)
y = df['Cluster']

# Data Splitting
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [4]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.ensemble import (
    RandomForestClassifier, ExtraTreesClassifier, GradientBoostingClassifier,
    HistGradientBoostingClassifier, AdaBoostClassifier
)
from sklearn.linear_model import (
    LogisticRegression, LogisticRegressionCV, RidgeClassifier
)
from sklearn.naive_bayes import GaussianNB, BernoulliNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from xgboost import XGBClassifier
from catboost import CatBoostClassifier
from lightgbm import LGBMClassifier

# Fungsi evaluasi model
def all_model(list_model, X_train, X_test, y_train, y_test):
    result = []
    for model_name, model in list_model.items():
        model.fit(X_train, y_train)
        y_pred = model.predict(X_test)
        
        accuracy = accuracy_score(y_test, y_pred)
        precision = precision_score(y_test, y_pred, average='weighted')
        recall = recall_score(y_test, y_pred, average='weighted')
        f1 = f1_score(y_test, y_pred, average='weighted')

        hasil = {
            'Model': model_name,
            'Accuracy': accuracy,
            'F1 Score': f1,
            'Precision': precision,
            'Recall': recall
        }

        result.append(hasil)
    
    return pd.DataFrame(result).sort_values(by="Accuracy", ascending=False)

# Daftar model yang dikelompokkan berdasarkan jenisnya
list_of_model = {
    # Model Linear
    "Logistic Regression": LogisticRegression(max_iter=1000),
    "Logistic Regression CV": LogisticRegressionCV(max_iter=10000),
    "Ridge Classifier": RidgeClassifier(),
    
    # Model Klasik
    "Support Vector Machine": SVC(),
    "K-Nearest Neighbors": KNeighborsClassifier(n_neighbors=5),
    "Naive Bayes Gaussian": GaussianNB(),
    "Naive Bayes Bernoulli": BernoulliNB(),

    # Model Tree-Based
    "Decision Tree": DecisionTreeClassifier(random_state=42),
    "Random Forest": RandomForestClassifier(n_estimators=100, random_state=42),
    "Extra Trees": ExtraTreesClassifier(n_estimators=100, random_state=42),

    # Model Boosting
    "Gradient Boosting": GradientBoostingClassifier(n_estimators=100, random_state=42),
    "Hist Gradient Boosting": HistGradientBoostingClassifier(random_state=42),
    "AdaBoost": AdaBoostClassifier(n_estimators=100, random_state=42),
    "XGBoost": XGBClassifier(random_state=42),
    "CatBoost": CatBoostClassifier(random_state=42, logging_level='Silent')
}

Algoritma Modelling:  

1. **Import Library** 
   - Mengimpor berbagai model klasifikasi seperti **Logistic Regression, Decision Tree, Random Forest, SVM, KNN, Naïve Bayes, serta model boosting (XGBoost, CatBoost, Gradient Boosting, AdaBoost, LightGBM, dll.)**.  

2. **Fungsi Evaluasi (`all_model`)**  
   - Menerima daftar model dan dataset (X_train, X_test, y_train, y_test).  
   - Melatih setiap model pada `X_train` dan `y_train`, lalu membuat prediksi pada `X_test`.  
   - Menghitung metrik evaluasi: **Accuracy, Precision, Recall, dan F1-Score**.  
   - Mengembalikan hasil evaluasi dalam bentuk DataFrame yang diurutkan berdasarkan **akurasi tertinggi**.  

3. **Daftar Model (`list_of_model`)**  
   - Mengelompokkan berbagai model berdasarkan jenisnya: **linear models (Logistic Regression, Ridge), non-linear models (SVM, KNN, Naïve Bayes), tree-based models (Decision Tree, Random Forest, Extra Trees), dan boosting models (XGBoost, CatBoost, AdaBoost, dll.)**.  

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [5]:
results = all_model(list_of_model, X_train, X_test, y_train, y_test)
results

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


Unnamed: 0,Model,Accuracy,F1 Score,Precision,Recall
0,Logistic Regression,1.0,1.0,1.0,1.0
1,Logistic Regression CV,1.0,1.0,1.0,1.0
3,Support Vector Machine,1.0,1.0,1.0,1.0
4,K-Nearest Neighbors,1.0,1.0,1.0,1.0
7,Decision Tree,1.0,1.0,1.0,1.0
8,Random Forest,1.0,1.0,1.0,1.0
10,Gradient Boosting,1.0,1.0,1.0,1.0
11,Hist Gradient Boosting,1.0,1.0,1.0,1.0
12,AdaBoost,1.0,1.0,1.0,1.0
13,XGBoost,1.0,1.0,1.0,1.0


Sebagian besar model, seperti Logistic Regression, SVM, K-Nearest Neighbors, Decision Tree, Random Forest, XGBoost, CatBoost, dan lainnya, berhasil mencapai akurasi, F1 Score, precision, dan recall sebesar 1.0 (100%). Ini menunjukkan bahwa model-model tersebut mampu mengklasifikasikan data dengan sempurna, setidaknya pada data latih atau validasi yang digunakan.

Model dengan performa sedikit lebih rendah adalah:
- Extra Trees: Akurasi dan metrik lainnya sekitar 99.25%, yang masih sangat baik.
- Ridge Classifier: Akurasi sekitar 97.76%.
- Naive Bayes Gaussian: Akurasi sekitar 95.90%.
- Naive Bayes Bernoulli: Performa paling rendah, dengan akurasi 92.16%.



## **c. Tuning Model Klasifikasi (Optional)**

Berdasarkan hasil performa sebagian besar model memiliki akurasi 100%, maka tidak dilakukan tuning model klasifikasi.

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [6]:
#Type your code here

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

## 🔍 **Analisis Hasil Klasifikasi**

### 1. **Perbandingan Kinerja Model**
- Sebagian besar model (Logistic Regression, SVM, Decision Tree, Random Forest, XGBoost, dst.) menunjukkan **performansi sempurna** dengan akurasi, F1 Score, precision, dan recall = 1.000.
- *Extra Trees* dan *Ridge Classifier* tetap sangat baik (99.25% dan 97.76%).
- *Naive Bayes Gaussian* dan *Bernoulli* menunjukkan performa terendah, dengan akurasi di bawah 96%.

### 2. **Kelemahan Model**
- Model yang terlalu sempurna mungkin **overfitting**, perlu diuji ulang pada data baru.

### 3. **Rekomendasi Lanjutan**
- Gunakan model sederhana dan akurat seperti *Logistic Regression* atau *Decision Tree* untuk interpretabilitas.
- Lakukan **validasi silang** dan uji pada data independen.
- Tinjau **feature importance** untuk insight lebih lanjut.