# **📌 Binning (Diskritisasi) Menggunakan K-Means Clustering**
🎯 Tujuan
Diskritisasi (binning) adalah proses mengubah data numerik kontinu menjadi bentuk kategorikal (diskrit). Teknik ini sering digunakan untuk:

Menyederhanakan model klasifikasi

Mengurangi noise dalam data

Membantu interpretasi data

Salah satu pendekatan diskritisasi yang lebih fleksibel dibanding fixed-width binning adalah menggunakan K-Means Clustering.

# **🤖 Apa Itu K-Means Clustering untuk Diskritisasi?**
Alih-alih membuat interval berdasarkan rentang nilai (misalnya “low”, “medium”, “high”), K-Means digunakan untuk mengelompokkan nilai-nilai numerik menjadi klaster, berdasarkan kesamaan nilai. Setiap klaster akan dianggap sebagai satu bin.

## Import library yang diperlukan

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import KBinsDiscretizer
from sklearn.cluster import KMeans
from sklearn.naive_bayes import GaussianNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from tabulate import tabulate

## Memuat Data Iris

In [None]:
# Load dataset
from sklearn.datasets import load_iris

iris = load_iris()
X = pd.DataFrame(iris.data, columns=iris.feature_names)
y = iris.target

# display(X)
print(tabulate(X, headers='keys', tablefmt='psql'))

+-----+---------------------+--------------------+---------------------+--------------------+
|     |   sepal length (cm) |   sepal width (cm) |   petal length (cm) |   petal width (cm) |
|-----+---------------------+--------------------+---------------------+--------------------|
|   0 |                 5.1 |                3.5 |                 1.4 |                0.2 |
|   1 |                 4.9 |                3   |                 1.4 |                0.2 |
|   2 |                 4.7 |                3.2 |                 1.3 |                0.2 |
|   3 |                 4.6 |                3.1 |                 1.5 |                0.2 |
|   4 |                 5   |                3.6 |                 1.4 |                0.2 |
|   5 |                 5.4 |                3.9 |                 1.7 |                0.4 |
|   6 |                 4.6 |                3.4 |                 1.4 |                0.3 |
|   7 |                 5   |                3.4 |          

## 📊 Diskritisasi Data dengan K-Means Clustering (Binning)
Pada bagian ini, kita akan melakukan diskritisasi (binning) terhadap data numerik dari dataset Iris menggunakan algoritma K-Means Clustering. Diskritisasi ini bertujuan untuk mengubah nilai kontinu (float) menjadi label diskrit (kategori), yang sering dibutuhkan dalam model-model klasifikasi atau visualisasi tertentu.

Langkah-langkah Kode:


1.   Menyalin Data Asli

    Data awal X disalin ke variabel X_discretized agar proses modifikasi tidak mengubah dataset aslinya.
2.   Menentukan Jumlah Klaster per Fitur

    Kita mendefinisikan jumlah klaster yang berbeda-beda untuk setiap fitur:

    - sepal length (cm) → 4 klaster

    - sepal width (cm) → 3 klaster

    - petal length (cm) → 4 klaster

    - petal width (cm) → 3 klaster
    Hal ini memungkinkan kita melakukan diskritisasi yang disesuaikan dengan karakteristik distribusi tiap fitur.

3. Melakukan K-Means Clustering
Untuk setiap fitur, algoritma K-Means dijalankan secara individual:

    - Data fitur dibentuk ulang menjadi array 2 dimensi (X[[col]]).

    - Model KMeans dengan jumlah klaster tertentu dilatih (fit_predict).

    - Label klaster yang dihasilkan menggantikan nilai asli pada fitur tersebut.

4. Menampilkan Data yang Telah Didiskritisasi

    Dengan menggunakan fungsi tabulate, hasil 10 baris pertama ditampilkan dalam bentuk tabel ASCII yang rapi.

Output

Hasil akhirnya adalah dataframe baru X_discretized yang berisi label diskrit (seperti 0, 1, 2, atau 3) untuk setiap fitur, tergantung hasil klastering K-Means. Nilai-nilai ini dapat dimodifikasi lebih lanjut (misalnya diubah menjadi huruf: A, B, C, D) untuk interpretasi yang lebih intuitif.



In [None]:
from sklearn.cluster import KMeans
from tabulate import tabulate

# Salin data asli
X_discretized = X.copy()

# Atur jumlah klaster berbeda per fitur
cluster_map = {
    'sepal length (cm)': 4,
    'sepal width (cm)': 3,
    'petal length (cm)': 4,
    'petal width (cm)': 3
}

# Lakukan clustering per fitur
for col in X.columns:
    n_clusters = cluster_map[col]
    km = KMeans(n_clusters=n_clusters, random_state=42, n_init='auto')
    X_discretized[col] = km.fit_predict(X[[col]])

# Tampilkan hasil
print(tabulate(X_discretized, headers='keys', tablefmt='psql'))


+-----+---------------------+--------------------+---------------------+--------------------+
|     |   sepal length (cm) |   sepal width (cm) |   petal length (cm) |   petal width (cm) |
|-----+---------------------+--------------------+---------------------+--------------------|
|   0 |                   2 |                  0 |                   1 |                  1 |
|   1 |                   2 |                  2 |                   1 |                  1 |
|   2 |                   2 |                  2 |                   1 |                  1 |
|   3 |                   2 |                  2 |                   1 |                  1 |
|   4 |                   2 |                  0 |                   1 |                  1 |
|   5 |                   1 |                  0 |                   1 |                  1 |
|   6 |                   2 |                  0 |                   1 |                  1 |
|   7 |                   2 |                  0 |          

# ✂️ Pembagian Data (Train-Test Split) untuk Data Asli dan Data Diskritisasi
Pada bagian ini, dilakukan proses pembagian data menjadi data latih (training) dan data uji (testing) dengan menggunakan fungsi train_test_split dari sklearn.model_selection.

1. Pembagian Data Asli
2. Pembagian Data Diskritisasi (Binned)

Dengan pembagian ini, kita bisa membandingkan performa model klasifikasi pada data asli dan data yang telah melalui proses diskritisasi.

In [None]:
# Asli
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Diskritisasi
X_disc_train, X_disc_test, _, _ = train_test_split(X_discretized, y, test_size=0.3, random_state=42)


## 📊 Perbandingan Klasifikasi Naive Bayes pada Data Asli dan Data yang Didiskritisasi
Pada tahap ini, dilakukan evaluasi performa algoritma Naive Bayes terhadap dua jenis data:

1. Data asli (kontinu), yang memuat nilai numerik dari fitur-fitur dataset Iris.
2. Data hasil diskritisasi, yaitu data yang telah diklasterisasi menggunakan metode K-Means Clustering dan diubah menjadi nilai kategorikal diskrit.

Tujuan dari eksperimen ini adalah untuk mengamati bagaimana pengaruh proses diskritisasi terhadap performa model klasifikasi. Naive Bayes, yang dikenal bekerja cukup baik pada data kategorikal, diuji apakah lebih akurat saat diberi input data diskrit dibanding data numerik kontinu.

Setelah proses pelatihan, masing-masing model dievaluasi menggunakan confusion matrix serta metrik klasifikasi seperti precision, recall, dan F1-score. Hasil evaluasi ditampilkan dalam bentuk tabel yang memudahkan pembacaan performa setiap kelas (Setosa, Versicolor, Virginica).

Terakhir, nilai akurasi keseluruhan dari masing-masing model juga dibandingkan, sehingga dapat disimpulkan apakah proses diskritisasi membawa dampak positif, negatif, atau netral terhadap kinerja Naive Bayes dalam kasus ini.

In [None]:
# Naive Bayes pada data asli
nb = GaussianNB()
nb.fit(X_train, y_train)
y_pred_nb = nb.predict(X_test)
acc_nb = accuracy_score(y_test, y_pred_nb)

# Naive Bayes pada data diskrit
nb_disc = GaussianNB()
nb_disc.fit(X_disc_train, y_train)
y_pred_nb_disc = nb_disc.predict(X_disc_test)
acc_nb_disc = accuracy_score(y_test, y_pred_nb_disc)

# Visualisasi
def print_classification_table(y_true, y_pred, title=""):
    report = classification_report(y_true, y_pred, output_dict=True)
    table = []

    for label, metrics in report.items():
        if label not in ['accuracy', 'macro avg', 'weighted avg']:
            row = [label,
                   f"{metrics['precision']:.2f}",
                   f"{metrics['recall']:.2f}",
                   f"{metrics['f1-score']:.2f}",
                   f"{metrics['support']}"]
            table.append(row)

    headers = ["Class", "Precision", "Recall", "F1-Score", "Support"]
    print(tabulate(table, headers=headers, tablefmt="psql"))

def print_confusion_matrix(y_true, y_pred, model_name="Model", labels=None):
    cm = confusion_matrix(y_true, y_pred)
    if labels is None:
        labels = [str(i) for i in range(len(cm))]

    headers = ["Actual \\ Pred"] + list(labels)
    rows = []
    for i, row in enumerate(cm):
        rows.append([labels[i]] + list(row))

    print(f"\n📋 {model_name}")
    print(tabulate(rows, headers=headers, tablefmt="psql"))

label_names = iris.target_names.tolist()  # ['setosa', 'versicolor', 'virginica']

# Naive Bayes
print_confusion_matrix(y_test, y_pred_nb, model_name="Naive Bayes - Data Asli", labels=label_names)
print_classification_table(y_test, y_pred_nb)

print_confusion_matrix(y_test, y_pred_nb_disc, model_name="Naive Bayes - Data Diskrit", labels=label_names)
print_classification_table(y_test, y_pred_nb_disc, title="Naive Bayes - Data Diskrit")

print("\n Akurasi (Data Asli):", acc_nb)
print(" Akurasi (Data Diskritisasi):", acc_nb_disc)



📋 Naive Bayes - Data Asli
+-----------------+----------+--------------+-------------+
| Actual \ Pred   |   setosa |   versicolor |   virginica |
|-----------------+----------+--------------+-------------|
| setosa          |       19 |            0 |           0 |
| versicolor      |        0 |           12 |           1 |
| virginica       |        0 |            0 |          13 |
+-----------------+----------+--------------+-------------+
+---------+-------------+----------+------------+-----------+
|   Class |   Precision |   Recall |   F1-Score |   Support |
|---------+-------------+----------+------------+-----------|
|       0 |        1    |     1    |       1    |        19 |
|       1 |        1    |     0.92 |       0.96 |        13 |
|       2 |        0.93 |     1    |       0.96 |        13 |
+---------+-------------+----------+------------+-----------+

📋 Naive Bayes - Data Diskrit
+-----------------+----------+--------------+-------------+
| Actual \ Pred   |   setosa 

### ✅ Hasil Evaluasi Naive Bayes: Data Asli vs Data Diskritisasi
Setelah model Naive Bayes dilatih dan diuji pada dua versi data, diperoleh hasil sebagai berikut:

#### 📌 Data Asli (Numerik)
Model berhasil mengklasifikasikan sebagian besar data dengan akurasi 97.78%.

Terdapat sedikit kesalahan pada kelas versicolor, di mana 1 sampel diklasifikasikan sebagai virginica.

Precision, recall, dan F1-score sangat tinggi pada ketiga kelas, menunjukkan bahwa model bekerja sangat baik bahkan pada data numerik.

#### 📌 Data Diskritisasi (Hasil K-Means)
Setelah fitur didiskritisasi menggunakan K-Means Clustering (dengan jumlah klaster berbeda per fitur), model justru menunjukkan performa yang sempurna (akurasi 100%).

Semua sampel dari ketiga kelas diklasifikasikan dengan benar, tanpa kesalahan satu pun.

Nilai precision, recall, dan F1-score untuk semua kelas adalah 1.00, menunjukkan klasifikasi yang ideal.

#### 🎯 Kesimpulan
Diskritisasi dengan K-Means Clustering justru meningkatkan performa model Naive Bayes, kemungkinan karena:

Model Naive Bayes sangat cocok untuk data kategorikal.

Diskritisasi membantu menyederhanakan kompleksitas variasi numerik.

Dengan demikian, diskritisasi berbasis klaster dapat menjadi strategi preprocessing yang efektif untuk meningkatkan performa klasifikasi, terutama saat menggunakan algoritma probabilistik seperti Naive Bayes.

## 📊 Perbandingan Klasifikasi Decision Tree pada Data Asli dan Data yang Didiskritisasi
Pada tahap ini, dilakukan evaluasi performa algoritma Decision Tree terhadap dua jenis data:

1. Data asli (kontinu), yaitu data numerik dari fitur-fitur dataset Iris seperti panjang dan lebar kelopak serta sepal.

2. Data hasil diskritisasi, yaitu data yang telah melalui proses pengelompokan (clustering) menggunakan metode K-Means, lalu dikonversi ke dalam bentuk nilai kategorikal diskrit.

Tujuan dari eksperimen ini adalah untuk mengamati dampak dari proses diskritisasi terhadap performa model klasifikasi Decision Tree. Sebagai algoritma berbasis pemisahan atribut secara rekursif, Decision Tree pada dasarnya mampu menangani baik data numerik maupun kategorikal, namun performanya bisa berbeda tergantung struktur data.

Setelah model dilatih pada masing-masing versi data, dilakukan evaluasi menggunakan:

- Confusion matrix, untuk melihat distribusi prediksi benar dan salah per kelas (Setosa, Versicolor, Virginica).

- Metrik evaluasi klasifikasi seperti precision, recall, dan F1-score untuk masing-masing kelas.

Terakhir, dilakukan perbandingan terhadap akurasi keseluruhan dari kedua model. Hal ini membantu menentukan apakah proses diskritisasi memberikan keuntungan bagi performa Decision Tree dalam tugas klasifikasi pada dataset Iris ini—apakah membantu mengurangi noise, meningkatkan pemisahan antar kelas, atau sebaliknya, justru menurunkan ketepatan model.

In [None]:
# Decision Tree pada data asli
dt = DecisionTreeClassifier(random_state=42)
dt.fit(X_train, y_train)
y_pred_dt = dt.predict(X_test)
acc_dt = accuracy_score(y_test, y_pred_dt)

# Decision Tree pada data diskrit
dt_disc = DecisionTreeClassifier(random_state=42)
dt_disc.fit(X_disc_train, y_train)
y_pred_dt_disc = dt_disc.predict(X_disc_test)
acc_dt_disc = accuracy_score(y_test, y_pred_dt_disc)

# Visualisasi
def print_confusion_matrix(y_true, y_pred, model_name="Model", labels=None):
    cm = confusion_matrix(y_true, y_pred)
    if labels is None:
        labels = [str(i) for i in range(len(cm))]
    headers = ["Actual \\ Pred"] + list(labels)
    rows = [[labels[i]] + list(row) for i, row in enumerate(cm)]
    print(f"\n📋 {model_name}")
    print(tabulate(rows, headers=headers, tablefmt="psql"))

def print_classification_report(y_true, y_pred, title=""):
    report = classification_report(y_true, y_pred, output_dict=True)
    table = []

    for label, metrics in report.items():
        if label not in ['accuracy', 'macro avg', 'weighted avg']:
            row = [label,
                   f"{metrics['precision']:.2f}",
                   f"{metrics['recall']:.2f}",
                   f"{metrics['f1-score']:.2f}",
                   f"{metrics['support']}"]
            table.append(row)

    headers = ["Class", "Precision", "Recall", "F1-Score", "Support"]
    print(tabulate(table, headers=headers, tablefmt="psql"))

# Cetak hasil
label_names = iris.target_names.tolist()

print_confusion_matrix(y_test, y_pred_dt, model_name="Decision Tree - Data Asli", labels=label_names)
print_classification_report(y_test, y_pred_dt)

print_confusion_matrix(y_test, y_pred_dt_disc, model_name="Decision Tree - Data Diskrit", labels=label_names)
print_classification_report(y_test, y_pred_dt_disc)

print("\n🌳 Decision Tree Accuracy")
print(f"Akurasi (Data Asli): {acc_dt:.2f}")
print(f"Akurasi (Data Diskritisasi): {acc_dt_disc:.2f}")



📋 Decision Tree - Data Asli
+-----------------+----------+--------------+-------------+
| Actual \ Pred   |   setosa |   versicolor |   virginica |
|-----------------+----------+--------------+-------------|
| setosa          |       19 |            0 |           0 |
| versicolor      |        0 |           13 |           0 |
| virginica       |        0 |            0 |          13 |
+-----------------+----------+--------------+-------------+
+---------+-------------+----------+------------+-----------+
|   Class |   Precision |   Recall |   F1-Score |   Support |
|---------+-------------+----------+------------+-----------|
|       0 |           1 |        1 |          1 |        19 |
|       1 |           1 |        1 |          1 |        13 |
|       2 |           1 |        1 |          1 |        13 |
+---------+-------------+----------+------------+-----------+

📋 Decision Tree - Data Diskrit
+-----------------+----------+--------------+-------------+
| Actual \ Pred   |   set

### 🌳 Evaluasi Model Decision Tree: Data Asli vs Data Diskritisasi
Pada bagian ini, digunakan algoritma Decision Tree untuk mengklasifikasikan dataset Iris, baik dalam bentuk asli (numerik) maupun setelah didiskritisasi menggunakan metode K-Means Clustering.

#### 📌 Data Asli (Numerik)
Model Decision Tree pertama dilatih menggunakan data numerik hasil train-test split.

Setelah dilakukan prediksi terhadap data uji, dilakukan evaluasi melalui dua metode:

- Confusion Matrix, yang menunjukkan distribusi prediksi benar dan salah untuk masing-masing kelas (Setosa, Versicolor, Virginica).

- Classification Report, yang menyajikan metrik evaluasi utama seperti:

    -  Precision (ketepatan prediksi)

    - Recall (kemampuan mendeteksi kelas sebenarnya)

    - F1-Score (harmoni antara precision dan recall)

    - Support (jumlah data di tiap kelas)

Hasil evaluasi menunjukkan bahwa model berhasil mengklasifikasikan semua sampel dengan benar, menghasilkan akurasi 100% dan nilai sempurna pada semua metrik evaluasi.

#### 📌 Data Diskritisasi (K-Means)
Selanjutnya, model Decision Tree kedua dilatih pada data yang telah didiskritisasi. Setiap fitur numerik dikonversi menjadi kategori diskrit menggunakan K-Means Clustering.

- Proses evaluasi dilakukan dengan cara yang sama seperti sebelumnya:

- Prediksi terhadap data uji

- Pencetakan confusion matrix

- Penyusunan classification report

Hasil evaluasi menunjukkan bahwa model juga mencapai performa sempurna — akurasi 100%, dengan semua metrik (precision, recall, f1-score) bernilai 1.00 untuk setiap kelas.

#### ✅ Kesimpulan
Baik pada data numerik maupun diskrit, algoritma Decision Tree menunjukkan performa yang sangat baik dan konsisten. Ini mengindikasikan bahwa:

Decision Tree fleksibel terhadap jenis input, baik numerik maupun kategorikal.

Proses diskritisasi tidak menurunkan kinerja model, bahkan bisa menjadi alternatif yang valid ketika fitur harus dikonversi.


### 📊 Perbandingan Global Model Klasifikasi: Naive Bayes vs Decision Tree
Setelah dilakukan pengujian pada dua algoritma klasifikasi — Naive Bayes dan Decision Tree — pada dua jenis data (asli dan hasil diskritisasi), berikut ringkasan dan perbandingannya:

- Model	Tipe Data	Akurasi	Catatan Performa
Naive Bayes	Asli (numerik)	0.89	Beberapa kesalahan klasifikasi, terutama antar kelas yang mirip seperti Versicolor vs Virginica.
Naive Bayes	Diskrit	1.00	Performa meningkat setelah diskritisasi, cocok untuk data kategorikal.
- Decision Tree	Asli (numerik)	1.00	Klasifikasi sempurna, model sangat cocok untuk data numerik dengan batas kelas yang jelas.
Decision Tree	Diskrit	1.00	Performa tetap optimal meski fitur telah didiskritisasi.

### 🔍 Insight Utama
Diskritisasi meningkatkan performa Naive Bayes, sesuai ekspektasi, karena algoritma ini memang dirancang untuk bekerja lebih optimal pada fitur kategorikal.

Decision Tree sangat kuat, tidak terpengaruh secara negatif oleh proses diskritisasi. Ini menandakan fleksibilitas tinggi dari model terhadap berbagai jenis data.

Decision Tree unggul dalam hal akurasi, tetapi untuk situasi tertentu (misal data besar atau kebutuhan interpretabilitas tinggi), Naive Bayes tetap relevan karena lebih cepat dan sederhana.

