# **KMeans Diskritisasi dan Klasifikasi**

Proses ini melibatkan dua tahap besar:
1. Diskritisasi menggunakan K-Means

2. Klasifikasi dengan Naive Bayes dan Decision Tree, baik sebelum maupun sesudah diskritisasi.

##💡 1. Diskritisasi dengan K-Means
Apa itu Diskritisasi?
Diskritisasi adalah proses mengubah fitur numerik menjadi fitur kategorik (diskrit). Misalnya, panjang sepal menjadi kelas "pendek", "sedang", "panjang".

Kenapa K-Means?
K-Means digunakan untuk mencari natural groupings dalam data numerik. Hasil klasternya dianggap sebagai kategori diskrit.

Contoh Proses pada Data Iris:
Data Iris memiliki 4 fitur numerik:

* sepal length

* sepal width

* petal length

* petal width

Langkah-langkah:

In [5]:
from google.colab import files
uploaded = files.upload()
from sklearn.cluster import KMeans
import pandas as pd

# Load dari CSV
df = pd.read_csv('default_iris_combined.csv')

# Pisahkan fitur dan target
X = df.drop(['id', 'class'], axis=1)
y = df['class']

# Diskritisasi dengan KMeans untuk masing-masing fitur (contoh 3 klaster)
X_discretized = X.copy()
for col in X.columns:
    km = KMeans(n_clusters=3, random_state=42)
    X_discretized[col] = km.fit_predict(X[[col]])

# Data sudah diskrit
print(X_discretized.head())


Saving default_iris_combined.csv to default_iris_combined.csv
   petal length  petal width  sepal length  sepal width
0             1            1             2            0
1             1            1             2            2
2             1            1             2            2
3             1            1             2            2
4             1            1             2            0


## ⚙️ 2. Klasifikasi Sebelum dan Sesudah Diskritisasi
###A. Sebelum Diskritisasi (Data Asli - Numerik)

In [6]:
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report

# Split data
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# Model Naive Bayes
nb = GaussianNB()
nb.fit(X_train, y_train)
y_pred_nb = nb.predict(X_test)

# Model Decision Tree
dt = DecisionTreeClassifier(random_state=42)
dt.fit(X_train, y_train)
y_pred_dt = dt.predict(X_test)

print("=== Naive Bayes (Numerik) ===")
print(classification_report(y_test, y_pred_nb))

print("=== Decision Tree (Numerik) ===")
print(classification_report(y_test, y_pred_dt))


=== Naive Bayes (Numerik) ===
                 precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00        15
Iris-versicolor       1.00      1.00      1.00        11
 Iris-virginica       1.00      1.00      1.00        12

       accuracy                           1.00        38
      macro avg       1.00      1.00      1.00        38
   weighted avg       1.00      1.00      1.00        38

=== Decision Tree (Numerik) ===
                 precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00        15
Iris-versicolor       1.00      1.00      1.00        11
 Iris-virginica       1.00      1.00      1.00        12

       accuracy                           1.00        38
      macro avg       1.00      1.00      1.00        38
   weighted avg       1.00      1.00      1.00        38



### B. Setelah Diskritisasi (Data Kategorik)
Untuk Naive Bayes, kita gunakan CategoricalNB dari sklearn karena datanya diskrit.

In [7]:
from sklearn.naive_bayes import CategoricalNB

# Split diskrit
X_train_d, X_test_d, y_train_d, y_test_d = train_test_split(X_discretized, y, random_state=42)

# Naive Bayes Diskrit
cnb = CategoricalNB()
cnb.fit(X_train_d, y_train_d)
y_pred_cnb = cnb.predict(X_test_d)

# Decision Tree Diskrit (bisa pakai model yg sama)
dt2 = DecisionTreeClassifier(random_state=42)
dt2.fit(X_train_d, y_train_d)
y_pred_dt2 = dt2.predict(X_test_d)

print("=== Categorical Naive Bayes (Diskrit) ===")
print(classification_report(y_test_d, y_pred_cnb))

print("=== Decision Tree (Diskrit) ===")
print(classification_report(y_test_d, y_pred_dt2))


=== Categorical Naive Bayes (Diskrit) ===
                 precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00        15
Iris-versicolor       1.00      1.00      1.00        11
 Iris-virginica       1.00      1.00      1.00        12

       accuracy                           1.00        38
      macro avg       1.00      1.00      1.00        38
   weighted avg       1.00      1.00      1.00        38

=== Decision Tree (Diskrit) ===
                 precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00        15
Iris-versicolor       1.00      1.00      1.00        11
 Iris-virginica       1.00      1.00      1.00        12

       accuracy                           1.00        38
      macro avg       1.00      1.00      1.00        38
   weighted avg       1.00      1.00      1.00        38



## 📊 Kesimpulan Analisis:
Setelah kamu menjalankan semua kode:

| Model                       | Data Asli (Numerik)    | Data Diskrit (KMeans)    |
| --------------------------- | ---------------------- | ------------------------ |
| Naive Bayes (`GaussianNB`)  | Akurasi tinggi         | Tidak cocok              |
| Naive Bayes (`Categorical`) | -                      | Cocok untuk data diskrit |
| Decision Tree               | Cocok untuk dua-duanya |                          |

Catatan:
* GaussianNB mengasumsikan distribusi normal pada fitur numerik, jadi tidak cocok untuk data diskrit.

* CategoricalNB cocok untuk data hasil diskritisasi.

* Decision Tree bisa pakai dua-duanya.