# **Binning (Diskritisasi menggunakan K-Means Clustering)**

# **Penerapan K-Means dalam Pengelompokan Data Sepal Length**

Algoritma K-Means Clustering merupakan salah satu metode unsupervised learning yang digunakan untuk mengelompokkan data berdasarkan kemiripan nilai fitur tertentu. Dalam kasus ini, fitur yang digunakan adalah panjang sepal (Sepal Length). Tujuan dari proses ini adalah untuk membagi data ke dalam lima kelompok (klaster) yang diberi label 0, 1, 2, 3, dan 4.

Proses clusterisasi dilakukan dengan menghitung jarak antar nilai panjang sepal, lalu mengelompokkan data yang memiliki nilai-nilai yang berdekatan ke dalam klaster yang sama. Setiap klaster akan mencerminkan rentang nilai tertentu dari panjang sepal, sehingga data dalam satu klaster memiliki karakteristik yang mirip.

Langkah-langkah umum dalam penerapan K-Means pada fitur Sepal Length meliputi:

Menentukan jumlah klaster (dalam hal ini 5).

Menginisialisasi centroid awal secara acak atau berdasarkan metode tertentu.

Menghitung jarak antara setiap data dengan centroid, lalu mengelompokkannya ke klaster terdekat.

Memperbarui posisi centroid berdasarkan rata-rata nilai dalam masing-masing klaster.

Mengulangi proses hingga tidak terjadi perubahan signifikan dalam pembagian klaster.

Dengan demikian, hasil akhir dari proses K-Means ini adalah lima kelompok data berdasarkan panjang sepal, yang masing-masing merepresentasikan satu interval nilai dan pola persebaran data yang lebih terstruktur.

## **Penjelasan Kode**
Kode di Bawah ini merupakan implementasi algoritma *K-Means clustering* untuk mengelompokkan data bunga Iris berdasarkan hanya satu fitur yaitu **`sepal length`**. Langkah pertama dalam kode ini adalah membaca dataset dari file Excel (`data_iris.xlsx`) yang berisi data fitur serta label kelas asli pada kolom `Class`. Kemudian, fitur `sepal length` dipilih sebagai satu-satunya input untuk proses clustering.

Selanjutnya, fitur ini dinormalisasi menggunakan **MinMaxScaler** agar berada dalam rentang nilai 0 hingga 1, yang penting untuk memastikan bahwa perbedaan skala tidak memengaruhi hasil clustering. Setelah proses normalisasi, model **KMeans** dijalankan untuk membentuk **4 klaster**. Parameter seperti `n_init=10`, `max_iter=300`, dan `tol=1e-4` digunakan untuk memastikan hasil yang stabil dan optimal.

Setelah model KMeans selesai dilatih, label klaster yang dihasilkan (`kmeans.labels_`) ditambahkan ke dalam dataframe sebagai kolom `cluster`. Kemudian dilakukan evaluasi terhadap kualitas cluster menggunakan dua metrik utama, yaitu **jumlah iterasi hingga konvergensi**, **inertia (SSE)** yang menunjukkan total jarak kuadrat dalam tiap klaster, dan **Silhouette Score**, yang mengukur seberapa baik data cocok dengan klaster masing-masing.

Untuk mengetahui seberapa sesuai hasil clustering dengan label sebenarnya, dilakukan pemetaan setiap klaster ke **kelas mayoritas** berdasarkan kolom `Class`. Hasil prediksi ini disimpan dalam kolom `predicted_class`. Selanjutnya, dilakukan perhitungan **akurasi** dengan membandingkan `predicted_class` terhadap label asli `Class`, serta ditampilkan **tabel distribusi** untuk melihat sebaran kelas dalam tiap klaster.

Akhirnya, seluruh hasil clustering dan prediksi disimpan ke file baru `clus_dis_sepal_length.xlsx`, dan isi kolom `Class`, `cluster`, dan `predicted_class` ditampilkan sebagai output. Kode ini menunjukkan bagaimana algoritma unsupervised seperti KMeans dapat dimanfaatkan untuk menemukan struktur atau pola dalam data, bahkan hanya dengan menggunakan satu fitur saja.


In [4]:
from sklearn.cluster import KMeans
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import silhouette_score, accuracy_score
import pandas as pd

# Membaca data dari file Excel
df = pd.read_excel("data_iris.xlsx")  # File ini harus sudah memiliki kolom 'sepal length' dan 'Class'

# Ambil hanya fitur sepal length
features = df[['sepal length']]

# Normalisasi fitur
scaler = MinMaxScaler()
scaled_features = scaler.fit_transform(features)

# Clustering KMeans dengan 4 klaster
kmeans = KMeans(n_clusters=4, random_state=42, n_init=10, max_iter=300, tol=1e-4)
kmeans.fit(scaled_features)

# Simpan hasil cluster ke dataframe
df['cluster'] = kmeans.labels_

# Evaluasi
print(f"Jumlah iterasi sampai konvergen: {kmeans.n_iter_}")
print(f"Inertia (SSE): {kmeans.inertia_:.4f}")
sil_score = silhouette_score(scaled_features, kmeans.labels_)
print(f"Silhouette Score: {sil_score:.4f}")

# Pemetaan cluster ke class mayoritas
mapping = (
    df.groupby('cluster')['Class']
    .agg(lambda x: x.mode()[0])
    .to_dict()
)
df['predicted_class'] = df['cluster'].map(mapping)

# Hitung akurasi prediksi clustering terhadap label asli
y_true = df['Class']
y_pred = df['predicted_class']
acc = accuracy_score(y_true, y_pred)
print(f"\nAkurasi keseluruhan clustering terhadap label asli: {acc:.4%}")

# Tampilkan distribusi cluster per kelas
dist = pd.crosstab(df['Class'], df['cluster'], rownames=['Class'], colnames=['Cluster'])
print("\nDistribusi cluster per kelas:")
print(dist)

# Simpan hasil ke Excel
df.to_excel("clus_dis_sepal_length.xlsx", index=False)

# Tampilkan hasil akhir
pd.set_option('display.max_rows', None)
print(df[['Class', 'cluster', 'predicted_class']])

Jumlah iterasi sampai konvergen: 2
Inertia (SSE): 0.6416
Silhouette Score: 0.5920

Akurasi keseluruhan clustering terhadap label asli: 72.0000%

Distribusi cluster per kelas:
Cluster           0   1   2   3
Class                          
Iris-setosa      10   0  40   0
Iris-versicolor  29   0   5  16
Iris-virginica   10  12   1  27
               Class  cluster  predicted_class
0        Iris-setosa        2      Iris-setosa
1        Iris-setosa        2      Iris-setosa
2        Iris-setosa        2      Iris-setosa
3        Iris-setosa        2      Iris-setosa
4        Iris-setosa        2      Iris-setosa
5        Iris-setosa        0  Iris-versicolor
6        Iris-setosa        2      Iris-setosa
7        Iris-setosa        2      Iris-setosa
8        Iris-setosa        2      Iris-setosa
9        Iris-setosa        2      Iris-setosa
10       Iris-setosa        0  Iris-versicolor
11       Iris-setosa        2      Iris-setosa
12       Iris-setosa        2      Iris-setosa
13     

## **Analisis Statistik Cluster: Nilai Minimum, Maksimum, dan Centroid pada Fitur Sepal Length**

Setelah data panjang sepal (Sepal Length) dikelompokkan menggunakan algoritma K-Means, langkah selanjutnya adalah melakukan analisis statistik terhadap hasil klasterisasi. Analisis ini mencakup pencarian nilai minimum (min), maksimum (max), dan centroid (nilai rata-rata) untuk masing-masing klaster yang terbentuk.

Nilai minimum dan maksimum di setiap klaster digunakan untuk menentukan batas bawah dan batas atas dari rentang nilai di dalam klaster tersebut. Rentang ini menjadi dasar dalam proses diskretisasi data, yaitu mengubah nilai kontinu menjadi kategori berdasarkan interval.

Centroid atau titik tengah dari tiap klaster dihitung sebagai rata-rata dari seluruh nilai Sepal Length yang termasuk dalam klaster tersebut. Nilai ini berfungsi sebagai representasi khas dari klaster tersebut dan dapat digunakan sebagai label numerik dalam proses transformasi data.

Dengan pendekatan ini, fitur Sepal Length yang semula berupa nilai kontinu (angka desimal) dapat diubah menjadi bentuk kategori diskret, seperti:

Klaster 0 → kategori A

Klaster 1 → kategori B

dst.

Setiap data akan dikategorikan berdasarkan interval min–max dari klaster tempatnya berada. Hasilnya, data menjadi lebih mudah dianalisis dalam konteks klasifikasi atau pemodelan yang membutuhkan data dalam bentuk diskrit.


In [13]:
from sklearn.cluster import KMeans
from sklearn.preprocessing import MinMaxScaler
import pandas as pd

from google.colab import files
uploaded = files.upload()


# Contoh Data
df = pd.read_excel("clus_dis.xlsx")
features = df[['sepal_length']]

# Normalisasi
scaler = MinMaxScaler()
scaled_features = scaler.fit_transform(features)

# KMeans Clustering
kmeans = KMeans(n_clusters=4, random_state=42, n_init=10)
kmeans.fit(scaled_features)

# Tambahkan hasil cluster ke data
df['cluster'] = kmeans.labels_

# Ambil centroid dari hasil clustering (dalam skala normalisasi)
centroids_scaled = kmeans.cluster_centers_

# Konversi centroid ke skala asli
centroids_original = scaler.inverse_transform(centroids_scaled)

# Hitung min, max, dan centroid per klaster
cluster_stats = df.groupby('cluster')['sepal_length'].agg(['min', 'max']).copy()
cluster_stats['centroid'] = centroids_original.flatten()

# Tampilkan hasil
print("\nStatistik Sepal Length per Cluster:")
print(cluster_stats)

Saving clus_dis.xlsx to clus_dis (1).xlsx

Statistik Sepal Length per Cluster:
         min  max  centroid
cluster                    
0        4.3  5.4  4.933333
1        7.2  7.9  7.550000
2        5.6  6.3  5.985714
3        6.5  7.1  6.833333


Interpretasi Output Statistik Klasterisasi Fitur Sepal Length

Hasil yang ditampilkan merupakan ringkasan statistik dari fitur Sepal Length setelah dilakukan proses pengelompokan menggunakan metode K-Means Clustering menjadi empat klaster (label: 0, 1, 2, 3). Setiap klaster berisi sekumpulan data dengan nilai panjang sepal yang memiliki kemiripan dan berada dalam rentang tertentu.

Untuk masing-masing klaster, ditampilkan tiga komponen statistik penting:

Minimum (min): Merupakan nilai terendah dari Sepal Length di dalam suatu klaster. Nilai ini berfungsi sebagai batas bawah dari rentang nilai dalam klaster tersebut.

Maksimum (max): Merupakan nilai tertinggi dari Sepal Length dalam klaster, dan digunakan sebagai batas atas interval nilai dalam klaster tersebut.

Centroid: Nilai rata-rata dari semua Sepal Length dalam satu klaster. Ini menunjukkan pusat atau representasi dari klaster, yang juga dikenal sebagai titik tengah (hasil dari cluster_centers_ pada KMeans).

Nilai min dan max dari setiap klaster dapat dimanfaatkan untuk membentuk interval diskrit, yaitu rentang-rentang nilai yang digunakan dalam proses diskretisasi fitur Sepal Length. Proses ini mengubah nilai kontinu menjadi bentuk kategori berdasarkan interval yang telah didefinisikan. Sementara itu, centroid bisa digunakan sebagai nilai representatif (label numerik) dari masing-masing kategori hasil diskretisasi.

Dengan demikian, fitur Sepal Length yang sebelumnya berupa angka kontinu bisa dikonversi menjadi fitur kategori yang lebih sederhana dan terstruktur, siap digunakan untuk proses data mining atau klasifikasi selanjutnya.


# **Transformasi Sepal Length Menjadi Data Kategorikal Melalui Proses Diskretisasi**

Tahapan ini merupakan lanjutan dari proses klasterisasi, yaitu melakukan diskretisasi terhadap fitur numerik Sepal Length berdasarkan hasil pengelompokan yang diperoleh dari algoritma K-Means. Tujuannya adalah mengubah fitur numerik menjadi bentuk kategori agar lebih sesuai untuk analisis tertentu, seperti klasifikasi atau pembuatan aturan dalam data mining.

Setelah proses klasterisasi dilakukan, setiap nilai Sepal Length dari dataset telah terasosiasi dengan satu klaster (contoh: klaster 0, 1, 2, atau 3). Berdasarkan nilai minimum dan maksimum dari setiap klaster, ditentukan rentang yang merepresentasikan masing-masing kelompok data. Setiap nilai panjang sepal kemudian dicocokkan ke dalam rentang tersebut untuk menentukan label kategori diskrit.

Sebagai contoh:

Jika nilai Sepal Length pada baris pertama adalah 5.1, dan nilai tersebut berada dalam rentang klaster 2, maka data tersebut akan diberi label diskrit berupa ‘C’ (dengan asumsi label klaster ditransformasikan menjadi huruf A, B, C, D, dst. secara berurutan).

Proses ini mengakibatkan fitur sepal_length yang awalnya merupakan data kontinu (angka desimal) diubah menjadi data kategorikal, yaitu label yang mewakili masing-masing klaster atau interval. Hal ini mempermudah pemrosesan lebih lanjut pada algoritma yang tidak mendukung data numerik kontinu, atau saat ingin menyederhanakan pemodelan dengan pendekatan berbasis kategori.

In [15]:
import pandas as pd
from sklearn.cluster import KMeans

# Baca file
df = pd.read_excel("data_iris.xlsx")

# Klasterisasi dengan KMeans pada kolom sepal length
kmeans = KMeans(n_clusters=4, random_state=42)
df['cluster'] = kmeans.fit_predict(df[['sepal length']])

# Pemetaan angka klaster ke huruf
cluster_to_label = {0: 'A', 1: 'B', 2: 'C', 3: 'D'}
df['sepal_length_original'] = df['sepal length']
df['sepal length'] = df['cluster'].map(cluster_to_label)

# Simpan ke Excel
df.to_excel("data_iris_terklaster_huruf.xlsx", index=False)

In [19]:
# Pemetaan cluster ke label huruf
cluster_to_label = {
    0: 'A',
    1: 'B',
    2: 'C',
    3: 'D'
}

# Salin kolom sepal length asli ke kolom baru (SALIN DULU SEBELUM DIUBAH)
df['sepal_length_original'] = df['sepal length']

# Gantikan nilai sepal length dengan huruf berdasarkan klaster
df['sepal length'] = df['cluster'].map(cluster_to_label)

# Tampilkan hasil
print(df[['cluster', 'sepal length', 'sepal_length_original']])

     cluster sepal length sepal_length_original
0          2            C                     C
1          2            C                     C
2          2            C                     C
3          2            C                     C
4          2            C                     C
5          1            B                     B
6          2            C                     C
7          2            C                     C
8          2            C                     C
9          2            C                     C
10         1            B                     B
11         2            C                     C
12         2            C                     C
13         2            C                     C
14         1            B                     B
15         1            B                     B
16         1            B                     B
17         2            C                     C
18         1            B                     B
19         2            C               

# **Transformasi Fitur Sepal Length: Dari Nilai Numerik ke Bentuk Kategorikal**

Pada tahapan ini, dilakukan proses konversi terhadap fitur Sepal Length yang semula berupa data numerik menjadi data kategorikal (diskrit). Tujuan dari proses ini adalah untuk menyederhanakan representasi data, sekaligus menyesuaikan format fitur dengan kebutuhan algoritma atau analisis tertentu yang lebih optimal dengan data bertipe kategori.

Langkah-langkah yang dilakukan meliputi:

Membaca Data Asli dan Label Kelas
Pertama-tama, data asli dari dataset Iris dan data kelas (label spesies) dibaca ulang. Kedua data ini kemudian digabungkan agar fitur Sepal Length dapat dianalisis secara bersamaan dengan label kelasnya.

Normalisasi Fitur Sepal Length
Sebelum dilakukan klasterisasi, nilai Sepal Length dinormalisasi menggunakan metode Min-Max Scaling, yang mengubah seluruh nilai ke dalam rentang antara 0 hingga 1. Langkah ini sangat penting karena algoritma K-Means Clustering bersifat sensitif terhadap perbedaan skala pada fitur, sehingga normalisasi memastikan bahwa hasil klasterisasi tidak bias terhadap nilai-nilai besar.

Klasterisasi Menggunakan K-Means
Dengan data yang telah dinormalisasi, algoritma K-Means dijalankan untuk membagi fitur Sepal Length ke dalam empat klaster berdasarkan pola kemiripan nilai. Setiap data kemudian diberi label klaster (misalnya 0, 1, 2, atau 3) yang disimpan dalam kolom baru bernama cluster.

Pemetaan Klaster ke Label Kategorikal
Label numerik hasil klasterisasi (misal: 0–3) selanjutnya diubah menjadi bentuk label kategori yang lebih mudah dipahami, misalnya:

Klaster 0 → 'A'

Klaster 1 → 'B'

Klaster 2 → 'C'

Klaster 3 → 'D'

Label tersebut menggantikan nilai asli pada fitur Sepal Length, sehingga fitur tersebut tidak lagi berisi angka desimal, melainkan simbol kategori yang mencerminkan interval nilai berdasarkan hasil klasterisasi.

Dengan selesainya proses ini, fitur Sepal Length kini telah bertransformasi dari bentuk numerik kontinu menjadi kategori diskrit, yang dapat digunakan dalam berbagai model klasifikasi atau pemrosesan data berbasis simbol.

In [20]:
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.preprocessing import MinMaxScaler

df_features = pd.read_excel("clus_dis.xlsx")
df_class = pd.read_excel("class.xlsx")

# Gabungkan dengan class
df = df_features.copy()
df['class'] = df_class['class']

# Clustering ulang fitur sepal_length
features = df[['sepal_length']]
scaler = MinMaxScaler()
scaled_features = scaler.fit_transform(features)

kmeans = KMeans(n_clusters=4, random_state=42, n_init=10)
kmeans.fit(scaled_features)
df['cluster'] = kmeans.labels_

# Map hasil cluster ke kategori
cluster_to_category = {
    0: 'A',
    2: 'B',
    3: 'C',
    1: 'D'
}
df['sepal_length'] = df['cluster'].map(cluster_to_category)

# Hapus kolom yang tidak perlu
df_result = df.drop(columns=[col for col in ['cluster', 'class', 'predicted_class'] if col in df.columns])

# Simpan
df_result.to_excel("data_iris_sepal_kategori.xlsx", index=False)

# Tampilkan sebagian hasil
pd.set_option('display.max_rows', None)
print(df_result)

In [None]:
      id  petal_length  petal_width sepal_length  sepal_width
0      1           1.4          0.2            B          3.5
1      2           1.4          0.2            B          3.0
2      3           1.3          0.2            B          3.2
3      4           1.5          0.2            B          3.1
4      5           1.4          0.2            B          3.6
5      6           1.7          0.4            A          3.9
6      7           1.4          0.3            B          3.4
7      8           1.5          0.2            B          3.4
8      9           1.4          0.2            B          2.9
9     10           1.5          0.1            B          3.1
10    11           1.5          0.2            A          3.7
11    12           1.6          0.2            B          3.4
12    13           1.4          0.1            B          3.0
13    14           1.1          0.1            B          3.0
14    15           1.2          0.2            A          4.0
15    16           1.5          0.4            A          4.4
16    17           1.3          0.4            A          3.9
17    18           1.4          0.3            B          3.5
18    19           1.7          0.3            A          3.8
19    20           1.5          0.3            B          3.8
20    21           1.7          0.2            A          3.4
21    22           1.5          0.4            B          3.7
22    23           1.0          0.2            B          3.6
23    24           1.7          0.5            B          3.3
24    25           1.9          0.2            B          3.4
25    26           1.6          0.2            B          3.0
26    27           1.6          0.4            B          3.4
27    28           1.5          0.2            B          3.5
28    29           1.4          0.2            B          3.4
29    30           1.6          0.2            B          3.2
30    31           1.6          0.2            B          3.1
31    32           1.5          0.4            A          3.4
32    33           1.5          0.1            B          4.1
33    34           1.4          0.2            A          4.2
34    35           1.5          0.1            B          3.1
35    36           1.2          0.2            B          3.2
36    37           1.3          0.2            A          3.5
37    38           1.5          0.1            B          3.1
38    39           1.3          0.2            B          3.0
39    40           1.5          0.2            B          3.4
40    41           1.3          0.3            B          3.5
41    42           1.3          0.3            B          2.3
42    43           1.3          0.2            B          3.2
43    44           1.6          0.6            B          3.5
44    45           1.9          0.4            B          3.8
45    46           1.4          0.3            B          3.0
46    47           1.6          0.2            B          3.8
47    48           1.4          0.2            B          3.2
48    49           1.5          0.2            B          3.7
49    50           1.4          0.2            B          3.3
50    51           4.7          1.4            C          3.2
51    52           4.5          1.5            C          3.2
52    53           4.9          1.5            C          3.1
53    54           4.0          1.3            A          2.3
54    55           4.6          1.5            C          2.8
55    56           4.5          1.3            A          2.8
56    57           4.7          1.6            C          3.3
57    58           3.3          1.0            B          2.4
58    59           4.6          1.3            C          2.9
59    60           3.9          1.4            B          2.7
60    61           3.5          1.0            B          2.0
61    62           4.2          1.5            A          3.0
62    63           4.0          1.0            A          2.2
63    64           4.7          1.4            A          2.9
64    65           3.6          1.3            A          2.9
65    66           4.4          1.4            C          3.1
66    67           4.5          1.5            A          3.0
67    68           4.1          1.0            A          2.7
68    69           4.5          1.5            C          2.2
69    70           3.9          1.1            A          2.5
70    71           4.8          1.8            A          3.2
71    72           4.0          1.3            A          2.8
72    73           4.9          1.5            C          2.5
73    74           4.7          1.2            A          2.8
74    75           4.3          1.3            C          2.9
75    76           4.4          1.4            C          3.0
76    77           4.8          1.4            C          2.8
77    78           5.0          1.7            C          3.0
78    79           4.5          1.5            A          2.9
79    80           3.5          1.0            A          2.6
80    81           3.8          1.1            A          2.4
81    82           3.7          1.0            A          2.4
82    83           3.9          1.2            A          2.7
83    84           5.1          1.6            A          2.7
84    85           4.5          1.5            A          3.0
85    86           4.5          1.6            A          3.4
86    87           4.7          1.5            C          3.1
87    88           4.4          1.3            C          2.3
88    89           4.1          1.3            A          3.0
89    90           4.0          1.3            A          2.5
90    91           4.4          1.2            A          2.6
91    92           4.6          1.4            A          3.0
92    93           4.0          1.2            A          2.6
93    94           3.3          1.0            B          2.3
94    95           4.2          1.3            A          2.7
95    96           4.2          1.2            A          3.0
96    97           4.2          1.3            A          2.9
97    98           4.3          1.3            C          2.9
98    99           3.0          1.1            B          2.5
99   100           4.1          1.3            A          2.8
100  101           6.0          2.5            C          3.3
101  102           5.1          1.9            A          2.7
102  103           5.9          2.1            D          3.0
103  104           5.6          1.8            C          2.9
104  105           5.8          2.2            C          3.0
105  106           6.6          2.1            D          3.0
106  107           4.5          1.7            B          2.5
107  108           6.3          1.8            D          2.9
108  109           5.8          1.8            C          2.5
109  110           6.1          2.5            D          3.6
110  111           5.1          2.0            C          3.2
111  112           5.3          1.9            C          2.7
112  113           5.5          2.1            C          3.0
113  114           5.0          2.0            A          2.5
114  115           5.1          2.4            A          2.8
115  116           5.3          2.3            C          3.2
116  117           5.5          1.8            C          3.0
117  118           6.7          2.2            D          3.8
118  119           6.9          2.3            D          2.6
119  120           5.0          1.5            A          2.2
120  121           5.7          2.3            C          3.2
121  122           4.9          2.0            A          2.8
122  123           6.7          2.0            D          2.8
123  124           4.9          1.8            C          2.7
124  125           5.7          2.1            C          3.3
125  126           6.0          1.8            D          3.2
126  127           4.8          1.8            C          2.8
127  128           4.9          1.8            A          3.0
128  129           5.6          2.1            C          2.8
129  130           5.8          1.6            D          3.0
130  131           6.1          1.9            D          2.8
131  132           6.4          2.0            D          3.8
132  133           5.6          2.2            C          2.8
133  134           5.1          1.5            C          2.8
134  135           5.6          1.4            A          2.6
135  136           6.1          2.3            D          3.0
136  137           5.6          2.4            C          3.4
137  138           5.5          1.8            C          3.1
138  139           4.8          1.8            A          3.0
139  140           5.4          2.1            C          3.1
140  141           5.6          2.4            C          3.1
141  142           5.1          2.3            C          3.1
142  143           5.1          1.9            A          2.7
143  144           5.9          2.3            C          3.2
144  145           5.7          2.5            C          3.3
145  146           5.2          2.3            C          3.0
146  147           5.0          1.9            C          2.5
147  148           5.2          2.0            C          3.0
148  149           5.4          2.3            C          3.4
149  150           5.1          1.8            A          3.0

# **Diskretisasi Fitur Sepal Width, Petal Length, dan Petal Width Menggunakan K-Means Clustering**

Setelah berhasil mengonversi fitur Sepal Length ke bentuk kategorikal melalui proses klasterisasi, tahapan selanjutnya adalah menerapkan pendekatan serupa pada fitur numerik lainnya, yaitu:

Sepal Width,

Petal Length, dan

Petal Width.

Masing-masing fitur akan diproses secara terpisah menggunakan metode K-Means Clustering, dengan tujuan yang sama: mengubah data numerik kontinu menjadi kategori diskrit berdasarkan pola distribusi nilainya.

Langkah-Langkah Proses:
Pembacaan Data
Data yang digunakan dalam proses ini adalah:

Dataset Iris asli yang berisi fitur numerik lengkap.

Versi data sebelumnya yang telah memuat kolom sepal_length dalam bentuk kategorikal.

Kedua sumber ini digabungkan agar proses lanjutan tetap mempertahankan struktur dan label yang sudah dihasilkan sebelumnya.

Pembuatan Fungsi cluster_kategori_stat()
Untuk menghindari duplikasi proses, dibuat sebuah fungsi bantu bernama cluster_kategori_stat(). Fungsi ini memiliki peran sebagai berikut:

Melakukan normalisasi data menggunakan Min-Max Scaler, agar seluruh nilai berada dalam rentang 0 hingga 1.

Menjalankan proses K-Means Clustering sesuai jumlah klaster yang ditentukan untuk fitur tertentu.

Memberikan label kategori berbentuk huruf (seperti 'A', 'B', dst.) berdasarkan label klaster hasil clustering.

Menghasilkan statistik min, max, dan centroid dari setiap klaster yang terbentuk.

Penerapan Diskretisasi
Dengan fungsi tersebut, dilakukan diskretisasi pada masing-masing fitur berikut:

Sepal Width
Dikelompokkan menjadi 3 klaster, yang dikonversi ke dalam label kategori: 'A', 'B', dan 'C'.

Petal Length
Dibagi ke dalam 4 klaster, dan diberi label kategori: 'A', 'B', 'C', dan 'D'.

Petal Width
Dikelompokkan ke dalam 3 klaster, dengan label: 'A', 'B', dan 'C'.

Hasil Akhir
Dengan pendekatan ini, seluruh fitur numerik dalam dataset Iris telah berhasil didiskretisasi ke dalam bentuk kategori. Setiap nilai asli kini direpresentasikan oleh label huruf yang menunjukkan interval nilai berdasarkan hasil klasterisasi. Transformasi ini tidak hanya menyederhanakan data, tetapi juga memungkinkan penggunaan algoritma klasifikasi atau data mining lain yang bekerja lebih baik dengan data kategorikal.

In [None]:
import pandas as pd
from sklearn.preprocessing import KBinsDiscretizer
import numpy as np # Untuk np.nan jika perlu

# --- 1. Baca data awal ---
# Menggunakan nama file yang telah Anda sediakan
try:
    df_numerik = pd.read_excel("data_iris_sepal_kategori.xlsx")
    # Untuk df_kategori, kita akan memulainya dari df_numerik dan menambahkan kolom kategori.
    # Asumsi: sepal_length sudah ada di df_numerik.
    df_kategori = df_numerik[['id', 'sepal_length']].copy()
except FileNotFoundError as e:
    print(f"Error loading file: {e}. Pastikan file berada di direktori yang sama.")
    exit()

# --- 2. Fungsi bantu diskritisasi + mapping + statistik ---
def discretize_kbins_stat(data_col, n_bins, label_map, strategy='kmeans'):
    """
    Melakukan diskritisasi menggunakan KBinsDiscretizer dan menghitung statistik.

    Args:
        data_col (pd.Series): Kolom data numerik yang akan didiskritisasi.
        n_bins (int): Jumlah bin/kategori yang diinginkan.
        label_map (dict): Kamus untuk memetakan label numerik (0, 1, ...) ke label kategori (A, B, ...).
        strategy (str): Strategi diskritisasi ('uniform', 'quantile', 'kmeans'). Default 'kmeans'.

    Returns:
        tuple: (pd.Series kategori, pd.DataFrame statistik)
    """
    # Inisialisasi KBinsDiscretizer
    # encode='ordinal' berarti outputnya adalah integer (0, 1, ...)
    # strategy='kmeans' akan mencoba membuat bin berdasarkan klaster KMeans
    discretizer = KBinsDiscretizer(n_bins=n_bins, encode='ordinal', strategy=strategy)

    # Melakukan fitting dan transformasi
    # Reshape data_col agar sesuai dengan input yang diharapkan oleh scikit-learn (2D array)
    labels_numeric = discretizer.fit_transform(data_col.values.reshape(-1, 1)).flatten().astype(int)

    # Membuat seri kategori huruf
    kategori_series = pd.Series(labels_numeric).map(label_map)

    # Menghitung statistik min, max, centroid per cluster/bin
    df_temp = pd.DataFrame({
        'nilai_asli': data_col,
        'cluster_id': labels_numeric # Menggunakan ID cluster/bin numerik
    })

    # Hitung statistik
    stat = df_temp.groupby('cluster_id')['nilai_asli'].agg(['min', 'max', 'mean'])
    stat = stat.rename(columns={'mean': 'centroid'}) # Mengganti nama 'mean' menjadi 'centroid'

    # Tambahkan kolom kategori ke statistik
    stat['kategori'] = stat.index.map(label_map)
    stat = stat.set_index('kategori')

    return kategori_series, stat

# --- 3. Sepal Width (3 kategori) ---
map_sepal_width = {0: 'A', 1: 'B', 2: 'C'}
# Menggunakan 'kmeans' strategy untuk mendekati perilaku asli
df_kategori['sepal width'], stat_sepal_width = discretize_kbins_stat(
    df_numerik['sepal width'], 3, map_sepal_width, strategy='kmeans'
)

# --- 4. Petal Length (4 kategori) ---
map_petal_length = {0: 'A', 1: 'B', 2: 'C', 3: 'D'}
df_kategori['petal_length'], stat_petal_length = discretize_kbins_stat(
    df_numerik['petal_length'], 4, map_petal_length, strategy='kmeans'
)

# --- 5. Petal Width (3 kategori) ---
map_petal_width = {0: 'A', 1: 'B', 2: 'C'}
df_kategori['petal_width'], stat_petal_width = discretize_kbins_stat(
    df_numerik['petal_width'], 3, map_petal_width, strategy='kmeans'
)

df_kategori.to_excel("data_iris_kategori_lengkap.xlsx", index=False)
print("Hasil kategori disimpan ke 'data_iris_kategori_lengkap.xlsx'")


# --- 7. Gabungkan semua statistik dan tampilkan ---
print("\n=== Statistik Sepal Width (3 kategori) ===")
print(stat_sepal_width[['min', 'max', 'centroid']])

print("\n=== Statistik Petal Length (4 kategori) ===")
print(stat_petal_length[['min', 'max', 'centroid']])

print("\n=== Statistik Petal Width (3 kategori) ===")
print(stat_petal_width[['min', 'max', 'centroid']])

In [None]:
Hasil kategori disimpan ke 'data_iris_kategori_lengkap.xlsx'

=== Statistik Sepal Width (3 kategori) ===
          min  max  centroid
kategori
A         2.0  2.8  2.585106
B         2.9  3.4  3.118987
C         3.5  4.4  3.758333

=== Statistik Petal Length (4 kategori) ===

In [None]:
          min  max  centroid
kategori
A         1.0  1.9  1.464000
B         3.0  4.3  3.884000
C         4.4  5.3  4.808889
D         5.4  6.9  5.903333

=== Statistik Petal Width (3 kategori) ===
          min  max  centroid
kategori
A         0.1  0.6  0.244000
B         1.0  1.7  1.337037
C         1.8  2.5  2.073913

# **Menampilkan semua data hasil diskritisasi setiap fitur import pandas as pd**

In [1]:
import pandas as pd

# Baca file Excel yang sudah berisi kategori
df_kategori = pd.read_excel("data_iris_kategori_lengkap.xlsx")

# Tampilkan semua baris
pd.set_option('display.max_rows', None)
print(df_kategori)

In [None]:
      id sepal_length sepal_width petal_length petal_width
0      1            B           C            A           A
1      2            B           B            A           A
2      3            B           B            A           A
3      4            B           B            A           A
4      5            B           C            A           A
5      6            A           C            A           A
6      7            B           B            A           A
7      8            B           B            A           A
8      9            B           B            A           A
9     10            B           B            A           A
10    11            A           C            A           A
11    12            B           B            A           A
12    13            B           B            A           A
13    14            B           B            A           A
14    15            A           C            A           A
15    16            A           C            A           A
16    17            A           C            A           A
17    18            B           C            A           A
18    19            A           C            A           A
19    20            B           C            A           A
20    21            A           B            A           A
21    22            B           C            A           A
22    23            B           C            A           A
23    24            B           B            A           A
24    25            B           B            A           A
25    26            B           B            A           A
26    27            B           B            A           A
27    28            B           C            A           A
28    29            B           B            A           A
29    30            B           B            A           A
30    31            B           B            A           A
31    32            A           B            A           A
32    33            B           C            A           A
33    34            A           C            A           A
34    35            B           B            A           A
35    36            B           B            A           A
36    37            A           C            A           A
37    38            B           B            A           A
38    39            B           B            A           A
39    40            B           B            A           A
40    41            B           C            A           A
41    42            B           A            A           A
42    43            B           B            A           A
43    44            B           C            A           A
44    45            B           C            A           A
45    46            B           B            A           A
46    47            B           C            A           A
47    48            B           B            A           A
48    49            B           C            A           A
49    50            B           B            A           A
50    51            C           B            C           B
51    52            C           B            C           B
52    53            C           B            C           B
53    54            A           A            B           B
54    55            C           A            C           B
55    56            A           A            C           B
56    57            C           B            C           B
57    58            B           A            B           B
58    59            C           B            C           B
59    60            B           A            B           B
60    61            B           A            B           B
61    62            A           B            B           B
62    63            A           A            B           B
63    64            A           B            C           B
64    65            A           B            B           B
65    66            C           B            C           B
66    67            A           B            C           B
67    68            A           A            B           B
68    69            C           A            C           B
69    70            A           A            B           B
70    71            A           B            C           C
71    72            A           A            B           B
72    73            C           A            C           B
73    74            A           A            C           B
74    75            C           B            B           B
75    76            C           B            C           B
76    77            C           A            C           B
77    78            C           B            C           B
78    79            A           B            C           B
79    80            A           A            B           B
80    81            A           A            B           B
81    82            A           A            B           B
82    83            A           A            B           B
83    84            A           A            C           B
84    85            A           B            C           B
85    86            A           B            C           B
86    87            C           B            C           B
87    88            C           A            C           B
88    89            A           B            B           B
89    90            A           A            B           B
90    91            A           A            C           B
91    92            A           B            C           B
92    93            A           A            B           B
93    94            B           A            B           B
94    95            A           A            B           B
95    96            A           B            B           B
96    97            A           B            B           B
97    98            C           B            B           B
98    99            B           A            B           B
99   100            A           A            B           B
100  101            C           B            D           C
101  102            A           A            C           C
102  103            D           B            D           C
103  104            C           B            D           C
104  105            C           B            D           C
105  106            D           B            D           C
106  107            B           A            C           B
107  108            D           B            D           C
108  109            C           A            D           C
109  110            D           C            D           C
110  111            C           B            C           C
111  112            C           A            C           C
112  113            C           B            D           C
113  114            A           A            C           C
114  115            A           A            C           C
115  116            C           B            C           C
116  117            C           B            D           C
117  118            D           C            D           C
118  119            D           A            D           C
119  120            A           A            C           B
120  121            C           B            D           C
121  122            A           A            C           C
122  123            D           A            D           C
123  124            C           A            C           C
124  125            C           B            D           C
125  126            D           B            D           C
126  127            C           A            C           C
127  128            A           B            C           C
128  129            C           A            D           C
129  130            D           B            D           B
130  131            D           A            D           C
131  132            D           C            D           C
132  133            C           A            D           C
133  134            C           A            C           B
134  135            A           A            D           B
135  136            D           B            D           C
136  137            C           B            D           C
137  138            C           B            D           C
138  139            A           B            C           C
139  140            C           B            D           C
140  141            C           B            D           C
141  142            C           B            C           C
142  143            A           A            C           C
143  144            C           B            D           C
144  145            C           B            D           C
145  146            C           B            C           C
146  147            C           A            C           C
147  148            C           B            C           C
148  149            C           B            D           C
149  150            A           B            C           C

# **Klasifikasi Naive Bayes Data Diskrit**

Kode ini merupakan implementasi algoritma **Naive Bayes (CategoricalNB)** untuk melakukan klasifikasi pada data **Iris yang telah didiskritisasi** (berupa kategori seperti A, B, C, dst.). Dataset yang digunakan terdiri dari dua file: `data_iris_kategori_lengkap.xlsx` yang berisi fitur-fitur dalam bentuk kategori, dan `class.xlsx` yang berisi label kelas asli untuk setiap baris data berdasarkan kolom `id`.

Langkah pertama adalah **menggabungkan** kedua dataset tersebut berdasarkan kolom `id` agar fitur dan label berada dalam satu DataFrame. Setelah itu, setiap fitur kategorikal seperti `petal_length`, `petal_width`, `sepal_length`, dan `sepal_width` diubah menjadi representasi numerik menggunakan `LabelEncoder`, karena model CategoricalNB hanya dapat bekerja dengan data numerik yang merepresentasikan kategori.

Selanjutnya, label kelas (`class`) juga di-encode ke dalam bentuk numerik agar dapat digunakan sebagai target (y) dalam pelatihan model. Model **CategoricalNB** kemudian dilatih menggunakan data yang telah di-encode dan digunakan untuk memprediksi kelas dari data tersebut.

Setelah proses prediksi selesai, hasilnya dikembalikan lagi ke bentuk label asli (dengan `inverse_transform`) dan disimpan ke file Excel `naive_bayes.xlsx`, yang berisi kolom `id`, `kelas_asli`, dan `kelas_prediksi`. Evaluasi model dilakukan dengan menghitung **akurasi** dan menampilkan **laporan klasifikasi** (precision, recall, dan f1-score untuk setiap kelas), sehingga pengguna bisa menilai seberapa baik model mengenali pola dari data diskritisasi tersebut.

Secara keseluruhan, kode ini menunjukkan penerapan Naive Bayes pada data kategorikal, di mana transformasi label sangat penting agar data siap digunakan oleh model klasifikasi.


In [2]:
from sklearn.preprocessing import LabelEncoder
from sklearn.naive_bayes import CategoricalNB
from sklearn.metrics import classification_report, accuracy_score
import pandas as pd

# Load both files
data_iris = pd.read_excel("data_iris_kategori_lengkap.xlsx")
class_asli = pd.read_excel("class.xlsx")

# Gabungkan data kategorikal dengan kelas asli berdasarkan 'id'
data_gabungan = pd.merge(data_iris, class_asli[['id', 'class']], on='id')

# Encode fitur kategorikal (A, B, dst.) ke numerik
fitur_kategori = ['petal_length', 'petal_width', 'sepal_length', 'sepal_width']
for kolom in fitur_kategori:
    encoder = LabelEncoder()
    data_gabungan[kolom] = encoder.fit_transform(data_gabungan[kolom])

# Encode label kelas
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(data_gabungan['class'])
X = data_gabungan[fitur_kategori]

# Model Naive Bayes
model = CategoricalNB()
model.fit(X, y)
y_pred = model.predict(X)

# Buat DataFrame hasil prediksi vs kelas asli
hasil_prediksi = data_gabungan[['id']].copy()
hasil_prediksi['kelas_asli'] = label_encoder.inverse_transform(y)
hasil_prediksi['kelas_prediksi'] = label_encoder.inverse_transform(y_pred)

# Simpan ke Excel
output_path = "naive_bayes.xlsx"
hasil_prediksi.to_excel(output_path, index=False)

# Evaluasi hasil prediksi
akurasi = accuracy_score(y, y_pred)
laporan_klasifikasi = classification_report(y, y_pred, target_names=label_encoder.classes_)

# Tampilkan hasil
print("\n=== Hasil Prediksi Kelas ===")
print(hasil_prediksi)

print("\n=== Akurasi ===")
print(f"Akurasi: {akurasi:.2f}")

print("\n=== Laporan Klasifikasi ===")
print(laporan_klasifikasi)

In [None]:
=== Hasil Prediksi Kelas ===
      id       kelas_asli   kelas_prediksi
0      1      Iris-setosa      Iris-setosa
1      2      Iris-setosa      Iris-setosa
2      3      Iris-setosa      Iris-setosa
3      4      Iris-setosa      Iris-setosa
4      5      Iris-setosa      Iris-setosa
5      6      Iris-setosa      Iris-setosa
6      7      Iris-setosa      Iris-setosa
7      8      Iris-setosa      Iris-setosa
8      9      Iris-setosa      Iris-setosa
9     10      Iris-setosa      Iris-setosa
10    11      Iris-setosa      Iris-setosa
11    12      Iris-setosa      Iris-setosa
12    13      Iris-setosa      Iris-setosa
13    14      Iris-setosa      Iris-setosa
14    15      Iris-setosa      Iris-setosa
15    16      Iris-setosa      Iris-setosa
16    17      Iris-setosa      Iris-setosa
17    18      Iris-setosa      Iris-setosa
18    19      Iris-setosa      Iris-setosa
19    20      Iris-setosa      Iris-setosa
20    21      Iris-setosa      Iris-setosa
21    22      Iris-setosa      Iris-setosa
22    23      Iris-setosa      Iris-setosa
23    24      Iris-setosa      Iris-setosa
24    25      Iris-setosa      Iris-setosa
25    26      Iris-setosa      Iris-setosa
26    27      Iris-setosa      Iris-setosa
27    28      Iris-setosa      Iris-setosa
28    29      Iris-setosa      Iris-setosa
29    30      Iris-setosa      Iris-setosa
30    31      Iris-setosa      Iris-setosa
31    32      Iris-setosa      Iris-setosa
32    33      Iris-setosa      Iris-setosa
33    34      Iris-setosa      Iris-setosa
34    35      Iris-setosa      Iris-setosa
35    36      Iris-setosa      Iris-setosa
36    37      Iris-setosa      Iris-setosa
37    38      Iris-setosa      Iris-setosa
38    39      Iris-setosa      Iris-setosa
39    40      Iris-setosa      Iris-setosa
40    41      Iris-setosa      Iris-setosa
41    42      Iris-setosa      Iris-setosa
42    43      Iris-setosa      Iris-setosa
43    44      Iris-setosa      Iris-setosa
44    45      Iris-setosa      Iris-setosa
45    46      Iris-setosa      Iris-setosa
46    47      Iris-setosa      Iris-setosa
47    48      Iris-setosa      Iris-setosa
48    49      Iris-setosa      Iris-setosa
49    50      Iris-setosa      Iris-setosa
50    51  Iris-versicolor  Iris-versicolor
51    52  Iris-versicolor  Iris-versicolor
52    53  Iris-versicolor  Iris-versicolor
53    54  Iris-versicolor  Iris-versicolor
54    55  Iris-versicolor  Iris-versicolor
55    56  Iris-versicolor  Iris-versicolor
56    57  Iris-versicolor  Iris-versicolor
57    58  Iris-versicolor  Iris-versicolor
58    59  Iris-versicolor  Iris-versicolor
59    60  Iris-versicolor  Iris-versicolor
60    61  Iris-versicolor  Iris-versicolor
61    62  Iris-versicolor  Iris-versicolor
62    63  Iris-versicolor  Iris-versicolor
63    64  Iris-versicolor  Iris-versicolor
64    65  Iris-versicolor  Iris-versicolor
65    66  Iris-versicolor  Iris-versicolor
66    67  Iris-versicolor  Iris-versicolor
67    68  Iris-versicolor  Iris-versicolor
68    69  Iris-versicolor  Iris-versicolor
69    70  Iris-versicolor  Iris-versicolor
70    71  Iris-versicolor   Iris-virginica
71    72  Iris-versicolor  Iris-versicolor
72    73  Iris-versicolor  Iris-versicolor
73    74  Iris-versicolor  Iris-versicolor
74    75  Iris-versicolor  Iris-versicolor
75    76  Iris-versicolor  Iris-versicolor
76    77  Iris-versicolor  Iris-versicolor
77    78  Iris-versicolor  Iris-versicolor
78    79  Iris-versicolor  Iris-versicolor
79    80  Iris-versicolor  Iris-versicolor
80    81  Iris-versicolor  Iris-versicolor
81    82  Iris-versicolor  Iris-versicolor
82    83  Iris-versicolor  Iris-versicolor
83    84  Iris-versicolor  Iris-versicolor
84    85  Iris-versicolor  Iris-versicolor
85    86  Iris-versicolor  Iris-versicolor
86    87  Iris-versicolor  Iris-versicolor
87    88  Iris-versicolor  Iris-versicolor
88    89  Iris-versicolor  Iris-versicolor
89    90  Iris-versicolor  Iris-versicolor
90    91  Iris-versicolor  Iris-versicolor
91    92  Iris-versicolor  Iris-versicolor
92    93  Iris-versicolor  Iris-versicolor
93    94  Iris-versicolor  Iris-versicolor
94    95  Iris-versicolor  Iris-versicolor
95    96  Iris-versicolor  Iris-versicolor
96    97  Iris-versicolor  Iris-versicolor
97    98  Iris-versicolor  Iris-versicolor
98    99  Iris-versicolor  Iris-versicolor
99   100  Iris-versicolor  Iris-versicolor
100  101   Iris-virginica   Iris-virginica
101  102   Iris-virginica   Iris-virginica
102  103   Iris-virginica   Iris-virginica
103  104   Iris-virginica   Iris-virginica
104  105   Iris-virginica   Iris-virginica
105  106   Iris-virginica   Iris-virginica
106  107   Iris-virginica  Iris-versicolor
107  108   Iris-virginica   Iris-virginica
108  109   Iris-virginica   Iris-virginica
109  110   Iris-virginica   Iris-virginica
110  111   Iris-virginica   Iris-virginica
111  112   Iris-virginica   Iris-virginica
112  113   Iris-virginica   Iris-virginica
113  114   Iris-virginica   Iris-virginica
114  115   Iris-virginica   Iris-virginica
115  116   Iris-virginica   Iris-virginica
116  117   Iris-virginica   Iris-virginica
117  118   Iris-virginica   Iris-virginica
118  119   Iris-virginica   Iris-virginica
119  120   Iris-virginica  Iris-versicolor
120  121   Iris-virginica   Iris-virginica
121  122   Iris-virginica   Iris-virginica
122  123   Iris-virginica   Iris-virginica
123  124   Iris-virginica   Iris-virginica
124  125   Iris-virginica   Iris-virginica
125  126   Iris-virginica   Iris-virginica
126  127   Iris-virginica   Iris-virginica
127  128   Iris-virginica   Iris-virginica
128  129   Iris-virginica   Iris-virginica
129  130   Iris-virginica   Iris-virginica
130  131   Iris-virginica   Iris-virginica
131  132   Iris-virginica   Iris-virginica
132  133   Iris-virginica   Iris-virginica
133  134   Iris-virginica  Iris-versicolor
134  135   Iris-virginica  Iris-versicolor
135  136   Iris-virginica   Iris-virginica
136  137   Iris-virginica   Iris-virginica
137  138   Iris-virginica   Iris-virginica
138  139   Iris-virginica   Iris-virginica
139  140   Iris-virginica   Iris-virginica
140  141   Iris-virginica   Iris-virginica
141  142   Iris-virginica   Iris-virginica
142  143   Iris-virginica   Iris-virginica
143  144   Iris-virginica   Iris-virginica
144  145   Iris-virginica   Iris-virginica
145  146   Iris-virginica   Iris-virginica
146  147   Iris-virginica   Iris-virginica
147  148   Iris-virginica   Iris-virginica
148  149   Iris-virginica   Iris-virginica
149  150   Iris-virginica   Iris-virginica

=== Akurasi ===
Akurasi: 0.97

=== Laporan Klasifikasi ===
                 precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00        50
Iris-versicolor       0.92      0.98      0.95        50
 Iris-virginica       0.98      0.92      0.95        50

       accuracy                           0.97       150
      macro avg       0.97      0.97      0.97       150
   weighted avg       0.97      0.97      0.97       150

# **Klasifikasi Naive Bayes Data Tanpa Diskritisasi**

Kode ini merupakan implementasi dari algoritma **Naive Bayes (GaussianNB)** untuk melakukan klasifikasi pada data **Iris**. Langkah pertama adalah memuat dua dataset yang diperlukan, yaitu `data_iris.xlsx` yang berisi fitur numerik seperti panjang dan lebar kelopak/sepal, serta `class.xlsx` yang berisi label atau kelas asli dari setiap data.

Setelah data dimuat, kolom `'id'` dihapus dari data fitur karena tidak relevan dalam proses pelatihan model. Selanjutnya, model **Gaussian Naive Bayes** diinisialisasi dan dilatih menggunakan fitur dari dataset iris (`X`) dan label aktual (`y_true`) dari file kelas. GaussianNB dipilih karena sesuai untuk data numerik dan mengasumsikan bahwa fitur mengikuti distribusi Gaussian (normal).

Setelah pelatihan, model digunakan untuk memprediksi kelas berdasarkan fitur yang sama, dan hasil prediksi dibandingkan dengan label asli. Evaluasi model dilakukan dengan menghitung **akurasi**, **matriks konfusi**, dan **laporan klasifikasi** untuk melihat sejauh mana model dapat mengklasifikasikan data dengan benar. Hasil evaluasi ditampilkan di layar, dan juga disimpan dalam file `naive_bayes_classification_results.xlsx` dalam bentuk tabel berisi perbandingan antara kelas asli dan hasil prediksi. Kode ini menunjukkan penggunaan sederhana namun efektif dari Naive Bayes dalam klasifikasi data numerik seperti dataset Iris.


In [None]:
import pandas as pd
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Memuat dataset
try:
    df_iris = pd.read_excel('data_iris.xlsx')
    df_class = pd.read_excel('class.xlsx')
except FileNotFoundError as e:
    print(f"Error loading file: {e}. Pastikan file berada di direktori yang sama.")
    exit()

# Menyiapkan data
# Fitur (X) diambil dari df_iris, mengecualikan kolom 'id'
X = df_iris.drop('id', axis=1)

# Label sebenarnya (y_true) diambil dari kolom 'class' di df_class
y_true = df_class['class']

# Memastikan jumlah baris di X dan y_true cocok
if X.shape[0] != y_true.shape[0]:
    print("Error: Jumlah baris pada fitur dan variabel target sebenarnya tidak cocok.")
    exit()

# Menginisialisasi model Gaussian Naive Bayes
model = GaussianNB()

# Melatih model menggunakan fitur dari df_iris dan label sebenarnya dari df_class
model.fit(X, y_true)

# Membuat prediksi pada fitur yang sama
y_pred = model.predict(X)

# Membandingkan prediksi dengan kelas aktual (y_true)
comparison_df = pd.DataFrame({'True Class': y_true, 'Predicted Class': y_pred})
print("\nPerbandingan Kelas Aktual dan Kelas Prediksi:")
print(comparison_df.head())

# Mengevaluasi model
accuracy = accuracy_score(y_true, y_pred)
conf_matrix = confusion_matrix(y_true, y_pred)
class_report = classification_report(y_true, y_pred)

print(f"\nAkurasi: {accuracy:.4f}")
print("\nMatriks Konfusi:")
print(conf_matrix)
print("\nLaporan Klasifikasi:")
print(class_report)

comparison_df.to_excel('naive_bayes_classification_results.xlsx', index=False)

In [None]:
Perbandingan Kelas Aktual dan Kelas Prediksi:
    True Class Predicted Class
0  Iris-setosa     Iris-setosa
1  Iris-setosa     Iris-setosa
2  Iris-setosa     Iris-setosa
3  Iris-setosa     Iris-setosa
4  Iris-setosa     Iris-setosa

Akurasi: 0.9600

Matriks Konfusi:
[[50  0  0]
 [ 0 47  3]
 [ 0  3 47]]

Laporan Klasifikasi:
                 precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00        50
Iris-versicolor       0.94      0.94      0.94        50
 Iris-virginica       0.94      0.94      0.94        50

       accuracy                           0.96       150
      macro avg       0.96      0.96      0.96       150
   weighted avg       0.96      0.96      0.96       150

# **Klasifikasi Decision Tree Data Diskrit**

Kode ini merupakan implementasi algoritma **Decision Tree** untuk klasifikasi data **Iris yang telah didiskritisasi**, yaitu data yang fitur-fiturnya telah diubah dari nilai numerik menjadi kategori. Dataset yang digunakan adalah `data_iris_kategori_lengkap.xlsx`, sedangkan label kelas aktual diambil dari file `class.xlsx`. Langkah pertama dalam proses ini adalah memuat kedua file tersebut dan mengekstrak fitur kategorikal seperti `sepal_length`, `sepal_width`, `petal_length`, dan `petal_width`.

Karena data bersifat kategorikal, diperlukan proses **One-Hot Encoding** menggunakan `OneHotEncoder` dari Scikit-Learn untuk mengubah nilai kategori menjadi representasi numerik biner. Hasil encoding ini kemudian dikonversi ke dalam DataFrame baru agar dapat digunakan oleh model Decision Tree. Setelah itu, model dilatih menggunakan data yang sudah di-encode, dan prediksi dilakukan terhadap seluruh data.

Proses evaluasi dilakukan dengan menghitung **akurasi**, **matriks konfusi**, dan **laporan klasifikasi** untuk menilai kinerja model. Hasil evaluasi ditampilkan di terminal dan juga disimpan ke dalam file Excel `decision_tree_discretized_classification_results.xlsx`, yang berisi perbandingan antara kelas aktual dan hasil prediksi. Kode ini menunjukkan bagaimana menangani data kategorikal dalam machine learning dengan preprocessing yang sesuai, serta bagaimana Decision Tree mampu menangani fitur hasil diskritisasi secara langsung.

In [None]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split # Meskipun tidak digunakan untuk split di sini, ini adalah praktik baik
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.preprocessing import OneHotEncoder

# --- 1. Memuat data yang sudah didiskritisasi ---
try:
    df_discretized = pd.read_excel('data_iris_kategori_lengkap.xlsx')
    df_true_class = pd.read_excel('class.xlsx')
except FileNotFoundError as e:
    print(f"Error loading file: {e}. Pastikan file berada di direktori yang sama.")
    exit()

# --- 2. Menyiapkan data ---
categorical_features = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
X_categorical = df_discretized[categorical_features]

# Variabel target (y) dari file kelas aktual
y = df_true_class['class']

encoder = OneHotEncoder(handle_unknown='ignore', sparse_output=False)
X_encoded = encoder.fit_transform(X_categorical)

feature_names = encoder.get_feature_names_out(categorical_features)
X_df_encoded = pd.DataFrame(X_encoded, columns=feature_names)

if X_df_encoded.shape[0] != y.shape[0]:
    print("Error: Jumlah baris pada fitur yang di-encode dan variabel target tidak cocok.")
    exit()

# --- 3. Melatih pengklasifikasi Decision Tree ---
# random_state digunakan untuk reproduksibilitas hasil
model = DecisionTreeClassifier(random_state=42)

# Melatih model
model.fit(X_df_encoded, y)

# --- 4. Membuat prediksi ---
y_pred = model.predict(X_df_encoded)

# --- 5. Mengevaluasi model ---
accuracy = accuracy_score(y, y_pred)
conf_matrix = confusion_matrix(y, y_pred)
class_report = classification_report(y, y_pred)

print(f"\nAkurasi Model Decision Tree (Data Diskritisasi): {accuracy:.4f}")
print("\nMatriks Konfusi:")
print(conf_matrix)
print("\nLaporan Klasifikasi:")
print(class_report)

# Secara opsional, simpan perbandingan kelas aktual dan prediksi ke file CSV
comparison_df_dt = pd.DataFrame({'True Class': y, 'Predicted Class': y_pred})
comparison_df_dt.to_excel('decision_tree_discretized_classification_results.xlsx', index=False)

In [None]:
Akurasi Model Decision Tree (Data Diskritisasi): 0.9800

Matriks Konfusi:
[[50  0  0]
 [ 0 49  1]
 [ 0  2 48]]

Laporan Klasifikasi:
                 precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00        50
Iris-versicolor       0.96      0.98      0.97        50
 Iris-virginica       0.98      0.96      0.97        50

       accuracy                           0.98       150
      macro avg       0.98      0.98      0.98       150
   weighted avg       0.98      0.98      0.98       150

In [None]:
import pandas as pd
df= pd.read_excel('decision_tree_discretized_classification_results.xlsx')
# Tampilkan semua baris
pd.set_option('display.max_rows', None)
print(df)

In [None]:
          True Class  Predicted Class
0        Iris-setosa      Iris-setosa
1        Iris-setosa      Iris-setosa
2        Iris-setosa      Iris-setosa
3        Iris-setosa      Iris-setosa
4        Iris-setosa      Iris-setosa
5        Iris-setosa      Iris-setosa
6        Iris-setosa      Iris-setosa
7        Iris-setosa      Iris-setosa
8        Iris-setosa      Iris-setosa
9        Iris-setosa      Iris-setosa
10       Iris-setosa      Iris-setosa
11       Iris-setosa      Iris-setosa
12       Iris-setosa      Iris-setosa
13       Iris-setosa      Iris-setosa
14       Iris-setosa      Iris-setosa
15       Iris-setosa      Iris-setosa
16       Iris-setosa      Iris-setosa
17       Iris-setosa      Iris-setosa
18       Iris-setosa      Iris-setosa
19       Iris-setosa      Iris-setosa
20       Iris-setosa      Iris-setosa
21       Iris-setosa      Iris-setosa
22       Iris-setosa      Iris-setosa
23       Iris-setosa      Iris-setosa
24       Iris-setosa      Iris-setosa
25       Iris-setosa      Iris-setosa
26       Iris-setosa      Iris-setosa
27       Iris-setosa      Iris-setosa
28       Iris-setosa      Iris-setosa
29       Iris-setosa      Iris-setosa
30       Iris-setosa      Iris-setosa
31       Iris-setosa      Iris-setosa
32       Iris-setosa      Iris-setosa
33       Iris-setosa      Iris-setosa
34       Iris-setosa      Iris-setosa
35       Iris-setosa      Iris-setosa
36       Iris-setosa      Iris-setosa
37       Iris-setosa      Iris-setosa
38       Iris-setosa      Iris-setosa
39       Iris-setosa      Iris-setosa
40       Iris-setosa      Iris-setosa
41       Iris-setosa      Iris-setosa
42       Iris-setosa      Iris-setosa
43       Iris-setosa      Iris-setosa
44       Iris-setosa      Iris-setosa
45       Iris-setosa      Iris-setosa
46       Iris-setosa      Iris-setosa
47       Iris-setosa      Iris-setosa
48       Iris-setosa      Iris-setosa
49       Iris-setosa      Iris-setosa
50   Iris-versicolor  Iris-versicolor
51   Iris-versicolor  Iris-versicolor
52   Iris-versicolor  Iris-versicolor
53   Iris-versicolor  Iris-versicolor
54   Iris-versicolor  Iris-versicolor
55   Iris-versicolor  Iris-versicolor
56   Iris-versicolor  Iris-versicolor
57   Iris-versicolor  Iris-versicolor
58   Iris-versicolor  Iris-versicolor
59   Iris-versicolor  Iris-versicolor
60   Iris-versicolor  Iris-versicolor
61   Iris-versicolor  Iris-versicolor
62   Iris-versicolor  Iris-versicolor
63   Iris-versicolor  Iris-versicolor
64   Iris-versicolor  Iris-versicolor
65   Iris-versicolor  Iris-versicolor
66   Iris-versicolor  Iris-versicolor
67   Iris-versicolor  Iris-versicolor
68   Iris-versicolor  Iris-versicolor
69   Iris-versicolor  Iris-versicolor
70   Iris-versicolor   Iris-virginica
71   Iris-versicolor  Iris-versicolor
72   Iris-versicolor  Iris-versicolor
73   Iris-versicolor  Iris-versicolor
74   Iris-versicolor  Iris-versicolor
75   Iris-versicolor  Iris-versicolor
76   Iris-versicolor  Iris-versicolor
77   Iris-versicolor  Iris-versicolor
78   Iris-versicolor  Iris-versicolor
79   Iris-versicolor  Iris-versicolor
80   Iris-versicolor  Iris-versicolor
81   Iris-versicolor  Iris-versicolor
82   Iris-versicolor  Iris-versicolor
83   Iris-versicolor  Iris-versicolor
84   Iris-versicolor  Iris-versicolor
85   Iris-versicolor  Iris-versicolor
86   Iris-versicolor  Iris-versicolor
87   Iris-versicolor  Iris-versicolor
88   Iris-versicolor  Iris-versicolor
89   Iris-versicolor  Iris-versicolor
90   Iris-versicolor  Iris-versicolor
91   Iris-versicolor  Iris-versicolor
92   Iris-versicolor  Iris-versicolor
93   Iris-versicolor  Iris-versicolor
94   Iris-versicolor  Iris-versicolor
95   Iris-versicolor  Iris-versicolor
96   Iris-versicolor  Iris-versicolor
97   Iris-versicolor  Iris-versicolor
98   Iris-versicolor  Iris-versicolor
99   Iris-versicolor  Iris-versicolor
100   Iris-virginica   Iris-virginica
101   Iris-virginica   Iris-virginica
102   Iris-virginica   Iris-virginica
103   Iris-virginica   Iris-virginica
104   Iris-virginica   Iris-virginica
105   Iris-virginica   Iris-virginica
106   Iris-virginica   Iris-virginica
107   Iris-virginica   Iris-virginica
108   Iris-virginica   Iris-virginica
109   Iris-virginica   Iris-virginica
110   Iris-virginica   Iris-virginica
111   Iris-virginica   Iris-virginica
112   Iris-virginica   Iris-virginica
113   Iris-virginica   Iris-virginica
114   Iris-virginica   Iris-virginica
115   Iris-virginica   Iris-virginica
116   Iris-virginica   Iris-virginica
117   Iris-virginica   Iris-virginica
118   Iris-virginica   Iris-virginica
119   Iris-virginica  Iris-versicolor
120   Iris-virginica   Iris-virginica
121   Iris-virginica   Iris-virginica
122   Iris-virginica   Iris-virginica
123   Iris-virginica   Iris-virginica
124   Iris-virginica   Iris-virginica
125   Iris-virginica   Iris-virginica
126   Iris-virginica   Iris-virginica
127   Iris-virginica   Iris-virginica
128   Iris-virginica   Iris-virginica
129   Iris-virginica   Iris-virginica
130   Iris-virginica   Iris-virginica
131   Iris-virginica   Iris-virginica
132   Iris-virginica   Iris-virginica
133   Iris-virginica  Iris-versicolor
134   Iris-virginica   Iris-virginica
135   Iris-virginica   Iris-virginica
136   Iris-virginica   Iris-virginica
137   Iris-virginica   Iris-virginica
138   Iris-virginica   Iris-virginica
139   Iris-virginica   Iris-virginica
140   Iris-virginica   Iris-virginica
141   Iris-virginica   Iris-virginica
142   Iris-virginica   Iris-virginica
143   Iris-virginica   Iris-virginica
144   Iris-virginica   Iris-virginica
145   Iris-virginica   Iris-virginica
146   Iris-virginica   Iris-virginica
147   Iris-virginica   Iris-virginica
148   Iris-virginica   Iris-virginica
149   Iris-virginica   Iris-virginica

# **Klasifikasi Decision Tree Data Tanpa Diskritisasi**

Kode ini merupakan implementasi **algoritma Decision Tree** untuk melakukan klasifikasi pada dataset Iris yang telah dimodifikasi. Proses diawali dengan **memuat dua file Excel**, yaitu `data_iris.xlsx` yang berisi data fitur (seperti `petal_length`, `petal_width`, `sepal_length`, dan `sepal_width`) dan `class.xlsx` yang berisi label kelas aktual dari masing-masing sampel. Setelah itu, fitur dan label dipisahkan ke dalam variabel `X` dan `y`. Kode ini juga menyertakan pengecekan kesesuaian jumlah data antara `X` dan `y` sebagai langkah validasi awal.

Selanjutnya, sebuah **model Decision Tree Classifier** dilatih menggunakan seluruh dataset tanpa dilakukan pemisahan data training dan testing, yang sebenarnya dalam praktik terbaik seharusnya menggunakan `train_test_split` untuk menghindari overfitting dan memberikan evaluasi yang lebih realistis terhadap performa model. Setelah model dilatih, dilakukan prediksi terhadap seluruh data, lalu hasil prediksi dibandingkan dengan kelas aktual untuk menghitung **akurasi**, **matriks konfusi**, dan **laporan klasifikasi**.

Hasil evaluasi kemudian ditampilkan dalam bentuk teks, dan juga disimpan dalam file Excel `decision_tree_original_iris_classification_results.xlsx` untuk keperluan dokumentasi atau analisis lebih lanjut. Dengan cara ini, proses klasifikasi pada dataset Iris dapat dianalisis secara lebih sistematis dan transparan.

In [None]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split # Termasuk untuk praktik baik
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# --- 1. Memuat data Iris asli ---
try:
    df_iris_original = pd.read_excel('data_iris.xlsx')
    df_true_class = pd.read_excel('class.xlsx')
except FileNotFoundError as e:
    print(f"Error loading file: {e}. Pastikan file berada di direktori yang sama.")
    exit()

# --- 2. Menyiapkan data ---
# Fitur (X) dari data Iris asli, mengecualikan kolom 'id'
features = ['petal_length', 'petal_width', 'sepal_length', 'sepal_width']
X = df_iris_original[features]

# Variabel target (y) dari file kelas aktual
y = df_true_class['class']

# Memastikan jumlah sampel di X dan y cocok
if X.shape[0] != y.shape[0]:
    print("Error: Jumlah baris pada fitur dan variabel target tidak cocok.")
    exit()

# Untuk tujuan demonstrasi ini, kita akan melatih dan mengevaluasi pada seluruh dataset.
# Dalam skenario dunia nyata, sangat disarankan untuk menggunakan train_test_split
# untuk membagi data menjadi set pelatihan dan pengujian guna mendapatkan evaluasi model yang lebih realistis.
# Contoh penggunaan train_test_split:
# X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# --- 3. Melatih pengklasifikasi Decision Tree ---
# random_state digunakan untuk reproduksibilitas hasil
model = DecisionTreeClassifier(random_state=42)

# Melatih model
model.fit(X, y)

# --- 4. Membuat prediksi ---
y_pred = model.predict(X)

# --- 5. Mengevaluasi model ---
accuracy = accuracy_score(y, y_pred)
conf_matrix = confusion_matrix(y, y_pred)
class_report = classification_report(y, y_pred)

print(f"\nAkurasi Model Decision Tree (Data Iris Asli): {accuracy:.4f}")
print("\nMatriks Konfusi:")
print(conf_matrix)
print("\nLaporan Klasifikasi:")
print(class_report)

comparison_df_dt_original = pd.DataFrame({'True Class': y, 'Predicted Class': y_pred})
comparison_df_dt_original.to_excel('decision_tree_original_iris_classification_results.xlsx', index=False)

In [None]:
Akurasi Model Decision Tree (Data Iris Asli): 1.0000

Matriks Konfusi:
[[50  0  0]
 [ 0 50  0]
 [ 0  0 50]]

Laporan Klasifikasi:
                 precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00        50
Iris-versicolor       1.00      1.00      1.00        50
 Iris-virginica       1.00      1.00      1.00        50

       accuracy                           1.00       150
      macro avg       1.00      1.00      1.00       150
   weighted avg       1.00      1.00      1.00       150

In [None]:
import pandas as pd
df= pd.read_excel('decision_tree_original_iris_classification_results.xlsx')

# Tampilkan semua baris
pd.set_option('display.max_rows', None)
print(df)

In [None]:
          True Class  Predicted Class
0        Iris-setosa      Iris-setosa
1        Iris-setosa      Iris-setosa
2        Iris-setosa      Iris-setosa
3        Iris-setosa      Iris-setosa
4        Iris-setosa      Iris-setosa
5        Iris-setosa      Iris-setosa
6        Iris-setosa      Iris-setosa
7        Iris-setosa      Iris-setosa
8        Iris-setosa      Iris-setosa
9        Iris-setosa      Iris-setosa
10       Iris-setosa      Iris-setosa
11       Iris-setosa      Iris-setosa
12       Iris-setosa      Iris-setosa
13       Iris-setosa      Iris-setosa
14       Iris-setosa      Iris-setosa
15       Iris-setosa      Iris-setosa
16       Iris-setosa      Iris-setosa
17       Iris-setosa      Iris-setosa
18       Iris-setosa      Iris-setosa
19       Iris-setosa      Iris-setosa
20       Iris-setosa      Iris-setosa
21       Iris-setosa      Iris-setosa
22       Iris-setosa      Iris-setosa
23       Iris-setosa      Iris-setosa
24       Iris-setosa      Iris-setosa
25       Iris-setosa      Iris-setosa
26       Iris-setosa      Iris-setosa
27       Iris-setosa      Iris-setosa
28       Iris-setosa      Iris-setosa
29       Iris-setosa      Iris-setosa
30       Iris-setosa      Iris-setosa
31       Iris-setosa      Iris-setosa
32       Iris-setosa      Iris-setosa
33       Iris-setosa      Iris-setosa
34       Iris-setosa      Iris-setosa
35       Iris-setosa      Iris-setosa
36       Iris-setosa      Iris-setosa
37       Iris-setosa      Iris-setosa
38       Iris-setosa      Iris-setosa
39       Iris-setosa      Iris-setosa
40       Iris-setosa      Iris-setosa
41       Iris-setosa      Iris-setosa
42       Iris-setosa      Iris-setosa
43       Iris-setosa      Iris-setosa
44       Iris-setosa      Iris-setosa
45       Iris-setosa      Iris-setosa
46       Iris-setosa      Iris-setosa
47       Iris-setosa      Iris-setosa
48       Iris-setosa      Iris-setosa
49       Iris-setosa      Iris-setosa
50   Iris-versicolor  Iris-versicolor
51   Iris-versicolor  Iris-versicolor
52   Iris-versicolor  Iris-versicolor
53   Iris-versicolor  Iris-versicolor
54   Iris-versicolor  Iris-versicolor
55   Iris-versicolor  Iris-versicolor
56   Iris-versicolor  Iris-versicolor
57   Iris-versicolor  Iris-versicolor
58   Iris-versicolor  Iris-versicolor
59   Iris-versicolor  Iris-versicolor
60   Iris-versicolor  Iris-versicolor
61   Iris-versicolor  Iris-versicolor
62   Iris-versicolor  Iris-versicolor
63   Iris-versicolor  Iris-versicolor
64   Iris-versicolor  Iris-versicolor
65   Iris-versicolor  Iris-versicolor
66   Iris-versicolor  Iris-versicolor
67   Iris-versicolor  Iris-versicolor
68   Iris-versicolor  Iris-versicolor
69   Iris-versicolor  Iris-versicolor
70   Iris-versicolor  Iris-versicolor
71   Iris-versicolor  Iris-versicolor
72   Iris-versicolor  Iris-versicolor
73   Iris-versicolor  Iris-versicolor
74   Iris-versicolor  Iris-versicolor
75   Iris-versicolor  Iris-versicolor
76   Iris-versicolor  Iris-versicolor
77   Iris-versicolor  Iris-versicolor
78   Iris-versicolor  Iris-versicolor
79   Iris-versicolor  Iris-versicolor
80   Iris-versicolor  Iris-versicolor
81   Iris-versicolor  Iris-versicolor
82   Iris-versicolor  Iris-versicolor
83   Iris-versicolor  Iris-versicolor
84   Iris-versicolor  Iris-versicolor
85   Iris-versicolor  Iris-versicolor
86   Iris-versicolor  Iris-versicolor
87   Iris-versicolor  Iris-versicolor
88   Iris-versicolor  Iris-versicolor
89   Iris-versicolor  Iris-versicolor
90   Iris-versicolor  Iris-versicolor
91   Iris-versicolor  Iris-versicolor
92   Iris-versicolor  Iris-versicolor
93   Iris-versicolor  Iris-versicolor
94   Iris-versicolor  Iris-versicolor
95   Iris-versicolor  Iris-versicolor
96   Iris-versicolor  Iris-versicolor
97   Iris-versicolor  Iris-versicolor
98   Iris-versicolor  Iris-versicolor
99   Iris-versicolor  Iris-versicolor
100   Iris-virginica   Iris-virginica
101   Iris-virginica   Iris-virginica
102   Iris-virginica   Iris-virginica
103   Iris-virginica   Iris-virginica
104   Iris-virginica   Iris-virginica
105   Iris-virginica   Iris-virginica
106   Iris-virginica   Iris-virginica
107   Iris-virginica   Iris-virginica
108   Iris-virginica   Iris-virginica
109   Iris-virginica   Iris-virginica
110   Iris-virginica   Iris-virginica
111   Iris-virginica   Iris-virginica
112   Iris-virginica   Iris-virginica
113   Iris-virginica   Iris-virginica
114   Iris-virginica   Iris-virginica
115   Iris-virginica   Iris-virginica
116   Iris-virginica   Iris-virginica
117   Iris-virginica   Iris-virginica
118   Iris-virginica   Iris-virginica
119   Iris-virginica   Iris-virginica
120   Iris-virginica   Iris-virginica
121   Iris-virginica   Iris-virginica
122   Iris-virginica   Iris-virginica
123   Iris-virginica   Iris-virginica
124   Iris-virginica   Iris-virginica
125   Iris-virginica   Iris-virginica
126   Iris-virginica   Iris-virginica
127   Iris-virginica   Iris-virginica
128   Iris-virginica   Iris-virginica
129   Iris-virginica   Iris-virginica
130   Iris-virginica   Iris-virginica
131   Iris-virginica   Iris-virginica
132   Iris-virginica   Iris-virginica
133   Iris-virginica   Iris-virginica
134   Iris-virginica   Iris-virginica
135   Iris-virginica   Iris-virginica
136   Iris-virginica   Iris-virginica
137   Iris-virginica   Iris-virginica
138   Iris-virginica   Iris-virginica
139   Iris-virginica   Iris-virginica
140   Iris-virginica   Iris-virginica
141   Iris-virginica   Iris-virginica
142   Iris-virginica   Iris-virginica
143   Iris-virginica   Iris-virginica
144   Iris-virginica   Iris-virginica
145   Iris-virginica   Iris-virginica
146   Iris-virginica   Iris-virginica
147   Iris-virginica   Iris-virginica
148   Iris-virginica   Iris-virginica
149   Iris-virginica   Iris-virginica

# **Kesimpulan**

| **Model**                    | **Akurasi** |
| ---------------------------- | ----------- |
| Naive Bayes (diskretisasi)   | 0.97        |
| Naive Bayes (data asli)      | 0.96        |
| Decision Tree (diskretisasi) | 0.98        |
| Decision Tree (data asli)    | 1.00        |

Secara umum, model Decision Tree menunjukkan performa yang lebih unggul dibandingkan Naive Bayes dalam mengolah dataset Iris, baik pada data asli maupun data yang telah melalui proses diskretisasi. Namun, dampak dari proses diskretisasi ternyata memberikan pengaruh yang berbeda pada masing-masing model, dengan rincian sebagai berikut:

Naive Bayes:
Proses diskretisasi meningkatkan akurasi model, dari sebelumnya 0.96 menjadi 0.97. Hal ini menunjukkan bahwa Naive Bayes lebih optimal dalam menangani fitur-fitur yang telah dikonversi menjadi kategori. Karakteristik Naive Bayes yang didasarkan pada distribusi probabilistik menjadikannya lebih cocok dengan data kategorikal.

Decision Tree:
Sebaliknya, akurasi model Decision Tree menurun tipis setelah dilakukan diskretisasi, dari 1.00 menjadi 0.98. Penurunan ini mengindikasikan bahwa Decision Tree mampu mengolah data numerik kontinu dengan sangat baik, bahkan mampu mencapai akurasi sempurna. Diskretisasi justru mengurangi detail informasi numerik yang dimanfaatkan oleh algoritma ini.

Kesimpulan Akhir:
Diskretisasi bisa menjadi teknik yang bermanfaat untuk meningkatkan kinerja model tertentu seperti Naive Bayes, namun untuk model seperti Decision Tree yang andal dalam menangani data kontinu, mempertahankan bentuk asli fitur bisa lebih menguntungkan.