# ***Binning Techneque***

## **Pengertian Teknik Binning**

Binning (atau bucketing) adalah teknik pra-pemrosesan data yang membagi nilai-nilai numerik berkelanjutan menjadi interval (bin) dan mengganti nilai asli dengan nilai representatif (misalnya rata-rata bin). Tujuannya adalah menyederhanakan data dan meminimalkan efek variasi kecil (noise) dengan menghaluskan data sehingga model lebih tahan terhadap fluktuasi minor. Dalam proses binning, atribut numerik diubah menjadi atribut kategorikal dengan membentuk kelas-kelas nominal pada rentang nilai tertentu. Keuntungan utama binning antara lain pengurangan dimensi data, peningkatan kecepatan pemrosesan algoritma, serta penyederhanaan interpretasi pola. Dengan data yang telah di-binning, algoritma seperti pohon keputusan atau Naïve Bayes dapat bekerja lebih efektif, bahkan meningkatkan akurasi klasifikasi.

## **Jenis Teknik Binning**

* Equal-Width Binning (Lebar Sama): Data kontinu dibagi menjadi 𝑘 interval yang memiliki panjang (rentang) sama. Lebar tiap bin dihitung dengan rumus $(max−min)/𝑘(max−min)/k$. Kelebihannya adalah sederhana dan mudah diimplementasikan. Namun, jika data terdistribusi tidak merata, metode ini dapat menghasilkan bin dengan jumlah elemen yang sangat tidak seimbang (beberapa bin kosong sementara yang lain penuh)

* Equal-Frequency Binning (Frekuensi Sama): Setiap bin memuat jumlah data (frekuensi) yang kurang lebih sama. Metode ini memastikan setiap bin berisi banyak elemen yang seimbang, sehingga menghindari bin bernilai jarang atau kosong. Kekurangannya, lebar interval tiap bin bisa sangat bervariasi: bin yang berisi data yang rapat akan punya rentang sempit, sedangkan bin pada ujung distribusi bisa meliputi rentang luas.

* Binning Berbasis Klaster/Statistik: Metode ini menggunakan pola data untuk menentukan bin. Misalnya, clustering-based binning menggunakan algoritma klaster (seperti k-means) untuk mengelompokkan nilai satu dimensi menjadi beberapa cluster (bin) berdasarkan kemiripan. Pendekatan ini berguna jika data memiliki kelompok alami (mode) tersembunyi. Selain itu, terdapat pendekatan berbasis statistik, seperti pembagian menurut kuantil/persentil atau smoothing nilai dengan mean/median/bin boundary. Dalam smoothing, setiap nilai dalam bin diganti dengan rata-rata bin (bin mean), median bin (bin median), atau nilai batas terdekat dalam bin (bin boundary). Pendekatan berbasis klaster atau statistik ini dapat menangkap struktur distribusi data yang kompleks, tetapi umumnya lebih rumit dan berisiko menghasilkan batas bin yang sulit diinterpretasi


### **Binning Technique dengan Kmeans**

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import sklearn
from sklearn.cluster import  KMeans
from sklearn import preprocessing
from sklearn.preprocessing import StandardScaler

In [2]:
iris = pd.read_csv("iris.csv")
iris_copy = iris.copy()

# Buat data salinan dari data asli
data = pd.DataFrame(iris_copy)

# Buat Model Standarisasi
scaler = StandardScaler()

# Buat Salinan untuk Menyimpan Data Kategorikal
data_categorical = data.copy()
data_numeric = data.copy()

# Buat Nilai Konversi pada setiap cluster yang ada
cluster_mapping = {
    0: 'A',
    1: 'B',
    2: 'C',
    3: 'D'
}


In [3]:
# Preprocessing Data Sepal Length
sepal_length = data[['sepal length']]
seleng_standart = scaler.fit_transform(sepal_length)

# Model Kmeans Sepal Length
kmean_sepal_length4 = KMeans(n_clusters=4, random_state=42, max_iter=350)
kmean_sepal_length4.fit(seleng_standart)
label_sepal_length = kmean_sepal_length4.fit_predict(seleng_standart)

# Nilai Centroid setiap cluster
centroid_seleng = kmean_sepal_length4.cluster_centers_

# #Ubah Nilainya dari Numpy menjadi Series
label_sepal_length_Series = pd.Series(label_sepal_length)

# # Buat kolom baru berdasarkan mapping
data_categorical['sepal length categorical'] = label_sepal_length_Series.map(cluster_mapping)

# # Buang Data Numeric
data_categorical = data_categorical.drop(columns=['sepal length']) 

print(data_categorical)
print(centroid_seleng)

      id           Class  petal length  petal width  sepal width  \
0      1     Iris-setosa           1.4          0.2          3.5   
1      2     Iris-setosa           1.4          0.2          3.0   
2      3     Iris-setosa           1.3          0.2          3.2   
3      4     Iris-setosa           1.5          0.2          3.1   
4      5     Iris-setosa           1.4          0.2          3.6   
..   ...             ...           ...          ...          ...   
145  146  Iris-virginica           5.2          2.3          3.0   
146  147  Iris-virginica           5.0          1.9          2.5   
147  148  Iris-virginica           5.2          2.0          3.0   
148  149  Iris-virginica           5.4          2.3          3.4   
149  150  Iris-virginica           5.1          1.8          3.0   

    sepal length categorical  
0                          C  
1                          C  
2                          C  
3                          C  
4                          C

In [4]:
# Preprocessing Data Sepal Length
sepal_width = data[['sepal width']]
sepal_width_standart = scaler.fit_transform(sepal_width)

# Model Kmeans Sepal Length
kmean_sepal_width3 = KMeans(n_clusters=3, random_state=42, max_iter=350)
kmean_sepal_width3.fit(sepal_width_standart)
label_sepal_width = kmean_sepal_width3.fit_predict(sepal_width_standart)

# # Nilai Centroid setiap cluster
centroid_sepal_width = kmean_sepal_width3.cluster_centers_

# #Ubah Nilainya dari Numpy menjadi Series
label_sepal_width_Series = pd.Series(label_sepal_width)

# # Buat kolom baru berdasarkan mapping
data_categorical['sepal width categorical'] = label_sepal_width_Series.map(cluster_mapping)

# # Buang Data Numeric
data_categorical = data_categorical.drop(columns=['sepal width']) 

print(data_categorical)
print(centroid_sepal_width)

      id           Class  petal length  petal width sepal length categorical  \
0      1     Iris-setosa           1.4          0.2                        C   
1      2     Iris-setosa           1.4          0.2                        C   
2      3     Iris-setosa           1.3          0.2                        C   
3      4     Iris-setosa           1.5          0.2                        C   
4      5     Iris-setosa           1.4          0.2                        C   
..   ...             ...           ...          ...                      ...   
145  146  Iris-virginica           5.2          2.3                        A   
146  147  Iris-virginica           5.0          1.9                        A   
147  148  Iris-virginica           5.2          2.0                        A   
148  149  Iris-virginica           5.4          2.3                        A   
149  150  Iris-virginica           5.1          1.8                        B   

    sepal width categorical  
0        

In [5]:
# Preprocessing Data Petal Length
petal_length = data[['petal length']]
petal_length_standart = scaler.fit_transform(petal_length)

# Model Kmeans Petal Length
kmean_petal_length = KMeans(n_clusters=4, random_state=42, max_iter=350)
kmean_petal_length.fit(petal_length_standart)
label_petal_length = kmean_petal_length.fit_predict(petal_length_standart)

# Nilai Centroid setiap cluster
centroid_petal_length = kmean_petal_length.cluster_centers_

# Ubah Nilainya dari Numpy menjadi Series
label_petal_length_Series = pd.Series(label_petal_length)

# Buat kolom baru berdasarkan mapping
data_categorical['petal length categorical'] = label_petal_length_Series.map(cluster_mapping)

# Buang Data Numeric
data_categorical = data_categorical.drop(columns=['petal length']) 

print(data_categorical)
print(centroid_petal_length)

      id           Class  petal width sepal length categorical  \
0      1     Iris-setosa          0.2                        C   
1      2     Iris-setosa          0.2                        C   
2      3     Iris-setosa          0.2                        C   
3      4     Iris-setosa          0.2                        C   
4      5     Iris-setosa          0.2                        C   
..   ...             ...          ...                      ...   
145  146  Iris-virginica          2.3                        A   
146  147  Iris-virginica          1.9                        A   
147  148  Iris-virginica          2.0                        A   
148  149  Iris-virginica          2.3                        A   
149  150  Iris-virginica          1.8                        B   

    sepal width categorical petal length categorical  
0                         A                        B  
1                         C                        B  
2                         C               

In [6]:
# Preprocessing Data Petal Length
petal_width = data[['petal width']]
petal_width_standart = scaler.fit_transform(petal_width)

# Model Kmeans Petal Length
kmean_petal_width = KMeans(n_clusters=4, random_state=42, max_iter=350)
kmean_petal_width.fit(petal_width_standart)
label_petal_width = kmean_petal_width.fit_predict(petal_width_standart)

# # Nilai Centroid setiap cluster
centroid_petal_width = kmean_petal_width.cluster_centers_

# # Ubah Nilainya dari Numpy menjadi Series
label_petal_width_Series = pd.Series(label_petal_width)

# # Buat kolom baru berdasarkan mapping
data_categorical['petal width categorical'] = label_petal_width_Series.map(cluster_mapping)

# # Buang Data Numeric
data_categorical = data_categorical.drop(columns=['petal width']) 

print(data_categorical)
print(centroid_petal_width)

      id           Class sepal length categorical sepal width categorical  \
0      1     Iris-setosa                        C                       A   
1      2     Iris-setosa                        C                       C   
2      3     Iris-setosa                        C                       C   
3      4     Iris-setosa                        C                       C   
4      5     Iris-setosa                        C                       A   
..   ...             ...                      ...                     ...   
145  146  Iris-virginica                        A                       C   
146  147  Iris-virginica                        A                       B   
147  148  Iris-virginica                        A                       C   
148  149  Iris-virginica                        A                       A   
149  150  Iris-virginica                        B                       C   

    petal length categorical petal width categorical  
0                   

### **Prosesing Data Algoritma Naive Bayes dan Decision Tree**

In [7]:
print(type(data_numeric))
print()
print(data_numeric)

<class 'pandas.core.frame.DataFrame'>

      id           Class  petal length  petal width  sepal length  sepal width
0      1     Iris-setosa           1.4          0.2           5.1          3.5
1      2     Iris-setosa           1.4          0.2           4.9          3.0
2      3     Iris-setosa           1.3          0.2           4.7          3.2
3      4     Iris-setosa           1.5          0.2           4.6          3.1
4      5     Iris-setosa           1.4          0.2           5.0          3.6
..   ...             ...           ...          ...           ...          ...
145  146  Iris-virginica           5.2          2.3           6.7          3.0
146  147  Iris-virginica           5.0          1.9           6.3          2.5
147  148  Iris-virginica           5.2          2.0           6.5          3.0
148  149  Iris-virginica           5.4          2.3           6.2          3.4
149  150  Iris-virginica           5.1          1.8           5.9          3.0

[150 rows x 

In [8]:
print(type(data_categorical))
print()
print(data_categorical)

<class 'pandas.core.frame.DataFrame'>

      id           Class sepal length categorical sepal width categorical  \
0      1     Iris-setosa                        C                       A   
1      2     Iris-setosa                        C                       C   
2      3     Iris-setosa                        C                       C   
3      4     Iris-setosa                        C                       C   
4      5     Iris-setosa                        C                       A   
..   ...             ...                      ...                     ...   
145  146  Iris-virginica                        A                       C   
146  147  Iris-virginica                        A                       B   
147  148  Iris-virginica                        A                       C   
148  149  Iris-virginica                        A                       A   
149  150  Iris-virginica                        B                       C   

    petal length categorical petal w

#### **Algoritma Naive Bayes Data Numerik**

In [9]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.naive_bayes import CategoricalNB
from sklearn.metrics import classification_report, accuracy_score


# 2. Ambil fitur dan label
features_numeric = data_numeric[[
    'sepal length',
    'sepal width',
    'petal length',
    'petal width'
]].copy()
labels_numeric = data_numeric['Class']

# # 4. Split data
X_train_numeric, X_test_numeric, y_train_numeric, y_test_numeric = train_test_split(features_numeric, labels_numeric, test_size=0.2, random_state=42)

# 5. Gunakan Naive Bayes (CategoricalNB cocok untuk data kategori)
model = CategoricalNB()
model.fit(X_train_numeric, y_train_numeric)

# 6. Prediksi dan evaluasi
y_pred_numeric = model.predict(X_test_numeric)
print("Akurasi:", accuracy_score(y_test_numeric, y_pred_numeric))
print("\nLaporan klasifikasi:\n", classification_report(y_test_numeric, y_pred_numeric))


Akurasi: 0.9666666666666667

Laporan klasifikasi:
                  precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00        10
Iris-versicolor       0.90      1.00      0.95         9
 Iris-virginica       1.00      0.91      0.95        11

       accuracy                           0.97        30
      macro avg       0.97      0.97      0.97        30
   weighted avg       0.97      0.97      0.97        30



#### **Algoritma Naive Bayes Data Kategorikal**

In [10]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.naive_bayes import CategoricalNB
from sklearn.metrics import classification_report, accuracy_score


# 2. Ambil fitur dan label
features_categorical = data_categorical[[
    'sepal length categorical',
    'sepal width categorical',
    'petal length categorical',
    'petal width categorical'
]].copy()
labels = data_categorical['Class']

# 3. Label encoding (ubah A/B/C/D dan nama kelas ke angka)
le = LabelEncoder()
for col in features_categorical.columns:
    features_categorical[col] = le.fit_transform(features_categorical[col])

labels = LabelEncoder().fit_transform(labels)

# 4. Split data
X_train_categorical, X_test_categorical, y_train_categorical, y_test_categorical = train_test_split(features_categorical, labels, test_size=0.2, random_state=42)

# 5. Gunakan Naive Bayes (CategoricalNB cocok untuk data kategori)
model = CategoricalNB()
model.fit(X_train_categorical, y_train_categorical)

# 6. Prediksi dan evaluasi
y_pred_categorical = model.predict(X_test_categorical)
print("Akurasi:", accuracy_score(y_test_categorical, y_pred_categorical))
print("\nLaporan klasifikasi:\n", classification_report(y_test_categorical, y_pred_categorical))


Akurasi: 0.9

Laporan klasifikasi:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      0.67      0.80         9
           2       0.79      1.00      0.88        11

    accuracy                           0.90        30
   macro avg       0.93      0.89      0.89        30
weighted avg       0.92      0.90      0.90        30



#### **Algoritma Decision Tree Data Kategorikal**

In [11]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report

# 1. Siapkan data
features_categoricalDt = features_categorical.copy()         # features = fitur kategorikal yang sudah di-label encode
labels_categoricalDt = data_categorical['Class']  # atau gunakan label yang sesuai

# 2. Split data (training & testing)
train_categoricalDt, test_categoricalDt, y_train_categoricalDt, y_test_categoricalDt = train_test_split(features_categoricalDt, labels_categoricalDt, test_size=0.2, random_state=42)

# 3. Buat model Decision Tree dan latih
model = DecisionTreeClassifier(random_state=42)
model.fit(train_categoricalDt, y_train_categoricalDt)

# 4. Lakukan prediksi
y_pred_categoricalDt = model.predict(test_categoricalDt)

# 5. Evaluasi hasilnya
print("Akurasi:", accuracy_score(y_test_categoricalDt, y_pred_categoricalDt))
print("\nLaporan klasifikasi:\n", classification_report(y_test_categoricalDt, y_pred_categoricalDt))

Akurasi:

 0.9

Laporan klasifikasi:
                  precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00        10
Iris-versicolor       0.80      0.89      0.84         9
 Iris-virginica       0.90      0.82      0.86        11

       accuracy                           0.90        30
      macro avg       0.90      0.90      0.90        30
   weighted avg       0.90      0.90      0.90        30



#### **Algoritma Decision Tree Data Numerik**

In [12]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report

# 1. Siapkan data
features_numericDt = features_numeric.copy()         # features = fitur kategorikal yang sudah di-label encode
labels_numericDt = data_numeric['Class']  # atau gunakan label yang sesuai

# # 2. Split data (training & testing)
train_numericDt, test_numericDt, y_train_numericDt, y_test_numericDt = train_test_split(features_numericDt, labels_numericDt, test_size=0.2, random_state=42)

# # 3. Buat model Decision Tree dan latih
model = DecisionTreeClassifier(random_state=42)
model.fit(train_numericDt, y_train_numericDt)

# # 4. Lakukan prediksi
y_pred_numericDt = model.predict(test_numericDt)

# # 5. Evaluasi hasilnya
print("Akurasi:", accuracy_score(y_test_numericDt, y_pred_numericDt))
print("\nLaporan klasifikasi:\n", classification_report(y_test_numericDt, y_pred_numericDt))

Akurasi: 1.0

Laporan klasifikasi:
                  precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00        10
Iris-versicolor       1.00      1.00      1.00         9
 Iris-virginica       1.00      1.00      1.00        11

       accuracy                           1.00        30
      macro avg       1.00      1.00      1.00        30
   weighted avg       1.00      1.00      1.00        30

