# Tugas 2 - Diskritisasi

# **Apa Itu Binning Data?**

Binning adalah sebuah proses untuk mengelompokkan data ke dalam bagian-bagian yang lebih kecil yang disebut bin berdasarkan kriteria tertentu. Binning data merupakan salah satu teknik praproses data yang digunakan untuk meminimalisasi kesalahan dalam pengamatan serta terkadang dapat meningkatkan akurasi dari model prediktif.

Binning biasanya digunakan untuk mengelompokkan data numerik menjadi beberapa bin agar sebaran data lebih mudah dipahami. Misalnya kita dapat mengelompokkan fitur “usia” menjadi [0-5], [6-10], [11-15], [16-20], [20-25], dan seterusnya.

Contoh lain misalnya sebuah data yang memiliki fitur “harga” dengan kisaran 1000 hingga 99000. Kita bisa membagi harga tersebut menjadi tiga bin, “murah”, “standar”, dan “mahal” dengan batas tertentu.

In [20]:
import pandas as pd
import math
import numpy as np
from math import log2

In [2]:
#Read CSV IRIS
pd.options.mode.chained_assignment = None
url = "https://gist.githubusercontent.com/netj/8836201/raw/6f9306ad21398ea43cba4f7d537619d0e07d5ae3/iris.csv"
dataset = pd.read_csv(url)


In [3]:
#Menampilkan informasi tipe data di semua kolom
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal.length  150 non-null    float64
 1   sepal.width   150 non-null    float64
 2   petal.length  150 non-null    float64
 3   petal.width   150 non-null    float64
 4   variety       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [4]:
# Menampilkan 10 baris teratas
dataset.head(10)

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
5,5.4,3.9,1.7,0.4,Setosa
6,4.6,3.4,1.4,0.3,Setosa
7,5.0,3.4,1.5,0.2,Setosa
8,4.4,2.9,1.4,0.2,Setosa
9,4.9,3.1,1.5,0.1,Setosa




# Equal Width

Equal-width intervals adalah discretization yang membagi data numerik menjadi beberapa kelompok dengan lebar kelompok yang kurang lebih sama besar.

Memisahkan tiap kolom yang nantinya akan di konversi yang asalnya numerik menjadi kategori

In [5]:
sl_equalWidth = dataset[["sepal.length"]]
pl_equalWidth = dataset[["petal.length"]]
sw_equalWidth = dataset[["sepal.width"]]
pw_equalWidth = dataset[["petal.width"]]

In [6]:
sl_equalWidth["Kategori"] = pd.cut(dataset["sepal.length"],3, labels = ['A','B','C'])
pl_equalWidth['Kategori'] = pd.cut(dataset["petal.length"],3, labels = ['A', 'B','C'])
sw_equalWidth['Kategori'] = pd.cut(dataset["sepal.width"],3, labels = ['A', 'B','C'])
pw_equalWidth['Kategori'] = pd.cut(dataset["petal.width"],3, labels = ['A', 'B','C'])
display(sl_equalWidth)
display(pl_equalWidth)
display(sw_equalWidth)
display(pw_equalWidth)

Unnamed: 0,sepal.length,Kategori
0,5.1,A
1,4.9,A
2,4.7,A
3,4.6,A
4,5.0,A
...,...,...
145,6.7,B
146,6.3,B
147,6.5,B
148,6.2,B


Unnamed: 0,petal.length,Kategori
0,1.4,A
1,1.4,A
2,1.3,A
3,1.5,A
4,1.4,A
...,...,...
145,5.2,C
146,5.0,C
147,5.2,C
148,5.4,C


Unnamed: 0,sepal.width,Kategori
0,3.5,B
1,3.0,B
2,3.2,B
3,3.1,B
4,3.6,B
...,...,...
145,3.0,B
146,2.5,A
147,3.0,B
148,3.4,B


Unnamed: 0,petal.width,Kategori
0,0.2,A
1,0.2,A
2,0.2,A
3,0.2,A
4,0.2,A
...,...,...
145,2.3,C
146,1.9,C
147,2.0,C
148,2.3,C


menggabungkan semua categori menjadi satu tabel

In [7]:
equalWidth = pd.DataFrame([])
equalWidth["sepal.length"] = dataset["sepal.length"]
equalWidth['SL.category'] = sl_equalWidth["Kategori"]

equalWidth["petal.length"] = dataset["petal.length"]
equalWidth["PL.category"] = sl_equalWidth["Kategori"]

equalWidth["sepal.width"] = dataset["sepal.width"]
equalWidth["SW.category"] = sw_equalWidth["Kategori"]

equalWidth["petal.width"] = dataset["petal.width"]
equalWidth["PW.category"] = pw_equalWidth["Kategori"]

equalWidth["variety"] = dataset[["variety"]]

equalWidth

Unnamed: 0,sepal.length,SL.category,petal.length,PL.category,sepal.width,SW.category,petal.width,PW.category,variety
0,5.1,A,1.4,A,3.5,B,0.2,A,Setosa
1,4.9,A,1.4,A,3.0,B,0.2,A,Setosa
2,4.7,A,1.3,A,3.2,B,0.2,A,Setosa
3,4.6,A,1.5,A,3.1,B,0.2,A,Setosa
4,5.0,A,1.4,A,3.6,B,0.2,A,Setosa
...,...,...,...,...,...,...,...,...,...
145,6.7,B,5.2,B,3.0,B,2.3,C,Virginica
146,6.3,B,5.0,B,2.5,A,1.9,C,Virginica
147,6.5,B,5.2,B,3.0,B,2.0,C,Virginica
148,6.2,B,5.4,B,3.4,B,2.3,C,Virginica


# Equal Frequency

Equal-frequency intervals adalah discretization yang membagi data numerik menjadi beberapa kelompok dengan jumlah anggota yang kurang lebih sama besar.

Memisahkan tiap kolom yang nantinya akan di konversi yang asalnya numerik menjadi kategori

In [8]:
sl_equalFrequency = dataset[["sepal.length"]]
pl_equalFrequency = dataset[["petal.length"]]
sw_equalFrequency = dataset[["sepal.width"]]
pw_equalFrequency = dataset[["petal.width"]]

In [9]:
sl_equalFrequency["Kategori"] = pd.qcut(dataset["sepal.length"],3, labels = ['A','B','C'])
pl_equalFrequency['Kategori'] = pd.qcut(dataset["petal.length"],3, labels = ['A', 'B','C'])
sw_equalFrequency['Kategori'] = pd.qcut(dataset["sepal.width"],3, labels = ['A', 'B','C'])
pw_equalFrequency['Kategori'] = pd.qcut(dataset["petal.width"],3, labels = ['A', 'B','C'])
display(sl_equalFrequency)
display(pl_equalFrequency)
display(sw_equalFrequency)
display(pw_equalFrequency)

Unnamed: 0,sepal.length,Kategori
0,5.1,A
1,4.9,A
2,4.7,A
3,4.6,A
4,5.0,A
...,...,...
145,6.7,C
146,6.3,B
147,6.5,C
148,6.2,B


Unnamed: 0,petal.length,Kategori
0,1.4,A
1,1.4,A
2,1.3,A
3,1.5,A
4,1.4,A
...,...,...
145,5.2,C
146,5.0,C
147,5.2,C
148,5.4,C


Unnamed: 0,sepal.width,Kategori
0,3.5,C
1,3.0,B
2,3.2,B
3,3.1,B
4,3.6,C
...,...,...
145,3.0,B
146,2.5,A
147,3.0,B
148,3.4,C


Unnamed: 0,petal.width,Kategori
0,0.2,A
1,0.2,A
2,0.2,A
3,0.2,A
4,0.2,A
...,...,...
145,2.3,C
146,1.9,C
147,2.0,C
148,2.3,C


In [10]:
equalFrequency = pd.DataFrame([])
equalFrequency["sepal.length"] = dataset["sepal.length"]
equalFrequency['SL.category'] = sl_equalFrequency["Kategori"]

equalFrequency["petal.length"] = dataset["petal.length"]
equalFrequency["PL.category"] = sl_equalFrequency["Kategori"]

equalFrequency["sepal.width"] = dataset["sepal.width"]
equalFrequency["SW.category"] = sw_equalFrequency["Kategori"]

equalFrequency["petal.width"] = dataset["petal.width"]
equalFrequency["PW.category"] = pw_equalFrequency["Kategori"]

equalFrequency["variety"] = dataset[["variety"]]

equalFrequency

Unnamed: 0,sepal.length,SL.category,petal.length,PL.category,sepal.width,SW.category,petal.width,PW.category,variety
0,5.1,A,1.4,A,3.5,C,0.2,A,Setosa
1,4.9,A,1.4,A,3.0,B,0.2,A,Setosa
2,4.7,A,1.3,A,3.2,B,0.2,A,Setosa
3,4.6,A,1.5,A,3.1,B,0.2,A,Setosa
4,5.0,A,1.4,A,3.6,C,0.2,A,Setosa
...,...,...,...,...,...,...,...,...,...
145,6.7,C,5.2,C,3.0,B,2.3,C,Virginica
146,6.3,B,5.0,B,2.5,A,1.9,C,Virginica
147,6.5,C,5.2,C,3.0,B,2.0,C,Virginica
148,6.2,B,5.4,B,3.4,C,2.3,C,Virginica


Menggabungkan equal width dan equal frequency menjadi 1 tabel

In [11]:
gabungan = pd.DataFrame([])
gabungan['sepal.length'] = dataset["sepal.length"]
gabungan['SL.EWidth'] = sl_equalWidth["Kategori"]
gabungan['SL.EFreq'] = sl_equalFrequency["Kategori"]

gabungan['petal.length'] = dataset["petal.length"]
gabungan['PL.EWidth'] = pl_equalWidth["Kategori"]
gabungan['PL.EFreq'] = pl_equalFrequency["Kategori"]

gabungan['sepal.width'] = dataset["sepal.width"]
gabungan['SW.EWidth'] = sw_equalWidth["Kategori"]
gabungan['SW.EFreq'] = sw_equalFrequency["Kategori"]

gabungan['petal.width'] = dataset["petal.width"]
gabungan['PW.EWidth'] = pw_equalWidth["Kategori"]
gabungan['PW.EFreq'] = pw_equalFrequency["Kategori"]

gabungan["variety"] = dataset[["variety"]]

gabungan

Unnamed: 0,sepal.length,SL.EWidth,SL.EFreq,petal.length,PL.EWidth,PL.EFreq,sepal.width,SW.EWidth,SW.EFreq,petal.width,PW.EWidth,PW.EFreq,variety
0,5.1,A,A,1.4,A,A,3.5,B,C,0.2,A,A,Setosa
1,4.9,A,A,1.4,A,A,3.0,B,B,0.2,A,A,Setosa
2,4.7,A,A,1.3,A,A,3.2,B,B,0.2,A,A,Setosa
3,4.6,A,A,1.5,A,A,3.1,B,B,0.2,A,A,Setosa
4,5.0,A,A,1.4,A,A,3.6,B,C,0.2,A,A,Setosa
...,...,...,...,...,...,...,...,...,...,...,...,...,...
145,6.7,B,C,5.2,C,C,3.0,B,B,2.3,C,C,Virginica
146,6.3,B,B,5.0,C,C,2.5,A,A,1.9,C,C,Virginica
147,6.5,B,C,5.2,C,C,3.0,B,B,2.0,C,C,Virginica
148,6.2,B,B,5.4,C,C,3.4,B,C,2.3,C,C,Virginica


# Binning Entrophy

Entropi merupakan distribusi probabilitas dalam teori informasi dan diadopsi kedalam Algoritme C4.5 untuk mengukur tingkat homogenitas distribusi kelas dari sebuah himpunan data (dataset). Sebagai ilustrasi, semakin tinggi tingkat entropi dari sebuah dataset maka semakin homogen distribusi kelas pada dataset tersebut. Persamaan untuk menghitung entropi pada pohon keputusan C4.5 ditunjukan pada Persamaan 1 (Raditya, 2009):

![image.png](https://cdn.mathpix.com/snip/images/T3MAnkOgvu54ASi68sQ5fR96rPCLPxjYofOqC9L4IpM.original.fullsize.png)


**Gain**

Setelah membagi dataset berdasarkan sebuah atribut kedalam subset yang lebih kecil, entropi dari data tersebut akan berubah. Perubahan entropi ini dapat digunakan untuk menentukan bagus tidaknya pembagian data yang telah dilakukan. Perubahan entropi ini disebut dengan information gain dalam Algoritme C4.5. Information gain ini diukur dengan menghitung selisih antara entropi dataset sebelum dan sesudah pembagian (splitting) dilakukan. Pembagian yang terbaik akan menghasilkan entropi subset yang paling kecil, dengan demikian berdampak pada information gain yang terbesar. Persamaan untuk menghitung nilai Gain pada pohon keputusan ditujukan pada Persamaan 2 (Raditya, 2009):

$$
\begin{align*}
\displaystyle 𝐺𝑎𝑖𝑛(𝐴) &= 𝐸𝑛𝑡𝑟𝑜𝑝𝑖(𝑆) − \sum_{i=1}^{k}\frac{\left| S \right|}{\left| S_{i} \right|} * 𝐸𝑛𝑡𝑟𝑜𝑝𝑖(𝑆_{i}) \\
Keterangan &: \\
𝑆 &: himpunan \ kasus \\
𝐴 &: atribut \\
k &: jumlah \ partisi \ atribut \ A \\
|𝑆𝑖| &: jumlah \ kasus \ pada \ partisi \ ke-i \\
|𝑆| &: jumlah \ kasus \ dalam \ S 
\end{align*}
$$

menyiapkan data yang akan dicari entropynya dan gainnya

In [12]:
labels =['A', 'B', 'C']

In [13]:
sample = gabungan[['sepal.length', 'SL.EWidth']]
sample

Unnamed: 0,sepal.length,SL.EWidth
0,5.1,A
1,4.9,A
2,4.7,A
3,4.6,A
4,5.0,A
...,...,...
145,6.7,B
146,6.3,B
147,6.5,B
148,6.2,B


fungsi yang digunakan untuk menghitung banyaknya data berdasarkan kategori

In [14]:
def overalCategory(sample, labels, col, category):
  group = sample.groupby(category).count()
  return [group.loc[label, col] for label in labels]

fungsi yang digunakan untuk proses info D

In [15]:
def split(nilai, sample, labels, col, category):
  less_group = sample[sample[col] < nilai]
  greater_group = sample[sample[col] >= nilai]

  length_less_group = overalCategory(less_group, labels, col, category)
  length_greater_group = overalCategory(greater_group, labels, col, category)

  return (length_less_group, length_greater_group)

fungsi untuk menghitung nilai entropy

In [16]:
def entropy(d):
  return -(sum([i/sum(d) * log2(i/sum(d)) if i/sum(d) != 0 else 0 for i in d]))

fungsi untuk menghitung nilai info

In [17]:
def info(d, sample):
  return sum([(sum(i) / sample.shape[0]) * entropy(i) for i in d])

fungsi untuk menghitung nilai gain

In [18]:
def gain(inisial, new):
  return inisial - new

Menghitung nilai entropy overall

In [21]:
d = overalCategory(sample, labels, 'sepal.length', 'SL.EWidth')
Einisial = entropy(d)
Einisial

1.4278417085296922

Untuk mencari split 4.5

In [22]:
az = split(4.5, sample, labels, 'sepal.length', 'SL.EWidth')
Enew1 = info(az, sample)
gain(Einisial, Enew1)

0.03671508206271512

Untuk mencari split 5.5

In [23]:
az = split(5.5, sample, labels, 'sepal.length', 'SL.EWidth')
Enew2 = info(az, sample)
gain(Einisial, Enew2)

0.7243785559543089

Untuk mencari split 6.5

In [25]:
az = split(6.5, sample, labels, 'sepal.length', 'SL.EWidth')
Enew3 = info(az, sample)
gain(Einisial, Enew3)

0.43166487471484216

**Kesimpulan**

Semakin kecil nilai Gain terhadap nilai Einisial dan Enew, maka semakin baik akurasinya