# Diskritisasi

## Apa itu Deskritisasi Hallo cantik
<p align="justify">
Deskritisasi merupakan transformasi kolom menjadi type data lain. Tujuannya untuk membuat data menjadi lebih optimal yang nantinya memudahkan untuk dianalisis.
</p>

## Proses Diskritisasi Data
<p align="justify">
Proses diskritisasi data yaitu proses perubahan data dari data yang berbentuk numerik menjadi data yang berbentuk kategorik. Tugas diskritisasi yaitu membagi rentang nilai X menjadi k interval yang berurutan disebut juga bins.
</p>

### Equal Width Binning
<p align="justify">
Pendekatan binning yang paling sederhana yaitu membagi rentang X menjadi k interval yang sama lebar. Lebar interval yaitu rentang X dibagi dengan k

$$
\begin{align*}
\displaystyle \text{w} &= \frac{x_{max}-x_{min}}{k}
\end{align*}
$$

Batas interval ke-i diberikan sebagai berikut:

$$
\begin{align*}
\displaystyle v_{i} &= x_{min} + iw \\
i &= 1,2,3, ... k-1
\end{align*}
$$

#### Contoh:
```
Input: [5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215]

Output:
[5, 10, 11, 13, 15, 35, 50, 55, 72]
[92]
[204, 215]

```
</p>

### Equal Frequency Binning
<p align="justify">
Equal Frequency Binning merupakan bind atau k yang memiliki frekuensi yang sama

#### Contoh:
```
Input:[5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215]

Output:
[5, 10, 11, 13]
[15, 35, 50, 55]
[72, 92, 204, 215]

```
</p>

### Entropy
<p align="justify">
Entropi merupakan distribusi probabilitas dalam teori informasi dan diadopsi kedalam Algoritme C4.5 untuk mengukur tingkat homogenitas distribusi kelas dari sebuah himpunan data (dataset). Sebagai ilustrasi, semakin tinggi tingkat entropi dari sebuah dataset maka semakin homogen distribusi kelas pada dataset tersebut. Persamaan untuk menghitung entropi pada pohon keputusan C4.5 ditunjukan pada Persamaan 1 (Raditya, 2009):
</p>

$$
\begin{align*}
\displaystyle Entropy(S) &= \sum_{i=0}^{k} -phi \ log_{2} \ phi \\
Keterangan &: \\
S &= Himpunan \ dataset  \\
k &= Banyaknya \ partisi \ S \\
phi &= Proporsi \ S_{i} \ terhadap \ S
\end{align*}
$$


### Gain
<p align="justify">
Setelah membagi dataset berdasarkan sebuah atribut kedalam subset yang lebih kecil, entropi dari data tersebut akan berubah. Perubahan entropi ini dapat digunakan untuk menentukan bagus tidaknya pembagian data yang telah dilakukan. Perubahan entropi ini disebut dengan information gain dalam Algoritme C4.5. Information gain ini diukur dengan menghitung selisih antara entropi dataset sebelum dan sesudah pembagian (splitting) dilakukan. Pembagian yang terbaik
akan menghasilkan entropi subset yang paling kecil, dengan demikian berdampak pada information gain yang terbesar. Persamaan untuk menghitung nilai Gain pada pohon keputusan ditujukan pada Persamaan 2 (Raditya, 2009):
</p>

$$
\begin{align*}
\displaystyle 𝐺𝑎𝑖𝑛(𝐴) &= 𝐸𝑛𝑡𝑟𝑜𝑝𝑖(𝑆) − \sum_{i=1}^{k}\frac{\left| S \right|}{\left| S_{i} \right|} * 𝐸𝑛𝑡𝑟𝑜𝑝𝑖(𝑆_{i}) \\
Keterangan &: \\
𝑆 &: himpunan \ kasus \\
𝐴 &: atribut \\
k &: jumlah \ partisi \ atribut \ A \\
|𝑆𝑖| &: jumlah \ kasus \ pada \ partisi \ ke-i \\
|𝑆| &: jumlah \ kasus \ dalam \ S
\end{align*}
$$



## Mencari Data Kategorikal

1.   Lakukan proses diskritisasi dengan equal width dan equal frequency
2.   Lakukan proses diskritisasi dengan basis entropy

In [None]:
!pip install sklearn

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting sklearn
  Downloading sklearn-0.0.tar.gz (1.1 kB)
Building wheels for collected packages: sklearn
  Building wheel for sklearn (setup.py) ... [?25l[?25hdone
  Created wheel for sklearn: filename=sklearn-0.0-py2.py3-none-any.whl size=1310 sha256=c5b5495bbb1051d83fb40a75e549523156b456761d68db684aadd7cad0eb726b
  Stored in directory: /root/.cache/pip/wheels/46/ef/c3/157e41f5ee1372d1be90b09f74f82b10e391eaacca8f22d33e
Successfully built sklearn
Installing collected packages: sklearn
Successfully installed sklearn-0.0


Persiapan

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import statistics as st
import numpy as np
from math import log2

## Data

In [None]:
data2 ='https://gist.githubusercontent.com/netj/8836201/raw/6f9306ad21398ea43cba4f7d537619d0e07d5ae3/iris.csv'

In [None]:
df2 = pd.read_csv(data2)
Qcutdf2 = pd.read_csv(data2)

In [None]:
df2

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


mengambil data variety

In [None]:
dfvariety = pd.DataFrame(df2["variety"])

### Equal Width


membuang kolom variety

In [None]:
dfEWWhitOut = df2.drop(columns=['variety'])

membuat kategori untuk setiap data iris

In [None]:
from sklearn.preprocessing import KBinsDiscretizer
est = KBinsDiscretizer(n_bins=3, encode="ordinal", strategy="uniform",)
Xt = est.fit_transform(dfEWWhitOut)
dfEWWhitOutVariety = pd.DataFrame(Xt, columns=["S-sepal.length",	"S-sepal.width",	"S-petal.length",	"S-petal.width"])
dfEWWhitOutVariety["S-sepal.length"] = np.where(dfEWWhitOutVariety["S-sepal.length"] == 0.0, "Sempit", np.where(dfEWWhitOutVariety["S-sepal.length"] == 1.0, "Sedang", "Lebar"))
dfEWWhitOutVariety["S-sepal.width"] = np.where(dfEWWhitOutVariety["S-sepal.width"] == 0.0, "Sempit", np.where(dfEWWhitOutVariety["S-sepal.width"] == 1.0, "Sedang", "Lebar"))
dfEWWhitOutVariety["S-petal.length"] = np.where(dfEWWhitOutVariety["S-petal.length"] == 0.0, "Sempit", np.where(dfEWWhitOutVariety["S-petal.length"] == 1.0, "Sedang", "Lebar"))
dfEWWhitOutVariety["S-petal.width"] = np.where(dfEWWhitOutVariety["S-petal.width"] == 0.0, "Sempit", np.where(dfEWWhitOutVariety["S-petal.width"] == 1.0, "Sedang", "Lebar"))
dfEWWhitOutVariety

Unnamed: 0,S-sepal.length,S-sepal.width,S-petal.length,S-petal.width
0,Sempit,Sedang,Sempit,Sempit
1,Sempit,Sedang,Sempit,Sempit
2,Sempit,Sedang,Sempit,Sempit
3,Sempit,Sedang,Sempit,Sempit
4,Sempit,Lebar,Sempit,Sempit
...,...,...,...,...
145,Lebar,Sedang,Lebar,Lebar
146,Sedang,Sempit,Lebar,Lebar
147,Sedang,Sedang,Lebar,Lebar
148,Sedang,Sedang,Lebar,Lebar


menggabungkan data iris, kategori dan variety

In [None]:
dfEW = pd.concat([dfEWWhitOut, dfEWWhitOutVariety,dfvariety],axis=1)
dfEW

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,S-sepal.length,S-sepal.width,S-petal.length,S-petal.width,variety
0,5.1,3.5,1.4,0.2,Sempit,Sedang,Sempit,Sempit,Setosa
1,4.9,3.0,1.4,0.2,Sempit,Sedang,Sempit,Sempit,Setosa
2,4.7,3.2,1.3,0.2,Sempit,Sedang,Sempit,Sempit,Setosa
3,4.6,3.1,1.5,0.2,Sempit,Sedang,Sempit,Sempit,Setosa
4,5.0,3.6,1.4,0.2,Sempit,Lebar,Sempit,Sempit,Setosa
...,...,...,...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Lebar,Sedang,Lebar,Lebar,Virginica
146,6.3,2.5,5.0,1.9,Sedang,Sempit,Lebar,Lebar,Virginica
147,6.5,3.0,5.2,2.0,Sedang,Sedang,Lebar,Lebar,Virginica
148,6.2,3.4,5.4,2.3,Sedang,Sedang,Lebar,Lebar,Virginica


### Equal Frequency

In [None]:
dfEFWhitOut = df2.drop(columns=['variety'])

In [None]:
from sklearn.preprocessing import KBinsDiscretizer
est = KBinsDiscretizer(n_bins=3, encode="ordinal", strategy="quantile",)
Xt = est.fit_transform(dfEFWhitOut)
dfEFWhitOutVariety = pd.DataFrame(Xt, columns=["S-sepal.length",	"S-sepal.width",	"S-petal.length",	"S-petal.width"])
dfEFWhitOutVariety["S-sepal.length"] = np.where(dfEFWhitOutVariety["S-sepal.length"] == 0.0, "Sempit", np.where(dfEFWhitOutVariety["S-sepal.length"] == 1.0, "Sedang", "Lebar"))
dfEFWhitOutVariety["S-sepal.width"] = np.where(dfEFWhitOutVariety["S-sepal.width"] == 0.0, "Sempit", np.where(dfEFWhitOutVariety["S-sepal.width"] == 1.0, "Sedang", "Lebar"))
dfEFWhitOutVariety["S-petal.length"] = np.where(dfEFWhitOutVariety["S-petal.length"] == 0.0, "Sempit", np.where(dfEFWhitOutVariety["S-petal.length"] == 1.0, "Sedang", "Lebar"))
dfEFWhitOutVariety["S-petal.width"] = np.where(dfEFWhitOutVariety["S-petal.width"] == 0.0, "Sempit", np.where(dfEFWhitOutVariety["S-petal.width"] == 1.0, "Sedang", "Lebar"))
dfEFWhitOutVariety

Unnamed: 0,S-sepal.length,S-sepal.width,S-petal.length,S-petal.width
0,Sempit,Lebar,Sempit,Sempit
1,Sempit,Sedang,Sempit,Sempit
2,Sempit,Lebar,Sempit,Sempit
3,Sempit,Sedang,Sempit,Sempit
4,Sempit,Lebar,Sempit,Sempit
...,...,...,...,...
145,Lebar,Sedang,Lebar,Lebar
146,Lebar,Sempit,Lebar,Lebar
147,Lebar,Sedang,Lebar,Lebar
148,Sedang,Lebar,Lebar,Lebar


In [None]:
dfEF = pd.concat([dfEFWhitOut, dfEFWhitOutVariety,dfvariety],axis=1)
dfEF

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,S-sepal.length,S-sepal.width,S-petal.length,S-petal.width,variety
0,5.1,3.5,1.4,0.2,Sempit,Lebar,Sempit,Sempit,Setosa
1,4.9,3.0,1.4,0.2,Sempit,Sedang,Sempit,Sempit,Setosa
2,4.7,3.2,1.3,0.2,Sempit,Lebar,Sempit,Sempit,Setosa
3,4.6,3.1,1.5,0.2,Sempit,Sedang,Sempit,Sempit,Setosa
4,5.0,3.6,1.4,0.2,Sempit,Lebar,Sempit,Sempit,Setosa
...,...,...,...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Lebar,Sedang,Lebar,Lebar,Virginica
146,6.3,2.5,5.0,1.9,Lebar,Sempit,Lebar,Lebar,Virginica
147,6.5,3.0,5.2,2.0,Lebar,Sedang,Lebar,Lebar,Virginica
148,6.2,3.4,5.4,2.3,Sedang,Lebar,Lebar,Lebar,Virginica


## Entropy gain

mennyiapkan data yang akan dicari entropy gainnya

In [None]:
sample = dfEW[['sepal.length', 'S-sepal.length']]
sample

Unnamed: 0,sepal.length,S-sepal.length
0,5.1,Sempit
1,4.9,Sempit
2,4.7,Sempit
3,4.6,Sempit
4,5.0,Sempit
...,...,...
145,6.7,Lebar
146,6.3,Sedang
147,6.5,Sedang
148,6.2,Sedang


fungsi menghitung banyaknya data berdasarkan kategori

In [None]:
def overalCategory(sample, labels, col, category):
  group = sample.groupby(category).count()
  return [group.loc[label, col] for label in labels if label in group.index]

fungsi yang digunakan untuk proses D

In [None]:
def split(nilai, sample, labels, col, category):
  less_group = sample[sample[col] < nilai]
  greater_group = sample[sample[col] >= nilai]

  length_less_group = overalCategory(less_group, labels, col, category)
  length_greater_group = overalCategory(greater_group, labels, col, category)

  return (length_less_group, length_greater_group)

menghitung nilai entropy

In [None]:
def entropy(d):
  return -(sum([i/sum(d) * log2(i/sum(d)) if i/sum(d) != 0 else 0 for i in d]))

menghitung nilai info

In [None]:
def info(d, sample):
  return sum([(sum(i) / sample.shape[0]) * entropy(i) for i in d])

fungsi menghitung nilai gain

In [None]:
def gain(inisial, new):
  return inisial - new

menghitung nilai semua entropy

In [None]:
labels =['Sempit', 'Sedang', 'Lebar']

In [None]:
d = overalCategory(sample, labels, 'sepal.length', 'S-sepal.length')
Einisial = entropy(d)
Einisial

1.494961261515232

mencari nilai 4.5

In [None]:
az = split(4.5, sample, labels, 'sepal.length', 'S-sepal.length')
Enew1 = info(az, sample)
gain(Einisial, Enew1)

0.04175835112785564

mencari nilai 5.5

In [None]:
az = split(5.5, sample, labels, 'sepal.length', 'S-sepal.length')
Enew2 = info(az, sample)
gain(Einisial, Enew2)

0.931055823385033

mencari nilai 6.5

In [None]:
az = split(6.5, sample, labels, 'sepal.length', 'S-sepal.length')
Enew2 = info(az, sample)
gain(Einisial, Enew2)

0.5649123371430365