# Deskritisasi

## Apa itu Deskritisasi
<p align="justify">
Deskritisasi merupakan transformasi kolom menjadi type data lain. Tujuannya untuk membuat data menjadi lebih optimal yang nantinya memudahkan untuk dianalisis.
</p>

## Proses Diskritisasi Data
<p align="justify">
Proses diskritisasi data yaitu proses perubahan data dari data yang berbentuk numerik menjadi data yang berbentuk kategorik. Tugas diskritisasi yaitu membagi rentang nilai X menjadi k interval yang berurutan disebut juga bins.
</p>

### Equal Width Binning 
<p align="justify">
Pendekatan binning yang paling sederhana yaitu membagi rentang X menjadi k interval yang sama lebar. Lebar interval yaitu rentang X dibagi dengan k

$$
\begin{align*}
\displaystyle \text{w} &= \frac{x_{max}-x_{min}}{k}
\end{align*}
$$

Batas interval ke-i diberikan sebagai berikut:

$$
\begin{align*}
\displaystyle v_{i} &= x_{min} + iw \\
i &= 1,2,3, ... k-1 
\end{align*}
$$

#### Contoh:
```
Input: [5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215]

Output:
[5, 10, 11, 13, 15, 35, 50, 55, 72]
[92]
[204, 215]

```
</p>

### Equal Frequency Binning
<p align="justify">
Equal Frequency Binning merupakan bind atau k yang memiliki frekuensi yang sama

#### Contoh:
```
Input:[5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215] 

Output:
[5, 10, 11, 13]
[15, 35, 50, 55]
[72, 92, 204, 215]

```
</p>

### Entropy
<p align="justify">
Entropi merupakan distribusi probabilitas dalam teori informasi dan diadopsi kedalam Algoritme C4.5 untuk mengukur tingkat homogenitas distribusi kelas dari sebuah himpunan data (dataset). Sebagai ilustrasi, semakin tinggi tingkat entropi dari sebuah dataset maka semakin homogen distribusi kelas pada dataset tersebut. Persamaan untuk menghitung entropi pada pohon keputusan C4.5 ditunjukan pada Persamaan 1 (Raditya, 2009):
</p>

$$
\begin{align*}
\displaystyle Entropy(S) &= \sum_{i=0}^{k} -phi \ log_{2} \ phi \\
Keterangan &: \\
S &= Himpunan \ dataset  \\
k &= Banyaknya \ partisi \ S \\
phi &= Proporsi \ S_{i} \ terhadap \ S
\end{align*}
$$


### Gain
<p align="justify">
Setelah membagi dataset berdasarkan sebuah atribut kedalam subset yang lebih kecil, entropi dari data tersebut akan berubah. Perubahan entropi ini dapat digunakan untuk menentukan bagus tidaknya pembagian data yang telah dilakukan. Perubahan entropi ini disebut dengan information gain dalam Algoritme C4.5. Information gain ini diukur dengan menghitung selisih antara entropi dataset sebelum dan sesudah pembagian (splitting) dilakukan. Pembagian yang terbaik
akan menghasilkan entropi subset yang paling kecil, dengan demikian berdampak pada information gain yang terbesar. Persamaan untuk menghitung nilai Gain pada pohon keputusan ditujukan pada Persamaan 2 (Raditya, 2009):
</p>

$$
\begin{align*}
\displaystyle 𝐺𝑎𝑖𝑛(𝐴) &= 𝐸𝑛𝑡𝑟𝑜𝑝𝑖(𝑆) − \sum_{i=1}^{k}\frac{\left| S \right|}{\left| S_{i} \right|} * 𝐸𝑛𝑡𝑟𝑜𝑝𝑖(𝑆_{i}) \\
Keterangan &: \\
𝑆 &: himpunan \ kasus \\
𝐴 &: atribut \\
k &: jumlah \ partisi \ atribut \ A \\
|𝑆𝑖| &: jumlah \ kasus \ pada \ partisi \ ke-i \\
|𝑆| &: jumlah \ kasus \ dalam \ S 
\end{align*}
$$



## Implementasi

### Persiapan
<p align="justify">
Sipakan dataset yang akan digunakan, setelah menemukan dataset yang berupa numeric dan dataset termasuk data klasifikasi.
</p>

In [None]:
import pandas as pd
import numpy as np
from math import log2

Untuk data uji keseleruhan atau keseluruhan dataset

In [None]:
# Membaca dataset dari uci dengan url menggunakan pandas
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
header  = ['sepal.length', 'sepal.width', 'petal.length', 'petal.width', 'class']
df = pd.read_csv(url, names=header )
df1 = df.copy()

Untuk data uji ini merupakan data yang digunakan dengan hitungan manual di excel, untuk excelnya klik [disini](https://docs.google.com/spreadsheets/d/10NATak3UPUtEY2n9G2JN73CXT9tcuM3asbeegoDEvS8/edit?usp=sharing)

untuk melihat kesesuain hitungan manual dengan kodingan ini untuk sel code dibawah ini jangan di komentari

In [None]:
# a = df.head(10)
# df = a.append(df.tail(10))
# df
# df1 = df.copy()

Memberikan label pada catagori, untuk permasalahan ini menggunakan k = 3 

dengan label :
``` 
labels = ['Sedikit Lebar', 'Lebar', 'Sangat Lebar']
```

In [None]:
labels =['Sedikit Lebar', 'Lebar', 'Sangat Lebar']

Untuk mencari equal width binning menggunakan librari pandas dengan metode atau fungsi cut

In [None]:
df['S-sepal.length'] = pd.cut(df['sepal.length'], 3, labels=labels)
df['S-sepal.width'] = pd.cut(df['sepal.width'], 3, labels=labels)
df['S-petal.length'] = pd.cut(df['petal.length'], 3, labels=labels)
df['S-petal.width'] = pd.cut(df['petal.width'], 3, labels=labels)
df

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,class,S-sepal.length,S-sepal.width,S-petal.length,S-petal.width
0,5.1,3.5,1.4,0.2,Iris-setosa,Sedikit Lebar,Lebar,Sedikit Lebar,Sedikit Lebar
1,4.9,3.0,1.4,0.2,Iris-setosa,Sedikit Lebar,Lebar,Sedikit Lebar,Sedikit Lebar
2,4.7,3.2,1.3,0.2,Iris-setosa,Sedikit Lebar,Lebar,Sedikit Lebar,Sedikit Lebar
3,4.6,3.1,1.5,0.2,Iris-setosa,Sedikit Lebar,Lebar,Sedikit Lebar,Sedikit Lebar
4,5.0,3.6,1.4,0.2,Iris-setosa,Sedikit Lebar,Lebar,Sedikit Lebar,Sedikit Lebar
...,...,...,...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica,Lebar,Lebar,Sangat Lebar,Sangat Lebar
146,6.3,2.5,5.0,1.9,Iris-virginica,Lebar,Sedikit Lebar,Sangat Lebar,Sangat Lebar
147,6.5,3.0,5.2,2.0,Iris-virginica,Lebar,Lebar,Sangat Lebar,Sangat Lebar
148,6.2,3.4,5.4,2.3,Iris-virginica,Lebar,Lebar,Sangat Lebar,Sangat Lebar


Untuk mencari equal frekuensi binning menggunakan librari pandas dengan metode atau fungsi qcut



In [None]:
df1['S-sepal.length'] = pd.qcut(df['sepal.length'], 3, labels=labels)
df1['S-sepal.width'] = pd.qcut(df['sepal.width'], 3, labels=labels)
df1['S-petal.length'] = pd.qcut(df['petal.length'], 3, labels=labels)
df1['S-petal.width'] = pd.qcut(df['petal.width'], 3, labels=labels)
df1

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,class,S-sepal.length,S-sepal.width,S-petal.length,S-petal.width
0,5.1,3.5,1.4,0.2,Iris-setosa,Sedikit Lebar,Sangat Lebar,Sedikit Lebar,Sedikit Lebar
1,4.9,3.0,1.4,0.2,Iris-setosa,Sedikit Lebar,Lebar,Sedikit Lebar,Sedikit Lebar
2,4.7,3.2,1.3,0.2,Iris-setosa,Sedikit Lebar,Lebar,Sedikit Lebar,Sedikit Lebar
3,4.6,3.1,1.5,0.2,Iris-setosa,Sedikit Lebar,Lebar,Sedikit Lebar,Sedikit Lebar
4,5.0,3.6,1.4,0.2,Iris-setosa,Sedikit Lebar,Sangat Lebar,Sedikit Lebar,Sedikit Lebar
...,...,...,...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica,Sangat Lebar,Lebar,Sangat Lebar,Sangat Lebar
146,6.3,2.5,5.0,1.9,Iris-virginica,Lebar,Sedikit Lebar,Sangat Lebar,Sangat Lebar
147,6.5,3.0,5.2,2.0,Iris-virginica,Sangat Lebar,Lebar,Sangat Lebar,Sangat Lebar
148,6.2,3.4,5.4,2.3,Iris-virginica,Lebar,Sangat Lebar,Sangat Lebar,Sangat Lebar


### Entropy dan Gain

menyiapkan data yang akan dicari entropynya dan gainnya

In [None]:
sample = df[['sepal.length', 'S-sepal.length']]

In [None]:
sample

Unnamed: 0,sepal.length,S-sepal.length
0,5.1,Sedikit Lebar
1,4.9,Sedikit Lebar
2,4.7,Sedikit Lebar
3,4.6,Sedikit Lebar
4,5.0,Sedikit Lebar
...,...,...
145,6.7,Lebar
146,6.3,Lebar
147,6.5,Lebar
148,6.2,Lebar


fungsi yang digunakan untuk menghitung banyaknya data berdasarkan kategori

In [None]:
def overalCategory(sample, labels, col, category):
  group = sample.groupby(category).count()
  return [group.loc[label, col] for label in labels]

fungsi yang digunakan untuk proses info D

In [None]:
def split(nilai, sample, labels, col, category):
  less_group = sample[sample[col] < nilai]
  greater_group = sample[sample[col] >= nilai]

  length_less_group = overalCategory(less_group, labels, col, category)
  length_greater_group = overalCategory(greater_group, labels, col, category)

  return (length_less_group, length_greater_group)

fungsi untuk menghitung nilai entropy

In [None]:
def entropy(d):
  return -(sum([i/sum(d) * log2(i/sum(d)) if i/sum(d) != 0 else 0 for i in d]))

fungsi untuk menghitung nilai info

In [None]:
def info(d, sample):
  return sum([(sum(i) / sample.shape[0]) * entropy(i) for i in d])

fungsi untuk menghitung nilai gain

In [None]:
def gain(inisial, new):
  return inisial - new

Menghitung nilai entropy overall

In [None]:
d = overalCategory(sample, labels, 'sepal.length', 'S-sepal.length')
Einisial = entropy(d)
Einisial

1.4278417085296922

Untuk mencari split 4.5

In [None]:
az = split(4.5, sample, labels, 'sepal.length', 'S-sepal.length')
Enew1 = info(az, sample)
gain(Einisial, Enew1)

0.03671508206271512

Untuk mencari split 5.5

In [None]:
az = split(5.5, sample, labels, 'sepal.length', 'S-sepal.length')
Enew2 = info(az, sample)
gain(Einisial, Enew2)

0.7243785559543089

Untuk mencari split 6.5

In [None]:
az = split(6.5, sample, labels, 'sepal.length', 'S-sepal.length')
Enew3 = info(az, sample)
gain(Einisial, Enew3)

0.43166487471484216

### Kesimpulan

Semakin kecil nilai Gain terhadap nilai Einisial dan Enew, maka semakin baik akurasinya