# Diskritisasi

Diskretisasi adalah proses mengganti kontinum dengan set poin yang terbatas. Dalam konteks komputasi digital, diskritisasi terjadi ketika sinyal waktu kontinu, seperti audio atau video, direduksi menjadi sinyal diskrit. Proses diskritisasi merupakan bagian integral dari konversi analog ke digital. Diskretisasi terkait dengan istilah kuantisasi.

1. Carilah data yang bertipe numerik ( data klassifikasi)

2. Lakukan proses diskritisasi dengan equal width dan equal frequency

3. Lakukan proses diskritisasi dengan basis entropy

4. Kumpulkan tugas dengan link github ( web statis dari jupyter book)

## Data yang digunakan

*   Dataset [Iris](https://gist.githubusercontent.com/netj/8836201/raw/6f9306ad21398ea43cba4f7d537619d0e07d5ae3/iris.csv)

*   Excel [Hitung Manual Diskritisasi](https://docs.google.com/spreadsheets/d/13jVB5l8kF17RitHJ4KQ1eqmQlSCSyoDz/edit?usp=sharing&ouid=112136363283441156113&rtpof=true&sd=true)

## Mencari Data yang bertipe numerik ( data klassifikasi)

In [None]:
# mengimpor paket pandas kemudian diberi nama alias pd
import pandas as pd
# mengimpor paket numpy kemudian diberi nama alias np
import numpy as np
# modul untuk menghitung logaritma
from math import log2
#import modul KBinsDiscretizer dari skicit learn
from sklearn.preprocessing import KBinsDiscretizer

In [None]:
# membaca dataset csv dari url
url = 'https://gist.githubusercontent.com/netj/8836201/raw/6f9306ad21398ea43cba4f7d537619d0e07d5ae3/iris.csv'
data = pd.read_csv(url)

In [None]:
#Melihat data
data

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


Attribute Information:

1. sepal length in cm
2. sepal width in cm
3. petal length in cm
4. petal width in cm
5. class:
    
    - Iris Setosa
    
    - Iris Versicolour
    
    - Iris Virginica

## Proses diskritisasi dengan equal width dan equal frequency

### Discretization

Apa itu Discretization?
Discretization atau binning digunakan untuk mengubah atribut numerik menjadi atribut kategorikal. Perubahan tersebut dilakukan dengan mengkategorikan atribut numerik menjadi beberapa tingkatan atribut kategorikal. Sebagai contoh, apabila terdapat data numerik dengan data berikut:

$$ 2, 4, 10, 17, 5, 23, 11, 48, 35, 56, 20$$

Maka, dengan discretization, data tersebut dapat dikategorikan menjadi dua kelompok:

$$Kelompok\ 1 (Dibawah\ 25): 2, 4, 5,10, 11, 17, 20, 23$$

$$Kelompok\ 2 (Diatas\ 25): 35, 48, 56$$

Mengubah data numerik menjadi kategorikal memungkinkan data tersebut untuk dianalisis dengan menggunakan analisis kategorikal. Sehingga, informasi baru bisa didapatkan dari data tersebut.

Dalam implementasinya, Discretization memiliki dua pendekatan, equal-width intervals dan equal-frequency intervals.

#### Library Scikit Learn dengan modul KBinsDiscritizer

Digunakan untuk melakukkan *binning* data dengan pendekatan *equal width* dan *equal frequency*



```
#Syntax
KBinsDiscretizer(n_bins = amount_of_binning, encode, strategy)
```
*   Parameter
*   *n_bins* adalah jumlah banyaknya kategori yang digunakan
*   *encode* adalah jenis tipe data dari hasil *output*, gunakan *value = "encode"* sehingga data keluaran bertipe integer
*   *strategy* digunakan untuk menentukan jangka interval antara data
*   *strategy = "uniform"* digunakan untuk pendekatan *equal width*
*   *strategy = "quantile"* digunakan untuk pendekatan *equal frequency*

### Equal-width Intervals

Equal-width Intervals adalah discretization yang membagi data numerik menjadi beberapa kelompok dengan lebar kelompok yang kurang lebih sama besar.

##### Equal Width

* ***strategy = "uniform"* digunakan untuk pendekatan *equal width***
* Equal Width Intervals Data bunga Iris


In [None]:
# Kolom Data

# Mengambil data variety saja
HanyaVariety = pd.DataFrame(data["variety"])

#Menghapus category variety dari data
data_iris = data.drop(columns="variety")

In [None]:
# interval equal-width
# ew = equal-width

# label kategori
label = ["Sedikit Lebar", "Lebar", "Sangat Lebar"]
#untuk menghitung jumlah kategori
jumlahkategori = len(label)

#untuk diskritisasi
est_ew = KBinsDiscretizer(n_bins=jumlahkategori, encode="ordinal", strategy="uniform")

In [None]:
# sesuaikan nilai hasil diskritisasi berdasarkan kelas
Xt_ew = est_ew.fit_transform(data_iris)
# membuat dataframe dengan data hasil diskritisasi
df_ew= pd.DataFrame(Xt_ew, columns=["sepal.length",	"sepal.width",	"petal.length",	"petal.width"])
df_ew

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width
0,0.0,1.0,0.0,0.0
1,0.0,1.0,0.0,0.0
2,0.0,1.0,0.0,0.0
3,0.0,1.0,0.0,0.0
4,0.0,2.0,0.0,0.0
...,...,...,...,...
145,2.0,1.0,2.0,2.0
146,1.0,0.0,2.0,2.0
147,1.0,1.0,2.0,2.0
148,1.0,1.0,2.0,2.0



```
# pseudocode
if value == 0.0 then sedikit lebar
if value == 1.0 then lebar
else sangat lebar
```




In [None]:
# sesuaikan nilai hasil diskritisasi berdasarkan kelas
Xt_ew = est_ew.fit_transform(data_iris)
# membuat dataframe dengan data hasil diskritisasi
df1 = pd.DataFrame(Xt_ew, columns=["sepal.length",	"sepal.width",	"petal.length",	"petal.width"])
df1["sepal.length"] = np.where(df1["sepal.length"] == 0.0, "Sedikit Lebar", np.where(df1["sepal.length"] == 1.0, "Lebar", "Sangat Lebar"))
df1["sepal.width"] = np.where(df1["sepal.width"] == 0.0, "Sedikit Lebar", np.where(df1["sepal.width"] == 1.0, "Lebar", "Sangat Lebar"))
df1["petal.length"] = np.where(df1["petal.length"] == 0.0, "Sedikit Lebar", np.where(df1["petal.length"] == 1.0, "Lebar", "Sangat Lebar"))
df1["petal.width"] = np.where(df1["petal.width"] == 0.0, "Sedikit Lebar", np.where(df1["petal.width"] == 1.0, "Lebar", "Sangat Lebar"))
#menggabungkan data yang telah di diskritisasi dengan data variety
df1 = pd.concat((df1, HanyaVariety), axis = 1)
df1

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,Sedikit Lebar,Lebar,Sedikit Lebar,Sedikit Lebar,Setosa
1,Sedikit Lebar,Lebar,Sedikit Lebar,Sedikit Lebar,Setosa
2,Sedikit Lebar,Lebar,Sedikit Lebar,Sedikit Lebar,Setosa
3,Sedikit Lebar,Lebar,Sedikit Lebar,Sedikit Lebar,Setosa
4,Sedikit Lebar,Sangat Lebar,Sedikit Lebar,Sedikit Lebar,Setosa
...,...,...,...,...,...
145,Sangat Lebar,Lebar,Sangat Lebar,Sangat Lebar,Virginica
146,Lebar,Sedikit Lebar,Sangat Lebar,Sangat Lebar,Virginica
147,Lebar,Lebar,Sangat Lebar,Sangat Lebar,Virginica
148,Lebar,Lebar,Sangat Lebar,Sangat Lebar,Virginica


In [None]:
df1["sepal.length"].value_counts()

Lebar            70
Sedikit Lebar    52
Sangat Lebar     28
Name: sepal.length, dtype: int64

In [None]:
df1["sepal.width"].value_counts()

Lebar            98
Sedikit Lebar    33
Sangat Lebar     19
Name: sepal.width, dtype: int64

In [None]:
df1["petal.length"].value_counts()

Lebar            54
Sedikit Lebar    50
Sangat Lebar     46
Name: petal.length, dtype: int64

In [None]:
df1["petal.width"].value_counts()

Lebar            52
Sedikit Lebar    50
Sangat Lebar     48
Name: petal.width, dtype: int64

In [None]:
df1["variety"].value_counts()

Setosa        50
Versicolor    50
Virginica     50
Name: variety, dtype: int64

### Equal-frequency Intervals
Equal-frequency intervals adalah discretization yang membagi data numerik menjadi beberapa kelompok dengan jumlah anggota yang kurang lebih sama besar.

##### Equal Frequency

* ***strategy = "quantile"* digunakan untuk pendekatan *equal width***
* Equal Frequency Intervals Data bunga Iris

In [None]:
#untuk diskritisasi
est_ef = KBinsDiscretizer(n_bins=jumlahkategori, encode="ordinal", strategy="quantile")

In [None]:
# sesuaikan nilai hasil diskritisasi berdasarkan kelas
Xt = est_ef.fit_transform(data_iris)
# membuat dataframe dengan data hasil diskritisasi
df_ef = pd.DataFrame(Xt, columns=["sepal.length",	"sepal.width",	"petal.length",	"petal.width"])
df_ef

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width
0,0.0,2.0,0.0,0.0
1,0.0,1.0,0.0,0.0
2,0.0,2.0,0.0,0.0
3,0.0,1.0,0.0,0.0
4,0.0,2.0,0.0,0.0
...,...,...,...,...
145,2.0,1.0,2.0,2.0
146,2.0,0.0,2.0,2.0
147,2.0,1.0,2.0,2.0
148,1.0,2.0,2.0,2.0


In [None]:
# sesuaikan nilai hasil diskritisasi berdasarkan kelas
Xt_ef = est_ef.fit_transform(data_iris)
# membuat dataframe dengan data hasil diskritisasi
df2 = pd.DataFrame(Xt_ef, columns=["sepal.length",	"sepal.width",	"petal.length",	"petal.width"])
df2["sepal.length"] = np.where(df2["sepal.length"] == 0.0, "Sedikit Lebar", np.where(df2["sepal.length"] == 1.0, "Lebar", "Sangat Lebar"))
df2["sepal.width"] = np.where(df2["sepal.width"] == 0.0, "Sedikit Lebar", np.where(df2["sepal.width"] == 1.0, "Lebar", "Sangat Lebar"))
df2["petal.length"] = np.where(df2["petal.length"] == 0.0, "Sedikit Lebar", np.where(df2["petal.length"] == 1.0, "Lebar", "Sangat Lebar"))
df2["petal.width"] = np.where(df2["petal.width"] == 0.0, "Sedikit Lebar", np.where(df2["petal.width"] == 1.0, "Lebar", "Sangat Lebar"))
#menggabungkan data yang telah di diskritisasi dengan data variety
df2 = pd.concat((df2, HanyaVariety), axis = 1)
df2

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,Sedikit Lebar,Sangat Lebar,Sedikit Lebar,Sedikit Lebar,Setosa
1,Sedikit Lebar,Lebar,Sedikit Lebar,Sedikit Lebar,Setosa
2,Sedikit Lebar,Sangat Lebar,Sedikit Lebar,Sedikit Lebar,Setosa
3,Sedikit Lebar,Lebar,Sedikit Lebar,Sedikit Lebar,Setosa
4,Sedikit Lebar,Sangat Lebar,Sedikit Lebar,Sedikit Lebar,Setosa
...,...,...,...,...,...
145,Sangat Lebar,Lebar,Sangat Lebar,Sangat Lebar,Virginica
146,Sangat Lebar,Sedikit Lebar,Sangat Lebar,Sangat Lebar,Virginica
147,Sangat Lebar,Lebar,Sangat Lebar,Sangat Lebar,Virginica
148,Lebar,Sangat Lebar,Sangat Lebar,Sangat Lebar,Virginica


In [None]:
df2["sepal.length"].value_counts()

Lebar            53
Sangat Lebar     51
Sedikit Lebar    46
Name: sepal.length, dtype: int64

### Definisi Entropy-based Binning

1.   Metode untuk mengelompokkan data *numeric* menjadi *categorical*
2.   Pengelompokkan dengan mencari jumlah pembagi yang terabaik
3.   Hasil pengelompokkan terbaik adalah dengan *entropy gain* yang paling besar


*  Rumus Entropy

$$
\begin{align*}
\displaystyle Entropy(S) &= \sum_{i=0}^{k} -pi \ log_{2} \ pi \\
\end{align*}
$$



In [None]:
#DataFrame yang akan digunakan
target_data = pd.concat((target,target1), axis = 1)
#Mengganti Nama Kolom dari dataframe target_data
target_data.columns = ["value_petal_width", "category_petal_width"]
target_data

Unnamed: 0,value_petal_width,category_petal_width
0,0.2,Sedikit Lebar
1,0.2,Sedikit Lebar
2,0.2,Sedikit Lebar
3,0.2,Sedikit Lebar
4,0.2,Sedikit Lebar
...,...,...
145,2.3,Sangat Lebar
146,1.9,Sangat Lebar
147,2.0,Sangat Lebar
148,2.3,Sangat Lebar


In [None]:
# Label Kategori
labels = ['Sedikit Lebar', 'Lebar', 'Sangat Lebar']

In [None]:
#fungsi yang digunakan untuk menghitung banyaknya data berdasarkan kategori
def hitung_setiap_kategori(target_data, labels, kolom, kategori):
  grup = target_data.groupby(kategori).count()
  jumlah_setiap_kategori = []
  for label in labels:
    if label not in grup.index:
      jumlah_setiap_kategori.append(0)
    else:
      jumlah_setiap_kategori.append(grup.loc[label, kolom])
  return jumlah_setiap_kategori

In [None]:
hitung_setiap_kategori(target_data, labels, target_data.columns[0], target_data.columns[1])

[50, 52, 48]

In [None]:
#fungsi yang digunakan untuk proses info D
def split(nilai,kolom_data, labels, kolom, kategori):
  less_group =kolom_data[kolom_data[kolom] < nilai]
  greater_group =kolom_data[kolom_data[kolom] >= nilai]

  length_less_group = hitung_setiap_kategori(less_group, labels, kolom, kategori)
  length_greater_group = hitung_setiap_kategori(greater_group, labels, kolom, kategori)

  return (length_less_group, length_greater_group)

In [None]:
#fungsi untuk menghitung nilai entropy
def entropy(target_data):
    all_prob = []
    for prob in target_data:
        if (prob/sum(target_data) != 0):
            all_prob.append(prob/sum(target_data) * log2(prob/sum(target_data)))
        else:
            all_prob.append(0)
    return -(sum(all_prob))

### Info

$$ Info_A(D) = \frac{|D_1|}{|D|} Entropy (D_1)\frac{|D_2|}{|D|}+ Entropy (D_2)$$

In [None]:
# fungsi untuk menghitung nilai info
def info(d, target_data):
    temp = []
    for value in d:
        temp.append((sum(value) / target_data.shape[0]) * entropy(value))
    return sum(temp)

In [None]:
# fungsi untuk menghitung nilai gain
def gain(inisial, new):
  return inisial - new

In [None]:
d = hitung_setiap_kategori(target_data, labels, target_data.columns[0], target_data.columns[1])
Einisial = entropy(d)
Einisial

1.5841928580512907

### Gain
<p align="justify">
Setelah membagi dataset berdasarkan sebuah atribut kedalam subset yang lebih kecil, entropi dari data tersebut akan berubah. Perubahan entropi ini dapat digunakan untuk menentukan bagus tidaknya pembagian data yang telah dilakukan. Perubahan entropi ini disebut dengan information gain dalam Algoritme C4.5. Information gain ini diukur dengan menghitung selisih antara entropi dataset sebelum dan sesudah pembagian (splitting) dilakukan. Pembagian yang terbaik
akan menghasilkan entropi subset yang paling kecil, dengan demikian berdampak pada information gain yang terbesar. Persamaan untuk menghitung nilai Gain pada pohon keputusan ditujukan pada Persamaan 2 (Raditya, 2009):
</p>

$$
\begin{align*}
\displaystyle 𝐺𝑎𝑖𝑛(𝐴) &= 𝐸𝑛𝑡𝑟𝑜𝑝𝑖(𝑆) − \sum_{i=1}^{k}\frac{\left| S \right|}{\left| S_{i} \right|} * 𝐸𝑛𝑡𝑟𝑜𝑝𝑖(𝑆_{i}) \\
Keterangan &: \\
𝑆 &: himpunan \ kasus \\
𝐴 &: atribut \\
k &: jumlah \ partisi \ atribut \ A \\
|𝑆𝑖| &: jumlah \ kasus \ pada \ partisi \ ke-i \\
|𝑆| &: jumlah \ kasus \ dalam \ S 
\end{align*}
$$

In [None]:
# Untuk mencari split 0.7
az = split(0.7, target_data, labels, target_data.columns[0], target_data.columns[1])
Enew1 = info(az, target_data)
gain(Einisial, Enew1)

0.9182958340544896

In [None]:
# Untuk mencari split 1.4
az = split(1.4, target_data, labels, target_data.columns[0], target_data.columns[1])
Enew2 = info(az, target_data)
gain(Einisial, Enew2)

0.6536600192724277

In [None]:
# Untuk mencari split 2.1
az = split(2.1, target_data, labels, target_data.columns[0], target_data.columns[1])
Enew3 = info(az, target_data)
gain(Einisial, Enew3)

0.2985203537604644