# **DISKRITISASI**

**Diskritisasi** adalah proses mengubah variabel numerik menjadi data kategorikal. Istilah lain yang digunakan bergantian dengan istilah diskretisasi adalah binning dan kategorisasi.

In [62]:
#Import library yang diperlukan
import pandas as pd
import numpy as np
from math import log2

In [63]:
#membaca data awal
url="https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
header=['sepal_length', 'sepal_width', 'petal_length', 'petal_width','class']
data = pd.read_csv(url, names=header)

In [64]:
data

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [65]:
#melihat informasi dari data
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   class         150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [66]:
# Inisialisasi kolom dari data
panjang_sepal = data["sepal_length"]
lebar_sepal = data["sepal_width"]
panjang_petal = data["petal_length"]
lebar_petal = data["petal_width"]

Dalam Implementasinya diskritisasi memiliki dua pendekatan, yakni *equal-width intervals* dan *equal-frequency intervals* .

## **Equal-Width Intervals**

### **Sepal Width**

Equal Width Intervals lebar kelopak bunga iris dikelompokkan menjadi 3 kategori, yaitu 'sedikit lebar', 'lebar', 'sangat lebar'.

In [67]:
# interval equal-width
# ew = equal-width

# label untuk kategori
kategori = ["Sedikit Lebar", "Lebar", "Sangat Lebar"]
# Untuk menghitung banyaknya kategori
jumlah_kategori = len(kategori)

# untuk menghitung interval equal-width
data_lebarsepal_ew = pd.cut(lebar_sepal, jumlah_kategori, True, kategori)
jumlahdata_kategori_lebarsepal_ew = data_lebarsepal_ew.value_counts()
jumlahdata_interval_lebarsepal_ew = pd.cut(lebar_sepal, jumlah_kategori, True).value_counts()

In [68]:
# dataframe dari sepal_width beserta kategorinya
# fungsi dari concat adalah untuk menggabungkan beberapa kolom
df_lebarsepal_ew=pd.DataFrame(pd.concat((lebar_sepal, data_lebarsepal_ew), axis = 1))

In [69]:
df_lebarsepal_ew.columns = ["sepal_width", "category"]
df_lebarsepal_ew

Unnamed: 0,sepal_width,category
0,3.5,Lebar
1,3.0,Lebar
2,3.2,Lebar
3,3.1,Lebar
4,3.6,Lebar
...,...,...
145,3.0,Lebar
146,2.5,Sedikit Lebar
147,3.0,Lebar
148,3.4,Lebar


In [70]:
#jumlah data sepal_width berdasarkan kategori
jumlahdata_kategori_lebarsepal_ew

Lebar            88
Sedikit Lebar    47
Sangat Lebar     15
Name: sepal_width, dtype: int64

In [71]:
#jumlah data sepal_width berdasarkan interval
jumlahdata_interval_lebarsepal_ew

(2.8, 3.6]      88
(1.998, 2.8]    47
(3.6, 4.4]      15
Name: sepal_width, dtype: int64

### **Petal Width**

In [72]:
# interval equal-width
# ew = equal-width

# label untuk kategori
kategori = ["Sedikit Lebar", "Lebar", "Sangat Lebar"]
# Untuk menghitung banyaknya kategori 
jumlah_kategori = len(kategori)

# untuk menghitung interval equal-width
data_lebarpetal_ew = pd.cut(lebar_petal, jumlah_kategori, True, kategori)
jumlahdata_kategori_lebarpetal_ew = data_lebarpetal_ew.value_counts()
jumlahdata_interval_lebarpetal_ew = pd.cut(lebar_petal, jumlah_kategori, True).value_counts()

In [73]:
# dataframe dari petal_widht beserta kategorinya
# concat untuk menggabungkan beberapa kolom
df_lebarpetal_ew=pd.DataFrame(pd.concat((lebar_petal, data_lebarpetal_ew), axis = 1))

In [74]:
df_lebarpetal_ew.columns = ["petal_width", "category"]
df_lebarpetal_ew

Unnamed: 0,petal_width,category
0,0.2,Sedikit Lebar
1,0.2,Sedikit Lebar
2,0.2,Sedikit Lebar
3,0.2,Sedikit Lebar
4,0.2,Sedikit Lebar
...,...,...
145,2.3,Sangat Lebar
146,1.9,Sangat Lebar
147,2.0,Sangat Lebar
148,2.3,Sangat Lebar


In [75]:
#jumlah data petal_width berdasarkan kategori
jumlahdata_kategori_lebarpetal_ew

Lebar            54
Sedikit Lebar    50
Sangat Lebar     46
Name: petal_width, dtype: int64

In [76]:
#jumlah data petal_width berdasarkan interval
jumlahdata_interval_lebarpetal_ew

(0.9, 1.7]       54
(0.0976, 0.9]    50
(1.7, 2.5]       46
Name: petal_width, dtype: int64

### **Sepal Length**

In [77]:
# interval equal-width
# ew = equal-width

# label untuk kategori
kategori = ["Sedikit Lebar", "Lebar", "Sangat Lebar"]
# Untuk menghitung banyaknya kategori 
jumlah_kategori = len(kategori)

# untuk menghitung interval equal-width
data_panjangsepal_ew = pd.cut(panjang_sepal, jumlah_kategori, True, kategori)
jumlahdata_kategori_panjangsepal_ew = data_panjangsepal_ew.value_counts()
jumlahdata_interval_panjangsepal_ew = pd.cut(panjang_sepal, jumlah_kategori, True).value_counts()

In [78]:
# dataframe dari sepal_length beserta kategorinya
# fungsi dari concat adalah untuk menggabungkan beberapa kolom
df_panjangsepal_ew=pd.DataFrame(pd.concat((panjang_sepal, data_panjangsepal_ew), axis = 1))

In [79]:
df_panjangsepal_ew.columns = ["sepal_width", "category"]
df_panjangsepal_ew

Unnamed: 0,sepal_width,category
0,5.1,Sedikit Lebar
1,4.9,Sedikit Lebar
2,4.7,Sedikit Lebar
3,4.6,Sedikit Lebar
4,5.0,Sedikit Lebar
...,...,...
145,6.7,Lebar
146,6.3,Lebar
147,6.5,Lebar
148,6.2,Lebar


In [80]:
#jumlah data sepal_length berdasarkan kategori
jumlahdata_kategori_panjangsepal_ew

Lebar            71
Sedikit Lebar    59
Sangat Lebar     20
Name: sepal_length, dtype: int64

In [81]:
#jumlah data sepal_length berdasarkan interval
jumlahdata_interval_panjangsepal_ew

(5.5, 6.7]      71
(4.296, 5.5]    59
(6.7, 7.9]      20
Name: sepal_length, dtype: int64

### **Petal Length**

In [82]:
# interval equal-width
# ew = equal-width

# label untuk kategori
kategori = ["Sedikit Lebar", "Lebar", "Sangat Lebar"]
# Untuk menghitung banyaknya kategori 
jumlah_kategori = len(kategori)

# untuk menghitung interval equal-width
data_panjangpetal_ew = pd.cut(panjang_petal, jumlah_kategori, True, kategori)
jumlahdata_kategori_panjangpetal_ew = data_panjangpetal_ew.value_counts()
jumlahdata_interval_panjangpetal_ew = pd.cut(panjang_petal, jumlah_kategori, True).value_counts()

In [83]:
# dataframe dari petal_length beserta kategorinya
# concat untuk menggabungkan beberapa kolom
df_panjangpetal_ew=pd.DataFrame(pd.concat((panjang_petal, data_panjangpetal_ew), axis = 1))

In [84]:
df_panjangpetal_ew.columns = ["petal_width", "category"]
df_panjangpetal_ew

Unnamed: 0,petal_width,category
0,1.4,Sedikit Lebar
1,1.4,Sedikit Lebar
2,1.3,Sedikit Lebar
3,1.5,Sedikit Lebar
4,1.4,Sedikit Lebar
...,...,...
145,5.2,Sangat Lebar
146,5.0,Sangat Lebar
147,5.2,Sangat Lebar
148,5.4,Sangat Lebar


In [85]:
#jumlah data petal_length berdasarkan kategori
jumlahdata_kategori_panjangpetal_ew

Lebar            54
Sedikit Lebar    50
Sangat Lebar     46
Name: petal_length, dtype: int64

In [86]:
#jumlah data petal_length berdasarkan interval
jumlahdata_interval_panjangpetal_ew

(2.967, 4.933]    54
(0.994, 2.967]    50
(4.933, 6.9]      46
Name: petal_length, dtype: int64

### **Hasil** 

In [87]:
#untuk menyatukan semua tabel kategori yang terbentuk
df_hasil=pd.DataFrame(pd.concat((data_lebarsepal_ew, data_lebarpetal_ew, data_panjangsepal_ew, data_panjangpetal_ew), axis = 1))

In [88]:
df_hasil.columns = ["sepal_width", "petal_width", "sepal_length", "petal_length"]
df_hasil

Unnamed: 0,sepal_width,petal_width,sepal_length,petal_length
0,Lebar,Sedikit Lebar,Sedikit Lebar,Sedikit Lebar
1,Lebar,Sedikit Lebar,Sedikit Lebar,Sedikit Lebar
2,Lebar,Sedikit Lebar,Sedikit Lebar,Sedikit Lebar
3,Lebar,Sedikit Lebar,Sedikit Lebar,Sedikit Lebar
4,Lebar,Sedikit Lebar,Sedikit Lebar,Sedikit Lebar
...,...,...,...,...
145,Lebar,Sangat Lebar,Lebar,Sangat Lebar
146,Sedikit Lebar,Sangat Lebar,Lebar,Sangat Lebar
147,Lebar,Sangat Lebar,Lebar,Sangat Lebar
148,Lebar,Sangat Lebar,Lebar,Sangat Lebar


## **Equal-Frequency Intervals**

### **Sepal Width**

In [89]:
# interval equal-frequency
# ef = equal-frequency

# label untuk kategori
jumlah_kategori = ["Sedikit Lebar", "Lebar", "Sangat Lebar"]
# Untuk menghitung banyaknya kategori 
jumlah_kategori = len(kategori)

# untuk menghitung interval equal-frequency
data_lebarsepal_ef = pd.qcut(lebar_sepal, jumlah_kategori, kategori)
jumlahdata_kategori_lebarsepal_ef = data_lebarsepal_ef.value_counts()
jumlahdata_interval_lebarsepal_ef = pd.qcut(lebar_sepal, jumlah_kategori).value_counts()

In [90]:
# dataframe dari sepal_width beserta kategorinya
# fungsi dari concat adalah untuk menggabungkan beberapa kolom
df_lebarsepal_ef=pd.DataFrame(pd.concat((lebar_sepal, data_lebarsepal_ef), axis = 1))

In [91]:
df_lebarsepal_ef.columns = ["sepal_width", "category"]
df_lebarsepal_ef

Unnamed: 0,sepal_width,category
0,3.5,Sangat Lebar
1,3.0,Lebar
2,3.2,Lebar
3,3.1,Lebar
4,3.6,Sangat Lebar
...,...,...
145,3.0,Lebar
146,2.5,Sedikit Lebar
147,3.0,Lebar
148,3.4,Sangat Lebar


In [92]:
#jumlah data sepal_width berdasarkan kategori
jumlahdata_kategori_lebarsepal_ef

Sedikit Lebar    57
Lebar            51
Sangat Lebar     42
Name: sepal_width, dtype: int64

In [93]:
#jumlah data sepal_width berdasarkan interval
jumlahdata_interval_lebarsepal_ef

(1.999, 2.9]    57
(2.9, 3.2]      51
(3.2, 4.4]      42
Name: sepal_width, dtype: int64

### **Petal Width**

In [94]:
# interval equal-frequency
# ef = equal-frequency

# label untuk kategori
jumlah_kategori = ["Sedikit Lebar", "Lebar", "Sangat Lebar"]
# Untuk menghitung banyaknya kategori label
jumlah_kategori = len(kategori)

# untuk menghitung interval equal-frequency
data_lebarpetal_ef = pd.qcut(lebar_petal, jumlah_kategori, kategori)
jumlahdata_kategori_lebarpetal_ef = data_lebarpetal_ef.value_counts()
jumlahdata_interval_lebarpetal_ef = pd.qcut(lebar_petal, jumlah_kategori).value_counts()

In [95]:
# dataframe dari petal_width beserta kategorinya
# fungsi dari concat adalah untuk menggabungkan beberapa kolom
df_lebarpetal_ef=pd.DataFrame(pd.concat((lebar_petal, data_lebarpetal_ef), axis = 1))

In [96]:
df_lebarpetal_ef.columns = ["petal_width", "category"]
df_lebarpetal_ef

Unnamed: 0,petal_width,category
0,0.2,Sedikit Lebar
1,0.2,Sedikit Lebar
2,0.2,Sedikit Lebar
3,0.2,Sedikit Lebar
4,0.2,Sedikit Lebar
...,...,...
145,2.3,Sangat Lebar
146,1.9,Sangat Lebar
147,2.0,Sangat Lebar
148,2.3,Sangat Lebar


In [97]:
#jumlah data petal_width berdasarkan kategori
jumlahdata_kategori_lebarpetal_ef

Lebar            52
Sedikit Lebar    50
Sangat Lebar     48
Name: petal_width, dtype: int64

In [98]:
#jumlah data petal_width berdasarkan interval
jumlahdata_interval_lebarpetal_ef

(0.867, 1.6]      52
(0.099, 0.867]    50
(1.6, 2.5]        48
Name: petal_width, dtype: int64

### **Sepal Length**

In [99]:
# interval equal-frequency
# ef = equal-frequency

# label untuk kategori
kategori = ["Sedikit Lebar", "Lebar", "Sangat Lebar"]
# Untuk menghitung banyaknya kategori label
jumlah_kategori = len(kategori)

# untuk menghitung interval equal-frequency
data_panjangsepal_ef = pd.qcut(panjang_sepal, jumlah_kategori, kategori)
jumlahdata_kategori_panjangsepal_ef = data_panjangsepal_ef.value_counts()
jumlahdata_interval_panjangsepal_ef = pd.qcut(panjang_sepal, jumlah_kategori).value_counts()

In [100]:
# dataframe dari sepal_length beserta kategorinya
# fungsi dari concat adalah untuk menggabungkan beberapa kolom
df_panjangsepal_ef=pd.DataFrame(pd.concat((panjang_sepal, data_panjangsepal_ef), axis = 1))

In [101]:
df_panjangsepal_ef.columns = ["sepal_width", "category"]
df_panjangsepal_ef

Unnamed: 0,sepal_width,category
0,5.1,Sedikit Lebar
1,4.9,Sedikit Lebar
2,4.7,Sedikit Lebar
3,4.6,Sedikit Lebar
4,5.0,Sedikit Lebar
...,...,...
145,6.7,Sangat Lebar
146,6.3,Lebar
147,6.5,Sangat Lebar
148,6.2,Lebar


In [102]:
#jumlah data sepal_length berdasarkan kategori
jumlahdata_kategori_panjangsepal_ef

Lebar            56
Sedikit Lebar    52
Sangat Lebar     42
Name: sepal_length, dtype: int64

In [103]:
#jumlah data sepal_length berdasarkan interval
jumlahdata_interval_panjangsepal_ef

(5.4, 6.3]                   56
(4.2989999999999995, 5.4]    52
(6.3, 7.9]                   42
Name: sepal_length, dtype: int64

### **Petal Length**

In [104]:
# interval equal-frequency
# ef = equal-frequency

# label untuk kategori
kategori = ["Sedikit Lebar", "Lebar", "Sangat Lebar"]
# Untuk menghitung banyaknya kategori label
jumlah_kategori = len(kategori)

# untuk menghitung interval equal-frequency
data_panjangpetal_ef = pd.qcut(panjang_petal, jumlah_kategori, kategori)
jumlahdata_kategori_panjangpetal_ef = data_panjangpetal_ef.value_counts()
jumlahdata_interval_panjangpetal_ef = pd.qcut(panjang_petal, jumlah_kategori).value_counts()

In [105]:
# dataframe dari petal_length beserta kategorinya
# fungsi dari concat adalah untuk menggabungkan beberapa kolom
df_panjangpetal_ef=pd.DataFrame(pd.concat((panjang_petal, data_panjangpetal_ef), axis = 1))

In [106]:
df_panjangpetal_ef.columns = ["petal_length", "category"]
df_panjangpetal_ef

Unnamed: 0,petal_length,category
0,1.4,Sedikit Lebar
1,1.4,Sedikit Lebar
2,1.3,Sedikit Lebar
3,1.5,Sedikit Lebar
4,1.4,Sedikit Lebar
...,...,...
145,5.2,Sangat Lebar
146,5.0,Sangat Lebar
147,5.2,Sangat Lebar
148,5.4,Sangat Lebar


In [107]:
#jumlah data petal_length berdasarkan kategori
jumlahdata_kategori_lebarpetal_ef

Lebar            52
Sedikit Lebar    50
Sangat Lebar     48
Name: petal_width, dtype: int64

In [108]:
#jumlah data petal_length berdasarkan interval
jumlahdata_interval_lebarpetal_ef

(0.867, 1.6]      52
(0.099, 0.867]    50
(1.6, 2.5]        48
Name: petal_width, dtype: int64

### **Hasil**

In [109]:
# untuk menyatukan semua tabel kategori yang terbentuk
df_hasil_ef=pd.DataFrame(pd.concat((data_lebarsepal_ef, data_lebarpetal_ef, data_panjangsepal_ef, data_panjangpetal_ef), axis = 1))

In [110]:
df_hasil_ef.columns = ["sepal_width", "petal_width", "sepal_length", "petal_length"]
df_hasil_ef

Unnamed: 0,sepal_width,petal_width,sepal_length,petal_length
0,Sangat Lebar,Sedikit Lebar,Sedikit Lebar,Sedikit Lebar
1,Lebar,Sedikit Lebar,Sedikit Lebar,Sedikit Lebar
2,Lebar,Sedikit Lebar,Sedikit Lebar,Sedikit Lebar
3,Lebar,Sedikit Lebar,Sedikit Lebar,Sedikit Lebar
4,Sangat Lebar,Sedikit Lebar,Sedikit Lebar,Sedikit Lebar
...,...,...,...,...
145,Lebar,Sangat Lebar,Sangat Lebar,Sangat Lebar
146,Sedikit Lebar,Sangat Lebar,Lebar,Sangat Lebar
147,Lebar,Sangat Lebar,Sangat Lebar,Sangat Lebar
148,Sangat Lebar,Sangat Lebar,Lebar,Sangat Lebar


## **Entropy**

In [111]:
# Dataframe yang akan digunakan
target_data = df_lebarpetal_ef
target_data

Unnamed: 0,petal_width,category
0,0.2,Sedikit Lebar
1,0.2,Sedikit Lebar
2,0.2,Sedikit Lebar
3,0.2,Sedikit Lebar
4,0.2,Sedikit Lebar
...,...,...
145,2.3,Sangat Lebar
146,1.9,Sangat Lebar
147,2.0,Sangat Lebar
148,2.3,Sangat Lebar


In [112]:
# Label Kategori
labels = ['Sedikit Lebar', 'Lebar', 'Sangat Lebar']

In [113]:
#fungsi yang digunakan untuk menghitung banyaknya data berdasarkan kategori
def hitung_setiap_kategori(kolom_data, labels, kolom, kategori):
  grup = kolom_data.groupby(kategori).count()
  jumlah_setiap_kategori = []
  for label in labels:
    jumlah_setiap_kategori.append(grup.loc[label, kolom])
  return jumlah_setiap_kategori

In [114]:
hitung_setiap_kategori(target_data, labels, target_data.columns[0], target_data.columns[1])

[50, 52, 48]

In [115]:
#fungsi yang digunakan untuk proses info D
def split(nilai,kolom_data, labels, kolom, kategori):
  less_group =kolom_data[kolom_data[kolom] < nilai]
  greater_group =kolom_data[kolom_data[kolom] >= nilai]

  length_less_group = hitung_setiap_kategori(less_group, labels, kolom, kategori)
  length_greater_group = hitung_setiap_kategori(greater_group, labels, kolom, kategori)

  return (length_less_group, length_greater_group)

In [116]:
#fungsi untuk menghitung nilai entropy
def entropy(target_data):
    all_prob = []
    for prob in target_data:
        if (prob/sum(target_data) != 0):
            all_prob.append(prob/sum(target_data) * log2(prob/sum(target_data)))
        else:
            all_prob.append(0)
    return -(sum(all_prob))

## **Info**

In [117]:
# fungsi untuk menghitung nilai info
def info(d, target_data):
    temp = []
    for value in d:
        temp.append((sum(value) / target_data.shape[0]) * entropy(value))
    return sum(temp)

In [118]:
# fungsi untuk menghitung nilai gain
def gain(inisial, new):
  return inisial - new

In [119]:
d = hitung_setiap_kategori(target_data, labels, target_data.columns[0], target_data.columns[1])
Einisial = entropy(d)
Einisial

1.5841928580512907

## **Gain**

In [120]:
# Untuk mencari split 0.7
az = split(0.7, target_data, labels, target_data.columns[0], target_data.columns[1])
Enew1 = info(az, target_data)
gain(Einisial, Enew1)

0.9182958340544896

In [121]:
# Untuk mencari split 1.4
az = split(1.4, target_data, labels, target_data.columns[0], target_data.columns[1])
Enew2 = info(az, target_data)
gain(Einisial, Enew2)

0.6536600192724277

In [122]:
# Untuk mencari split 2.1
az = split(2.1, target_data, labels, target_data.columns[0], target_data.columns[1])
Enew3 = info(az, target_data)
gain(Einisial, Enew3)

0.2985203537604644