# Diskritisasi

1. Carilah data yang bertipe numerik ( data klassifikasi)

2. Lakukan proses diskritisasi dengan equal width dan equal frequency

3. Lakukan proses diskritisasi dengan basis entropy

4. Kumpulkan tugas dengan link github ( web statis dari jupyter book)

## Mencari Data yang bertipe numerik ( data klassifikasi)

In [1]:
# mengimpor paket pandas kemudian diberi nama alias pd
import pandas as pd
# mengimpor paket numpy kemudian diberi nama alias np
import numpy as np
# modul untuk menghitung logaritma
from math import log2

In [2]:
# membaca dataset csv dari url
url = 'https://gist.githubusercontent.com/curran/a08a1080b88344b0c8a7/raw/0e7a9b0a5d22642a06d3d5b9bcbad9890c8ee534/iris.csv'
data = pd.read_csv(url)

In [3]:
#Melihat data
data

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


Attribute Information:

1. sepal length in cm
2. sepal width in cm
3. petal length in cm
4. petal width in cm
5. class:
    
    - Iris Setosa
    
    - Iris Versicolour
    
    - Iris Virginica

In [6]:
# Kolom Data
panjang_sepal = data["sepal_length"]
lebar_sepal = data["sepal_width"]
panjang_petal = data["petal_length"]
lebar_petal = data["petal_width"]

## Proses diskritisasi dengan equal width dan equal frequency

### Discretization

Apa itu Discretization?
Discretization atau binning digunakan untuk mengubah atribut numerik menjadi atribut kategorikal. Perubahan tersebut dilakukan dengan mengkategorikan atribut numerik menjadi beberapa tingkatan atribut kategorikal. Sebagai contoh, apabila terdapat data numerik dengan data berikut:

$$ 2, 4, 10, 17, 5, 23, 11, 48, 35, 56, 20$$

Maka, dengan discretization, data tersebut dapat dikategorikan menjadi dua kelompok:

$$Kelompok\ 1 (Dibawah\ 25): 2, 4, 5,10, 11, 17, 20, 23$$

$$Kelompok\ 2 (Diatas\ 25): 35, 48, 56$$

Mengubah data numerik menjadi kategorikal memungkinkan data tersebut untuk dianalisis dengan menggunakan analisis kategorikal. Sehingga, informasi baru bisa didapatkan dari data tersebut.

Dalam implementasinya, Discretization memiliki dua pendekatan, equal-width intervals dan equal-frequency intervals.

### Equal-width Intervals

Equal-width Intervals adalah discretization yang membagi data numerik menjadi beberapa kelompok dengan lebar kelompok yang kurang lebih sama besar.

#### Cut

* Cut adalah sebuah *method* pada library *pandas* untuk melakukan perhitungan *equal width frequency intervals*


```
# Syntax
pd.cut(series, interval, right=True, label)
```

##### Sepal Width

* Equal Width Intervals lebar kelopak bunga Iris
* Dikelompokkan menjadi 3 kategori yaitu 
* Kategori sedikit lebar
* Kategori lebar
* Kategori sangat lebar

In [7]:
# interval equal-width
# ew = equal-width

# label kategori
label = ["Sedikit Lebar", "Lebar", "Sangat Lebar"]
# Untuk menghitung banyaknya kategori label
jumlah_kategori = len(label)

# untuk menghitung interval equal-width
data_lebarsepal_ew = pd.cut(lebar_sepal, jumlah_kategori, True, label)
jumlahdata_kategori_lebarsepal_ew = data_lebarsepal_ew.value_counts()
jumlahdata_interval_lebarsepal_ew = pd.cut(lebar_sepal, jumlah_kategori, True).value_counts()

In [8]:
# dataframe dari sepal.widht beserta kategorinya
# concat untuk menggabungkan beberapa kolom
df_lebarsepal_ew=pd.DataFrame(pd.concat((lebar_sepal, data_lebarsepal_ew), axis = 1))

In [9]:
df_lebarsepal_ew.columns = ["sepal_width", "category"]
df_lebarsepal_ew

Unnamed: 0,sepal_width,category
0,3.5,Lebar
1,3.0,Lebar
2,3.2,Lebar
3,3.1,Lebar
4,3.6,Lebar
...,...,...
145,3.0,Lebar
146,2.5,Sedikit Lebar
147,3.0,Lebar
148,3.4,Lebar


In [10]:
#jumlah data sepal.width berdasarkan kategori
jumlahdata_kategori_lebarsepal_ew

Lebar            88
Sedikit Lebar    47
Sangat Lebar     15
Name: sepal_width, dtype: int64

In [11]:
#jumlah data sepal.width berdasarkan interval
jumlahdata_interval_lebarsepal_ew

(2.8, 3.6]      88
(1.998, 2.8]    47
(3.6, 4.4]      15
Name: sepal_width, dtype: int64

##### Petal Width

* Equal Width Intervals lebar mahkota bunga Iris
* Dikelompokkan menjadi 3 kategori yaitu 
* Kategori sedikit lebar
* Kategori lebar
* Kategori sangat lebar

In [12]:
# interval equal-width
# ew = equal-width

# label kategori
label = ["Sedikit Lebar", "Lebar", "Sangat Lebar"]
# Untuk menghitung banyaknya kategori label
jumlah_kategori = len(label)

# untuk menghitung interval equal-width
data_lebarpetal_ew = pd.cut(lebar_petal, jumlah_kategori, True, label)
jumlahdata_kategori_lebarpetal_ew = data_lebarpetal_ew.value_counts()
jumlahdata_interval_lebarpetal_ew = pd.cut(lebar_petal, jumlah_kategori, True).value_counts()

In [13]:
# dataframe dari petal.widht beserta kategorinya
# concat untuk menggabungkan beberapa kolom
df_lebarpetal_ew=pd.DataFrame(pd.concat((lebar_petal, data_lebarpetal_ew), axis = 1))

In [14]:
df_lebarpetal_ew.columns = ["petal.width", "category"]
df_lebarpetal_ew

Unnamed: 0,petal.width,category
0,0.2,Sedikit Lebar
1,0.2,Sedikit Lebar
2,0.2,Sedikit Lebar
3,0.2,Sedikit Lebar
4,0.2,Sedikit Lebar
...,...,...
145,2.3,Sangat Lebar
146,1.9,Sangat Lebar
147,2.0,Sangat Lebar
148,2.3,Sangat Lebar


In [15]:
#jumlah data petal.width berdasarkan kategori
jumlahdata_kategori_lebarpetal_ew

Lebar            54
Sedikit Lebar    50
Sangat Lebar     46
Name: petal_width, dtype: int64

In [16]:
#jumlah data petal.width berdasarkan interval
jumlahdata_interval_lebarpetal_ew

(0.9, 1.7]       54
(0.0976, 0.9]    50
(1.7, 2.5]       46
Name: petal_width, dtype: int64

##### Sepal Length

* Equal Width Intervals panjang kelopak bunga Iris
* Dikelompokkan menjadi 3 kategori yaitu 
* Kategori sedikit lebar
* Kategori lebar
* Kategori sangat lebar

In [17]:
# interval equal-width
# ew = equal-width

# label kategori
label = ["Sedikit Lebar", "Lebar", "Sangat Lebar"]
# Untuk menghitung banyaknya kategori label
jumlah_kategori = len(label)

# untuk menghitung interval equal-width
data_panjangsepal_ew = pd.cut(panjang_sepal, jumlah_kategori, True, label)
jumlahdata_kategori_panjangsepal_ew = data_panjangsepal_ew.value_counts()
jumlahdata_interval_panjangsepal_ew = pd.cut(panjang_sepal, jumlah_kategori, True).value_counts()

In [18]:
# dataframe dari sepal.length beserta kategorinya
# concat untuk menggabungkan beberapa kolom
df_panjangsepal_ew=pd.DataFrame(pd.concat((panjang_sepal, data_panjangsepal_ew), axis = 1))

In [19]:
df_panjangsepal_ew.columns = ["sepal.width", "category"]
df_panjangsepal_ew

Unnamed: 0,sepal.width,category
0,5.1,Sedikit Lebar
1,4.9,Sedikit Lebar
2,4.7,Sedikit Lebar
3,4.6,Sedikit Lebar
4,5.0,Sedikit Lebar
...,...,...
145,6.7,Lebar
146,6.3,Lebar
147,6.5,Lebar
148,6.2,Lebar


In [20]:
#jumlah data sepal.length berdasarkan kategori
jumlahdata_kategori_panjangsepal_ew

Lebar            71
Sedikit Lebar    59
Sangat Lebar     20
Name: sepal_length, dtype: int64

In [21]:
#jumlah data sepal.length berdasarkan interval
jumlahdata_interval_panjangsepal_ew

(5.5, 6.7]      71
(4.296, 5.5]    59
(6.7, 7.9]      20
Name: sepal_length, dtype: int64

##### Petal Length

* Equal Width Intervals panjang mahkota bunga Iris
* Dikelompokkan menjadi 3 kategori yaitu 
* Kategori sedikit lebar
* Kategori lebar
* Kategori sangat lebar

In [22]:
# interval equal-width
# ew = equal-width

# label kategori
label = ["Sedikit Lebar", "Lebar", "Sangat Lebar"]
# Untuk menghitung banyaknya kategori label
jumlah_kategori = len(label)

# untuk menghitung interval equal-width
data_panjangpetal_ew = pd.cut(panjang_petal, jumlah_kategori, True, label)
jumlahdata_kategori_panjangpetal_ew = data_panjangpetal_ew.value_counts()
jumlahdata_interval_panjangpetal_ew = pd.cut(panjang_petal, jumlah_kategori, True).value_counts()

In [23]:
# dataframe dari petal.length beserta kategorinya
# concat untuk menggabungkan beberapa kolom
df_panjangpetal_ew=pd.DataFrame(pd.concat((panjang_petal, data_panjangpetal_ew), axis = 1))

In [24]:
df_panjangpetal_ew.columns = ["petal.width", "category"]
df_panjangpetal_ew

Unnamed: 0,petal.width,category
0,1.4,Sedikit Lebar
1,1.4,Sedikit Lebar
2,1.3,Sedikit Lebar
3,1.5,Sedikit Lebar
4,1.4,Sedikit Lebar
...,...,...
145,5.2,Sangat Lebar
146,5.0,Sangat Lebar
147,5.2,Sangat Lebar
148,5.4,Sangat Lebar


In [25]:
#jumlah data petal.length berdasarkan kategori
jumlahdata_kategori_panjangpetal_ew

Lebar            54
Sedikit Lebar    50
Sangat Lebar     46
Name: petal_length, dtype: int64

In [26]:
#jumlah data petal.length berdasarkan interval
jumlahdata_interval_panjangpetal_ew

(2.967, 4.933]    54
(0.994, 2.967]    50
(4.933, 6.9]      46
Name: petal_length, dtype: int64

### Equal-frequency Intervals
Equal-frequency intervals adalah discretization yang membagi data numerik menjadi beberapa kelompok dengan jumlah anggota yang kurang lebih sama besar.

#### Qcut
* Qcut adalah sebuah *method* pada library *pandas* untuk melakukan perhitungan *equal frequency intervals*

```
# Syntax
pd.qcut(series, interval, label)
```

##### Sepal Width

* Equal Frequency Intervals lebar kelopak bunga Iris
* Dikelompokkan menjadi 3 kategori yaitu 
* Kategori sedikit lebar
* Kategori lebar
* Kategori sangat lebar

In [27]:
# interval equal-frequency
# ef = equal-frequency

# label kategori
label = ["Sedikit Lebar", "Lebar", "Sangat Lebar"]
# Untuk menghitung banyaknya kategori label
jumlah_kategori = len(label)

# untuk menghitung interval equal-frequency
data_lebarsepal_ef = pd.qcut(lebar_sepal, jumlah_kategori, label)
jumlahdata_kategori_lebarsepal_ef = data_lebarsepal_ef.value_counts()
jumlahdata_interval_lebarsepal_ef = pd.qcut(lebar_sepal, jumlah_kategori).value_counts()

In [28]:
# dataframe dari sepal.widht beserta kategorinya
# concat untuk menggabungkan beberapa kolom
df_lebarsepal_ef=pd.DataFrame(pd.concat((lebar_sepal, data_lebarsepal_ef), axis = 1))

In [29]:
df_lebarsepal_ef.columns = ["sepal.width", "category"]
df_lebarsepal_ef

Unnamed: 0,sepal.width,category
0,3.5,Sangat Lebar
1,3.0,Lebar
2,3.2,Lebar
3,3.1,Lebar
4,3.6,Sangat Lebar
...,...,...
145,3.0,Lebar
146,2.5,Sedikit Lebar
147,3.0,Lebar
148,3.4,Sangat Lebar


In [30]:
#jumlah data sepal.width berdasarkan kategori
jumlahdata_kategori_lebarsepal_ef

Sedikit Lebar    57
Lebar            51
Sangat Lebar     42
Name: sepal_width, dtype: int64

In [31]:
#jumlah data sepal.width berdasarkan interval
jumlahdata_interval_lebarsepal_ef

(1.999, 2.9]    57
(2.9, 3.2]      51
(3.2, 4.4]      42
Name: sepal_width, dtype: int64

##### Petal Width

* Equal Width Intervals lebar mahkota bunga Iris
* Dikelompokkan menjadi 3 kategori yaitu 
* Kategori sedikit lebar
* Kategori lebar
* Kategori sangat lebar

In [32]:
# interval equal-frequency
# ef = equal-frequency

# label kategori
label = ["Sedikit Lebar", "Lebar", "Sangat Lebar"]
# Untuk menghitung banyaknya kategori label
jumlah_kategori = len(label)

# untuk menghitung interval equal-frequency
data_lebarpetal_ef = pd.qcut(lebar_petal, jumlah_kategori, label)
jumlahdata_kategori_lebarpetal_ef = data_lebarpetal_ef.value_counts()
jumlahdata_interval_lebarpetal_ef = pd.qcut(lebar_petal, jumlah_kategori).value_counts()

In [33]:
# dataframe dari petal.widht beserta kategorinya
# concat untuk menggabungkan beberapa kolom
df_lebarpetal_ef=pd.DataFrame(pd.concat((lebar_petal, data_lebarpetal_ef), axis = 1))

In [34]:
df_lebarpetal_ef.columns = ["petal.width", "category"]
df_lebarpetal_ef

Unnamed: 0,petal.width,category
0,0.2,Sedikit Lebar
1,0.2,Sedikit Lebar
2,0.2,Sedikit Lebar
3,0.2,Sedikit Lebar
4,0.2,Sedikit Lebar
...,...,...
145,2.3,Sangat Lebar
146,1.9,Sangat Lebar
147,2.0,Sangat Lebar
148,2.3,Sangat Lebar


In [35]:
#jumlah data petal.width berdasarkan kategori
jumlahdata_kategori_lebarpetal_ef

Lebar            52
Sedikit Lebar    50
Sangat Lebar     48
Name: petal_width, dtype: int64

In [36]:
#jumlah data petal.width berdasarkan interval
jumlahdata_interval_lebarpetal_ef

(0.867, 1.6]      52
(0.099, 0.867]    50
(1.6, 2.5]        48
Name: petal_width, dtype: int64

##### Sepal Length

* Equal Frequency Intervals panjang kelopak bunga Iris
* Dikelompokkan menjadi 3 kategori yaitu 
* Kategori sedikit lebar
* Kategori lebar
* Kategori sangat lebar

In [37]:
# interval equal-frequency
# ef = equal-frequency

# label kategori
label = ["Sedikit Lebar", "Lebar", "Sangat Lebar"]
# Untuk menghitung banyaknya kategori label
jumlah_kategori = len(label)

# untuk menghitung interval equal-frequency
data_panjangsepal_ef = pd.qcut(panjang_sepal, jumlah_kategori, label)
jumlahdata_kategori_panjangsepal_ef = data_panjangsepal_ef.value_counts()
jumlahdata_interval_panjangsepal_ef = pd.qcut(panjang_sepal, jumlah_kategori).value_counts()

In [38]:
# dataframe dari sepal.length beserta kategorinya
# concat untuk menggabungkan beberapa kolom
df_panjangsepal_ef=pd.DataFrame(pd.concat((panjang_sepal, data_panjangsepal_ef), axis = 1))

In [39]:
df_panjangsepal_ef.columns = ["sepal.width", "category"]
df_panjangsepal_ef

Unnamed: 0,sepal.width,category
0,5.1,Sedikit Lebar
1,4.9,Sedikit Lebar
2,4.7,Sedikit Lebar
3,4.6,Sedikit Lebar
4,5.0,Sedikit Lebar
...,...,...
145,6.7,Sangat Lebar
146,6.3,Lebar
147,6.5,Sangat Lebar
148,6.2,Lebar


In [40]:
#jumlah data sepal.length berdasarkan kategori
jumlahdata_kategori_panjangsepal_ef

Lebar            56
Sedikit Lebar    52
Sangat Lebar     42
Name: sepal_length, dtype: int64

In [41]:
#jumlah data sepal.length berdasarkan interval
jumlahdata_interval_panjangsepal_ef

(5.4, 6.3]                   56
(4.2989999999999995, 5.4]    52
(6.3, 7.9]                   42
Name: sepal_length, dtype: int64

##### Petal Length

* Equal Frequency Intervals panjang mahkota bunga Iris
* Dikelompokkan menjadi 3 kategori yaitu 
* Kategori sedikit lebar
* Kategori lebar
* Kategori sangat lebar

In [42]:
# interval equal-frequency
# ef = equal-frequency

# label kategori
label = ["Sedikit Lebar", "Lebar", "Sangat Lebar"]
# Untuk menghitung banyaknya kategori label
jumlah_kategori = len(label)

# untuk menghitung interval equal-frequency
data_panjangpetal_ef = pd.qcut(panjang_petal, jumlah_kategori, label)
jumlahdata_kategori_panjangpetal_ef = data_panjangpetal_ef.value_counts()
jumlahdata_interval_panjangpetal_ef = pd.qcut(panjang_petal, jumlah_kategori).value_counts()

In [43]:
# dataframe dari petal.length beserta kategorinya
# concat untuk menggabungkan beberapa kolom
df_panjangpetal_ef=pd.DataFrame(pd.concat((panjang_petal, data_panjangpetal_ef), axis = 1))

In [44]:
df_panjangpetal_ef.columns = ["petal.width", "category"]
df_panjangpetal_ef

Unnamed: 0,petal.width,category
0,1.4,Sedikit Lebar
1,1.4,Sedikit Lebar
2,1.3,Sedikit Lebar
3,1.5,Sedikit Lebar
4,1.4,Sedikit Lebar
...,...,...
145,5.2,Sangat Lebar
146,5.0,Sangat Lebar
147,5.2,Sangat Lebar
148,5.4,Sangat Lebar


In [45]:
#jumlah data petal.length berdasarkan kategori
jumlahdata_kategori_lebarpetal_ef

Lebar            52
Sedikit Lebar    50
Sangat Lebar     48
Name: petal_width, dtype: int64

In [46]:
#jumlah data petal.length berdasarkan interval
jumlahdata_interval_lebarpetal_ef

(0.867, 1.6]      52
(0.099, 0.867]    50
(1.6, 2.5]        48
Name: petal_width, dtype: int64

### Entropy

Entropi merupakan distribusi probabilitas dalam teori informasi dan diadopsi kedalam Algoritme C4.5 untuk mengukur tingkat homogenitas distribusi kelas dari sebuah himpunan data (dataset). Sebagai ilustrasi, semakin tinggi tingkat entropi dari sebuah dataset maka semakin homogen distribusi kelas pada dataset tersebut. Persamaan untuk menghitung entropi pada pohon keputusan C4.5 ditunjukan pada Persamaan 1 (Raditya, 2009):


$$
\begin{align*}
\displaystyle Entropy(S) &= \sum_{i=0}^{k} -phi \ log_{2} \ phi \\
Keterangan &: \\
S &= Himpunan \ dataset  \\
k &= Banyaknya \ partisi \ S \\
phi &= Proporsi \ S_{i} \ terhadap \ S
\end{align*}
$$

#### Persiapan

* Impor modul log2 dari *package math*
* Ambil data yang akan digunakan


```
# dataframe yang berisi petal.width ( Equal Frequency Interval)
df_lebarpetal_ef
```

* Membuat Kategory


```
labels = ['Sedikit Lebar', 'Lebar', 'Sangat Lebar']
```




In [47]:
# Dataframe yang akan digunakan
target_data = df_lebarpetal_ef
target_data

Unnamed: 0,petal.width,category
0,0.2,Sedikit Lebar
1,0.2,Sedikit Lebar
2,0.2,Sedikit Lebar
3,0.2,Sedikit Lebar
4,0.2,Sedikit Lebar
...,...,...
145,2.3,Sangat Lebar
146,1.9,Sangat Lebar
147,2.0,Sangat Lebar
148,2.3,Sangat Lebar


In [48]:
# Label Kategori
labels = ['Sedikit Lebar', 'Lebar', 'Sangat Lebar']

In [49]:
#fungsi yang digunakan untuk menghitung banyaknya data berdasarkan kategori
def hitung_setiap_kategori(kolom_data, labels, kolom, kategori):
  grup = kolom_data.groupby(kategori).count()
  jumlah_setiap_kategori = []
  for label in labels:
    jumlah_setiap_kategori.append(grup.loc[label, kolom])
  return jumlah_setiap_kategori

In [50]:
hitung_setiap_kategori(target_data, labels, target_data.columns[0], target_data.columns[1])

[50, 52, 48]

In [51]:
#fungsi yang digunakan untuk proses info D
def split(nilai,kolom_data, labels, kolom, kategori):
  less_group =kolom_data[kolom_data[kolom] < nilai]
  greater_group =kolom_data[kolom_data[kolom] >= nilai]

  length_less_group = hitung_setiap_kategori(less_group, labels, kolom, kategori)
  length_greater_group = hitung_setiap_kategori(greater_group, labels, kolom, kategori)

  return (length_less_group, length_greater_group)

In [52]:
#fungsi untuk menghitung nilai entropy
def entropy(target_data):
    all_prob = []
    for prob in target_data:
        if (prob/sum(target_data) != 0):
            all_prob.append(prob/sum(target_data) * log2(prob/sum(target_data)))
        else:
            all_prob.append(0)
    return -(sum(all_prob))

### Info

$$ Info_A(D) = \frac{|D_1|}{|D|} Entropy (D_1)\frac{|D_2|}{|D|}+ Entropy (D_2)$$

In [53]:
# fungsi untuk menghitung nilai info
def info(d, target_data):
    temp = []
    for value in d:
        temp.append((sum(value) / target_data.shape[0]) * entropy(value))
    return sum(temp)

In [54]:
# fungsi untuk menghitung nilai gain
def gain(inisial, new):
  return inisial - new

In [55]:
d = hitung_setiap_kategori(target_data, labels, target_data.columns[0], target_data.columns[1])
Einisial = entropy(d)
Einisial

1.5841928580512907

### Gain
<p align="justify">
Setelah membagi dataset berdasarkan sebuah atribut kedalam subset yang lebih kecil, entropi dari data tersebut akan berubah. Perubahan entropi ini dapat digunakan untuk menentukan bagus tidaknya pembagian data yang telah dilakukan. Perubahan entropi ini disebut dengan information gain dalam Algoritme C4.5. Information gain ini diukur dengan menghitung selisih antara entropi dataset sebelum dan sesudah pembagian (splitting) dilakukan. Pembagian yang terbaik
akan menghasilkan entropi subset yang paling kecil, dengan demikian berdampak pada information gain yang terbesar. Persamaan untuk menghitung nilai Gain pada pohon keputusan ditujukan pada Persamaan 2 (Raditya, 2009):
</p>

$$
\begin{align*}
\displaystyle 𝐺𝑎𝑖𝑛(𝐴) &= 𝐸𝑛𝑡𝑟𝑜𝑝𝑖(𝑆) − \sum_{i=1}^{k}\frac{\left| S \right|}{\left| S_{i} \right|} * 𝐸𝑛𝑡𝑟𝑜𝑝𝑖(𝑆_{i}) \\
Keterangan &: \\
𝑆 &: himpunan \ kasus \\
𝐴 &: atribut \\
k &: jumlah \ partisi \ atribut \ A \\
|𝑆𝑖| &: jumlah \ kasus \ pada \ partisi \ ke-i \\
|𝑆| &: jumlah \ kasus \ dalam \ S 
\end{align*}
$$

In [56]:
# Untuk mencari split 0.7
az = split(0.7, target_data, labels, target_data.columns[0], target_data.columns[1])
Enew1 = info(az, target_data)
gain(Einisial, Enew1)

0.9182958340544896

In [57]:
# Untuk mencari split 1.4
az = split(1.4, target_data, labels, target_data.columns[0], target_data.columns[1])
Enew2 = info(az, target_data)
gain(Einisial, Enew2)

0.6536600192724277

In [58]:
# Untuk mencari split 2.1
az = split(2.1, target_data, labels, target_data.columns[0], target_data.columns[1])
Enew3 = info(az, target_data)
gain(Einisial, Enew3)

0.2985203537604644