
### 1) Import Data

Praktikum kali ini menggunakan dataset [Car Evaluation Dataset](https://archive.ics.uci.edu/ml/datasets/Car+Evaluation) dari UCI Machine Learning Repository. Dataset ini telah digunakan pada praktikum sebelumnya. Detail fitur dapat Anda pelajari pada link yang tersedia. 

Unduh dataset yang akan digunakan pada praktikum kali ini. Anda dapat menggunakan aplikasi wget untuk mendowload dataset dan menyimpannya dalam Google Colab. Jalankan cell di bawah ini untuk mengunduh dataset

In [1]:
! wget https://dataset-ppm.s3.amazonaws.com/car_sample.csv

--2021-04-05 11:06:17--  https://dataset-ppm.s3.amazonaws.com/car_sample.csv
Resolving dataset-ppm.s3.amazonaws.com (dataset-ppm.s3.amazonaws.com)... 52.216.200.243
Connecting to dataset-ppm.s3.amazonaws.com (dataset-ppm.s3.amazonaws.com)|52.216.200.243|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 7226 (7.1K) [text/csv]
Saving to: ‘car_sample.csv.4’


2021-04-05 11:06:17 (180 MB/s) - ‘car_sample.csv.4’ saved [7226/7226]



Setelah dataset berhasil diunduh, langkah berikutnya adalah membaca dataset dengan memanfaatkan fungsi **readcsv** dari library pandas. Lakukan pembacaan berkas csv ke dalam dataframe dengan nama **data** menggunakan fungsi **readcsv**. Jangan lupa untuk melakukan import library pandas terlebih dahulu


In [2]:
import pandas as pd
import numpy as np
data = pd.read_csv('car_sample.csv')



Cek isi dataset Anda dengan menggunakan perintah **head()**

In [3]:
data.head()

Unnamed: 0,buying,maint,lug_boot,safety,class
0,vhigh,low,small,high,acc
1,vhigh,low,big,high,acc
2,vhigh,med,big,med,acc
3,med,med,med,high,acc
4,low,high,med,high,acc


## 2) Membagi data menjadi data latih dan data uji

Metode pembelajaran mesin memerlukan dua jenis data :


1.   Data latih : Digunakan untuk proses training metode klasifikasi
2.   Data uji : Digunakan untuk proses evaluasi metode klasifikasi

Data uji dan data latih perlu dibuat terpisah (mutualy exclusive) agar hasil evaluasi lebih akurat.

Data uji dan data latih dapat dibuat dengan cara membagi dataset dengan rasio tertentu, misalnya 80% data latih dan 20% data uji.

Library Scikit-learn memiliki fungsi [train_test_split](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html) pada modul **model_selection** untuk membagi dataset menjadi data latih dan data uji. Bagilah dataset anda menjadi dua, yaitu **data_latih** dan **data_uji**. Agar pengacakan data dilakukan secara konstan, parameter **random_state** diisi dengan nilai integer tertentu, pada praktikum ini diset 101. Kemudian, nilai indeks pada data latih dan data uji diatur ulang agar berurutan nilainya


In [4]:
from sklearn.model_selection import train_test_split
data_latih,data_uji = train_test_split(data,test_size=0.2,random_state=101)
data_latih.reset_index(drop=True)
data_uji.reset_index(drop=True)

Unnamed: 0,buying,maint,lug_boot,safety,class
0,vhigh,med,big,med,acc
1,high,high,med,high,acc
2,med,low,big,med,good
3,low,med,small,high,good
4,med,low,big,high,vgood
5,low,high,big,high,vgood
6,vhigh,low,med,high,acc
7,vhigh,med,med,high,unacc
8,low,med,med,high,vgood
9,high,med,big,med,acc


Tampilkan banyaknya data pada **data_latih** dan **data_uji**. Seharusnya **data_latih** terdiri dari 208 data, dan **data_uji** terdiri dari 52 data

In [5]:
print(data_uji.shape[0])
print(data_latih.shape[0])

52
208


## 3) Menghitung Gini

Nilai Gini merupakan salah satu kriteria penentu variabel apa yang akan digunakan untuk membentuk cabang pada decision tree. Variabel dengan nilai Gini terbesar akan digunakan sebagai pembentukan cabang

Buatlah fungsi bernama **hitung_gini** yang berfungsi menghitung nilai Gini dari suatu nilai pada sebuah variabel

In [6]:
def hitung_gini(kolom_kelas):
  elemen,banyak = np.unique(kolom_kelas,return_counts = True)
  nilai_gini = 1 - np.sum([(banyak[i]/np.sum(banyak))**2 for i in range(len(elemen))])
  return nilai_gini

Buatlah fungsi bernama **gini_split** yang digunakan untuk menghitung nilai Gini keseluruhan dari sebuah variabel.

In [7]:
def gini_split(data,nama_fitur_split,nama_fitur_kelas):
  nilai,banyak= np.unique(data[nama_fitur_split],return_counts=True)
  gini_split = np.sum([(banyak[i]/np.sum(banyak))*hitung_gini(data.where(data[nama_fitur_split]==nilai[i]).dropna()[nama_fitur_kelas]) for i in range(len(nilai))])
  return gini_split

Ujilah fungsi **gini_split** menggunakan data_latih pada variabel **buying** dan variabel kelas bernama **class**.

In [8]:
gini_split(data_latih,"buying","class")

0.6536404135210501

## 4) Pembentukan pohon

Pembentukan pohon dilakukan secara rekursif. Seperti metode rekursif pada umumnya, perlu ditentukan kondisi berhenti terlebih dahulu. Kondisi berhenti pada pembentukan pohon adalah:


1.   Jika hanya ada satu kelas pada data, kembalikan kelas tersebut
2.   Jika fitur data  = 0 (tidak ada fitur yang tersisa), kembalikan kelas dari parent
3. Jika data kosong (tidak ada data), kembalikan kelas dengan frekuensi terbanyak

Selain kondisi berhenti tersebut, dilakukan pembentukan pohon secara rekursif menggunakan fungsi **buat_tree**.



In [9]:
def buat_tree(data,data_awal, daftar_fitur,nama_fitur_kelas,kelas_parent_node=None):
  #jika hanya ada satu kelas pada data
  if len(np.unique(data[nama_fitur_kelas])) <= 1:
    return np.unique(data[nama_fitur_kelas])[0]
  #jika data kosong
  elif len(data)==0:
    return np.unique(data_awal[nama_fitur_kelas])[np.argmax(np.unique(data_awal[nama_fitur_kelas],return_counts=True)[1])]
  #jika tidak ada fitur yang terisa
  elif len(daftar_fitur) ==0:
    return kelas_parent_node
  else:
    kelas_parent_node = np.unique(data[nama_fitur_kelas])[np.argmax(np.unique(data[nama_fitur_kelas],return_counts=True)[1])]
    nilai_split = [gini_split(data,fitur,nama_fitur_kelas) for fitur in daftar_fitur]
    index_fitur_terbaik = np.argmin(nilai_split)
    fitur_terbaik = daftar_fitur[index_fitur_terbaik]
    tree = {fitur_terbaik:{}}
    daftar_fitur = [i for i in daftar_fitur if i != fitur_terbaik]
    for nilai in np.unique(data[fitur_terbaik]):
      sub_data = data.where(data[fitur_terbaik] == nilai).dropna()
      subtree = buat_tree(sub_data,data_awal,daftar_fitur,nama_fitur_kelas,kelas_parent_node)
      tree[fitur_terbaik][nilai]=subtree
  return(tree)

Buatlah tree menggunakan data latih yang tersedia

In [10]:
tree = buat_tree(data_latih,data_latih,data_latih.columns[:-1],'class')

Tampilkan tree yang terbentuk. Gunakan library **pprint** untuk menampilkan dictionary secara teratur.

In [11]:
from pprint import pprint
pprint(tree)

{'safety': {'high': {'buying': {'high': {'maint': {'high': {'lug_boot': {'med': 'acc',
                                                                         'small': 'acc'}},
                                                   'low': {'lug_boot': {'big': 'acc',
                                                                        'small': 'acc'}},
                                                   'med': {'lug_boot': {'small': 'acc'}},
                                                   'vhigh': 'unacc'}},
                                'low': {'lug_boot': {'big': {'maint': {'high': 'vgood',
                                                                       'low': 'vgood',
                                                                       'med': 'vgood',
                                                                       'vhigh': 'vgood'}},
                                                     'med': {'maint': {'high': 'vgood',
                                            

## 5) Proses prediksi

Proses prediksi kelas pada data uji dilakukan dengan melakukan *tree traversal* sampai menemui leaf.

In [12]:
def prediksi(data_uji,tree):
  for key in list(data_uji.keys()):
    if key in list(tree.keys()):
      try:
        hasil = tree[key][data_uji[key]]
      except:
        return 1
      hasil = tree[key][data_uji[key]]
      if isinstance(hasil,dict):
        return prediksi(data_uji,hasil)
      else:
        return hasil

## 6) Proses Pengujian
Lakukan pengujian menggunakan data uji. Kelas pada data uji perlu dihapus dan data uji perlu diubah menjadi dictionary

In [13]:
data_uji_dict = data_uji.iloc[:,:-1].to_dict(orient = "records")

Lakukan pengujian terhadap keseluruhan data uji menggunakan looping.

In [14]:
hasil_prediksi_total = []
for i in range(len(data_uji_dict)):
  hasil_prediksi = prediksi(data_uji_dict[i],tree)
  hasil_prediksi_total.append(hasil_prediksi)

Bandingkan hasil prediksi dengan label sebenarnya. Hitunglah banyaknya data uji yang memiliki kelas prediksi sama dengan kelas sebenarnya

In [15]:
print("Total prediksi benar:",sum(hasil_prediksi_total==data_uji['class']))

Total prediksi benar: 44


## TUGAS
Pada tugas kali ini Anda diminta memodifikasi metode pembentukan tree yang telah Anda agar metode tersebut menggunakan information gain sebagai dasar percabangan. Lengkapilah kerangka source code di bawah ini

Lengkapi fungsi hitung_entropy

**Rumus Entropy**

![](https://cdn.discordapp.com/attachments/770638427195965441/828564434724978688/unknown.png)




In [16]:
def hitung_entropy(kolom_kelas):
  #Menghitung homogenitas
  elemen,banyak = np.unique(kolom_kelas,return_counts = True)
  entropy = np.sum([(-banyak[i]/np.sum(banyak))*np.log2(banyak[i]/np.sum(banyak)) for i in range(len(elemen))])
  return entropy

In [17]:
#nilai_entropy = data_uji['class']

In [18]:
#nilai_entropy

Lengkapi fungsi information_gain

**Rumus Information gain**

![](https://cdn.discordapp.com/attachments/770638427195965441/828564498268422194/unknown.png)

In [19]:
def information_gain(data, nama_fitur_split, nama_fitur_kelas):
  #tuliskan kode Anda di sini
  total_entropy = hitung_entropy(data[nama_fitur_kelas])
  nilai,banyak= np.unique(data[nama_fitur_split],return_counts=True)
  Weighted_Entropy = np.sum([(banyak[i]/np.sum(banyak))*hitung_entropy(data.where(data[nama_fitur_split]==nilai[i]).dropna()[nama_fitur_kelas]) for i in range(len(nilai))])

  information_gain = total_entropy - Weighted_Entropy
  return information_gain

Lengkapi fungsi **buat_tree_ig**. Isinya sama persis dengan fungsi **buat_tree**, hanya saja penghitungan **gini_split** diganti dengan **information_gain**. Selain itu, percabangan dilakukan dengan menggunakan nilai **information_gain** **terbesar**

In [20]:
def buat_tree_ig(data,data_awal, daftar_fitur, nama_fitur_kelas,kelas_parent_node=None):
  #tuliskan kode Anda di sini
  if len(np.unique(data[nama_fitur_kelas])) <= 1:
    return np.unique(data[nama_fitur_kelas])[0]
  #jika data kosong
  elif len(data)==0:
    return np.unique(data_awal[nama_fitur_kelas])[np.argmax(np.unique(data_awal[nama_fitur_kelas],return_counts=True)[1])]
  #jika tidak ada fitur yang terisa
  elif len(daftar_fitur) == 0:
    return kelas_parent_node
  else: 
    kelas_parent_node = np.unique(data[nama_fitur_kelas])[np.argmax(np.unique(data[nama_fitur_kelas],return_counts=True)[1])]
    nilai_gain = [information_gain(data,fitur,nama_fitur_kelas) for fitur in daftar_fitur]
    index_fitur_terbaik = np.argmax(nilai_gain)
    fitur_terbaik = daftar_fitur[index_fitur_terbaik]
    tree = {fitur_terbaik:{}}
    daftar_fitur = [i for i in daftar_fitur if i != fitur_terbaik]
    for nilai in np.unique(data[fitur_terbaik]):
      sub_data = data.where(data[fitur_terbaik] == nilai).dropna()
      subtree = buat_tree_ig(sub_data,data_awal,daftar_fitur,nama_fitur_kelas,kelas_parent_node)
      tree[fitur_terbaik][nilai]=subtree
  return(tree)

Lakukan pembentukan tree menggunakan fungsi **buat_tree_ig**

In [21]:
tree_ig = buat_tree_ig(data_latih,data_latih,data_latih.columns[:-1],'class')

Tampilkan tree yang terbentuk

In [22]:
pprint(tree_ig)

{'safety': {'high': {'buying': {'high': {'maint': {'high': {'lug_boot': {'med': 'acc',
                                                                         'small': 'acc'}},
                                                   'low': {'lug_boot': {'big': 'acc',
                                                                        'small': 'acc'}},
                                                   'med': {'lug_boot': {'small': 'acc'}},
                                                   'vhigh': 'unacc'}},
                                'low': {'maint': {'high': {'lug_boot': {'big': 'vgood',
                                                                        'med': 'vgood',
                                                                        'small': 'vgood'}},
                                                  'low': {'lug_boot': {'big': 'vgood',
                                                                       'med': 'vgood',
                                           

Lakukan pengujian menggunakan tree yang terbentuk

In [24]:
hasil_prediksi_total_ig = []
for i in range(len(data_uji_dict)):
  hasil_prediksi = prediksi(data_uji_dict[i],tree_ig)
  hasil_prediksi_total_ig.append(hasil_prediksi)
print("Total prediksi benar: ",sum(hasil_prediksi_total_ig==data_uji['class']))

akurasi_prediksi = (sum(hasil_prediksi_total_ig==data_uji['class'])/data_uji.shape[0])*100
print("Total data : ", data_uji.shape[0])
print("Keakuratan : ", akurasi_prediksi, "%")

Total prediksi benar:  44
Total data :  52
Keakuratan :  84.61538461538461 %


# PERTANYAAN

Jawablah pertanyaan di bawah ini



1.   Amati tree yang dihasilkan dengan kriteria percabangan GINI dan Information Gain. Apa perbedaan tree yang dihasilkan dari kedua metode tersebut?
2.   Apakah penggunaan Information Gain dapat meningkatkan akurasi prediksi?



In [26]:
#Melihat perbedaan Tree
def compareTree(tree1, tree2):
  compare = False
  if(tree1 == tree2):
    compare = True
  else:
    return compare
  return compare

In [27]:
banding = compareTree(tree, tree_ig)
banding

False

Tulis jawaban Anda di cell ini


1.   Dari percobaan pada praktikum kali ini dapat dilihat bahwa tree yang dihasilkan dengan menggunakan kriteria percabangan GINI dengan menggunakan kriteria percabangan Information Gain adalah ***berbeda***, dapat dilihat pada method compareTree diatas. Berdasarkan informasi yang saya dapatkan juga, metode Informasi Gain menghasilkan percabangan yang relatif lebih akurat dibanding GINI. Namun GINI memiliki tingkat pressi yang lebih tinggi daripada Information Gain. Untuk percobaan pada praktikum ini perbedaannya mungkin kurang terlihat ya, mungkin karena data yang digunakan tidak terlalu banyak dan bervariasi. Menurut saya, jika dataset yang digunakan merupakan dataset yang sangat luas maka akan terlihat perbedaan yang lebih signifikan antara Information Gain dan GINI ini.


2.   Dalam percobaan praktikum ini dapat dilihat bahwa total prediksi yang di dapatkan antara Information Gain dan GINI sama yakni 44. Seperti penjelasan saya pada nomor 1 dimana Information Gain memiliki tingkat ke akuratan yang lebih baik daripada GINI namun GINI memiliki tingkat presisi yang lebih baik daripada Information Gain. Kalau berdasarkan praktikum ini, Information Gain tidak meningkatkan akurasi dari prediksi karena hasilnya masih sama dengan GINI



