# Decision Tree

##### Decision tree adalah algoritma machine learning. Algoritma ini untuk menjawab pertanyaan berdasarkan tree yang sudah dibangun.

Ketika kita ingin pergi keluar rumah kita akan mempertimbangkan hal.
1. Apakah sudah ada tempat tujuan? Jika ya maka dilanjutkan dengan pertanyaan selanjutnya, jika tidak maka tidak jadi keluar.
2. Apakah lamaran cuaca hari ini adalah baik? Jika ya maka dilanjutkan dengan pertanyaan selanjutnya, jika tidak maka tidak jadi keluar.
3. Apakah langit sedang gelap hari ini? Jika ya maka dilanjutkan dengan pertanyaan selanjutnya, jika tidak maka tidak jadi keluar.
4. Apakah ada alat transportasi untuk berpergian? Jika ya maka dilanjutkan dengan pertanyaan selanjutnya, jika tidak maka tidak jadi keluar.

Dari paparan tersebut dapat dilihat adanya kondisi seperti if else. Kondisi ini kemudian akan dirancang dalam bentuk pohon (decision tree). Sehingga ketika kita memiliki data "hari ini gelap, saya tidak ada kendaraan, saya ingin ke mall" maka akan muncul ouput berupa kelayakan keluar rumah pada hari ini.

Walau demikian, permasalahan terjadi ketika adanya beberapa data yang menjadi dasar pertimbangan dalam memunculkan solusi. 

Decision Tree diintegrasikan menggunakan python dalam library sklearn. Adapun langkah-langkah tahapan decision tree adalah sebagai berikut!

# 1. Penggunaan file

In [1]:
import pandas as pd

# membaca file 
try:
    df1 = pd.read_csv("copy coba.csv")
    print("Pembacaan file berhasil")
except FileNotFoundError:
    print("File tidak ditemukan")
    
# encoding, untuk mengubah kode, dikarekan pada file excel kolom mesin terdapat bensin dan diesel, maka bensin inisialisasi menjadi 0 dan diesel menjadi 1
# selain itu perlu encoding untuk kolom penggerak dengan data depan sebagai 0 dan belakang sebagai 1
encoding = {"hasil": {"ya": 1, "tidak": 0}}

# replace untuk menyimpan dan mengubah sesuai encoding yang kita buat
df1.replace(encoding,inplace=True)

# berikut adalah contoh hasil setelah di encoding
print(df1)

Pembacaan file berhasil
   kesepakatan  lokasi  pelayanan  hasil
0            4       4          5      1
1            2       2          3      0
2            1       4          3      0
3            5       5          5      1


In [2]:
# X = df1.drop(['ID','label'], axis=1) artinya kita akan drop kolom ID dan label karena kolom ini tidak akan kita pakai sebagai X
# y = df1['label'] dikarekan kita akan menyimpan kolom label ke dalam y
X = df1.drop(['hasil'], axis=1)
y = df1['hasil']

# print("""X:
# {}""" .format(X))

# print("""y:
# {}""" .format(y))

# 2. Melakukan algoritma Decision Tree

In [3]:
import sklearn.model_selection as ms

# setiap 0.1 test_size maka diambil 4 data (40 data dibagi 10 maka 4)
# dikasus ini menggunakan 0.2 test_size maka akan diambil 8 data
# untuk train karna data ada 40 maka 40-8, maka akan muncul 32
# untuk test karna 0.2 test maka akan muncul (4+4) maka 8 data
X_train, X_test, y_train, y_test = ms.train_test_split(X, y, test_size=0.2)

# print(y_test)

In [4]:
import sklearn.tree as tree
# (lampiran - Rumus entropy)
# max_depth menunjukkan seberapa tinggi pohon decision tree yang akan dibuat (lampiran - contoh max_depth decision tree)
model1 = tree.DecisionTreeClassifier(criterion='entropy', max_depth=3)

# latih model1 dengan fungsi fit
model1.fit(X_train, y_train)

In [5]:
# untuk melihat parameter yang terkandung dalam pelatihan model model1.fit(X_train, y_train)
print(model1.get_params())

{'ccp_alpha': 0.0, 'class_weight': None, 'criterion': 'entropy', 'max_depth': 3, 'max_features': None, 'max_leaf_nodes': None, 'min_impurity_decrease': 0.0, 'min_samples_leaf': 1, 'min_samples_split': 2, 'min_weight_fraction_leaf': 0.0, 'monotonic_cst': None, 'random_state': None, 'splitter': 'best'}


In [6]:
y_prediksi = model1.predict(X_test)
print(y_prediksi)

[0]


# 3. Memeriksa seberapa akurat Decision Tree yang telah dibuat

In [7]:
import sklearn.metrics as met
print(met.accuracy_score(y_test, y_prediksi))

1.0


# Contoh hasil Decision Tree yang telah dibuat

In [8]:
import pydotplus as pp
labels = ['mesin', 'bangku', 'penggerak']
dot_data = tree.export_graphviz(model1, out_file=None, feature_names=labels, filled=True, rounded=True)
graph = pp.graph_from_dot_data(dot_data)
graph.write_png('decistiontree.png')

True

# Contoh penerapan/implementasi Decision Tree berdasarkan dataframe sebelumnya (menilai apakah decision tree sudah baik)

In [9]:
# Ambil beberapa baris dari DataFrame sebelumnya sebagai data yang akan diprediksi!
data_prediksi = df1.tail(5).copy()  # Ambil 5 baris terakhir, copy() digunakan untuk membuat salinan agar tidak mengubah DataFrame asli
print("Data contoh prediksi yang diketahui label:")
print(data_prediksi)

# Hapus kolom 'ID' dan 'label' karena kolom-kolom ini tidak digunakan dalam prediksi
data_prediksi.drop([], axis=1, inplace=True)
print("Ubah data menjadi tidak diketahui label:")
print(data_prediksi)

# Lakukan prediksi dengan model yang telah dilatih
hasil_prediksi = model1.predict(data_prediksi)

# Tampilkan hasil prediksi, prediksi in enumerate(hasil_prediksi) diartikan bahwa data hasil_prediksi ditampung dalam prediksi
print("Hasil Prediksi:")
for i, prediksi in enumerate(hasil_prediksi):
    print(f"Data {i+1}: {prediksi}")

Data contoh prediksi yang diketahui label:
   kesepakatan  lokasi  pelayanan  hasil
0            4       4          5      1
1            2       2          3      0
2            1       4          3      0
3            5       5          5      1


KeyError: "['ID', 'label'] not found in axis"

# Contoh penerapan/implementasi Decision Tree berdasarkan dataframe yang belum diketahui label

Pada contoh ini melibatkan 10 data tanpa diketahui label(minibus/sedan) pada kendaraan tersebut. Tugas anda adalah mencari label berdarkan decision tree yang telah dibangun sebelumnya!

In [10]:
try:
    contoh2 = pd.read_csv("decisiontree2.csv")
    print("Pembacaan file berhasil")
    display(contoh2)
except FileNotFoundError:
    print("File tidak ditemukan")

encoding = {"mesin": {"bensin": 0, "diesel": 1},
           "penggerak": {"depan":0, "belakang":1}}

contoh2.replace(encoding,inplace=True)

print(contoh2)

Pembacaan file berhasil


Unnamed: 0,ID,mesin,bangku,penggerak
0,1,diesel,5,belakang
1,2,bensin,4,depan
2,3,bensin,3,belakang
3,4,bensin,6,depan
4,5,bensin,5,belakang
5,6,diesel,4,depan
6,7,diesel,8,belakang
7,8,bensin,4,depan
8,9,diesel,5,depan
9,10,bensin,4,belakang


   ID  mesin  bangku  penggerak
0   1      1       5          1
1   2      0       4          0
2   3      0       3          1
3   4      0       6          0
4   5      0       5          1
5   6      1       4          0
6   7      1       8          1
7   8      0       4          0
8   9      1       5          0
9  10      0       4          1


In [12]:
contoh2.drop(['ID'], axis=1, inplace=True)
print(contoh2)

   mesin  bangku  penggerak
0      1       5          1
1      0       4          0
2      0       3          1
3      0       6          0
4      0       5          1
5      1       4          0
6      1       8          1
7      0       4          0
8      1       5          0
9      0       4          1


In [13]:
prediksisoal = model1.predict(contoh2)
print("Hasil Prediksi:")
for i, prediksi in enumerate(prediksisoal):
    print(f"Data {i+1}: {prediksi}")

Hasil Prediksi:
Data 1: minibus
Data 2: sedan
Data 3: sedan
Data 4: minibus
Data 5: minibus
Data 6: sedan
Data 7: minibus
Data 8: sedan
Data 9: minibus
Data 10: sedan


In [14]:
contoh2["hasil prediksi"] = prediksisoal
display(contoh2)

Unnamed: 0,mesin,bangku,penggerak,hasil prediksi
0,1,5,1,minibus
1,0,4,0,sedan
2,0,3,1,sedan
3,0,6,0,minibus
4,0,5,1,minibus
5,1,4,0,sedan
6,1,8,1,minibus
7,0,4,0,sedan
8,1,5,0,minibus
9,0,4,1,sedan


# Lampiran

Rumus Entropy
![entropy.jpg](attachment:entropy.jpg)

max_depth = 1
![maxdepth1.png](attachment:maxdepth1.png)

max_depth = 2
![maxdepth2.png](attachment:maxdepth2.png)

max_depth = 3
![maxdepth3.png](attachment:maxdepth3.png)