Misalkan kita hendak membuat model yg bisa mengklasifikasikan kendaraan bermotor, apakah termasuk kelompok sedan atau minibus berdasarkan ciri-ciri yg sudah disediakan.

algoritma yang umum digunakan untuk melatih model Decision Tree, salah satunya bernama CART (Classification and Regression Trees).

CART merupakan turunan dari algoritma lain bernama C4.5, sedangkan C4.5 sendiri merupakan turunan dari algoritma ID3 yang diciptakan pada tahun 1980-an.

Pada dasarnya, algoritma ID3 melakukan splitting (pemecahan) data ke dalam dua kelompok berdasarkan atribut-atribut yang ada di dalam data, dengan mengukur suatu angka yang disebut entropy, kita bisa artikan entropy sebagai ukuran seberapa acak suatu kelompok data.

Entropy yang semakin rendah menunjukkan bahwa kelompok data semakin homogen (berisi data yang sejenis, berasal dari kelas yang sama), dan nilai entropy nol berarti kelompok data sudah homogen sepenuhnya.

Semakin banyak tingkatan dalam Decision Tree, artinya pohon semakin "tinggi" dan proses splitting semakin kompleks, model akan menjadi lebih fit

proses yang disebut pruning (pemangkasan) perlu dilakukan. Cabang-cabang yang terlalu panjang dipangkas, dan node-node di tingkat atas dijadikan leaf node.

Algoritma ID3 menggunakan pengukuran yang disebut Information Gain. Secara singkat, Information Gain menunjukkan seberapa besar berkurangnya entropy akibat proses splitting di setiap tingkat.

Entropy adalah ukuran seberapa acak isi sebuah kelas. Entropy bernilai nol bila kelas isinya 100% homogen (sejenis semua) dan bernilai 1 bila isi kelas sepenuhnya acak (tidak ada yang sejenis).

gini index, yang menunjukkan proporsi suatu kelas data di dalam satu kelompok data.

Jika data tidak seimbang proses, maka balancing (penyeimbangan) harus dilakukan dengan cara membuang sebagian data (atau menambah data) dari salah satu kelas.

In [1]:
# melakukan tranformasi berupa encoding(pengkodean) ke angka
import pandas as pd
import sklearn.model_selection as ms
import sklearn.tree as tree
import sklearn.metrics as met
import pydotplus as pp

df1 = pd.read_csv("decisiontree.csv")
encoding = {"mesin" : {"bensin": 0, "diesel": 1},
            "penggerak":{"depan":0,"belakang":1}}
df1.replace(encoding, inplace=True)
# inplace=True artinya dataframe langsung diubah secara permanen.

In [2]:
print(df1)

    ID  mesin  bangku  penggerak    label
0    1      0       4          0    sedan
1    2      0       2          0    sedan
2    3      0       8          1  minibus
3    4      1       6          0  minibus
4    5      0       5          1  minibus
5    6      1       8          1  minibus
6    7      1       8          1  minibus
7    8      0       4          0    sedan
8    9      1       7          1  minibus
9   10      0       4          0    sedan
10  11      0       2          0    sedan
11  12      1       6          1  minibus
12  13      1       8          0  minibus
13  14      0       4          0    sedan
14  15      1       2          0    sedan
15  16      0       4          0    sedan
16  17      0       8          1  minibus
17  18      0       4          0    sedan
18  19      1       8          1  minibus
19  20      1       8          1  minibus
20  21      0       4          0    sedan
21  22      0       4          0  minibus
22  23      1       8          1  

In [3]:
X = df1.drop(['ID','label'], axis=1)
y = df1['label']

In [4]:
X_train, X_test, y_train, y_test = ms.train_test_split(X,y, test_size=0.2)

Kita akan melatih model dgn pergunakan entropy sebagai kriteria pengukuran proses splitting.

In [5]:
model1 = tree.DecisionTreeClassifier(criterion='entropy', max_depth=5)
model1.fit(X_train, y_train)

DecisionTreeClassifier(criterion='entropy', max_depth=5)

In [6]:
y_prediksi = model1.predict(X_test)

In [7]:
print(y_prediksi)

['minibus' 'minibus' 'sedan' 'minibus' 'sedan' 'sedan' 'minibus' 'sedan']


In [8]:
print(met.accuracy_score(y_test, y_prediksi))

0.875


## Visualisasi

Salah satu keunggulan Decision Tree adalah algoritma ini transparan dalam proses training-nya sehingga memungkinkan kita mempelajari bagaimana tree dapat terbentuk.

Graphviz, sebuah open source library untuk visualisasi berbagai macam keperluan.

pydotplus yang menjadi penghubung Python dengan Graphviz yang menggunakan format khusus, yaitu DOT language.

fungsi export_graphviz() utk menggambarkan Decision Tree cukup mudah, keluaran dari fungsi ini adalah dot_data, berisi data berformat khusus DOT yg dipakai oleh Graphviz.

In [9]:
labels = ['mesin','bangku','penggerak']
dot_data = tree.export_graphviz(model1, out_file=None, feature_names=labels, filled = True, rounded = True)
graph =pp.graph_from_dot_data(dot_data)
graph.write_png('decisiontree.png')

True

## Decision Tree utk Membaut Regression Model

algoritma decision tree juga dpt dimanfaatkan utk membuat model Regression Trees, yg berguna memprediksi target dgn sifat kategorikal, misalnya "tinggi", "sedang","rendah", dan sebagainya.

## Pengembangan Decision Trees

Decision Tree juga termasuk algoritma Machine Learning yang unstable (tidak stabil), artinya perubahan kecil saja terhadap data akan membuat model berubah cukup drastis.


### Random Forest

Ensemble. Metode ini memungkinkan kita menggabungkan
beberapa model untuk mendapatkan hasil yang lebih baik daripada
manjalankan setiap model sendiri-sendiri

Untuk mengatasi kelemahan Decision Tree, metode Ensemble yang
disebut Random Forest banyak dimanfaatkan untuk mencapai hasil
akurasi yang lebih baik. Disebut forest (hutan) karena berisikan
banyak trees (pohon). Prinsipnya adalah membangun beberapa
model Decision Tree dan kemudian menggabungkan hasilnya.

fungsi penggabungan ini berupa mekanisme voting (penentuan dengan suara terbanyak) yang menjadi penentu keluaran mana yang akan dipakai. Setiap tree akan memberikan hak suaranya, dan kelas yang paling populer yang akan dimenangkan sebagai hasil akhir.

Random Forest Classifier untuk keperluan membuat
Random Forest

Contoh  dibawah ini akan membuat model dhn 100 buah Decision Tree("estimator"):

In [11]:
import sklearn.ensemble as ens
rf = ens.RandomForestClassifier(n_estimators = 100)

In [12]:
df2 = pd.read_csv("decisiontree.csv")
encoding = {"mesin" : {"bensin": 0, "diesel": 1},
            "penggerak":{"depan":0,"belakang":1}}
df2.replace(encoding, inplace=True)
# inplace=True artinya dataframe langsung diubah secara permanen.
print(df2)
X = df2.drop(['ID','label'], axis=1)
y = df2['label']
X_train, X_test, y_train, y_test = ms.train_test_split(X,y, test_size=0.2)

    ID  mesin  bangku  penggerak    label
0    1      0       4          0    sedan
1    2      0       2          0    sedan
2    3      0       8          1  minibus
3    4      1       6          0  minibus
4    5      0       5          1  minibus
5    6      1       8          1  minibus
6    7      1       8          1  minibus
7    8      0       4          0    sedan
8    9      1       7          1  minibus
9   10      0       4          0    sedan
10  11      0       2          0    sedan
11  12      1       6          1  minibus
12  13      1       8          0  minibus
13  14      0       4          0    sedan
14  15      1       2          0    sedan
15  16      0       4          0    sedan
16  17      0       8          1  minibus
17  18      0       4          0    sedan
18  19      1       8          1  minibus
19  20      1       8          1  minibus
20  21      0       4          0    sedan
21  22      0       4          0  minibus
22  23      1       8          1  

In [13]:
rf.fit(X_train, y_train)

RandomForestClassifier()

In [14]:
print(rf)

RandomForestClassifier()


Selanjutnya kita bisa langsung memakai model dgn test dataset utk scoring dan mendapatkan hasilkan prediksi:

In [15]:
y_prediksi = rf.predict(X_test)

kita ukur seberapa akurat hasil prediksi model ini, dgn cara membandingkan hasil prediksi dgn test dataset :

In [16]:
akurasi = met.accuracy_score(y_test, y_prediksi)
print(akurasi)

0.875


Di bawah ini kita bisa melihat bahwa feature kedua adalah feature yg paling penting dgn accuracy score paling tinggi :

In [17]:
score = rf.feature_importances_
print(score)

[0.13885745 0.58759215 0.2735504 ]
