Misalkan kita hendak membuat model yg bisa mengklasifikasikan kendaraan bermotor, apakah termasuk kelompok sedan atau minibus berdasarkan ciri-ciri yg sudah disediakan.

algoritma yang umum digunakan untuk melatih model Decision Tree, salah satunya bernama CART (Classification and Regression Trees).

CART merupakan turunan dari algoritma lain bernama C4.5, sedangkan C4.5 sendiri merupakan turunan dari algoritma ID3 yang diciptakan pada tahun 1980-an.

Pada dasarnya, algoritma ID3 melakukan splitting (pemecahan) data ke dalam dua kelompok berdasarkan atribut-atribut yang ada di dalam data, dengan mengukur suatu angka yang disebut entropy, kita bisa artikan entropy sebagai ukuran seberapa acak suatu kelompok data.

Entropy yang semakin rendah menunjukkan bahwa kelompok data semakin homogen (berisi data yang sejenis, berasal dari kelas yang sama), dan nilai entropy nol berarti kelompok data sudah homogen sepenuhnya.

Semakin banyak tingkatan dalam Decision Tree, artinya pohon semakin "tinggi" dan proses splitting semakin kompleks, model akan menjadi lebih fit

proses yang disebut pruning (pemangkasan) perlu dilakukan. Cabang-cabang yang terlalu panjang dipangkas, dan node-node di tingkat atas dijadikan leaf node.

Algoritma ID3 menggunakan pengukuran yang disebut Information Gain. Secara singkat, Information Gain menunjukkan seberapa besar berkurangnya entropy akibat proses splitting di setiap tingkat.

Entropy adalah ukuran seberapa acak isi sebuah kelas. Entropy bernilai nol bila kelas isinya 100% homogen (sejenis semua) dan bernilai 1 bila isi kelas sepenuhnya acak (tidak ada yang sejenis).

gini index, yang menunjukkan proporsi suatu kelas data di dalam satu kelompok data.

Jika data tidak seimbang proses, maka balancing (penyeimbangan) harus dilakukan dengan cara membuang sebagian data (atau menambah data) dari salah satu kelas.

In [5]:
import pandas as pd
import sklearn.model_selection as ms
import sklearn.tree as tree
import sklearn.metrics as met
import pydotplus as pp
import sklearn.ensemble as ens
import numpy as np
import sklearn.preprocessing as prep


In [6]:
# melakukan tranformasi berupa encoding(pengkodean) ke angka


df1 = pd.read_csv("decisiontree.csv")
encoding = {"mesin" : {"bensin": 0, "diesel": 1},
            "penggerak":{"depan":0,"belakang":1}}
df1.replace(encoding, inplace=True)
# inplace=True artinya dataframe langsung diubah secara permanen.

In [7]:
print(df1)

    ID  mesin  bangku  penggerak    label
0    1      0       4          0    sedan
1    2      0       2          0    sedan
2    3      0       8          1  minibus
3    4      1       6          0  minibus
4    5      0       5          1  minibus
5    6      1       8          1  minibus
6    7      1       8          1  minibus
7    8      0       4          0    sedan
8    9      1       7          1  minibus
9   10      0       4          0    sedan
10  11      0       2          0    sedan
11  12      1       6          1  minibus
12  13      1       8          0  minibus
13  14      0       4          0    sedan
14  15      1       2          0    sedan
15  16      0       4          0    sedan
16  17      0       8          1  minibus
17  18      0       4          0    sedan
18  19      1       8          1  minibus
19  20      1       8          1  minibus
20  21      0       4          0    sedan
21  22      0       4          0  minibus
22  23      1       8          1  

In [8]:
df1.shape

(40, 5)

In [9]:
X = df1.drop(['ID','label'], axis=1)
y = df1['label']

In [10]:
X_train, X_test, y_train, y_test = ms.train_test_split(X,y, test_size=0.2)

Kita akan melatih model dgn pergunakan entropy sebagai kriteria pengukuran proses splitting.

In [11]:
model1 = tree.DecisionTreeClassifier(criterion='entropy', max_depth=5)
model1.fit(X_train, y_train)

In [12]:
y_prediksi = model1.predict(X_test)

In [13]:
print(y_prediksi)

['minibus' 'minibus' 'sedan' 'minibus' 'minibus' 'minibus' 'minibus'
 'sedan']


In [14]:
print(y_test)

35    minibus
32    minibus
21    minibus
16    minibus
18    minibus
28    minibus
11    minibus
30      sedan
Name: label, dtype: object


In [15]:
print(met.accuracy_score(y_test, y_prediksi))

0.875


## Visualisasi

Salah satu keunggulan Decision Tree adalah algoritma ini transparan dalam proses training-nya sehingga memungkinkan kita mempelajari bagaimana tree dapat terbentuk.

Graphviz, sebuah open source library untuk visualisasi berbagai macam keperluan.

pydotplus yang menjadi penghubung Python dengan Graphviz yang menggunakan format khusus, yaitu DOT language.

fungsi export_graphviz() utk menggambarkan Decision Tree cukup mudah, keluaran dari fungsi ini adalah dot_data, berisi data berformat khusus DOT yg dipakai oleh Graphviz.

In [17]:
labels = ['mesin','bangku','penggerak']
dot_data = tree.export_graphviz(model1, out_file=None, feature_names=labels, filled = True, rounded = True)
graph = pp.graph_from_dot_data(dot_data)
graph.write_png('decisiontree1.png')

InvocationException: GraphViz's executables not found

## Decision Tree utk Membaut Regression Model

algoritma decision tree juga dpt dimanfaatkan utk membuat model Regression Trees, yg berguna memprediksi target dgn sifat kategorikal, misalnya "tinggi", "sedang","rendah", dan sebagainya.

## Pengembangan Decision Trees

Decision Tree juga termasuk algoritma Machine Learning yang unstable (tidak stabil), artinya perubahan kecil saja terhadap data akan membuat model berubah cukup drastis.


### Random Forest

Ensemble. Metode ini memungkinkan kita menggabungkan
beberapa model untuk mendapatkan hasil yang lebih baik daripada
manjalankan setiap model sendiri-sendiri

Untuk mengatasi kelemahan Decision Tree, metode Ensemble yang
disebut Random Forest banyak dimanfaatkan untuk mencapai hasil
akurasi yang lebih baik. Disebut forest (hutan) karena berisikan
banyak trees (pohon). Prinsipnya adalah membangun beberapa
model Decision Tree dan kemudian menggabungkan hasilnya.

fungsi penggabungan ini berupa mekanisme voting (penentuan dengan suara terbanyak) yang menjadi penentu keluaran mana yang akan dipakai. Setiap tree akan memberikan hak suaranya, dan kelas yang paling populer yang akan dimenangkan sebagai hasil akhir.

Random Forest Classifier untuk keperluan membuat
Random Forest

Contoh  dibawah ini akan membuat model dhn 100 buah Decision Tree("estimator"):

In [None]:
rf = ens.RandomForestClassifier(n_estimators = 100)

In [None]:
df2 = pd.read_csv("decisiontree.csv")
encoding = {"mesin" : {"bensin": 0, "diesel": 1},
            "penggerak":{"depan":0,"belakang":1}}
df2.replace(encoding, inplace=True)
# inplace=True artinya dataframe langsung diubah secara permanen.
print(df2)
X = df2.drop(['ID','label'], axis=1)
y = df2['label']
X_train, X_test, y_train, y_test = ms.train_test_split(X,y, test_size=0.2)

    ID  mesin  bangku  penggerak    label
0    1      0       4          0    sedan
1    2      0       2          0    sedan
2    3      0       8          1  minibus
3    4      1       6          0  minibus
4    5      0       5          1  minibus
5    6      1       8          1  minibus
6    7      1       8          1  minibus
7    8      0       4          0    sedan
8    9      1       7          1  minibus
9   10      0       4          0    sedan
10  11      0       2          0    sedan
11  12      1       6          1  minibus
12  13      1       8          0  minibus
13  14      0       4          0    sedan
14  15      1       2          0    sedan
15  16      0       4          0    sedan
16  17      0       8          1  minibus
17  18      0       4          0    sedan
18  19      1       8          1  minibus
19  20      1       8          1  minibus
20  21      0       4          0    sedan
21  22      0       4          0  minibus
22  23      1       8          1  

In [None]:
rf.fit(X_train, y_train)

RandomForestClassifier()

In [None]:
print(rf)

RandomForestClassifier()


Selanjutnya kita bisa langsung memakai model dgn test dataset utk scoring dan mendapatkan hasilkan prediksi:

In [None]:
y_prediksi = rf.predict(X_test)

kita ukur seberapa akurat hasil prediksi model ini, dgn cara membandingkan hasil prediksi dgn test dataset :

In [None]:
akurasi = met.accuracy_score(y_test, y_prediksi)
print(akurasi)

1.0


Di bawah ini kita bisa melihat bahwa feature kedua adalah feature yg paling penting dgn accuracy score paling tinggi :

In [None]:
score = rf.feature_importances_
print(score)

[0.20493397 0.47717111 0.31789492]


## Random Forest dengan Dataset yang Lebih Besar

Dalam contoh kasus di atas kita menggunakan dataset sederhana. Untuk membuat demonstrasi yang lebih menarik dengan data nyata, kita akan mencoba menggunakan dataset dari UCI Machine Learning yang berjudul "Adult Data". Dataset ini berisi sejumlah kecil data sensus penduduk tahun 1994 di Amerika Serikat, yang bisa dipakai untuk membuat classification model yang tujuannya memprediksi apakah seseorang memiliki penghasilan tahunan di atas lima puluh ribu dolar atau di bawah itu, berdasarkan data-data sensus yang ada.

In [None]:
rf1 = ens.RandomForestClassifier(n_estimators = 100)
df3 = pd.read_csv("adult_data.csv")

In [None]:
df3.head(10)

Unnamed: 0,age,workclass,fnlwft,education,education_num,marital_status,occupation,relationship,race,sex,capital_gain,capital_loss,hours-per-week,native_country,label
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K
5,37,Private,284582,Masters,14,Married-civ-spouse,Exec-managerial,Wife,White,Female,0,0,40,United-States,<=50K
6,49,Private,160187,9th,5,Married-spouse-absent,Other-service,Not-in-family,Black,Female,0,0,16,Jamaica,<=50K
7,52,Self-emp-not-inc,209642,HS-grad,9,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,45,United-States,>50K
8,31,Private,45781,Masters,14,Never-married,Prof-specialty,Not-in-family,White,Female,14084,0,50,United-States,>50K
9,42,Private,159449,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,5178,0,40,United-States,>50K


sebagai upaya untuk memastikan training dataset kita bebas dari data yang kosong (null), panggil fungsi dropna () yang akan membersihkan DataFrame df1 dari data yang kosong:

In [None]:
df3.dropna(inplace=True)

kita lihat bahwa banyak feature yang berupa nilai nominal (berupa kategori), sehingga kita perlu membuatnya menjadi nilai-nilai continuous berupa kode angka agar model bisa bekerja baik.

Kita mulai dari jenis kelamin ("sex") yang dikodekan menjadi 0 dan 1 dan ditaruh di kolom baru bernama "sex code":

In [None]:
gender = prep.LabelEncoder()
gender.fit(df3['sex'])
df3['sex_code'] = gender.transform(df3['sex'])
df3[['sex','sex_code']].head(5)

Unnamed: 0,sex,sex_code
0,Male,1
1,Male,1
2,Male,1
3,Male,1
4,Female,0


Semua feature nominal lainnya, yaitu "education", "race", "workclass", "occupation", "relationship", dan "native" kita perlakukan sama :

In [None]:
education = prep.LabelEncoder()
education.fit(df3['education'])
df3['education_code'] = education.transform(df3['education'])

race = prep.LabelEncoder()
race.fit(df3['race'])
df3['race_code'] = race.transform(df3['race'])

workclass = prep.LabelEncoder()
workclass.fit(df3['workclass'])
df3['workclass_code'] = workclass.transform(df3['workclass'])


occupation = prep.LabelEncoder()
occupation.fit(df3['occupation'])
df3['occupation_code'] = occupation.transform(df3['occupation'])

relationship = prep.LabelEncoder()
relationship.fit(df3['relationship'])
df3['relationship_code'] = relationship.transform(df3['relationship'])

native_country = prep.LabelEncoder()
native_country.fit(df3['native_country'])
df3['native_country_code'] = native_country.transform(df3['native_country'])


In [None]:
X = df3.drop(['fnlwft', 'workclass', 'education', 'marital_status', 'occupation', 'relationship', 'race', 'sex', 'native_country', 'label'], axis = 1)
y = df3['label']


In [None]:
X_train, X_test, y_train, y_test = ms.train_test_split(X,y, test_size = 0.2)

Selanjutnya proses training dan scoring bisa kita lakukan seperti biasa dgn memanggil fungsi fit() :

In [None]:
rf1.fit(X_train, y_train)
y_prediksi = rf1.predict(X_test)
print('akurasi = ', met.accuracy_score(y_test, y_prediksi))
print(met.classification_report(y_test, y_prediksi))
print(rf.feature_importances_)

akurasi =  0.5074214351520114
              precision    recall  f1-score   support

       <=50K       0.60      0.73      0.66      4973
      <=50K.       0.29      0.19      0.23      2434
        >50K       0.48      0.50      0.49      1581
       >50K.       0.18      0.10      0.13       781

    accuracy                           0.51      9769
   macro avg       0.39      0.38      0.38      9769
weighted avg       0.47      0.51      0.48      9769

[0.20493397 0.47717111 0.31789492]


Satu  hal yang perlu diingat juga adalah angka akurasi bukanlah ukuran unjuk kerja yg terpenting.

## Kesimpulan

Kekuatan utama Decision Tree adalah implementasinya yang tidak sulit.

Decision Tree adalah algoritma yang biasanya dicoba pertama kali sebelum mencoba strategi Machine Learning lainnya bilamana ternyata hasilnya kurang memuaskan..

Metode Random Forest diciptakan untuk membangun model yang lebih kokoh dengan memanfaatkan banyak model Decision Tree.

Selain itu Random Forest juga menghilangkan transparansi proses, tidak seperti Decision Tree di mana keputusan di setiap cabang bisa divisualisasikan dengan jelas.

Ada metode Ensemble lain yang disebut dengan Boosting, di mana proses prediksi dilakukan secara bertingkat dan berurutan untuk mendapatkan hasil yang lebih baik. Ini berbeda dengan Random Forest yang membangun banyak model dan dieksekusi secara paralel kemudian menggabungkan hasil-hasilnya. AdaBoost, Gradient Descent dan XGBoost adalah tiga algoritma Boosting yang populer dipakai.