## Contoh Pemodelan Decision Tree dengan Machine Learning

Mari sekarang kita lihat contoh otomatisasi model decision tree dengan menggunakan salah satu algoritma populer di R, yaitu C5.0. Praktek kali ini kita hanya bertujuan untuk melihat contoh output, detilnya akan dibahas pada bab-bab selanjutnya.

Pada code editor telah diberikan contoh code untuk membaca dan menganalisa data credit rating dari file Excel, membentuk model decision tree, dan menampilkan hasilnya dalam bentuk output. Untuk itu kita perlu gunakan package C50 yang akan kita gunakan sepanjang course ini.

Cobalah jalankan code tersebut dengan tombol Run, dan jika berjalan dengan lancar maka akan mendapatkan potongan hasil berikut.

Read 900 cases (4 attributes) from undefined.data

    Decision tree:

    jumlah_tanggungan > 4:

    :...durasi_pinjaman_bulan <= 24: 4 (112/30)

    :   durasi_pinjaman_bulan > 24: 5 (140/55)

    jumlah_tanggungan <= 4:

    :...jumlah_tanggungan > 2: 3 (246/22)
        jumlah_tanggungan <= 2:
        :...durasi_pinjaman_bulan <= 36: 1 (294/86)
            durasi_pinjaman_bulan > 36:
            :...jumlah_tanggungan <= 0: 2 (41/8)
                jumlah_tanggungan > 0: 3 (67/4)
 
Ini adalah bentuk representasi tree dalam bentuk teks. Dimana pengecekan akan dimulai dari variable jumlah_tanggungan. Sebagai contoh, jika jumlah tanggungan lebih dari 4 dan durasi pinjaman sampai dengan maksimal 24 bulan maka rating diberikan nilai 4.

In [1]:
# C 50 atau dikenal Algoritma 5.0
library("openxlsx")
library("C50")

"package 'C50' was built under R version 3.6.3"

In [2]:
#Mempersiapkan data
dataCreditRating <- read.xlsx(xlsxFile = "credit_scoring_dqlab.xlsx")
dataCreditRating$risk_rating <- as.factor(dataCreditRating$risk_rating) 

In [3]:
#Menggunakan C5.0
drop_columns <- c("kpr_aktif", "pendapatan_setahun_juta", "risk_rating", "rata_rata_overdue")
datafeed <- dataCreditRating[ , !(names(dataCreditRating) %in% drop_columns)]
modelKu <- C5.0(datafeed, as.factor(dataCreditRating$risk_rating))
summary(modelKu)


Call:
C5.0.default(x = datafeed, y = as.factor(dataCreditRating$risk_rating))


C5.0 [Release 2.07 GPL Edition]  	Mon Oct 18 09:56:13 2021
-------------------------------

Class specified by attribute `outcome'

Read 900 cases (4 attributes) from undefined.data

Decision tree:

jumlah_tanggungan > 4:
:...durasi_pinjaman_bulan <= 24: 4 (112/30)
:   durasi_pinjaman_bulan > 24: 5 (140/55)
jumlah_tanggungan <= 4:
:...jumlah_tanggungan > 2: 3 (246/22)
    jumlah_tanggungan <= 2:
    :...durasi_pinjaman_bulan <= 36: 1 (294/86)
        durasi_pinjaman_bulan > 36:
        :...jumlah_tanggungan <= 0: 2 (41/8)
            jumlah_tanggungan > 0: 3 (67/4)


Evaluation on training data (900 cases):

	    Decision Tree   
	  ----------------  
	  Size      Errors  

	     6  205(22.8%)   <<


	   (a)   (b)   (c)   (d)   (e)    <-classified as
	  ----  ----  ----  ----  ----
	   208     2     5     6     6    (a): class 1
	    86    33    21     6    13    (b): class 2
	           4   287           

## Kesimpulan

Decision tree adalah struktur model untuk pengambilan keputusan dimana kita mengikuti alur dari suatu titik awal (yang disebut root node), kondisi-kondisi berikutnya, sampai mencapai kesimpulan.

Komponen-komponen dari decision tree ini adalah sebagai berikut:
    
    •	Root node
    •	Branch atau split
    •	Node
    •	Leaf node

Ini adalah model output yang cocok dihasilkan para analis untuk membantu mengidentifikasi risk rating. Dan beruntungnya, model ini bisa otomatis dihasilkan dari algoritma machine learning dengan input data historis credit. Dan ini telah ditunjukkan dengan contoh menggunakan algoritma bernama C5.0.
Bab berikutnya akan membahas mengenai algoritma C5.0 ini. Klik tombol Next untuk melanjutkan.
