# Credit Risk dan Model Prediksi
Pengenalan terhadap mengenai credit risk dan credit rating prediction dan apa manfaatnya untuk industri finansial pemberi pinjaman seperti bank, multi finance, asuransi, dan lain-lain.

# Pendahuluan
Credit risk adalah resiko yang harus ditanggung oleh seorang individu atau lembaga ketika memberikan pinjaman - biasanya dalam bentuk uang - ke individu atau pihak lain.

Resiko ini berupa tidak bisa dibayarkannya pokok dan bunga pinjaman, sehingga mengakibatkan kerugian berikut:

1. gangguan aliran kas (cash flow) sehingga modal kerja terganggu.
2. meningkatkan biaya operasional untuk mengejar pembayaran tersebut (collection).

Untuk memperkecil resiko kredit ini, biasanya dilakukan proses yang disebut dengan credit scoring dan credit rating terhadap pihak peminjam. Output proses ini akan menjadi basis untuk menentukan apakah aplikasi pengajuan pinjaman baru diterima atau ditolak.

# Credit Score
Credit score adalah nilai resiko yang diberikan kepada seorang individu atau organisasi yang mengajukan pinjaman berdasarkan rekam jejak pinjaman dan pembayaran yang dilakukan. Proses pemberian credit score ini biasanya disebut sebagai credit scoring.

Perhitungan credit score biasanya dibuat berdasarkan data historis lamanya keterlambatan pembayaran dan yang tidak bayar sama sekali (bad debt). Bad debt biasanya mengakibatkan lembaga pemberian kredit harus menyita aset atau melakukan write off .
Nilai credit score biasanya bervariasi antar lembaga. Namun banyak yang kemudian mengadopsi model FICO Score yang memiliki rentang nilai 300 - 850. Semakin tinggi nilai yang didapatkan, maka semakin baik tingkat kemampuan seseorang atau sebuah lembaga untuk membayar pinjaman.

# Risk Rating
Kadang banyak lembaga yang menggunakan risk rating atau tingkat resiko. Terbalik dengan credit score, semakin tinggi rating ini menunjukkan resiko yang semakin meningkat.

Selain itu kodifikasi juga dibuat lebih simpel  dibandingkan rentang nilai sehingga keputusan yang bisa diambil lebih cepat. Contoh, misalkan penggunaan kombinasi seperti huruf AAA,  AA+, P-1, dan seterusnya. Atau  untuk banyak internal lembaga peminjam, kategorisasi hanya menggunakan rentang angka yang kecil misalkan 1 sampai dengan 5.

Mari kita lihat contoh data risk rating dengan pendekatan terakhir ini pada subbab berikutnya.

 

# Contoh Tabel Risk Rating
Berikut adalah contoh data risk rating yang dihasilkan berdasarkan data historis lamanya proses pengembalian pinjaman. Perhatikan kolom risk_rating  dimana terdapat angka 1 sampai dengan 5 - yang menunjukkan resiko terendah sampai tertinggi.

![Untitled.png](attachment:Untitled.png)

Selengkapnya, dataset ini bisa Anda download di https://storage.googleapis.com/dqlab-dataset/credit_scoring_dqlab.xlsx.

Kolom risk_rating ini berelasi langsung dengan kolom overdue_average, atau kolom keterlambatan pembayaran.

1. Jika keterlambatan sampai dengan 30 hari (0 - 30 days) maka diberikan nilai 1.
2. keterlambatan 31 sampai dengan 45 hari (31 - 45 days) maka scoring diberikan nilai 2.
dan seterusnya

Dari sini juga beberapa kolom juga diambil oleh analis untuk mencari pola keterkaitannya terhadap rating ini, yaitu:

1. pendapatan dalam jutaan per tahun (pendapatan_setahun_juta).
2. durasi pinjaman dalam satuan bulan (durasi_pinjaman_bulan).
3. jumlah tanggungan (jumlah_tanggungan).
4. apakah ada kpr aktif atau tidak (kpr_aktif).

# Analisa dan Model Pengambilan Keputusan
Masih terkait dengan contoh data sebelumnya, namun dengan contoh data utuh - DQLab akan memberikan ilustrasi aktivitas tindak lanjut terhadap data dengan contoh skenario berikut.

Seorang analis akan melakukan penelusuran terhadap data kita untuk mencari pola. Berikut adalah temuannya: 

1. Jika jumlah tanggungan berjumlah lebih dari 4, kecenderungan resikonya sangat tinggi (rating 4 dan 5).
2. Jika durasi pinjaman semakin lama yaitu lebih dari 24 bulan, maka kecenderungan resiko juga meningkat (rating 4 dan 5).

Dari kedua temuan ini, analis akan membentuk aturan-aturan untuk menuntun pengambilan keputusan (decision making model) terhadap pengajuan pinjaman baru untuk sebagai berikut:

1. Jika jumlah tanggungan berjumlah kurang dari 5 orang , dan durasi pinjaman kurang dari 24 bulan maka rating diberikan nilai 2 dan pengajuan pinjaman diterima. 
2. Jika jumlah tanggungan berjumlah lebih dari 4 orang dan durasi pinjaman lebih dari 24 bulan maka maka rating diberikan nilai 5 dan pengajuan pinjaman ditolak.
3. Jika jumlah tanggungan berjumlah kurang dari 5, dan durasi pinjaman kurang dari 36 bulan maka maka rating diberikan nilai 3 dan diberikan pinjaman. 

Nah, tiga aturan itu kita sebut sebagai model untuk memprediksi nilai risk rating dan menjadi basis pengambilan keputusan terhadap aplikasi pinjaman baru.

Dengan model ini, lembaga pinjaman akan semakin cepat mengambil keputusan dan dengan tingkat kesalahan pengambilan keputusan yang lebih minim.

# Kesimpulan
Credit risk adalah resiko yang harus ditanggung oleh seorang individu atau lembaga ketika memberikan pinjaman - biasanya dalam bentuk uang - ke individu atau pihak lain.

Resiko ini berupa tidak bisa dibayarkannya pokok dan bunga pinjaman, sehingga mengakibatkan kerugian berikut:

gangguan aliran kas (cash flow) sehingga modal kerja terganggu.
meningkatkan biaya operasional untuk mengejar pembayaran tersebut (collection).
Credit score dan risk rating adalah dua penilaian yang dilakukan meminimalkan resiko dari pihak pemberi kredit. Karena berdasarkan kedua model penilaian tersebut, akan diputuskan apakah aplikasi peminjaman seseorang disetujui atau ditolak.

Pada subbab berikutnya, kita akan melihat bagaimana model penilaian ini distrukturkan dalam bentuk decision tree.

# Decision Tree
Pada bab sebelumnya telah disebutkan sedikit mengenai proses pengambilan keputusan dengan konstruksi rangkaian "Jika kondisi x maka .... selain itu .... " atau dikenal dengan "IF ... ELSE ... ".

Dari contoh bab satu, rangkaiannya terlihat sebagai berikut:

1. Jika jumlah tanggungan berjumlah kurang dari 2 orang , dan durasi pinjaman kurang dari 42 bulan maka rating diberikan nilai 1 dan pengajuan pinjaman diterima. 
2. Jika jumlah tanggungan berjumlah lebih dari 4 orang dan durasi pinjaman lebih dari 30 bulan maka maka rating diberikan nilai 5 dan pengajuan pinjaman ditolak.
3. Jika jumlah tanggungan berjumlah kurang dari 5, dan durasi pinjaman kurang dari 30 bulan maka maka rating diberikan nilai 3 dan diberikan pinjaman. 

Nah, rangkaian ini sebenarnya bisa dimodelkan kembali dengan apa yang dinamakan struktur pohon keputusan atau decision tree, seperti ditampilkan secara visual sebagai berikut.
![Untitled.png](attachment:Untitled.png)
Disini, proses pengambilan keputusan adalah melihat dari kondisi paling atas, yaitu berapa jumlah tanggungan. Jika tanggungannya berjumlah 3 atau 4 maka akan langsung ke kotak bawah paling kanan yang menunjukkan rating 3.

Dan kalau kita telusuri lagi, untuk jumlah tanggungan 5 dan durasi pinjaman kurang dari 30 maka akan masuk ke rating nilai 4. Lebih mudah dan cepat dimengerti, bukan?

Mari kita melangkah ke subbab berikutnya untuk melihat komponen dari decision tree.

# Komponen Decision Tree
![Untitled1.png](attachment:Untitled1.png)
Berikut adalah komponen dari decision tree:

Node: diwakili oleh 1, 3 dan 4.
Branch (cabang) atau split (pemisah): diwakili oleh 2.
Root node: atau node akar, diwakili oleh 3.
Leaf node: atau node daun, diwakili oleh 4.
Mengerti komponen-komponen ini sangat penting untuk nanti memahami output dari algoritma machine learning yang digunakan.

# Contoh Pemodelan Decision Tree dengan Machine Learning
Mari sekarang kita lihat contoh otomatisasi model decision tree dengan menggunakan salah satu algoritma populer di R, yaitu C5.0. Praktek kali ini kita hanya bertujuan untuk melihat contoh output, detilnya akan dibahas pada bab-bab selanjutnya.

Pada code editor telah diberikan contoh code untuk membaca dan menganalisa data credit rating dari file Excel, membentuk model decision tree, dan menampilkan hasilnya dalam bentuk output. Untuk itu kita perlu gunakan package C50 yang akan kita gunakan sepanjang course ini.

Cobalah jalankan code tersebut dengan tombol Run, dan jika berjalan dengan lancar maka akan mendapatkan potongan hasil berikut.

In [None]:
library("openxlsx")
library("C50")

#Mempersiapkan data
dataCreditRating <- read.xlsx(xlsxFile = "https://storage.googleapis.com/dqlab-dataset/credit_scoring_dqlab.xlsx")
dataCreditRating$risk_rating <- as.factor(dataCreditRating$risk_rating) 

#Menggunakan C5.0
drop_columns <- c("kpr_aktif", "pendapatan_setahun_juta", "risk_rating", "rata_rata_overdue")
datafeed <- dataCreditRating[ , !(names(dataCreditRating) %in% drop_columns)]
modelKu <- C5.0(datafeed, as.factor(dataCreditRating$risk_rating))
summary(modelKu)


Ini adalah bentuk representasi tree dalam bentuk teks. Dimana pengecekan akan dimulai dari variable jumlah_tanggungan. Sebagai contoh, jika jumlah tanggungan lebih dari 4 dan durasi pinjaman sampai dengan maksimal 24 bulan maka rating diberikan nilai 4.

# Kesimpulan
Decision tree adalah struktur model untuk pengambilan keputusan dimana kita mengikuti alur dari suatu titik awal (yang disebut root node), kondisi-kondisi berikutnya, sampai mencapai kesimpulan.

Komponen-komponen dari decision tree ini adalah sebagai berikut:

Root node
Branch atau split
Node
Leaf node
Ini adalah model output yang cocok dihasilkan para analis untuk membantu mengidentifikasi risk rating. Dan beruntungnya, model ini bisa otomatis dihasilkan dari algoritma machine learning dengan input data historis credit. Dan ini telah ditunjukkan dengan contoh menggunakan algoritma bernama C5.0.

Bab berikutnya akan membahas mengenai algoritma C5.0 ini. Klik tombol Next untuk melanjutkan.



# Class and Input Variables
Mari kita kembali melihat contoh data kita dari gambar berikut ini dimana tiap header kolom diberi bulatan merah dengan penomoran.
![Untitled2.png](attachment:Untitled2.png)
Tujuan kita sepanjang course ini adalah memprediksi nilai pada kolom risk rating (7) berdasarkan data-data lain yang menyertai (1 s/d 6). Dengan demikian, risk rating disebut sebagai class variable. Kolom-kolom lainnya disebut sebagai input variables. Input variables bisa digunakan sebagian saja, namun class variable harus selalu digunakan untuk membentuk model. 

Dan pada algoritma C5.0 di R, class variable harus selalu berupa factor. Jadi jika dibaca sebagai tipe data lain, maka harus dikonversi terlebih dahulu menjadi factor.

In [None]:
library("openxlsx")

#Mempersiapkan data
dataCreditRating <- read.xlsx(xlsxFile = "https://storage.googleapis.com/dqlab-dataset/credit_scoring_dqlab.xlsx")
str(dataCreditRating)

#Melakukan konversi kolom risk_rating menjadi factor
dataCreditRating$risk_rating <- as.factor(dataCreditRating$risk_rating) 

#Melihat struktur setelah konversi
str(dataCreditRating)

In [None]:
library("openxlsx")

#Mempersiapkan data
dataCreditRating <- read.xlsx(xlsxFile = "https://storage.googleapis.com/dqlab-dataset/credit_scoring_dqlab.xlsx")

#Merubah tipe data class variable sebagai factor 
dataCreditRating$risk_rating <- as.factor(dataCreditRating$risk_rating) 
str(dataCreditRating)

#Menghilangkan beberapa variable input dari dataset 
input_columns <- c("durasi_pinjaman_bulan", "jumlah_tanggungan")
datafeed <- dataCreditRating[ , input_columns ]
str(datafeed)

# Training Set dan Testing Set
Untuk proses pembentukan model machine learning dan melihat akurasinya, biasanya dataset kita perlu dibagi menjadi dua, yaitu:

1. Training set: adalah porsi dataset yang digunakan oleh algoritma untuk dianalisa dan menjadi input untuk pembentukan model. 
2. Testing set: adalah porsi dataset yang tidak digunakan untuk membentuk model, tapi untuk menguji model yang telah dibentuk.

Pembentukan ini biasanya menggunakan metode pemilihan acak. Untuk praktek selanjutnya, kita akan membagi dataset kita menjadi 800 baris data untuk training set dan 100 baris data untuk testing set.

In [None]:
library("openxlsx")

#Mempersiapkan data
dataCreditRating <- read.xlsx(xlsxFile = "https://storage.googleapis.com/dqlab-dataset/credit_scoring_dqlab.xlsx")

#Mempersiapkan class dan input variables 
dataCreditRating$risk_rating <- as.factor(dataCreditRating$risk_rating) 
input_columns <- c("durasi_pinjaman_bulan", "jumlah_tanggungan")
datafeed <- dataCreditRating[ , input_columns ]

#Mempersiapkan porsi index acak untuk training dan testing set
set.seed(100)
indeks_training_set <- sample(900, 800)
#Membuat dan menampilkan training set dan testing set
input_training_set <- datafeed[indeks_training_set,]
class_training_set <- dataCreditRating[indeks_training_set,]$risk_rating
input_testing_set <- datafeed[-indeks_training_set,]

str(input_training_set)
str(class_training_set)
str(input_testing_set)


In [None]:
library("openxlsx")
library("C50")

#Mempersiapkan data
dataCreditRating <- read.xlsx(xlsxFile = "https://storage.googleapis.com/dqlab-dataset/credit_scoring_dqlab.xlsx")

#Mempersiapkan class dan input variables 
dataCreditRating$risk_rating <- as.factor(dataCreditRating$risk_rating) 
input_columns <- c("durasi_pinjaman_bulan", "jumlah_tanggungan")
datafeed <- dataCreditRating[ , input_columns ]

#Mempersiapkan training dan testing set
set.seed(100) #untuk menyeragamkan hasil random antar tiap komputer
indeks_training_set <- sample(900, 800)

#Membuat dan menampilkan training set dan testing set
input_training_set <- datafeed[indeks_training_set,]
class_training_set <- dataCreditRating[indeks_training_set,]$risk_rating
input_testing_set <- datafeed[-indeks_training_set,]

#menghasilkan dan menampilkan summary model
risk_rating_model <- C5.0(input_training_set, class_training_set)
summary(risk_rating_model)


In [None]:
library("openxlsx")
library("C50")

#Mempersiapkan data
dataCreditRating <- read.xlsx(xlsxFile = "https://storage.googleapis.com/dqlab-dataset/credit_scoring_dqlab.xlsx")

#Mempersiapkan class dan input variables 
dataCreditRating$risk_rating <- as.factor(dataCreditRating$risk_rating) 
input_columns <- c("durasi_pinjaman_bulan", "jumlah_tanggungan")
datafeed <- dataCreditRating[ , input_columns ]

#Mempersiapkan training dan testing set
set.seed(100) #untuk menyeragamkan hasil random antar tiap komputer
indeks_training_set <- sample(900, 800)

#Membuat dan menampilkan training set dan testing set
input_training_set <- datafeed[indeks_training_set,]
class_training_set <- dataCreditRating[indeks_training_set,]$risk_rating
input_testing_set <- datafeed[-indeks_training_set,]

#menghasilkan dan menampilkan summary model
risk_rating_model <- C5.0(input_training_set, class_training_set)
plot(risk_rating_model)

# Kesimpulan
Algoritma C5.0 adalah algoritma machine learning yang digunakan untuk membentuk model pohon keputusan (decision tree) secara otomatis, dan cocok untuk memodelkan dan sebagi alat prediksi credit rating.

Karena algoritma ini masuk ke dalam kategori classification, variable yang diperlukan oleh algoritma ini ada dua macam:

1. Class variable, yaitu variable yang berisi nilai yang ingin kita klasifikasikan. Variable ini harus berisi tipe factor.
2. Input variables, yaitu variable-variable yang berisi nilai input.

Dan untuk mengukur akurasi dari model yang kita hasilkan, kita sebaiknya membagi dataset yang ada menjadi dua porsi secara random:

1. Training set, yang digunakan untuk memberikan input ke algoritma untuk membentuk model.
2. Testing set, yang akan digunakan untuk data pembanding untuk mengukur akurasi algoritma.

Setelah semua persiapan dataset ini selesai, pada penutup bab dataset ini kita menggunakan fungsi C5.0 untuk membentuk model risk rating. Dan untuk mencetak hasil yang bisa dibaca atas model ini, kita gunakan fungsi  summary. Sedangkan untuk menghasilkan diagram decision tree kita gunakan perintah plot. Semua function ini dari package C50.

In [None]:
library("openxlsx")
library("C50")

#Mempersiapkan data
dataCreditRating <- read.xlsx(xlsxFile = "https://storage.googleapis.com/dqlab-dataset/credit_scoring_dqlab.xlsx")

#Mempersiapkan class dan input variables 
dataCreditRating$risk_rating <- as.factor(dataCreditRating$risk_rating) 
input_columns <- c("durasi_pinjaman_bulan", "jumlah_tanggungan")
datafeed <- dataCreditRating[ , input_columns ]

#Mempersiapkan training dan testing set
set.seed(100) #untuk menyeragamkan hasil random antar tiap komputer
indeks_training_set <- sample(900, 800)

#Membuat dan menampilkan training set dan testing set
input_training_set <- datafeed[indeks_training_set,]
class_training_set <- dataCreditRating[indeks_training_set,]$risk_rating
input_testing_set <- datafeed[-indeks_training_set,]

#menghasilkan model
risk_rating_model <- C5.0(input_training_set, class_training_set, control = C5.0Control(label="Risk Rating"))
summary(risk_rating_model)



In [None]:
library("openxlsx")
library("C50")

#Mempersiapkan data
dataCreditRating <- read.xlsx(xlsxFile = "https://storage.googleapis.com/dqlab-dataset/credit_scoring_dqlab.xlsx")

#Mempersiapkan class dan input variables
dataCreditRating$risk_rating <- as.factor(dataCreditRating$risk_rating)
input_columns <- c("durasi_pinjaman_bulan", "jumlah_tanggungan", "kpr_aktif")
datafeed <- dataCreditRating[ , input_columns ]

#Mempersiapkan training dan testing set
set.seed(100) #untuk menyeragamkan hasil random antar tiap komputer
indeks_training_set <- sample(900, 780)

#Membuat dan menampilkan training set dan testing set
input_training_set <- datafeed[indeks_training_set,]
class_training_set <- dataCreditRating[indeks_training_set,]$risk_rating
input_testing_set <- datafeed[-indeks_training_set,]

#menghasilkan model
risk_rating_model <- C5.0(input_training_set, class_training_set, control = C5.0Control(label="Risk Rating"))
summary(risk_rating_model)

In [None]:
library("openxlsx")
library("C50")

#Mempersiapkan data
dataCreditRating <- read.xlsx(xlsxFile = "https://storage.googleapis.com/dqlab-dataset/credit_scoring_dqlab.xlsx")

#Mempersiapkan class dan input variables 
dataCreditRating$risk_rating[dataCreditRating$risk_rating == "1"]  <-  "satu"
dataCreditRating$risk_rating[dataCreditRating$risk_rating == "2"]  <-  "dua"
dataCreditRating$risk_rating[dataCreditRating$risk_rating == "3"]  <-  "tiga"
dataCreditRating$risk_rating[dataCreditRating$risk_rating == "4"]  <-  "empat"
dataCreditRating$risk_rating[dataCreditRating$risk_rating == "5"]  <-  "lima"
dataCreditRating$risk_rating <- as.factor(dataCreditRating$risk_rating) 
input_columns <- c("durasi_pinjaman_bulan", "jumlah_tanggungan")
datafeed <- dataCreditRating[ , input_columns ]

#Mempersiapkan training dan testing set
set.seed(100) #untuk menyeragamkan hasil random antar tiap komputer
indeks_training_set <- sample(900, 800)

#Membuat dan menampilkan training set dan testing set
input_training_set <- datafeed[indeks_training_set,]
class_training_set <- dataCreditRating[indeks_training_set,]$risk_rating
input_testing_set <- datafeed[-indeks_training_set,]

#menghasilkan model
risk_rating_model <- C5.0(input_training_set, class_training_set, control = C5.0Control(label="Risk Rating"))
summary(risk_rating_model)



# Variable-variable Penentu
Output terakhir adalah daftar variable-variable yang digunakan oleh model decision tree.

	Attribute usage:

	100.00%	jumlah_tanggungan
	 72.62%	durasi_pinjaman_bulan
     
Output tersebut menceritakan tingkat pentingnya penggunaan tiap variable. Disini jumlah_tanggungan menempati urutan pertama dengan nilai 100% dan durasi_pinjaman dengan 72.62%.

Ini juga yang menjelaskan kenapa jumlah_tanggungan menempati root node di model kita.

Klik tombol Next untuk melanjutkan ke penutup bab.



# Diagram Decision Tree C5.0
Selain summary teks, kita memiliki output dari hasil plot C5.0 model yang terlihat sebagai berikut.
![Untitled4.png](attachment:Untitled4.png)

# Elemen dari Plot Decision Tree C5.0
Berikut adalah gambar dari plot Decision Tree C5.0 yang telah diberi warna dengan penjelasan berikut (setelah gambar).

![Untitled5.png](attachment:Untitled5.png)

1. Warna merah menunjukkan node dan penomoran nodenya
1.1 bulatan merah nomor 1 adalah node nomor 1 adalah root node dengan variable penentu jumlah_tanggungan.
1.2 bulatan merah nomor 2 adalah node nomor 2 dengan variable penentu jumlah_tanggungan.
1.3 bulatan merah nomor 3 adalah node nomor 7 adalah leaf node untuk klasifikasi risk_rating.

2. Warna biru menunjukkan kondisi split ke node-node berikutnya
2.1 bulatan biru nomor 4 menunjukkan kondisi split dimana durasi pinjaman kurang atau sama dengan 24 bulan.
2.2 bulatan biru nomor 5 menunjukkan kondisi split dimana durasi pinjaman lebih dari 24 bulan.

3. Warna hijau menunjukkan jumlah data yang telah diklasifikasi.
3.1 bulatan hijau nomor 6 menunjukkan hasil klasifikasi sebanyak 98 data.
3.2 bulatan hijau nomor 7 menunjukkan hasil klasifikasi sebanyak 129 data.

4. Warna ungu menunjukkan hasil klasifikasi dan distribusinya (dalam rentang rasio antara angka 0 dan  1).
4.1 bulatan ungu nomor 8 menunjukkan risk_rating pada node tersebut mayoritas adalah 4, dan dengan demikian model mengambil itu sebagai klasifikasinya. Selain itu risk_rating 5, 1, dan 2 adalah data yang juga sebenarnya jatuh ke dalam kondisi yang berakhir di node nomor 10 ini.
4.2bulatan ungu nomor 9 menunjukkan risk_rating pada node tersebut mayoritas adalah 5, dan dengan demikian model mengambil itu sebagai klasifikasinya. Selain itu risk_rating 4, 2, dan 1 adalah data yang juga sebenarnya jatuh ke dalam kondisi yang berakhir di node nomor 11 ini.

# Kesimpulan
Bab ini memfokuskan diri untuk memberi penjelasan output dari model yang meliputi aspek berikut:

1. Jumlah baris data yang diproses untuk menghasilkan model.
2. Jumlah variable yang digunakan untuk menghasilkan model.
3. Tampilan decision tree.
4. Statistik error dari model ini.
5. Confusion matrix yang menampilkan detil dari hasil klasifikasi dan aktual.
6. Variable-variable yang digunakan dan tingkat pentingnya variable tersebut.

Dengan tingkat error 22.5 persen, model ini harusnya cukup layak digunakan. Dari confusion matrix juga terlihat banyak sekali yang diprediksi dengan benar, terutama untuk nilai risk_rating 4 dan 5. Pada bab berikutnya, kita akan evaluasi model ini dengan memprediksi nilai dari testing set. 

# Pendahuluan
Confusion Matrix yang terdapat pada output model kita sebelumnya adalah evaluasi model menggunakan training set. Namun, kita perlu evaluasi model ini terhadap testing set yang telah kita siapkan.

Bab ini akan fokus ke melakukan hal ini dengan cara menggunakan model ini untuk prediksi class variable dari data test kita dan kemudian membandingkan dengan nilai sebenarnya. Klik tombol Next untuk melanjutkan.

In [None]:
library("openxlsx")
library("C50")

#Mempersiapkan data
dataCreditRating <- read.xlsx(xlsxFile = "https://storage.googleapis.com/dqlab-dataset/credit_scoring_dqlab.xlsx")

#Mempersiapkan class dan input variables 
dataCreditRating$risk_rating <- as.factor(dataCreditRating$risk_rating) 
input_columns <- c("durasi_pinjaman_bulan", "jumlah_tanggungan")
datafeed <- dataCreditRating[ , input_columns ]

#Mempersiapkan training dan testing set
set.seed(100) #untuk menyeragamkan hasil random antar tiap komputer
indeks_training_set <- sample(900, 800)

#Membuat dan menampilkan training set dan testing set
input_training_set <- datafeed[indeks_training_set,]
class_training_set <- dataCreditRating[indeks_training_set,]$risk_rating
input_testing_set <- datafeed[-indeks_training_set,]

#menghasilkan model
risk_rating_model <- C5.0(input_training_set, class_training_set, control = C5.0Control(label="Risk Rating"))

#menggunakan model untuk prediksi testing set
predict(risk_rating_model, input_testing_set)

# Menggabungkan Hasil Prediksi
Seperti diinformasikan pada subbab sebelumnya, kita akan menyimpan risk_rating dari dataset awal dan hasil prediksi ini ke dalam dua kolom nama yang lain di data frame input_testing_set. Mari kita namakan kolom tersebut dengan risk_rating dan  hasil_prediksi.

Kita gunakan perintah pertama untuk menyimpan nilai asli risk_rating ke dalam kolom risk_rating.

input_testing_set$risk_rating <- dataCreditRating[-indeks_training_set,]$risk_rating

Catatan: Ingat jika -index_training_set (dengan tanda minus di depan) menunjukkan angka-angka indeks untuk testing set.

Kemudian gunakan perintah kedua untuk menyimpan nilai prediksi ke dalam kolom hasil_prediksi.

input_testing_set$hasil_prediksi <- predict(risk_rating_model, input_testing_set)

print(input_testing_set)

Jika semua berjalan lancar maka akan tampil output sebagai berikut. Dengan kolom risk_rating dan hasil_prediksi bersampingan, kita bisa langsung bandingkan data awal dengan hasil prediksi. Terlihat ada rating yang sama (prediksi benar) dan berbeda (prediksi salah). Kita akan evaluasi tingkat akurasi dari kedua kolom ini dengan menghasilkan confusion matrix pada bagian selanjutnya.

In [None]:
library("openxlsx")
library("C50")

#Mempersiapkan data
dataCreditRating <- read.xlsx(xlsxFile = "https://storage.googleapis.com/dqlab-dataset/credit_scoring_dqlab.xlsx")

#Mempersiapkan class dan input variables 
dataCreditRating$risk_rating <- as.factor(dataCreditRating$risk_rating) 
input_columns <- c("durasi_pinjaman_bulan", "jumlah_tanggungan")
datafeed <- dataCreditRating[ , input_columns ]

#Mempersiapkan training dan testing set
set.seed(100) #untuk menyeragamkan hasil random antar tiap komputer
indeks_training_set <- sample(900, 800)

#Membuat dan menampilkan training set dan testing set
input_training_set <- datafeed[indeks_training_set,]
class_training_set <- dataCreditRating[indeks_training_set,]$risk_rating
input_testing_set <- datafeed[-indeks_training_set,]

#menghasilkan model
risk_rating_model <- C5.0(input_training_set, class_training_set, control = C5.0Control(label="Risk Rating"))

#menyimpan hasil prediksi testing set ke dalam kolom hasil_prediksi
input_testing_set$risk_rating <- dataCreditRating[-indeks_training_set,]$risk_rating
input_testing_set$hasil_prediksi <- predict(risk_rating_model, input_testing_set)

# menampilkan variable input_testing_set
print(input_testing_set)

# Membuat Table Confusion Matrix
Setelah hasil prediksi terhadap testing set selesai, langkah berikutnya kita coba lihat distribusi mana yang terprediksi dengan benar dan salah. Ini kita lakukan dengan confusion matrix.

Untuk menghasilkan ini kita bisa gunakan fungsi dcast dari package reshape2, caranya adalah sebagai berikut.

dcast(kolom ~ baris, dataframe)

Dan untuk kasus kita, maka modifikasi perintahnya adalah sebagai berikut.

dcast(hasil_prediksi ~ risk_rating, data=input_testing_set

Gunakan perintah tersebut untuk menggantikan bagian #[...1...] - setelah perintah penggabungan input variables dan hasil prediksi.

In [None]:
library("openxlsx")
library("C50")
library("reshape2")

#Mempersiapkan data
dataCreditRating <- read.xlsx(xlsxFile = "https://storage.googleapis.com/dqlab-dataset/credit_scoring_dqlab.xlsx")

#Mempersiapkan class dan input variables 
dataCreditRating$risk_rating <- as.factor(dataCreditRating$risk_rating) 
input_columns <- c("durasi_pinjaman_bulan", "jumlah_tanggungan")
datafeed <- dataCreditRating[ , input_columns ]

#Mempersiapkan training dan testing set
set.seed(100) #untuk menyeragamkan hasil random antar tiap komputer
indeks_training_set <- sample(900, 800)

#Membuat dan menampilkan training set dan testing set
input_training_set <- datafeed[indeks_training_set,]
class_training_set <- dataCreditRating[indeks_training_set,]$risk_rating
input_testing_set <- datafeed[-indeks_training_set,]

#menghasilkan model
risk_rating_model <- C5.0(input_training_set, class_training_set, control = C5.0Control(label="Risk Rating"))

#menyimpan risk_rating dari data awal dan hasil prediksi testing set ke dalam kolom hasil_prediksi
input_testing_set$risk_rating <- dataCreditRating[-indeks_training_set,]$risk_rating
input_testing_set$hasil_prediksi <- predict(risk_rating_model, input_testing_set)

#membuat confusion matrix
dcast(hasil_prediksi ~ risk_rating, data=input_testing_set)

In [None]:
library("openxlsx")
library("C50")

#Mempersiapkan data
dataCreditRating <- read.xlsx(xlsxFile = "https://storage.googleapis.com/dqlab-dataset/credit_scoring_dqlab.xlsx")

#Mempersiapkan class dan input variables 
dataCreditRating$risk_rating <- as.factor(dataCreditRating$risk_rating) 
input_columns <- c("durasi_pinjaman_bulan", "jumlah_tanggungan")
datafeed <- dataCreditRating[ , input_columns ]

#Mempersiapkan training dan testing set
set.seed(100) #untuk menyeragamkan hasil random antar tiap komputer
indeks_training_set <- sample(900, 800)

#Membuat dan menampilkan training set dan testing set
input_training_set <- datafeed[indeks_training_set,]
class_training_set <- dataCreditRating[indeks_training_set,]$risk_rating
input_testing_set <- datafeed[-indeks_training_set,]

#menghasilkan model
risk_rating_model <- C5.0(input_training_set, class_training_set, control = C5.0Control(label="Risk Rating"))

#menyimpan risk_rating dari data awal dan hasil prediksi testing set ke dalam kolom hasil_prediksi
input_testing_set$risk_rating <- dataCreditRating[-indeks_training_set,]$risk_rating
input_testing_set$hasil_prediksi <- predict(risk_rating_model, input_testing_set)

#Menghitung jumlah prediksi yang benar
nrow(input_testing_set[input_testing_set$risk_rating==input_testing_set$hasil_prediksi,])

# Jumlah Data dengan Prediksi Salah
Pada praktek sebelumnya, kita menggunakan operator == untuk membandingkan kesamaan antara kolom risk_rating dengan hasil_prediksi. Bagaimana kalau kita hanya ingin mencari yang tidak sama, dengan kata lain mencari yang salah prediksinya?

Untuk ini cukup simpel, kita bisa menggunakan operator != sehingga kondisi pengecekan sebelumnya menjadi seperti berikut.

nrow(input_testing_set[input_testing_set$risk_rating!=input_testing_set$hasil_prediksi,])

Cari dan gantilah operator == pada perbandingan hasil ini dengan !=. Jika berjalan dengan lancar maka akan mengeluarkan hasil berikut.

> nrow(input_testing_set[input_testing_set$risk_rating!=input_testing_set$hasil_prediksi,])
[1] 25

Terlihat bahwa jumlah prediksi error ada 25. Hasil ini konsisten jika dibandingkan dengan jumlah 75 dari prediksi yang benar, dimana total keduanya adalah 100 - yang merupakan jumlah data untuk testing set. Klik tombol Submit Code untuk melanjutkan ke bagian berikutnya. 

In [None]:
library("openxlsx")
library("C50")

#Mempersiapkan data
dataCreditRating <- read.xlsx(xlsxFile = "https://storage.googleapis.com/dqlab-dataset/credit_scoring_dqlab.xlsx")

#Mempersiapkan class dan input variables 
dataCreditRating$risk_rating <- as.factor(dataCreditRating$risk_rating) 
input_columns <- c("durasi_pinjaman_bulan", "jumlah_tanggungan")
datafeed <- dataCreditRating[ , input_columns ]

#Mempersiapkan training dan testing set
set.seed(100) #untuk menyeragamkan hasil random antar tiap komputer
indeks_training_set <- sample(900, 800)

#Membuat dan menampilkan training set dan testing set
input_training_set <- datafeed[indeks_training_set,]
class_training_set <- dataCreditRating[indeks_training_set,]$risk_rating
input_testing_set <- datafeed[-indeks_training_set,]

#menghasilkan model
risk_rating_model <- C5.0(input_training_set, class_training_set, control = C5.0Control(label="Risk Rating"))

#menyimpan risk_rating dari data awal dan hasil prediksi testing set ke dalam kolom hasil_prediksi
input_testing_set$risk_rating <- dataCreditRating[-indeks_training_set,]$risk_rating
input_testing_set$hasil_prediksi <- predict(risk_rating_model, input_testing_set)

#Menghitung jumlah prediksi yang salah
nrow(input_testing_set[input_testing_set$risk_rating!=input_testing_set$hasil_prediksi,])

# Kesimpulan
Bab ini berisi praktek yang cukup singkat, namun menjadi bagian yang sangat penting yaitu untuk pertama kalinya kita melakukan prediksi dengan function predict terhadap porsi data testing set.

Tujuannya adalah mengukur akurasi dari hasil prediksi dengan data awal. Ini digunakan dengan menggunakan confusion matrix  juga dan menghitung jumlah prediksi data yang benar dan salah secara agak "manual". Pendekatan terakhir adalah membandingkan data awal dan hasil prediksi di data frame dengan operator ==,  !=, dan nrow.

Dengan tingkat error 25%, dan walaupun ada catatan untuk klasifikasi 4 dan 5, namun secara garis besar kita anggap model ini cukup baik. Dan dengan keputusan ini, saatnya kita mengadopsi model ini untuk melakukan prediksi per data aplikasi kredit baru yang masuk.

Klik tombol Next untuk melanjutkan.

# Pendahuluan
Tahap terakhir setelah kita melakukan evaluasi dan yakin akan akurasinya, model akan kita gunakan dalam keseharian untuk melakukan prediksi risk rating dari data baru.

# Mempersiapkan Data Pengajuan Baru
Data pengajuan baru perlu dibentuk sebagai satu data frame dengan input dimana nama-nama variable yang digunakan harus sama persis. Dari awal pemodelan, kita menggunakan dua variable yakni:

1. jumlah_tanggungan
2. durasi_pinjaman_bulan

Keduanya dalam bentuk numerik (angka). Dan berikut adalah contoh membentuk data frame dengan dua variable tersebut.

aplikasi_baru <- data.frame(jumlah_tanggungan = 6, durasi_pinjaman_bulan = 12)

Code tersebut sudah terdapat pada code editor. Namun, Anda perlu tampilkan variable tersebut dengan perintah print. Jika berhasil jalankan dengan lancar maka akan muncul hasil sebagai berikut.

  jumlah_tanggungan durasi_pinjaman_bulan
1                 6                    12

In [None]:
#Membuat data frame aplikasi baru
aplikasi_baru <- data.frame(jumlah_tanggungan = 6, durasi_pinjaman_bulan = 12)
print(aplikasi_baru)

# Melakukan Prediksi terhadap Data Pengajuan Baru
Data aplikasi baru yang telah kita buat sebelumnya akan diprediksi nilai risk_rating-nya dengan fungsi predict, dimana cara penggunaannya masih sama dengan cara yang ditunjukkan pada bab evaluasi model, yaitu dengan syntax berikut.

predict(model, dataframe)

Code editor telah terisi code-code yang digunakan untuk membentuk model dan data frame aplikasi baru. Gantilah bagian [...1...] dengan code untuk melakukan prediksi. Sesuaikan perintah di atas dengan nama model dan variable yang digunakan. Variable risk_rating_model sebagai model dan aplikasi_baru sebagai data frame yang akan di prediksi.

Jika berjalan dengan lancar maka output dari perintah tersebut akan muncul sebagai berikut.

[1] 4
Levels: 1 2 3 4 5

Ini artinya hasil prediksi risk_rating untuk aplikasi baru ini adalah 4, dari kemungkinan 1, 2, 3, 4 dan 5. Nilai 4 ini adalah nilai resiko yang cukup tinggi, jadi bisa saja aplikasi baru ini ditolak sesuai dengan kebijakan lembaga peminjam.

In [None]:
library("openxlsx")
library("C50")

#Mempersiapkan data
dataCreditRating <- read.xlsx(xlsxFile = "https://storage.googleapis.com/dqlab-dataset/credit_scoring_dqlab.xlsx")

#Mempersiapkan class dan input variables 
dataCreditRating$risk_rating <- as.factor(dataCreditRating$risk_rating) 
input_columns <- c("durasi_pinjaman_bulan", "jumlah_tanggungan")
datafeed <- dataCreditRating[ , input_columns ]

#Mempersiapkan training dan testing set
set.seed(100) #untuk menyeragamkan hasil random antar tiap komputer
indeks_training_set <- sample(900, 800)

#Membuat dan menampilkan training set dan testing set
input_training_set <- datafeed[indeks_training_set,]
class_training_set <- dataCreditRating[indeks_training_set,]$risk_rating
input_testing_set <- datafeed[-indeks_training_set,]

#menghasilkan dan menampilkan summary model
risk_rating_model <- C5.0(input_training_set, class_training_set)

#Membuat data frame aplikasi baru
aplikasi_baru <- data.frame(jumlah_tanggungan = 6, durasi_pinjaman_bulan = 12)

#melakukan prediksi
predict(risk_rating_model, aplikasi_baru)

# Merubah Durasi Pinjaman
Pada pelajaran sebelumnya kita sudah mempelajari cara memprediksi dari data frame berdasarkan model yang telah dibuat. Sekarang kita mencoba memprediksi dari data yang tidak ada dari data set yang dijadikan model. 

Jika berjalan dengan lancar maka output dari perintah tersebut akan muncul sebagai berikut.

[1] 5
Levels: 1 2 3 4 5

Ini artinya hasil prediksi risk_rating untuk aplikasi baru ini adalah 5, dari kemungkinan 1, 2, 3, 4 dan 5. Nilai 5 ini adalah nilai resiko yang sangat tinggi dikarenakan durasi peminjaman tidak termasuk dalam data yang di lakukan model.

In [None]:
library("openxlsx")
library("C50")

#Mempersiapkan data
dataCreditRating <- read.xlsx(xlsxFile = "https://storage.googleapis.com/dqlab-dataset/credit_scoring_dqlab.xlsx")

#Mempersiapkan class dan input variables 
dataCreditRating$risk_rating <- as.factor(dataCreditRating$risk_rating) 
input_columns <- c("durasi_pinjaman_bulan", "jumlah_tanggungan")
datafeed <- dataCreditRating[ , input_columns ]

#Mempersiapkan training dan testing set
set.seed(100) #untuk menyeragamkan hasil random antar tiap komputer
indeks_training_set <- sample(900, 800)

#Membuat dan menampilkan training set dan testing set
input_training_set <- datafeed[indeks_training_set,]
class_training_set <- dataCreditRating[indeks_training_set,]$risk_rating
input_testing_set <- datafeed[-indeks_training_set,]

#menghasilkan dan menampilkan summary model
risk_rating_model <- C5.0(input_training_set, class_training_set)

#Membuat data frame aplikasi baru
aplikasi_baru <- data.frame(jumlah_tanggungan = 6, durasi_pinjaman_bulan = 64)

#melakukan prediksi
predict(risk_rating_model, aplikasi_baru)

# Kesimpulan
Bab ini telah menunjukkan bagaimana kita melakukan prediksi nilai resiko kredit (risk_rating) terhadap data aplikasi baru.

Fungsi yang digunakna sangat sederhana, tetapi kita perlu ketat dengan syarat ketika menyiapkan input:

Input berupa data frame.
Kolom-kolom di dalam data frame harus sama dengan input yang digunakan untuk menghasilkan model.
Jika syarat tidak terpenuhi, misalkan kita memiliki kelebihan satu kolom data frame yang tidak digunakan pada saat memberikan input ke model akan berakibat error pada saat melakukan prediksi

# Kesimpulan
Selamat, Anda sudah berhasil menyelesaikan seluruh content pada course ini. Pada course ini Anda telah mempelajari mengenai kasus bisnis resiko kredit pada dunia finance. Dengan mengerti apa pengertian credit risk, credit scoring, risk rating dan problem-problem yang dihadapi kita dapat maju ke pencarian solusi yang tepat.

Problem yang dihadapi adalah lambatnya analisa resiko sehingga lembaga kredit bisa kehilangan kesempatan (lost opportunity) ketika calon peminjam tidak jadi bertransaksi.

Solusi machine learning denga algoritma decision tree sangat cocok diterapkan untuk membantu memprediksi credit risk dengan cepat. Konkritnya adalah penggunaan algoritma C5.0 di R.

Terkait hal tersebut, sepanjang bab ini Anda telah menempuh perjalanan sebagai seorang data scientist yang menerapkan solusi tersebut:

1. Mengerti apa itu decision tree dan algoritma C5.0.
2. Melakukan data preparation untuk class variable dan input variable.
3. Melakukan data preparation untuk training dan testing set.
4. Menggunakan training set untuk menghasilkan model credit risk menggunakan algoritma C5.0.
5. Mengevaluasi akurasi decision credit risk.
6. Menggunakan model tersebut untuk memprediksi risk rating data pengajuan baru.