In [9]:
#Pertama kita import dulu library yang akan digunakan
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import confusion_matrix, accuracy_score

In [10]:
#Lalu kita masukan dataset, kali ini saya meminjam dataset dari DQLab Academy
url = "https://academy.dqlab.id/dataset/credit_scoring_dqlab.xlsx"
df = pd.read_excel(url)
df.head()

Unnamed: 0,kode_kontrak,pendapatan_setahun_juta,kpr_aktif,durasi_pinjaman_bulan,jumlah_tanggungan,rata_rata_overdue,risk_rating
0,AGR-000001,295,YA,48,5,61 - 90 days,4
1,AGR-000011,271,YA,36,5,61 - 90 days,4
2,AGR-000030,159,TIDAK,12,0,0 - 30 days,1
3,AGR-000043,210,YA,12,3,46 - 60 days,3
4,AGR-000049,165,TIDAK,36,0,31 - 45 days,2


In [11]:
#Dari hasil pengamatan diatas, ada beberapa kolom yang tidak dibutuhkan, mari kita buang
df = df.drop(['kode_kontrak', 'rata_rata_overdue'], axis=1)
df.head()

Unnamed: 0,pendapatan_setahun_juta,kpr_aktif,durasi_pinjaman_bulan,jumlah_tanggungan,risk_rating
0,295,YA,48,5,4
1,271,YA,36,5,4
2,159,TIDAK,12,0,1
3,210,YA,12,3,3
4,165,TIDAK,36,0,2


In [12]:
#Ada colom yang bertipe "object", mari kita ubah menjadi bilangan agar terbaca oleh Algoritma
ubah_kpr = {'YA' : 0, 'TIDAK' : 1}
df = df.replace({"kpr_aktif" : ubah_kpr})
df.head()

Unnamed: 0,pendapatan_setahun_juta,kpr_aktif,durasi_pinjaman_bulan,jumlah_tanggungan,risk_rating
0,295,0,48,5,4
1,271,0,36,5,4
2,159,1,12,0,1
3,210,0,12,3,3
4,165,1,36,0,2


In [13]:
#Mari kita normalisasikan nilai pendapatan dan durasi agar skalanya sama dengan data lainya
df.pendapatan_setahun_juta /= 100
df.durasi_pinjaman_bulan /= 10
df.head()

Unnamed: 0,pendapatan_setahun_juta,kpr_aktif,durasi_pinjaman_bulan,jumlah_tanggungan,risk_rating
0,2.95,0,4.8,5,4
1,2.71,0,3.6,5,4
2,1.59,1,1.2,0,1
3,2.1,0,1.2,3,3
4,1.65,1,3.6,0,2


In [14]:
#Mari kita lihat lagi apakah data sudah benar-benar siap untuk dipakai
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 900 entries, 0 to 899
Data columns (total 5 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   pendapatan_setahun_juta  900 non-null    float64
 1   kpr_aktif                900 non-null    int64  
 2   durasi_pinjaman_bulan    900 non-null    float64
 3   jumlah_tanggungan        900 non-null    int64  
 4   risk_rating              900 non-null    int64  
dtypes: float64(2), int64(3)
memory usage: 35.3 KB


In [15]:
#Dari keterangan diatas, data sudah bersih dan siap dipakai, mari kita pisahkan antara Data Feature dan Data Target
x = df.drop('risk_rating', axis=1)
y = df['risk_rating']

In [16]:
#Setelah itu, kita bagi lagi antara data yang akan dilatih, dan data yang akan di test nantinya
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.10)

In [17]:
#Mari kita masukkan model yang akan dipakai, kali ini saya menggunakan model Decision Tree
dtc = DecisionTreeClassifier()

In [18]:
#Mari kita uji dulu data yang telah kita buat dengan menggunakan metode cross validation
scores = cross_val_score(dtc, x_train, y_train, cv=5)

In [19]:
#Kita lihat berapa score yang akan kita peroleh dengan metode cross validation
scores

array([0.83950617, 0.87654321, 0.77777778, 0.88271605, 0.82716049])

In [20]:
#Dari score di atas terlihat model sudah cukup lumayan baik, mari kita coba tes
#Melatih Model
dtc.fit(x_train, y_train)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=None, splitter='best')

In [25]:
#Memprediksi Data Test
hasil_prediksi = dtc.predict(x_test)

In [26]:
#Melihat perbandingan antara hasil prediksi data test dan data asli
confusion_matrix(y_test, hasil_prediksi)

array([[19,  5,  0,  0,  0],
       [ 4, 12,  0,  0,  0],
       [ 0,  0, 29,  0,  0],
       [ 0,  0,  0, 10,  0],
       [ 0,  1,  0,  1,  9]], dtype=int64)

In [27]:
#Melihat Score data Test
accuracy_score(y_test, hasil_prediksi)

0.8777777777777778

## Terlihat bahwa Skor akurasi prediksi kita adalah sebesar 87%