# Prediktor Gagal Bayar oleh Pengguna Kartu Kredit
Author: Maudy N Avianti

Created: 2 May 2024

## Background

Kartu kredit adalah alat bayar yang populer digunakan oleh masyarakat. Di Indonesia sendiri, kartu kredit yang digunakan masyarakat ada sebanyak 17 juta, dengan jumlah nilai transaksi 35 Milyar pada bulan Juli 2023.

<img src="JumlahKartuKredit3.png" alt="" style="width:50%;"/>
<img src="JumlahNilaiTransaksiKK3.png" alt="" style="width:50%;"/>


Seiring dengan meningkatnya penggunaan kartu kredit, kemungkinan risiko gagal bayar (default) juga semakin meningkat. Hal ini menjadi perhatian serius bagi lembaga keuangan penyedia kartu kredit. Ketika seorang pelanggan gagal membayar tagihan kartu kreditnya secara tepat waktu, hal ini tidak hanya mengakibatkan kerugian finansial bagi pemberi pinjaman, tetapi juga dapat merusak reputasi kredit si peminjam.

Oleh karena itu, sangat penting bagi lembaga keuangan untuk memiliki suatu mekanisme efektif yang dapat menganalisis risiko gagal bayar kartu kredit. Dengan menggunakan data historis tentang perilaku pembayaran pelanggan, kita dapat membangun sebuah model yang dapat membantu memprediksi kemungkinan seorang pelanggan gagal membayar tagihan kartu kreditnya.

Pada projek ini, kami akan membahas pengembangan model untuk memperkirakan kemungkinan gagal bayar kartu kredit. Dengan algoritma pemodelan yang tepat, diharapkan Machine Learning dapat mengidentifikasi pelanggan mana saja yang berpotensi gagal bayar.

## Problem Statement

Untuk projek kali ini, result yang diharapkan adalah nilai biner berupa **ya/tidak** dari risiko gagal bayar seorang pelanggan kartu kredit. Profil dari pelanggan tersebut mencakup latar belakang pelanggan (jenis kelamin dan usia), serta data historis dari pembayaran tagihan kartu kredit sebelumnya. Meskipun seorang kredit analis berpengalaman dapat mengandalkan penilaian manual mereka berdasarkan latar belakang dan data historis pelanggan, namun bagaimana jika terdapat banyak transaksi pembayaran historis yang perlu dicek oleh kredit analis? Kemungkinan terjadinya *human error* akan semakin tinggi seiring dengan semakin banyaknya data transaksi. Inilah masalah yang harus bisa dipecahkan oleh Machine Learning yang akan dibuat oleh projek ini.

## Project Idea
Berdasarkan Problem Statement di atas, projek ini akan mencoba untuk melakukan prediksi profiling pelanggan, di mana pelanggan akan dikelompokkan menjadi pelanggan gagal bayar/tidak. Prediksi akan dilakukan dengan melakukan **Supervised Learning** dengan menggunakan algoritma **XGBoost**.  Projek Machine Learning akan dikembangkan dengan menggunakan bahasa **Python**.

## Problem Scope
Projek ini akan menggunakan dataset yang diambil dari situs UCI dengan judul ["Default of Credit Card Clients"](https://archive.ics.uci.edu/dataset/350/default+of+credit+card+clients). Dataset ini diambil di Taiwan pada tahun 2005. Informasi yang dikandung dataset ini adalah sebagai berikut:

- X1: Jumlah kredit yang diberikan (dalam dollar NT): termasuk kredit individu dan kredit keluarganya (tambahan).

- X2: Jenis kelamin (1 = laki-laki; 2 = perempuan).

- X3: Pendidikan (1 = sekolah pascasarjana; 2 = universitas; 3 = sekolah menengah; 4 = lainnya).

- X4: Status pernikahan (1 = menikah; 2 = lajang; 3 = lainnya).

- X5: Usia (tahun).

- X6 - X11: Riwayat pembayaran masa lalu. Kami melacak catatan pembayaran bulanan sebelumnya (dari April hingga September, 2005) sebagai berikut: X6 = status pembayaran pada September, 2005; X7 = status pembayaran pada Agustus, 2005; . . .; X11 = status pembayaran pada April, 2005. Skala pengukuran untuk status pembayaran adalah: -1 = bayar tepat waktu; 1 = keterlambatan pembayaran selama satu bulan; 2 = keterlambatan pembayaran selama dua bulan; . . .; 8 = keterlambatan pembayaran selama delapan bulan; 9 = keterlambatan pembayaran selama sembilan bulan atau lebih.

- X12-X17: Jumlah tagihan (dalam dollar NT). X12 = jumlah tagihan pada September, 2005; X13 = jumlah tagihan pada Agustus, 2005; . . .; X17 = jumlah tagihan pada April, 2005.

- X18-X23: Jumlah pembayaran sebelumnya (dalam dollar NT). X18 = jumlah yang dibayar pada September, 2005; X19 = jumlah yang dibayar pada Agustus, 2005; . . .; X23 = jumlah yang dibayar pada April, 2005.

- Y: nilai pembayaran default (Ya = 1, Tidak = 0).


Target variabelnya adalah kolom Y, sementara prediktor variabelnya adalah semua kolom selain kolom Y.

Sementara itu, didapatkan kelas positif dan negatifnya, yaitu:

Kelas positif: Pelanggan gagal bayar (default)
Kelas negatif: Pelanggan tidak gagal bayar



## Output
Output dari project ini berupa dashboard analysis profil pelanggan yang melakukan gagal bayar (default) dan pelanggan yang tidak melakukan gagal bayar. Selain itu, ada satu halaman lainnya yang akan melakukan prediksi dari profil yang diinput oleh user di dashborad, di mana sistem akan melakukan prediksi apakah pelanggan tersebut berpotensi melakukan gagal bayar atau tidak.

## Business Impact

Impact pada bisnis yang bisa diberikan oleh projek ini adalah:

- Pengurangan Risiko Kredit: Dengan menggunakan pemodelan prediktif yang efektif untuk memprediksi risiko gagal bayar, lembaga keuangan dapat mengidentifikasi pelanggan yang berpotensi gagal bayar lebih awal. Ini memungkinkan lembaga keuangan untuk mengambil langkah-langkah pencegahan yang sesuai, seperti menolak pelanggan yang akan membuka kartu kredit baru atau menetapkan batas kredit yang lebih rendah untuk pelanggan yang berisiko tinggi.
- Penurunan Kerugian Kredit: Dengan mengurangi jumlah pelanggan yang gagal bayar, lembaga keuangan dapat mengurangi kerugian kredit yang disebabkan oleh tunggakan pembayaran atau penyelesaian yang tidak berhasil. Hal ini dapat berdampak positif pada keuntungan dan kesehatan keuangan keseluruhan dari lembaga keuangan.
- Peningkatan Efisiensi: Dengan menggunakan model prediktif untuk mengotomatisasi proses penilaian risiko kredit, lembaga keuangan dapat mengurangi waktu dan sumber daya yang dibutuhkan untuk mengevaluasi risiko kredit secara manual, sehingga dapat mengurangi biaya OPEX (Operating expenses).
- Peningkatan Kepercayaan dan Reputasi: Dengan memiliki reputasi sebagai lembaga keuangan yang cermat dalam mengelola risiko kredit, perusahaan dapat memperoleh kepercayaan dari nasabah dan investor. Hal ini sangat berguna jika lembaga keuangan merupakan perusahaan terbuka dan melakukan perdagangan sahamnya di pasar saham, di mana metrics **Non-Performing Loan** (NPL) sangat diperhatikan oleh investor. Semakin kecil tingkat NPL, maka semakin baik kinerja lembaga keuangan tersebut.

## EDA Process

Import dataset dari package fetch_urirepo:

In [19]:
import pandas as pd

credit_default = pd.read_excel('default of credit card clients.xls')

In [20]:
pd.DataFrame(credit_default)

Unnamed: 0.1,Unnamed: 0,X1,X2,X3,X4,X5,X6,X7,X8,X9,...,X15,X16,X17,X18,X19,X20,X21,X22,X23,Y
0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month
1,1,20000,2,2,1,24,2,2,-1,-1,...,0,0,0,0,689,0,0,0,0,1
2,2,120000,2,2,2,26,-1,2,0,0,...,3272,3455,3261,0,1000,1000,1000,0,2000,1
3,3,90000,2,2,2,34,0,0,0,0,...,14331,14948,15549,1518,1500,1000,1000,1000,5000,0
4,4,50000,2,2,1,37,0,0,0,0,...,28314,28959,29547,2000,2019,1200,1100,1069,1000,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29996,29996,220000,1,3,1,39,0,0,0,0,...,88004,31237,15980,8500,20000,5003,3047,5000,1000,0
29997,29997,150000,1,3,2,43,-1,-1,-1,-1,...,8979,5190,0,1837,3526,8998,129,0,0,0
29998,29998,30000,1,2,2,37,4,3,2,-1,...,20878,20582,19357,0,0,22000,4200,2000,3100,1
29999,29999,80000,1,3,1,41,1,-1,0,0,...,52774,11855,48944,85900,3409,1178,1926,52964,1804,1


Cek balanced data pada kelas positif di variabel target:

In [21]:
value_counts = credit_default['Y'].value_counts()
value_counts / len(credit_default['Y']) * 100

Y
0                             77.877404
1                             22.119263
default payment next month     0.003333
Name: count, dtype: float64

Dapat dilihat bahwa pada dataset *credit_default*, terdapat 77.8% data tidak default dan 22.2% data default. Data ini kurang balanced, di mana minimal data yang balance adalah 70:30. Oleh karena itu akan dilakukan proses downsampling pada dataset ini.

## Referensi

- [Default of Credit Card Clients - UCI Machine Learning Repository](https://archive.ics.uci.edu/dataset/350/default+of+credit+card+clients)

- [Statistik Kartu Kredit Indonesia](https://www.akki.or.id/index.php/credit-card-growth)