# Prediktor Gagal Bayar Customer Kartu Kredit
Author: Maudy N Avianti

Created: 2 May 2024

## Background

Kartu kredit adalah alat bayar yang populer digunakan oleh masyarakat di Indonesia. Keuntungan utama yang ditawarkan dari penggunaan kartu kredit adalah pembayaran yang dapat dilakukan secara dicicil, sehingga pengguna kartu kredit lebih mudah membeli barang tanpa harus membayar sekaligus.  Hal ini sangat membantu bagi mereka yang ingin membeli barang dengan harga yang lebih tinggi atau melakukan pembelian yang *urgent* namun tidak memiliki dana yang cukup. Dengan adanya kartu kredit, masyarakat Indonesia dapat memperoleh barang-barang dengan cepat dan membayarnya secara bertahap. 

Hal ini menjadikan penggunaan kartu kredit di Indonesia tiap tahunnya cenderung meningkat, seperti hasil statistik yang dikeluarkan oleh Asosiasi Kartu Kredit Indonesia berikut:


<div align="center">
<a href="https://www.akki.or.id/index.php/credit-card-growth">
<img src="JumlahKartuKredit3.png" alt="" style="width:50%;"/>
<p>Sumber: Statistik Kartu Kredit Indonesia</p>
</a>
</div>

Dapat dilihat dari grafik di atas, pada Juli 2023 kartu kredit yang digunakan masyarakat Indonesia ada sebanyak 17 juta kartu kredit. Bagaimana dengan jumlah nilai transaksinya?

<div align="center">
<a href="https://www.akki.or.id/index.php/credit-card-growth">
<img src="JumlahNilaiTransaksiKK3.png" alt="" style="width:50%;"/>
<p>Sumber: Statistik Kartu Kredit Indonesia</p>
</a>
</div>

Dari grafik di atas, dapat dilihat bahwa pada Juli 2023 di Indonesia terdapat nilai transaksi kartu kredit sebesar Rp. 35 Milyar. Nilai tersebut merupakan nilai yang besar.

Seiring dengan meningkatnya penggunaan kartu kredit, kemungkinan risiko gagal bayar (default) juga semakin meningkat. Hal ini menjadi perhatian serius bagi lembaga keuangan penyedia kartu kredit. Ketika seorang customer gagal membayar tagihan kartu kreditnya secara tepat waktu, tidak hanya merusak reputasi yang bersangkutan, hal ini juga mengakibatkan kerugian finansial bagi lembaga keuangan pemberi pinjaman.

Salah satu metric yang sangat diperhatikan oleh lembaga keuangan adalah Non-Performing Loan (NPL) atau rasio kredit macet. NPL mengukur jumlah pinjaman yang tidak dibayar kembali oleh customer. Semakin tinggi NPL, semakin besar risiko keuangan yang dihadapi oleh lembaga keuangan. Penting bagi lembaga keuangan untuk memantau dan mengelola risiko gagal bayar dengan hati-hati untuk menjaga kesehatan finansial mereka.

Proses existing untuk memantau dan mengelola risiko gagal bayar sudah dimiliki oleh lembaga keuangan. Proses tersebut biasanya dilakukan oleh seorang kredit analis, dengan melakukan analisis manual terhadap data customer, seperti riwayat pembayaran, jumlah tagihan, dan faktor lainnya, untuk menilai risiko kredit secara langsung berdasarkan pengalaman dan pengetahuan mereka. Akan tetapi, analisis manual sering kali memiliki keterbatasan dalam menangani data yang banyak dan kompleksitas yang semakin meningkat. Analisis manual dapat menjadi proses yang memakan waktu dan rentan terhadap *human error*, terutama saat harus mengolah jumlah data yang besar dengan cepat.

Oleh karena itu, lembaga keuangan perlu memiliki suatu mekanisme efektif yang dapat menganalisis risiko gagal bayar kartu kredit. Dengan menggunakan data historis tentang perilaku pembayaran customer, kita dapat menggunakan pemodelan Machine Learning yang dapat membantu memprediksi kemungkinan seorang customer gagal membayar tagihan kartu kreditnya. Pemodelan Machine Learning tersebut dapat menganalisis banyak data dengan cepat dan akurat, memberikan prediksi yang lebih baik tentang peluang risiko gagal bayar. Dengan adanya pemodelan Machine Learning, lembaga keuangan dapat mengidentifikasi customer secara *on the fly* dan dapat melakukan tindakan yang sesuai dengan profil resiko customer tersebut.

Pada projek ini, kami akan membahas pengembangan model untuk memperkirakan kemungkinan customer gagal bayar kartu kredit. Dengan algoritma pemodelan yang tepat, diharapkan projek ini dapat membantu kredit analis dari lembaga-lembaga keuangan penerbit kartu kredit untuk mengidentifikasi customer mana saja yang berpotensi gagal bayar dan customer mana saja yang berpotensi membayar tagihan kartu kredit.

## Problem Statement

Proposal ini membahas tentang penggunaan analisis profil pelanggan untuk mengurangi risiko gagal bayar dalam industri kartu kredit. Masalah utama yang ingin dipecahkan adalah tingginya tingkat risiko gagal bayar yang dapat menyebabkan kerugian finansial bagi lembaga keuangan. Untuk mengatasi masalah ini, digunakan pendekatan analisis profil pelanggan.

Profil pelanggan merupakan gambaran tentang karakteristik dan perilaku seorang pengguna kartu kredit. Hal ini mencakup informasi seperti riwayat pembayaran, jumlah tagihan, usia, jenis kelamin, dan pendidikan. Namun, analisis profil pelanggan secara manual cenderung bersifat subyektif dan rentan terhadap kesalahan manusia.

Untuk mengatasi keterbatasan tersebut, solusi yang diusulkan adalah membuat pemodelan menggunakan Machine Learning. Dengan pendekatan ini, model dapat dibuat untuk melakukan klasifikasi pelanggan berdasarkan profil mereka. Hasil yang diharapkan adalah model yang dapat secara akurat mengklasifikasikan pelanggan kartu kredit berdasarkan profil mereka, sehingga dapat membantu lembaga keuangan dalam mengidentifikasi dan mengurangi risiko gagal bayar.

## Project Idea
Berdasarkan Problem Statement di atas, projek ini akan mencoba untuk melakukan prediksi profiling customer, di mana customer akan dikelompokkan menjadi customer gagal bayar/tidak. Prediksi akan dilakukan dengan melakukan **Supervised Learning** dengan menggunakan algoritma **klasifikasi**.  Projek Machine Learning akan dikembangkan dengan menggunakan bahasa **Python**.

## Problem Scope
Projek ini akan menggunakan dataset yang diambil dari situs UCI dengan judul ["Default of Credit Card Clients"](https://archive.ics.uci.edu/dataset/350/default+of+credit+card+clients). Dataset ini diambil di sebuah lembaga keuangan di negara Taiwan pada tahun 2005. Informasi yang dikandung dataset ini adalah sebagai berikut:

- **LIMIT_BAL**: Jumlah kredit yang diberikan (dalam dollar NT): termasuk kredit individu dan kredit keluarganya (tambahan).

- **SEX**: Jenis kelamin (1 = laki-laki; 2 = perempuan).

- **EDUCATION**: Pendidikan (1 = sekolah pascasarjana; 2 = universitas; 3 = sekolah menengah; 0, 4, 5, 6 = lainnya).

- **MARRIAGE**: Status pernikahan (1 = menikah; 2 = lajang; 3 = bercerai; 0 = lainnya).

- **AGE**: Usia (tahun).

- **PAY_1 - PAY_6**: Riwayat pembayaran masa lalu. Melacak catatan pembayaran bulanan sebelumnya (dari April hingga September, 2005) sebagai berikut: PAY_1 = status pembayaran pada September, 2005; PAY_2 = status pembayaran pada Agustus, 2005; . . .; PAY_6 = status pembayaran pada April, 2005. Skala pengukuran untuk status pembayaran adalah: -2: Tidak ada transaksi; -1: Lunas; 0: Penggunaan kredit bergulir; 1 = keterlambatan pembayaran selama satu bulan; 2 = keterlambatan pembayaran selama dua bulan; . . .; 8 = keterlambatan pembayaran selama delapan bulan; 9 = keterlambatan pembayaran selama sembilan bulan atau lebih.

- **BILL_AMT1 - BILL_AMT6**: Jumlah tagihan (dalam dollar NT). BILL_AMT1 = jumlah tagihan pada September, 2005; BILL_AMT2 = jumlah tagihan pada Agustus, 2005; . . .; BILL_AMT6 = jumlah tagihan pada April, 2005.

- **PAY_AMT1 - PAY_AMT6**: Jumlah pembayaran sebelumnya (dalam dollar NT). PAY_AMT1 = jumlah yang dibayar pada September, 2005; PAY_AMT2 = jumlah yang dibayar pada Agustus, 2005; . . .; PAY_AMT6 = jumlah yang dibayar pada April, 2005.

- default payment next month: nilai pembayaran default (Ya = 1, Tidak = 0).

> Dari kolom-kolom yang ada di dataset di atas, didapat bahwa: 

- **Target variabela** adalah kolom Y

- **Prediktor variabel** adalah semua kolom selain kolom Y

> Sementara itu, didapatkan kelas positif dan negatifnya, yaitu:

- **Kelas positif**: customer gagal bayar

- **Kelas negatif**: customer tidak gagal bayar



## Output
Output dari project ini berupa **dashboard analysis** yang terdiri dari 2 fitur, yaitu:

- Profiling dari customer yang gagal bayar dan customer yang tidak gagal bayar
- Prediksi probabilitas gagal bayar dari profile customer yang diinput oleh user dashboard

## Business Impact

Impact pada bisnis yang bisa diberikan oleh projek ini adalah:

- **Pengurangan Risiko Kredit**: Dengan menggunakan pemodelan prediktif yang efektif untuk memprediksi risiko gagal bayar, lembaga keuangan dapat mengidentifikasi customer yang berpotensi gagal bayar lebih awal. Ini memungkinkan lembaga keuangan untuk mengambil langkah-langkah pencegahan yang sesuai, seperti menolak customer yang akan membuka kartu kredit baru atau menetapkan batas kredit yang lebih rendah untuk customer yang berisiko tinggi.
- **Penurunan Kerugian Kredit**: Dengan mengurangi jumlah customer yang gagal bayar, lembaga keuangan dapat mengurangi kerugian kredit yang disebabkan oleh tunggakan pembayaran atau penyelesaian yang tidak berhasil. Hal ini dapat berdampak positif pada keuntungan dan kesehatan keuangan keseluruhan dari lembaga keuangan.
- **Peningkatan Efisiensi**: Dengan menggunakan model prediktif untuk mengotomatisasi proses penilaian risiko kredit, lembaga keuangan dapat mengurangi waktu dan sumber daya yang dibutuhkan untuk mengevaluasi risiko kredit secara manual, sehingga dapat mengurangi biaya OPEX (Operating expenses).
- **Peningkatan Kepercayaan dan Reputasi**: Dengan memiliki reputasi sebagai lembaga keuangan yang cermat dalam mengelola risiko kredit, perusahaan dapat memperoleh kepercayaan dari nasabah dan investor. Hal ini sangat berguna jika lembaga keuangan merupakan perusahaan terbuka dan melakukan perdagangan sahamnya di pasar saham, di mana metrics **Non-Performing Loan** (NPL) sangat diperhatikan oleh investor. Semakin kecil tingkat NPL, maka semakin baik kinerja lembaga keuangan tersebut.

## EDA Process

Import library yang digunakan:

In [104]:
import pandas as pd
import plotly.express as px
import numpy as np

pd.set_option('display.max_columns', None)
def custom_float_format(x):
    return '{:.0f}'.format(x)
pd.set_option('display.float_format', custom_float_format)

### Data Inspection

Langkah pertama adalah membaca dataset dari file csv yang sudah diunduh dari situs UCI:

In [105]:
credit_default = pd.read_csv('default of credit card clients.csv')

Setelah menyimpan data tersebut ke dalam variabel `credit_default`, mari lihat 10 data teratas:

In [106]:
credit_default.head(10)

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_1,PAY_2,PAY_3,PAY_4,PAY_5,PAY_6,BILL_AMT1,BILL_AMT2,BILL_AMT3,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month
0,1,20000,2,2,1,24,2,2,-1,-1,-2,-2,3913,3102,689,0,0,0,0,689,0,0,0,0,1
1,2,120000,2,2,2,26,-1,2,0,0,0,2,2682,1725,2682,3272,3455,3261,0,1000,1000,1000,0,2000,1
2,3,90000,2,2,2,34,0,0,0,0,0,0,29239,14027,13559,14331,14948,15549,1518,1500,1000,1000,1000,5000,0
3,4,50000,2,2,1,37,0,0,0,0,0,0,46990,48233,49291,28314,28959,29547,2000,2019,1200,1100,1069,1000,0
4,5,50000,1,2,1,57,-1,0,-1,0,0,0,8617,5670,35835,20940,19146,19131,2000,36681,10000,9000,689,679,0
5,6,50000,1,1,2,37,0,0,0,0,0,0,64400,57069,57608,19394,19619,20024,2500,1815,657,1000,1000,800,0
6,7,500000,1,1,2,29,0,0,0,0,0,0,367965,412023,445007,542653,483003,473944,55000,40000,38000,20239,13750,13770,0
7,8,100000,2,2,2,23,0,-1,-1,0,0,-1,11876,380,601,221,-159,567,380,601,0,581,1687,1542,0
8,9,140000,2,3,1,28,0,0,2,0,0,0,11285,14096,12108,12211,11793,3719,3329,0,432,1000,1000,1000,0
9,10,20000,1,3,2,35,-2,-2,-2,-2,-1,-1,0,0,0,0,13007,13912,0,0,0,13007,1122,0,0


Bagaimana dengan dimensi dari `credit_default`?

In [107]:
credit_default.shape

(30000, 25)

Pada `credit_default`, terdapat 30.000 baris dan 25 kolom. Langkah selanjutnya adalah melihat struktur tipe data dari `credit_default`:

In [108]:
pd.DataFrame(credit_default.dtypes)

Unnamed: 0,0
ID,int64
LIMIT_BAL,int64
SEX,int64
EDUCATION,int64
MARRIAGE,int64
AGE,int64
PAY_1,int64
PAY_2,int64
PAY_3,int64
PAY_4,int64


Dapat dilihat bahwa semua kolom pada `credit_default` memiliki tipe data int64. Dalam Machine Learning, jika terdapat kolom dengan tipe data kategorikal perlu dilakukan proses encoding (mengubah tipe data menjadi tipe data numerik) agar dapat diproses oleh algoritma Machine Learning. Akan tetapi, **proses encoding tidak perlu dilakukan** karena semua kolomnya sudah bertipe data int64.

### Data Cleansing

Pada proses ini, kita akan membuang kolom ID karena kolom tersebut tidak dibutuhkan pada projek Machine Learning kali ini:

In [109]:
credit_default.drop(columns='ID', inplace=True)

Cek kembali apakah kolom ID sudah dibuang:

In [110]:
credit_default.head(10)

Unnamed: 0,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_1,PAY_2,PAY_3,PAY_4,PAY_5,PAY_6,BILL_AMT1,BILL_AMT2,BILL_AMT3,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month
0,20000,2,2,1,24,2,2,-1,-1,-2,-2,3913,3102,689,0,0,0,0,689,0,0,0,0,1
1,120000,2,2,2,26,-1,2,0,0,0,2,2682,1725,2682,3272,3455,3261,0,1000,1000,1000,0,2000,1
2,90000,2,2,2,34,0,0,0,0,0,0,29239,14027,13559,14331,14948,15549,1518,1500,1000,1000,1000,5000,0
3,50000,2,2,1,37,0,0,0,0,0,0,46990,48233,49291,28314,28959,29547,2000,2019,1200,1100,1069,1000,0
4,50000,1,2,1,57,-1,0,-1,0,0,0,8617,5670,35835,20940,19146,19131,2000,36681,10000,9000,689,679,0
5,50000,1,1,2,37,0,0,0,0,0,0,64400,57069,57608,19394,19619,20024,2500,1815,657,1000,1000,800,0
6,500000,1,1,2,29,0,0,0,0,0,0,367965,412023,445007,542653,483003,473944,55000,40000,38000,20239,13750,13770,0
7,100000,2,2,2,23,0,-1,-1,0,0,-1,11876,380,601,221,-159,567,380,601,0,581,1687,1542,0
8,140000,2,3,1,28,0,0,2,0,0,0,11285,14096,12108,12211,11793,3719,3329,0,432,1000,1000,1000,0
9,20000,1,3,2,35,-2,-2,-2,-2,-1,-1,0,0,0,0,13007,13912,0,0,0,13007,1122,0,0


Kolom ID sudah berhasil dibuang. 

### Menukar Value

Proses selanjutnya adalah menukar value untuk beberapa kolom. Hal ini dilakukan karena pada dataset existing, ada beberapa value yang urutannya tidak sesuai dengan logika dan perlu diperbaiki agar proses analisis menjadi lebih mudah.

Pertama, tukar value milik `PAY_1` menjadi value `PAY_6`, `PAY_2` menjadi value `PAY_5`, `PAY_3` menjadi value `PAY_4`, dan sebaliknya. Berdasarkan keterangan kolom sebelumnya, (PAY_1 = status pembayaran pada September, 2005; PAY_2 = status pembayaran pada Agustus, 2005; . . .; PAY_6 = status pembayaran pada April, 2005), waktu pada kolom-kolom tersebut mundur dari bulan September 2005 ke April 2005. Untuk memudahkan analisis data, akan dibuat agar waktu pada kolom-kolom tersebut maju, dari April 2005 ke September 2005.

In [111]:
credit_default['PAY_1'], credit_default['PAY_6'] = credit_default['PAY_6'], credit_default['PAY_1']
credit_default['PAY_2'], credit_default['PAY_5'] = credit_default['PAY_5'], credit_default['PAY_2']
credit_default['PAY_3'], credit_default['PAY_4'] = credit_default['PAY_4'], credit_default['PAY_3']

Demikian juga dengan kolom BILL_AMT. Tukar value milik `BILL_AMT1` menjadi value `BILL_AMT6`, `BILL_AMT2` menjadi value `BILL_AMT5`, `BILL_AMT3` menjadi value `BILL_AMT4`, dan sebaliknya. Berdasarkan keterangan kolom sebelumnya, (BILL_AMT1 = jumlah tagihan pada September, 2005; BILL_AMT2 = jumlah tagihan pada Agustus, 2005; . . .; BILL_AMT6 = jumlah tagihan pada April, 2005), waktu pada kolom-kolom tersebut mundur dari bulan September 2005 ke April 2005. Untuk memudahkan analisis data, akan dibuat agar waktu pada kolom-kolom tersebut maju, dari April 2005 ke September 2005.

In [112]:
credit_default['BILL_AMT1'], credit_default['BILL_AMT6'] = credit_default['BILL_AMT6'], credit_default['BILL_AMT1']
credit_default['BILL_AMT2'], credit_default['BILL_AMT5'] = credit_default['BILL_AMT5'], credit_default['BILL_AMT2']
credit_default['BILL_AMT3'], credit_default['BILL_AMT4'] = credit_default['BILL_AMT4'], credit_default['BILL_AMT3']

Terakhir pada kolom PAY_AMT, value `PAY_AMT1` ditukar menjadi value `PAY_AMT6`, `PAY_AMT2` ditukar menjadi value `PAY_AMT5`, `PAY_AMT3` ditukar menjadi value `PAY_AMT4`, dan sebaliknya. Berdasarkan keterangan kolom sebelumnya, (PAY_AMT1 = jumlah yang dibayar pada September, 2005; PAY_AMT2 = jumlah yang dibayar pada Agustus, 2005; . . .; PAY_AMT6 = jumlah yang dibayar pada April, 2005), waktu pada kolom-kolom tersebut mundur dari bulan September 2005 ke April 2005. Untuk memudahkan analisis data, akan dibuat agar waktu pada kolom-kolom tersebut maju, dari April 2005 ke September 2005.

In [113]:
credit_default['PAY_AMT1'], credit_default['PAY_AMT6'] = credit_default['PAY_AMT6'], credit_default['PAY_AMT1']
credit_default['PAY_AMT2'], credit_default['PAY_AMT5'] = credit_default['PAY_AMT5'], credit_default['PAY_AMT2']
credit_default['PAY_AMT3'], credit_default['PAY_AMT4'] = credit_default['PAY_AMT4'], credit_default['PAY_AMT3']

Cek kembali apakah value pada kolom-kolom tersebut sudah berhasil ditukar:

In [114]:
credit_default.head(10)

Unnamed: 0,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_1,PAY_2,PAY_3,PAY_4,PAY_5,PAY_6,BILL_AMT1,BILL_AMT2,BILL_AMT3,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month
0,20000,2,2,1,24,-2,-2,-1,-1,2,2,0,0,0,689,3102,3913,0,0,0,0,689,0,1
1,120000,2,2,2,26,2,0,0,0,2,-1,3261,3455,3272,2682,1725,2682,2000,0,1000,1000,1000,0,1
2,90000,2,2,2,34,0,0,0,0,0,0,15549,14948,14331,13559,14027,29239,5000,1000,1000,1000,1500,1518,0
3,50000,2,2,1,37,0,0,0,0,0,0,29547,28959,28314,49291,48233,46990,1000,1069,1100,1200,2019,2000,0
4,50000,1,2,1,57,0,0,0,-1,0,-1,19131,19146,20940,35835,5670,8617,679,689,9000,10000,36681,2000,0
5,50000,1,1,2,37,0,0,0,0,0,0,20024,19619,19394,57608,57069,64400,800,1000,1000,657,1815,2500,0
6,500000,1,1,2,29,0,0,0,0,0,0,473944,483003,542653,445007,412023,367965,13770,13750,20239,38000,40000,55000,0
7,100000,2,2,2,23,-1,0,0,-1,-1,0,567,-159,221,601,380,11876,1542,1687,581,0,601,380,0
8,140000,2,3,1,28,0,0,0,2,0,0,3719,11793,12211,12108,14096,11285,1000,1000,1000,432,0,3329,0
9,20000,1,3,2,35,-1,-1,-2,-2,-2,-2,13912,13007,0,0,0,0,0,1122,13007,0,0,0,0


Value pada kolom PAY, BILL_AMT, dan PAY_AMT telah berhasil ditukar.

Berdasarkan keterangan mengenai nilai dari setiap variables, pada kolom `EDUCATION` terdapat nilai 0, 4, 5, dan 6 yang sama-sama berarti *lainnya*, maka untuk memudahkan pembacaan data nilai 4, 5, dan 6 akan diubah menjadi 4. Hal ini dikarenakan kolom `EDUCATION` berbentuk *kategori ordinal*, di mana kategori tersebut memiliki tingkatan/urutan. Dari sini diasumsikan bahwa nilai 4 adalah tingkat pendidikan di bawah sekolah menengah.

In [115]:
credit_default['EDUCATION'] = credit_default['EDUCATION'].replace([0, 5, 6], 4)

Cek unique value dari `EDUCATION`:

In [116]:
credit_default['EDUCATION'].unique()

array([2, 1, 3, 4])

Value 0, 5, dan 6 sudah berhasil disatukan menjadi value 4. 

Akan tetapi ada 1 langkah lagi yang perlu dilakukan, yaitu menukar urutan value 1, 2, 3, dan 4 yang saat ini urutannya dari level tertinggi ke terendah (1 = sekolah pascasarjana; 2 = universitas; 3 = sekolah menengah; 4 = lainnya), menjadi level terendah ke tertinggi (yaitu 1 = lainnya, 2 = sekolah menengah, 3 = universitas, 4 = sekolah pascasarjana).

In [117]:
education_mapping = {
    1: 4,
    2: 3,
    3: 2,
    4: 1
}

credit_default['EDUCATION'] = credit_default['EDUCATION'].map(education_mapping)
credit_default.head(10)

Unnamed: 0,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_1,PAY_2,PAY_3,PAY_4,PAY_5,PAY_6,BILL_AMT1,BILL_AMT2,BILL_AMT3,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month
0,20000,2,3,1,24,-2,-2,-1,-1,2,2,0,0,0,689,3102,3913,0,0,0,0,689,0,1
1,120000,2,3,2,26,2,0,0,0,2,-1,3261,3455,3272,2682,1725,2682,2000,0,1000,1000,1000,0,1
2,90000,2,3,2,34,0,0,0,0,0,0,15549,14948,14331,13559,14027,29239,5000,1000,1000,1000,1500,1518,0
3,50000,2,3,1,37,0,0,0,0,0,0,29547,28959,28314,49291,48233,46990,1000,1069,1100,1200,2019,2000,0
4,50000,1,3,1,57,0,0,0,-1,0,-1,19131,19146,20940,35835,5670,8617,679,689,9000,10000,36681,2000,0
5,50000,1,4,2,37,0,0,0,0,0,0,20024,19619,19394,57608,57069,64400,800,1000,1000,657,1815,2500,0
6,500000,1,4,2,29,0,0,0,0,0,0,473944,483003,542653,445007,412023,367965,13770,13750,20239,38000,40000,55000,0
7,100000,2,3,2,23,-1,0,0,-1,-1,0,567,-159,221,601,380,11876,1542,1687,581,0,601,380,0
8,140000,2,2,1,28,0,0,0,2,0,0,3719,11793,12211,12108,14096,11285,1000,1000,1000,432,0,3329,0
9,20000,1,2,2,35,-1,-1,-2,-2,-2,-2,13912,13007,0,0,0,0,0,1122,13007,0,0,0,0


Value pada kolom `EDUCATION` telah berhasil ditukar.

#### Missing Data

Selanjutnya cek apakah ada data yang missing:

In [118]:
pd.DataFrame(credit_default.isna().sum())

Unnamed: 0,0
LIMIT_BAL,0
SEX,0
EDUCATION,0
MARRIAGE,0
AGE,0
PAY_1,0
PAY_2,0
PAY_3,0
PAY_4,0
PAY_5,0


Semua data pada dataset `credit_default` lengkap.

#### Duplicate Data

Langkah selanjutnya adalah mengecek apakah terdapat data yang duplikat:

In [119]:
credit_default.duplicated().sum()

35

Terdapat 35 data duplikat, oleh karena itu kita akan melakukan penghapusan data duplikat dengan mempertahankan data terakhirnya:

In [120]:
credit_default=credit_default.drop_duplicates(keep='last')

Cek ulang apakah data yang duplikat sudah terhapus:

In [121]:
credit_default.duplicated().sum()

0

Semua data duplikat sudah berhasil dihapus. Terakhir, lihat kembali dimensi dari `credit_default`:

In [122]:
credit_default.shape

(29965, 24)

Sebelumnya, pada `credit_default` terdapat 30.000 baris dan 25 kolom. Akan tetapi setelah proses data cleansing, didapatkan dimensi baru yaitu 29.965 baris dan 24 kolom.

### One-Hot Encoding

Pada `credit_default`, terdapat beberapa kolom kategorikal yang perlu diubah menjadi bentuk yang lebih mudah dipahami oleh algoritma machine learning. Dalam one hot encoding, setiap nilai kategori direpresentasikan sebagai vektor biner di mana satu elemen memiliki nilai 1 yang menunjukkan keanggotaan dalam kategori tersebut, sedangkan elemen lainnya memiliki nilai 0.

Kolom-kolom tersebut adalah kolom `MARRIAGE` dan kolom `GENDER`. Pertama, ubah kolom `MARRIAGE` dengan one-hot encoding:

In [123]:
credit_default = pd.get_dummies(credit_default, columns=['MARRIAGE'])
credit_default.head()

Unnamed: 0,LIMIT_BAL,SEX,EDUCATION,AGE,PAY_1,PAY_2,PAY_3,PAY_4,PAY_5,PAY_6,BILL_AMT1,BILL_AMT2,BILL_AMT3,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month,MARRIAGE_0,MARRIAGE_1,MARRIAGE_2,MARRIAGE_3
0,20000,2,3,24,-2,-2,-1,-1,2,2,0,0,0,689,3102,3913,0,0,0,0,689,0,1,False,True,False,False
1,120000,2,3,26,2,0,0,0,2,-1,3261,3455,3272,2682,1725,2682,2000,0,1000,1000,1000,0,1,False,False,True,False
2,90000,2,3,34,0,0,0,0,0,0,15549,14948,14331,13559,14027,29239,5000,1000,1000,1000,1500,1518,0,False,False,True,False
3,50000,2,3,37,0,0,0,0,0,0,29547,28959,28314,49291,48233,46990,1000,1069,1100,1200,2019,2000,0,False,True,False,False
4,50000,1,3,57,0,0,0,-1,0,-1,19131,19146,20940,35835,5670,8617,679,689,9000,10000,36681,2000,0,False,True,False,False


Kolom `MARRIAGE` telah berubah menjadi kolom `MARRIAGE_0`, `MARRIAGE_1`, `MARRIAGE_2`, dan `MARRIAGE_3`. Sama seperti kolom yang lama, kolom `MARRIAGE_0` artinya status pernikahan lainnya, `MARRIAGE_1` berarti menikah, `MARRIAGE_2` berarti lajang, dan `MARRIAGE_3` berarti bercerai.

Selanjutnya untuk kolom `GENDER` juga akan dilakukan one-hot encoding:

In [124]:

credit_default = pd.get_dummies(credit_default, columns=['SEX'])
credit_default.head()

Unnamed: 0,LIMIT_BAL,EDUCATION,AGE,PAY_1,PAY_2,PAY_3,PAY_4,PAY_5,PAY_6,BILL_AMT1,BILL_AMT2,BILL_AMT3,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month,MARRIAGE_0,MARRIAGE_1,MARRIAGE_2,MARRIAGE_3,SEX_1,SEX_2
0,20000,3,24,-2,-2,-1,-1,2,2,0,0,0,689,3102,3913,0,0,0,0,689,0,1,False,True,False,False,False,True
1,120000,3,26,2,0,0,0,2,-1,3261,3455,3272,2682,1725,2682,2000,0,1000,1000,1000,0,1,False,False,True,False,False,True
2,90000,3,34,0,0,0,0,0,0,15549,14948,14331,13559,14027,29239,5000,1000,1000,1000,1500,1518,0,False,False,True,False,False,True
3,50000,3,37,0,0,0,0,0,0,29547,28959,28314,49291,48233,46990,1000,1069,1100,1200,2019,2000,0,False,True,False,False,False,True
4,50000,3,57,0,0,0,-1,0,-1,19131,19146,20940,35835,5670,8617,679,689,9000,10000,36681,2000,0,False,True,False,False,True,False


Kolom `SEX` telah berubah menjadi kolom `SEX_1` dan `SEX2`. Sama seperti kolom yang lama, kolom `SEX_1` artinya jenis kelamin pria dan `SEX2` berarti wanita.

### Check Data Balanced

Selanjutnya untuk kebutuhan Machine Learning, kita juga perlu melihat apakah data data pada kelas positif di variabel target sudah balanced. Yang dimaksud dengan balanced berarti perbandingan antara kelas positif dan negatif dalam data berimbang mendekati 1:1. Dalam konteks ini, dapat diartikan bahwa jumlah sampel untuk kelas positif hampir sama dengan jumlah sampel untuk kelas negatif. 

Untuk ambang batas data balanced minimum adalah 70:30. Cek apakah dataset `credit_default` sudah balanced:



In [125]:
value_counts = credit_default['default payment next month'].value_counts()
pd.DataFrame(value_counts / len(credit_default['default payment next month']) * 100)

Unnamed: 0_level_0,count
default payment next month,Unnamed: 1_level_1
0,78
1,22


Dapat dilihat bahwa pada dataset `credit_default`, terdapat 78% data tidak default dan 22% data default. Data ini kurang balanced, di mana minimal data yang balance adalah 70:30. Oleh karena itu akan dilakukan proses downsampling pada dataset ini.

Proses ini akan dilakukan pada langkah terakhir bersamaan dengan melakukan proses Train-Test Splitting.

### Data Explanation

Mari lihat ada berapa **total customer** yang ada di dataset `credit_default`:

In [126]:
len(credit_default)

29965

**Terdapat 29965 data customer**. Bagaimana dengan profilnya? Pertama, mari cek bagaimana pembagian **customer berdasarkan status gagal bayarnya**.

In [127]:
target_counts = credit_default['default payment next month'].value_counts()

data = {'Target': target_counts.index, 'Count': target_counts.values}
target_counts = pd.DataFrame(data)
target_counts['Target'] = target_counts['Target'].map({0: 'Tidak', 1: 'Ya'})

px.bar(target_counts, x='Target', y='Count', color='Target', labels={'Count': 'Jumlah Customer', 'Target': 'Gagal Bayar'})\
    .update_layout(xaxis_tickformat=',d')\
    .update_layout(title='Customer Berdasarkan Gagal Bayar', title_x=0.5)\
    .show()

<div align="center">
<img src="plot/plot1.png" alt="" style="width:100%;"/>
</a>
</div>

Dari grafik di atas, didapatkan bahwa **customer gagal bayar** dengan jumlah 6630 data **lebih sedikit** daripada **customer tidak gagal bayar** dengan jumlah 23335 data.

Mari lihat **breakdown profile customer dengan status gagal bayarnya**:

#### 1. Customer Gagal Bayar

##### 1.1 Customer Gagal Bayar Berdasarkan Jenis Kelamin

Kita sudah mengetahui bahwa terdapat 6630 customer gagal bayar. Namun bagaimana dengan profilenya? Pertama mari kita lihat bagaimana customer gagal bayar berdasarkan jenis kelaminnya.

In [128]:
default_customers = credit_default[credit_default['default payment next month'] == 1]
default_customers_by_gender = default_customers[['SEX_1', 'SEX_2']].sum()

data = {'Gender': ['Pria', 'Wanita'], 'Count': default_customers_by_gender.values}
default_customers_by_gender = pd.DataFrame(data)

px.bar(default_customers_by_gender, x='Gender', y='Count', color='Gender', labels={'Count': 'Jumlah Customer', 'Gender': 'Jenis Kelamin'})\
    .update_layout(title='Customer Gagal Bayar Berdasarkan Jenis Kelamin', title_x=0.5)\
    .show()


<div align="center">
<img src="plot/plot2.png" alt="" style="width:100%;"/>
</a>
</div>

Dari grafik di atas, didapatkan bahwa **customer wanita** dengan jumlah 3761 data **lebih banyak melakukan gagal bayar daripada customer pria** dengan jumlah 2869 data.

##### 1.2 Customer Gagal Bayar Berdasarkan Tingkat Pendidikan

In [129]:
education_mapping = {
    1: 'Lainnya',
    2: 'Sekolah menengah',
    3: 'Universitas',
    4: 'Sekolah pascasarjana'
}
default_customers = credit_default[credit_default['default payment next month'] == 1]
default_customers.loc[:, 'EDUCATION'] = default_customers['EDUCATION'].replace(education_mapping)
default_customers_by_education = default_customers['EDUCATION'].value_counts()

data = {'Education': default_customers_by_education.index, 'Count': default_customers_by_education.values}
default_customers_by_education = pd.DataFrame(data)

px.bar(default_customers_by_education, x='Education', y='Count', labels={'Count': 'Jumlah Customer', 'Education': 'Pendidikan'}) \
    .update_layout(title='Customer Gagal Bayar Berdasarkan Pendidikan', title_x=0.5) \
    .show()


<div align="center">
<img src="plot/plot3.png" alt="" style="width:100%;"/>
</a>
</div>

Dari grafik di atas, terlihat bahwa **mayoritas customer yang gagal membayar memiliki tingkat pendidikan universitas**, diikuti oleh sekolah pascasarjana, dan sekolah menengah. Sebaliknya, **jumlah customer yang gagal membayar paling sedikit terdapat pada tingkat pendidikan lainnya**.

##### 1.3 Customer Gagal Bayar Berdasarkan Usia

In [130]:
default_customers = credit_default[credit_default['default payment next month'] == 1].copy()

bin_edges = list(range(20, 101, 10))
bin_labels = ['{}-an'.format(i) for i in range(20, 100, 10)]
default_customers['Age_Group'] = pd.cut(default_customers['AGE'], bins=bin_edges, labels=bin_labels, right=False)

default_customers_by_age_group = default_customers.groupby('Age_Group').size().reset_index(name='Count')

px.bar(default_customers_by_age_group, x='Age_Group', y='Count', labels={'Count': 'Jumlah Customer', 'Age_Group': 'Kelompok Usia'})\
    .update_layout(title='Customer Gagal Bayar Berdasarkan Kelompok Usia', title_x=0.5)\
    .show()

<div align="center">
<img src="plot/plot4.png" alt="" style="width:100%;"/>
</a>
</div>

Berdasarkan grafik di atas, dapat dilihat bahwa **mayoritas customer gagal bayar berusia di antara 30-39 tahun**, disusul dengan kelompok customer di antara usia 20-29 tahun.

##### 1.4 Customer Gagal Bayar Berdasarkan Status Pernikahan

In [131]:
default_customers = credit_default[credit_default['default payment next month'] == 1]

default_customers_by_marriage = default_customers[['MARRIAGE_0', 'MARRIAGE_1', 'MARRIAGE_2', 'MARRIAGE_3']].sum().reset_index()
default_customers_by_marriage.columns = ['Marriage_Status_Code', 'Count']

marriage_status_mapping = {
    'MARRIAGE_0': 'Lainnya',
    'MARRIAGE_1': 'Menikah',
    'MARRIAGE_2': 'Lajang',
    'MARRIAGE_3': 'Bercerai'
}
default_customers_by_marriage['Marriage_Status'] = default_customers_by_marriage['Marriage_Status_Code'].map(marriage_status_mapping)

px.bar(default_customers_by_marriage, x='Marriage_Status', y='Count', labels={'Count': 'Jumlah Customer Gagal Bayar', 'Marriage_Status': 'Status Pernikahan'}) \
    .update_layout(title='Customer Gagal Bayar Berdasarkan Status Pernikahan', title_x=0.5)\
    .show()


<div align="center">
<img src="plot/plot5.png" alt="" style="width:100%;"/>
</a>
</div>

Berdasarkan grafik di atas, didapatkan bahwa **mayoritas customer gagal bayar berstatus lajang**. Diikuti dengan customer berstatus menikah. Sementara itu **customer berstatus bercerai dan lainnya menjadi minoritas**.

##### 1.5 Customer Gagal Bayar Berdasarkan Kredit Limit

In [132]:
default_customers = credit_default[credit_default['default payment next month'] == 1].copy()

bin_edges = np.arange(0, default_customers['LIMIT_BAL'].max() + 100000, 100000)
bin_labels = ['{}ribu-{}ribu'.format(i, i + 99) for i in range(0, bin_edges[-1], 100000)]

default_customers['Limit_Balance_Range'] = pd.cut(default_customers['LIMIT_BAL'], bins=bin_edges, labels=bin_labels, right=False)
customer_count_by_range = default_customers.groupby('Limit_Balance_Range').size().reset_index(name='Customer_Count')

px.bar(customer_count_by_range, x='Limit_Balance_Range', y='Customer_Count', labels={'Customer_Count': 'Jumlah Customer', 'Limit_Balance_Range': 'Kredit Limit (per 100ribu)'}) \
    .update_layout(title='Customer Gagal Bayar Berdasarkan Kredit Limit', title_x=0.5)\
    .show()


<div align="center">
<img src="plot/plot6.png" alt="" style="width:100%;"/>
</a>
</div>

Dapat dilihat dari grafik di atas, mayoritas **customer gagal bayar memiliki kredit limit dalam batas 0-99000**.

#### 2. Customer Tidak Gagal Bayar

##### 2.1 Customer Tidak Gagal Bayar Berdasarkan Jenis Kelamin

Kita sudah mengetahui bahwa terdapat 23335 customer tidak gagal bayar. Mari kita lihat bagaimana customer tidak gagal bayar berdasarkan jenis kelaminnya.

In [133]:
non_default_customers = credit_default[credit_default['default payment next month'] == 0]
non_default_customers_by_gender = non_default_customers[['SEX_1', 'SEX_2']].sum()

data = {'Gender': ['Pria', 'Wanita'], 'Count': non_default_customers_by_gender.values}
non_default_customers_by_gender = pd.DataFrame(data)

px.bar(non_default_customers_by_gender, x='Gender', y='Count', color='Gender', labels={'Count': 'Jumlah Customer', 'Gender': 'Jenis Kelamin'})\
    .update_layout(title='Customer Tidak Gagal Bayar Berdasarkan Jenis Kelamin', title_x=0.5)\
    .show()


<div align="center">
<img src="plot/plot7.png" alt="" style="width:100%;"/>
</a>
</div>

Dari grafik di atas, didapatkan bahwa **customer wanita** dengan jumlah 14330 data **lebih banyak melakukan gagal bayar daripada customer pria** dengan jumlah 9005 data.

##### 2.2 Customer Tidak Gagal Bayar Berdasarkan Tingkat Pendidikan

In [134]:
non_default_customers = credit_default[credit_default['default payment next month'] == 0]
non_default_customers.loc[:, 'EDUCATION'] = non_default_customers['EDUCATION'].replace(education_mapping)
non_default_customers_by_education = non_default_customers['EDUCATION'].value_counts()

data = {'Education': non_default_customers_by_education.index, 'Count': non_default_customers_by_education.values}
non_default_customers_by_education = pd.DataFrame(data)

px.bar(non_default_customers_by_education, x='Education', y='Count', labels={'Count': 'Jumlah Customer', 'Education': 'Pendidikan'}) \
    .update_layout(title='Customer Tidak Gagal Bayar Berdasarkan Pendidikan', title_x=0.5) \
    .show()


<div align="center">
<img src="plot/plot8.png" alt="" style="width:100%;"/>
</a>
</div>

Dari grafik di atas, terlihat bahwa **mayoritas customer yang tidak gagal membayar memiliki tingkat pendidikan universitas**, diikuti oleh sekolah pascasarjana, sekolah menengah, dan lainnya.

##### 2.3 Customer Tidak Gagal Bayar Berdasarkan Usia

In [135]:
non_default_customers = credit_default[credit_default['default payment next month'] == 0].copy()

bin_edges = list(range(20, 101, 10))
bin_labels = ['{}-an'.format(i) for i in range(20, 100, 10)]
non_default_customers['Age_Group'] = pd.cut(non_default_customers['AGE'], bins=bin_edges, labels=bin_labels, right=False)

non_default_customers_by_age_group = non_default_customers.groupby('Age_Group').size().reset_index(name='Count')

px.bar(non_default_customers_by_age_group, x='Age_Group', y='Count', labels={'Count': 'Jumlah Customer', 'Age_Group': 'Kelompok Usia'})\
    .update_layout(title='Customer Tidak Gagal Bayar Berdasarkan Kelompok Usia', title_x=0.5)\
    .show()

<div align="center">
<img src="plot/plot9.png" alt="" style="width:100%;"/>
</a>
</div>

Berdasarkan grafik di atas, dapat dilihat bahwa **mayoritas customer tidak gagal bayar berusia di antara 30-39 tahun**, disusul dengan kelompok customer di antara usia 20-29 tahun.

##### 2.4 Customer Tidak Gagal Bayar Berdasarkan Status Pernikahan

In [136]:
non_default_customers = credit_default[credit_default['default payment next month'] == 0]

non_default_customers_by_marriage = non_default_customers[['MARRIAGE_0', 'MARRIAGE_1', 'MARRIAGE_2', 'MARRIAGE_3']].sum().reset_index()
non_default_customers_by_marriage.columns = ['Marriage_Status_Code', 'Count']

non_default_customers_by_marriage['Marriage_Status'] = non_default_customers_by_marriage['Marriage_Status_Code'].map(marriage_status_mapping)

px.bar(non_default_customers_by_marriage, x='Marriage_Status', y='Count', labels={'Count': 'Jumlah Customer', 'Marriage_Status': 'Status Pernikahan'}) \
    .update_layout(title='Customer Tidak Gagal Bayar Berdasarkan Status Pernikahan', title_x=0.5)\
    .show()


<div align="center">
<img src="plot/plot10.png" alt="" style="width:100%;"/>
</a>
</div>

Berdasarkan grafik di atas, didapatkan bahwa **mayoritas customer tidak gagal bayar berstatus lajang**. Diikuti dengan customer berstatus menikah. Sementara itu **customer berstatus bercerai dan lainnya menjadi minoritas**.

##### 2.5 Customer Tidak Gagal Bayar Berdasarkan Kredit Limit

In [137]:
default_customers = credit_default[credit_default['default payment next month'] == 0].copy()

bin_edges = np.arange(0, default_customers['LIMIT_BAL'].max() + 100000, 100000)
bin_labels = ['{}ribu-{}ribu'.format(i, i + 99) for i in range(0, bin_edges[-1], 100000)]

default_customers['Limit_Balance_Range'] = pd.cut(default_customers['LIMIT_BAL'], bins=bin_edges, labels=bin_labels, right=False)
customer_count_by_range = default_customers.groupby('Limit_Balance_Range').size().reset_index(name='Customer_Count')

px.bar(customer_count_by_range, x='Limit_Balance_Range', y='Customer_Count', labels={'Customer_Count': 'Jumlah Customer', 'Limit_Balance_Range': 'Kredit Limit (per 100ribu)'}) \
    .update_layout(title='Customer Tidak Gagal Bayar Berdasarkan Kredit Limit', title_x=0.5)\
    .show()


<div align="center">
<img src="plot/plot11.png" alt="" style="width:100%;"/>
</a>
</div>

Dapat dilihat dari grafik di atas, mayoritas **customer tidak gagal bayar memiliki kredit limit dalam batas 0-99000**.

#### Kesimpulan

Didapat persona customer gagal bayar adalah:

In [138]:
credit_default['MARRIAGE'] = credit_default[['MARRIAGE_1', 'MARRIAGE_2']].idxmax(axis=1)
credit_default['SEX'] = credit_default[['SEX_1', 'SEX_2']].idxmax(axis=1)

credit_default['MARRIAGE'] = credit_default['MARRIAGE'].replace({
    'MARRIAGE_1': 'Menikah',
    'MARRIAGE_2': 'Lajang'
})

credit_default['SEX'] = credit_default['SEX'].replace({
    'SEX_1': 'Pria',
    'SEX_2': 'Wanita'
})

default_customers = credit_default[credit_default['default payment next month'] == 1].copy()

default_customers['EDUCATION'] = default_customers['EDUCATION'].replace({
    1: 'Lainnya',
    2: 'Sekolah menengah',
    3: 'Universitas',
    4: 'Sekolah pascasarjana'
})
age_sex_education_marriage_counts = default_customers.groupby(['AGE', 'SEX', 'EDUCATION', 'MARRIAGE']).size().reset_index(name='Count')

px.area(age_sex_education_marriage_counts, x='AGE', y='Count', color='SEX', line_group='SEX',
              facet_col='EDUCATION', facet_row='MARRIAGE', labels={
                  'AGE': 'Usia', 'Count': 'Jumlah Customer',
                  'SEX': 'Jenis Kelamin', 'EDUCATION': 'Pendidikan', 'MARRIAGE': 'Status Perkawinan'
              },
              color_discrete_map={'Pria': 'blue', 'Wanita': 'pink'},
              category_orders={'EDUCATION': ['Lainnya', 'Sekolah menengah', 'Universitas', 'Sekolah pascasarjana']})\
    .for_each_annotation(lambda a: a.update(text=a.text.replace("EDUCATION=", "").replace("MARRIAGE=", "")))\
    .update_layout(
        title='Persona Customer Gagal Bayar',
        title_x=0.5,
        legend=dict(orientation="h", yanchor="bottom", y=1.02, xanchor="right", x=1),
        margin=dict(l=20, r=20, t=40, b=20),
        paper_bgcolor="LightSteelBlue")\
    .show()

<div align="center">
<img src="plot/plot12.png" alt="" style="width:100%;"/>
</a>
</div>

> Dari grafik di atas, kesimpulan yang bisa diambil adalah:
- Gagal bayar banyak terjadi pada customer wanita di usia 25 tahun, dengan tingkat pendidikan sekolah menengah dan status perkawinan lajang.
- Pada customer pria, gagal bayar banyak terjadi di usia 25 tahun dengan tingkat pendidikan sekolah menengah dan status perkawinan lajang.

Sementara itu persona untuk customer tidak gagal bayar:

In [139]:
credit_default['MARRIAGE'] = credit_default[['MARRIAGE_1', 'MARRIAGE_2']].idxmax(axis=1)
credit_default['SEX'] = credit_default[['SEX_1', 'SEX_2']].idxmax(axis=1)

credit_default['MARRIAGE'] = credit_default['MARRIAGE'].replace({
    'MARRIAGE_1': 'Menikah',
    'MARRIAGE_2': 'Lajang'
})

credit_default['SEX'] = credit_default['SEX'].replace({
    'SEX_1': 'Pria',
    'SEX_2': 'Wanita'
})

default_customers = credit_default[credit_default['default payment next month'] == 0].copy()

default_customers['EDUCATION'] = default_customers['EDUCATION'].replace({
    1: 'Lainnya',
    2: 'Sekolah menengah',
    3: 'Universitas',
    4: 'Sekolah pascasarjana'
})
age_sex_education_marriage_counts = default_customers.groupby(['AGE', 'SEX', 'EDUCATION', 'MARRIAGE']).size().reset_index(name='Count')

px.area(age_sex_education_marriage_counts, x='AGE', y='Count', color='SEX', line_group='SEX',
              facet_col='EDUCATION', facet_row='MARRIAGE', labels={
                  'AGE': 'Usia', 'Count': 'Jumlah Customer',
                  'SEX': 'Jenis Kelamin', 'EDUCATION': 'Pendidikan', 'MARRIAGE': 'Status Perkawinan'
              },
              color_discrete_map={'Pria': 'blue', 'Wanita': 'pink'},
              category_orders={'EDUCATION': ['Lainnya', 'Sekolah menengah', 'Universitas', 'Sekolah pascasarjana']})\
    .for_each_annotation(lambda a: a.update(text=a.text.replace("EDUCATION=", "").replace("MARRIAGE=", "")))\
    .update_layout(
        title='Persona Customer Tidak Gagal Bayar',
        title_x=0.5,
        legend=dict(orientation="h", yanchor="bottom", y=1.02, xanchor="right", x=1),
        margin=dict(l=20, r=20, t=40, b=20),
        paper_bgcolor="LightSteelBlue")\
    .show()

<div align="center">
<img src="plot/plot13.png" alt="" style="width:100%;"/>
</a>
</div>

> Dari grafik di atas, kesimpulan yang bisa diambil adalah:
- Customer wanita di usia 29 tahun dengan tingkat pendidikan sekolah pascasarjana dan status perkawinan lajang mayoritas tidak gagal bayar.
- Pada customer pria, customer dengan usia 29 dengan tingkat pendidikan sekolah pascasarjana dan status perkawinan lajang mayoritas tidak gagal bayar.

## Train-Test Splitting

Pada pembuatan model Machine Learning, perlu dilakukan pemisahan terhadap data train dan data test. Hal ini dilakukan agar model yang dibuat dapat dievaluasi *performance*-nya. Import library `train_test_split` untuk melakukan train-test splitting dan library `RandomUnderSampler` untuk melakukan downsampling:

In [140]:
from sklearn.model_selection import train_test_split
from imblearn.under_sampling import RandomUnderSampler

Langkah pertama adalah memisahkan prediktor variabel dan target variabel. Prediktor variabel akan disimpan ke variabel `x`, dan target variabel akan disimpan ke variabel `y`:

In [141]:
x = credit_default.drop(columns='default payment next month')
y = credit_default['default payment next month']

Setelah memisahkan prediktor variabel dan target variabel, akan dilakukan downsampling pada variabel x dan y. Hal ini dilakukan agar kelas positif dan kelas negatif pada dataset `credit_default` menjadi balance. Untuk melakukan downsampling, akan digunakan library `RandomUnderSampler` dan parameter sampling_strategy = 0.45. Parameter tersebut digunakan agar proporsi kelas negatif dan kelas positif sebisa mungkin mendekati minimal 70:30:

In [142]:
rus = RandomUnderSampler(sampling_strategy=0.45, random_state=1234)
x_resampled, y_resampled = rus.fit_resample(x, y)

Setelah itu, lakukan train test splitting dengan menggunakan library `train_test_split`. `test_size` yang digunakan adalah 0.3:

In [143]:
x_train, x_test, y_train, y_test = train_test_split(x_resampled, y_resampled, test_size=0.3, random_state=1234)

Setelah selesai melakukan train test splitting, cek kembali proporsi kelas positif dan kelas negatif dari `y_train`:

In [144]:
value_counts2 = y_train.value_counts()
pd.DataFrame(value_counts2 / len(y_train) * 100).apply(lambda x: round(x, 1))

Unnamed: 0_level_0,count
default payment next month,Unnamed: 1_level_1
0,69
1,31


Proporsi yang didapatkan adalah 69:31. Dengan ini data train dapat dikatakan sudah balance.

## Mockup Design

Seperti yang telah dijelaskan di atas, pada projek kali ini akan dibuat sebuah dashboard yang memiliki 2 buah fitur. Fitur-fitur tersebut adalah sebagai berikut:

### 1. Profiling Customer

<div align="center">
<img src="Mock_fitur1.png" alt="" style="width:50%;"/>
<p>Mock design fitur profiling customer</p>
</a>
</div>

### 2. Prediksi Customer

<div align="center">
<img src="Mock_fitur2.png" alt="" style="width:50%;"/>
<p>Mock design fitur prediksi customer</p>
</a>
</div>

## Referensi

- [Default of Credit Card Clients - UCI Machine Learning Repository](https://archive.ics.uci.edu/dataset/350/default+of+credit+card+clients)

- [Discussion of Variables Values - Kaggle](https://www.kaggle.com/datasets/uciml/default-of-credit-card-clients-dataset/discussion/34608)

- [Statistik Kartu Kredit Indonesia](https://www.akki.or.id/index.php/credit-card-growth)