# Transaksi Kartu Kredit Perbankan

## Pendahuluan

Ada banyak sekali proses transaksi kartu kredit yang diajukan oleh para nasabah perbankan dalam setiap harinya. Dalam setiap detik dimungkinkan ada ribuan bahkan jutaan kali transaksi yang masuk ke sistem perbankan.

Namun, apakah semua transaksi yang diajukan tersebut bersifat valid tanpa ada pihak-pihak tertentu yang mungkin ingin melakukan kecurangan (fraud) terhadap Bank?.

Nyatanya, dari keseluruhan proses transaksi yang masuk ke dalam sistem, hanya 99% transaksi yang benar-benar diajukan oleh para nasabah, 1% lainnya bersifat fraud yang diajukan oleh para pihak-pihak yang kurang bertanggung jawab. Meskipun persentase kecurangannya yang sangat kecil namun dengan jumlah proses transaksi serta nominal yang besar tetap akan membuat kerugian bagi Bank.

Jika kecurangan tersebut dibiarkan secara terus menerus maka akan membuat semakin banyak pihak-pihak kurang bertanggung jawab lainnya yang ikut melakukan hal buruk tersebut. Jika hal tersebut terjadi maka angka 1% ini akan terus membesar secara eksponensial dari waktu ke waktu. Sehingga akan menyebabkan kerugian yang besar bagi Bank, baik kerugian secara materiil maupun non materiil seperti kepercayaan nasabah yang akhirnya membuat para nasabah beralih menjadi nasabah Bank kompetitor. 

Dengan jumlah transaksi yang sangat banyak serta harus diproses oleh sistem dengan sangat cepat dan akurat (benefit penggunaan kartu kredit) maka tidak mungkin bagi manusia untuk bisa memvalidasi secara manual setiap transaksi yang diajukan oleh para nasabah bersifat valid atau fraud.

Oleh karena itu perlu diterapkan sistem validasi otomatis untuk memproses setiap transaksi yang masuk ke dalam sistem perbankan dengan akurasi skor maksimum 100% yaitu dengan menggunakan <em>"Machine Learning"</em>.

Kenapa akurasi skor sistem harus 100%?
Karena, jika akurasi score dari sistem validasi otomatis tersebut ≤99% maka dapat dinyatakan bahwa sistem tersebut gagal secara praktik, karena tidak ada perbedaan yang terjadi antara sebelum dengan setelah menerapkan sistem Machine Learning validation. bahkan dalam kasus tertentu (akurasi <90%) dapat merugikan nasabah karena kesalahan evaluasi.

### Import Dataset

Dataset yang digunakan dalam portofolio ini adalah dataset <a href="http://archive.ics.uci.edu/ml/datasets/credit+approval">Credit Card Approval dataset</a> dari The UCI Machine Learning Repository.

In [1]:
import pandas as pd

kk_dataset = pd.read_csv('datasets/cc_approvals.data')
kk_dataset.head()

Unnamed: 0,b,30.83,0,u,g,w,v,1.25,t,t.1,01,f,g.1,00202,0.1,+
0,a,58.67,4.46,u,g,q,h,3.04,t,t,6,f,g,43,560,+
1,a,24.5,0.5,u,g,q,h,1.5,t,f,0,f,g,280,824,+
2,b,27.83,1.54,u,g,w,v,3.75,t,t,5,t,g,100,3,+
3,b,20.17,5.625,u,g,w,v,1.71,t,f,0,f,s,120,0,+
4,b,32.08,4.0,u,g,m,v,2.5,t,f,0,t,g,360,0,+


Tabel diatas adalah tabel history transaksi kartu kredit yang telah disamarkan untuk menjaga privasi data nasabah, oleh karena itu nama dari setiap kolom dalam tabel tersebut disamarkan. Namun, dalam blog <a href="http://rstudio-pubs-static.s3.amazonaws.com/73039_9946de135c0a49daa7a0a9eda4a67a72.html">"Analysis of Credit Approval Data"</a> terdapat clue bahwa umumnya nama-nama kolom pada dataset perbankan secara berurutan adalah :
- Gender
- Age
- Debt
- Married
- BankCustomer
- EducationLevel
- Ethnicity
- YearEmployed
- PriorDefault
- Employed
- CreditScore
- DriverLicense
- Citizen
- ZipCode
- Income
- ApprovalStatus

Untuk memudahkan, nama dari kolom tersebut akan diubah

In [2]:
kk_dataset.columns = ['Gender','Age','Debt','Married','BankCustomer',
                      'EducationLevel','Ethnicity','YearEmployed',
                      'PriorDefault','Employed','CreditScore',
                      'Driverlicense','Citizen','ZipCode','Income',
                      'ApprovalStatus']

kk_dataset.head()

Unnamed: 0,Gender,Age,Debt,Married,BankCustomer,EducationLevel,Ethnicity,YearEmployed,PriorDefault,Employed,CreditScore,Driverlicense,Citizen,ZipCode,Income,ApprovalStatus
0,a,58.67,4.46,u,g,q,h,3.04,t,t,6,f,g,43,560,+
1,a,24.5,0.5,u,g,q,h,1.5,t,f,0,f,g,280,824,+
2,b,27.83,1.54,u,g,w,v,3.75,t,t,5,t,g,100,3,+
3,b,20.17,5.625,u,g,w,v,1.71,t,f,0,f,s,120,0,+
4,b,32.08,4.0,u,g,m,v,2.5,t,f,0,t,g,360,0,+


Sekarang Dataset sudah terlihat lebih baik.
Namun, sebelum bisa membuat model <em>Machine learning</em>, issue atau permasalahan yang dimiliki oleh Dataset harus diidentifikasi terlebih dahulu.

In [3]:
print(kk_dataset.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 689 entries, 0 to 688
Data columns (total 16 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Gender          689 non-null    object 
 1   Age             689 non-null    object 
 2   Debt            689 non-null    float64
 3   Married         689 non-null    object 
 4   BankCustomer    689 non-null    object 
 5   EducationLevel  689 non-null    object 
 6   Ethnicity       689 non-null    object 
 7   YearEmployed    689 non-null    float64
 8   PriorDefault    689 non-null    object 
 9   Employed        689 non-null    object 
 10  CreditScore     689 non-null    int64  
 11  Driverlicense   689 non-null    object 
 12  Citizen         689 non-null    object 
 13  ZipCode         689 non-null    object 
 14  Income          689 non-null    int64  
 15  ApprovalStatus  689 non-null    object 
dtypes: float64(2), int64(2), object(12)
memory usage: 86.2+ KB
None


Terdeteksi tidak ada Null.

Pemeriksaan lanjutan dengan menggunakan string yang umum ditemukan atau digunakan sebagai missing values

In [4]:
print(kk_dataset[kk_dataset.values=='?'])
print(kk_dataset[kk_dataset.values==' '])
print(kk_dataset[kk_dataset.values==''])

    Gender    Age   Debt Married BankCustomer EducationLevel Ethnicity  \
70       b  34.83  4.000       u            g              d        bb   
82       a      ?  3.500       u            g              d         v   
85       b      ?  0.375       u            g              d         v   
91       b      ?  5.000       y            p             aa         v   
96       b      ?  0.500       u            g              c        bb   
..     ...    ...    ...     ...          ...            ...       ...   
621      a  25.58  0.000       ?            ?              ?         ?   
621      a  25.58  0.000       ?            ?              ?         ?   
625      b  22.00  7.835       y            p              i        bb   
640      ?  33.17  2.250       y            p             cc         v   
672      ?  29.50  2.000       y            p              e         h   

     YearEmployed PriorDefault Employed  CreditScore Driverlicense Citizen  \
70         12.500            t   

Terdapat cell missing values dengan nilai string '?', yaitu pada kolom:

In [5]:
print(kk_dataset.columns[kk_dataset.isin(['?']).any()])
print(kk_dataset.isin(['?']).sum())
n_missing = kk_dataset.isin(['?']).sum().sum()
print('total missing values =',n_missing)

Index(['Gender', 'Age', 'Married', 'BankCustomer', 'EducationLevel',
       'Ethnicity', 'ZipCode'],
      dtype='object')
Gender            12
Age               12
Debt               0
Married            6
BankCustomer       6
EducationLevel     9
Ethnicity          9
YearEmployed       0
PriorDefault       0
Employed           0
CreditScore        0
Driverlicense      0
Citizen            0
ZipCode           13
Income             0
ApprovalStatus     0
dtype: int64
total missing values = 67


Dari  investigasi, terdapat 67 baris pada 7 kolom data yang memiliki nilai cell '?'. Permasalahan ini disebut dengan missing values.

Model machine learning tidak akan bisa dibuat jika masih terdapat missing values. Oleh karena itu masalah ini harus diatasi terlebih dahulu. Namun, sebelum itu kolom-kolom yang dinilai tidak penting atau tidak berkaitan dengan valid tidaknya suatu transfaksi kartu kredit akan dihilangkan terlebih dahulu.

In [6]:
kk_dataset = kk_dataset.drop(columns=['ZipCode','Driverlicense'])
kk_dataset.head()

Unnamed: 0,Gender,Age,Debt,Married,BankCustomer,EducationLevel,Ethnicity,YearEmployed,PriorDefault,Employed,CreditScore,Citizen,Income,ApprovalStatus
0,a,58.67,4.46,u,g,q,h,3.04,t,t,6,g,560,+
1,a,24.5,0.5,u,g,q,h,1.5,t,f,0,g,824,+
2,b,27.83,1.54,u,g,w,v,3.75,t,t,5,g,3,+
3,b,20.17,5.625,u,g,w,v,1.71,t,f,0,s,0,+
4,b,32.08,4.0,u,g,m,v,2.5,t,f,0,g,0,+


## Mengatasi Missing Values

Untuk mengetahui secara pasti dan mempermudah penanganan missing values di dalam Dataset. Cell bernilai '?' harus diubah menjadi NaN.

In [7]:
import numpy as np

kk_dataset =kk_dataset.replace('?',np.nan)
kk_dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 689 entries, 0 to 688
Data columns (total 14 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Gender          677 non-null    object 
 1   Age             677 non-null    object 
 2   Debt            689 non-null    float64
 3   Married         683 non-null    object 
 4   BankCustomer    683 non-null    object 
 5   EducationLevel  680 non-null    object 
 6   Ethnicity       680 non-null    object 
 7   YearEmployed    689 non-null    float64
 8   PriorDefault    689 non-null    object 
 9   Employed        689 non-null    object 
 10  CreditScore     689 non-null    int64  
 11  Citizen         689 non-null    object 
 12  Income          689 non-null    int64  
 13  ApprovalStatus  689 non-null    object 
dtypes: float64(2), int64(2), object(10)
memory usage: 75.5+ KB


Berdasarkan Dataset.info, hanya kolom-kolom bertipe data object yang memiliki missing values. Oleh karena itu cara mengatasinya adalah dengan mengisi missing values tersebut dengan nilai mayoritas dari kolom tersebut.

In [8]:
for col in kk_dataset.columns:
  if kk_dataset[col].dtypes == 'object':
    kk_dataset = kk_dataset.fillna(kk_dataset[col].value_counts().index[0])

kk_dataset.isnull().sum()

Gender            0
Age               0
Debt              0
Married           0
BankCustomer      0
EducationLevel    0
Ethnicity         0
YearEmployed      0
PriorDefault      0
Employed          0
CreditScore       0
Citizen           0
Income            0
ApprovalStatus    0
dtype: int64

Missing values sudah selesai diatasi.

## Pembuatan Model Machine Learning

#### 1. Preprosessing Data

Pada tahap ini Dataset Kartu kredit yang sudah dibersihkan dari missing values akan dipecah menjadi 2 bagian dengan tujuan untuk pelatihan dan pengetesan model machine learning. Kemudian mengubah seluruh type data menjadi numerik dan menskalakannya agar berada dalam skala yang sama.
1. Split Dataset (train-test)
2. Mengubah tipe data menjadi angka
3. Mengscalakan data

In [9]:
from sklearn.model_selection import train_test_split

kk_train, kk_test = train_test_split(kk_dataset,test_size=0.3,random_state=50)

kk_train = pd.get_dummies(kk_train)
kk_test = pd.get_dummies(kk_test)
print('Setelah Dummy')
print('Train shape :', kk_train.shape)
print('Test shape  :', kk_test.shape)
print('\n')

#Reindex kolom dataset test setelah di dummy
kk_test = kk_test.reindex(columns=kk_train.columns,fill_value=0)
print('Setelah Reindex Dummy')
print('Train shape :', kk_train.shape)
print('Test shape  :', kk_test.shape)

Setelah Dummy
Train shape : (482, 330)
Test shape  : (207, 215)


Setelah Reindex Dummy
Train shape : (482, 330)
Test shape  : (207, 330)


Selanjutnya kita pisahkan antara Feature (X) dan Target (y) sebelum menskalakan Feature.

In [10]:
X_train, y_train = kk_train.iloc[:,:-1].values, kk_train.iloc[:,[-1]].values
X_test, y_test = kk_test.iloc[:,:-1].values, kk_test.iloc[:,[-1]].values

from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler(feature_range=(0,1))
scaledX_train = scaler.fit_transform(X_train)
scaledX_test = scaler.transform(X_test)

#### 2. Pelatihan Model

Salah satu faktor penting dan keuntungan dari penggunaan kartu kredit adalah kepraktisan dan kecepatan transaksi. Oleh karena itu sistem validasi otomatis harus memiliki performa yang tinggi namun tetap cepat. Sehingga model machine learning yang digunakanpun harus yang ringan namun tetap efektif.

Dari banyaknya jenis model machine learning, model yang paling ringan untuk tipe klasifikasi adalah "Logistic regression" dan untuk menemukan performa terbaik dari tipe model logistic regression pada Dataset dilakukan pencarian paramater yang paling tepat.

In [11]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV

tol = [0.01,0.001,0.0001]
max_iter = [100,150,200]
parameter = dict(tol=tol,max_iter=max_iter)

logreg = LogisticRegression()
grid_model = GridSearchCV(estimator=logreg,param_grid=parameter,cv=13)

grid_model_hasil = grid_model.fit(scaledX_train,y_train.ravel())
print("Akurasi terbaik   : %f" % (grid_model_hasil.best_score_))
print("Parameter terbaik :", grid_model_hasil.best_params_)

Akurasi terbaik   : 1.000000
Parameter terbaik : {'max_iter': 100, 'tol': 0.01}


In [12]:
model_terbaik = grid_model_hasil.best_estimator_

score_test = model_terbaik.score(scaledX_test,y_test)
print("Akurasi Model pada dataset test", score_test)

Akurasi Model pada dataset test 1.0


In [13]:
from sklearn.metrics import confusion_matrix
y_pred = model_terbaik.predict(scaledX_test)

confusion_matrix(y_test,y_pred)

array([[ 97,   0],
       [  0, 110]])

Berdasarkan akurasi dan confusion matrix, diperoleh informasi bahwa model machine learning yang dibuat berhasil mengklasifikasikan secara akurat dataset test, dengan hasil :
### 97 Transaksi Fraud
### 110 Transaksi Valid