# 📊 Analisis Dataset Credit Approval (UCI)

In [None]:
from google.colab import drive
drive.mount('/content/drive')


## Pendahuluan:

Dalam dunia perbankan dan lembaga keuangan, proses penilaian kelayakan kredit merupakan bagian penting dalam pengambilan keputusan. Apakah seorang pemohon layak mendapatkan kredit atau tidak, sering kali ditentukan oleh banyak faktor seperti informasi pribadi, data keuangan, dan riwayat transaksi.

Dataset Credit Approval dari UCI Machine Learning Repository merupakan kumpulan data riil yang merepresentasikan proses ini, dengan berbagai fitur numerik dan kategorikal yang menggambarkan kondisi pemohon kredit. Setiap baris data mencerminkan satu aplikasi kredit yang hasil akhirnya adalah apakah disetujui (+) atau ditolak (-).

Melalui proyek ini, dilakukan analisis terhadap dataset tersebut dengan tujuan membangun model klasifikasi yang dapat memprediksi apakah aplikasi kredit akan disetujui atau tidak. Proses analisis mencakup beberapa tahapan penting, yaitu:

Data Understanding – memahami struktur, tipe data, dan kualitas data.

Preprocessing – menangani missing value dan mengubah data kategorikal menjadi numerik.

Modeling – membangun model machine learning untuk klasifikasi.

Evaluasi – menilai performa model menggunakan metrik evaluasi yang sesuai.

Dengan analisis ini, diharapkan dapat diperoleh model prediksi yang akurat dan dapat digunakan sebagai dasar pengambilan keputusan kredit secara otomatis dan efisien.


Analisis klasifikasi persetujuan kredit menggunakan dataset Credit Approval dari UCI.
Tahapan analisis meliputi:
1. Data Understanding
2. Preprocessing
3. Modelling
4. Evaluasi
5. Deployment


📁 Sumber Data
Dataset dapat dilihat pada link berikut ini:
https://archive.ics.uci.edu/dataset/27/credit+approval

Dataset Credit Approval dari UCI Machine Learning Repository berisi data aplikasi kredit dari pemohon yang mengajukan pinjaman atau fasilitas kredit. Dataset ini mencakup berbagai fitur demografis dan keuangan (sebagian bersifat numerik dan sebagian kategorikal) yang digunakan untuk menentukan apakah permohonan kredit disetujui atau tidak.

🎯 Tujuan
Tujuan dari analisis dataset ini adalah untuk membangun model klasifikasi yang dapat memprediksi apakah sebuah pengajuan kredit akan disetujui (approve) atau ditolak (reject), berdasarkan informasi yang diberikan oleh pemohon.
Model ini diharapkan dapat membantu lembaga keuangan dalam mengambil keputusan secara lebih cepat, objektif, dan efisien dalam proses evaluasi kredit.

## 1. Upload File Dataset

In [None]:

from google.colab import files
uploaded = files.upload()


## 2. Load dan Tampilkan Data

In [None]:

import pandas as pd
import numpy as np

# Kolom sesuai dokumentasi UCI
columns = [
    'A1', 'A2', 'A3', 'A4', 'A5', 'A6', 'A7', 'A8',
    'A9', 'A10', 'A11', 'A12', 'A13', 'A14', 'A15', 'class'
]

df = pd.read_csv('crx.data', header=None, names=columns, na_values='?')
df.head()


Unnamed: 0,A1,A2,A3,A4,A5,A6,A7,A8,A9,A10,A11,A12,A13,A14,A15,class
0,b,30.83,0.0,u,g,w,v,1.25,t,t,1,f,g,202.0,0,+
1,a,58.67,4.46,u,g,q,h,3.04,t,t,6,f,g,43.0,560,+
2,a,24.5,0.5,u,g,q,h,1.5,t,f,0,f,g,280.0,824,+
3,b,27.83,1.54,u,g,w,v,3.75,t,t,5,t,g,100.0,3,+
4,b,20.17,5.625,u,g,w,v,1.71,t,f,0,f,s,120.0,0,+


## 3. Data Understanding

In [None]:

df.info()
print("\nJumlah missing values:")
print(df.isnull().sum())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 690 entries, 0 to 689
Data columns (total 16 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A1      678 non-null    object 
 1   A2      678 non-null    float64
 2   A3      690 non-null    float64
 3   A4      684 non-null    object 
 4   A5      684 non-null    object 
 5   A6      681 non-null    object 
 6   A7      681 non-null    object 
 7   A8      690 non-null    float64
 8   A9      690 non-null    object 
 9   A10     690 non-null    object 
 10  A11     690 non-null    int64  
 11  A12     690 non-null    object 
 12  A13     690 non-null    object 
 13  A14     677 non-null    float64
 14  A15     690 non-null    int64  
 15  class   690 non-null    object 
dtypes: float64(4), int64(2), object(10)
memory usage: 86.4+ KB

Jumlah missing values:
A1       12
A2       12
A3        0
A4        6
A5        6
A6        9
A7        9
A8        0
A9        0
A10       0
A11       0
A12      

## 4. Preprocessing

In [None]:
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import LabelEncoder

# Cek data sebelum preprocessing
print("🔍 Sebelum preprocessing:")
print(df.isnull().sum())

# Tangani missing values
for col in df.columns:
    if df[col].dtype == 'object':
        imp = SimpleImputer(strategy='most_frequent')
    else:
        imp = SimpleImputer(strategy='mean')
    df[[col]] = imp.fit_transform(df[[col]])

print("\n✅ Setelah imputasi missing values (NaN sudah diisi):")
print(df.isnull().sum())

# Encoding data kategorikal
le = LabelEncoder()
for col in df.columns:
    if df[col].dtype == 'object':
        df[col] = le.fit_transform(df[col])

print("\n✅ Setelah encoding:")
print(df.head())


🔍 Sebelum preprocessing:
A1       12
A2       12
A3        0
A4        6
A5        6
A6        9
A7        9
A8        0
A9        0
A10       0
A11       0
A12       0
A13       0
A14      13
A15       0
class     0
dtype: int64

✅ Setelah imputasi missing values (NaN sudah diisi):
A1       0
A2       0
A3       0
A4       0
A5       0
A6       0
A7       0
A8       0
A9       0
A10      0
A11      0
A12      0
A13      0
A14      0
A15      0
class    0
dtype: int64

✅ Setelah encoding:
   A1     A2     A3  A4  A5  A6  A7    A8  A9  A10  A11  A12  A13    A14  \
0   1  30.83  0.000   1   0  12   7  1.25   1    1  1.0    0    0  202.0   
1   0  58.67  4.460   1   0  10   3  3.04   1    1  6.0    0    0   43.0   
2   0  24.50  0.500   1   0  10   3  1.50   1    0  0.0    0    0  280.0   
3   1  27.83  1.540   1   0  12   7  3.75   1    1  5.0    1    0  100.0   
4   1  20.17  5.625   1   0  12   7  1.71   1    0  0.0    0    2  120.0   

     A15  class  
0    0.0      0  
1  560.0     

## 5. Modelling

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

# Pisahkan fitur dan target
X = df.drop('class', axis=1)
y = df['class']

# Split data train dan test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Training model
model = RandomForestClassifier()
model.fit(X_train, y_train)

# Prediksi dan tampilkan info model
print("✅ Model berhasil dilatih")
print("🎯 Akurasi training:", model.score(X_train, y_train))

# Prediksi pada data test
y_pred = model.predict(X_test)

print("🎯 Contoh prediksi (10 data):", y_pred[:10])


✅ Model berhasil dilatih
🎯 Akurasi training: 1.0
🎯 Contoh prediksi (10 data): [1 0 1 1 1 1 1 0 1 1]


## 6. Evaluasi

In [None]:
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix

print("📊 Confusion Matrix:")
print(confusion_matrix(y_test, y_pred))

print("\n📈 Accuracy:")
print(accuracy_score(y_test, y_pred))

print("\n📝 Classification Report:")
print(classification_report(y_test, y_pred))


📊 Confusion Matrix:
[[59 11]
 [ 7 61]]

📈 Accuracy:
0.8695652173913043

📝 Classification Report:
              precision    recall  f1-score   support

           0       0.89      0.84      0.87        70
           1       0.85      0.90      0.87        68

    accuracy                           0.87       138
   macro avg       0.87      0.87      0.87       138
weighted avg       0.87      0.87      0.87       138



## 7. Simpan Model

In [None]:

import joblib

joblib.dump(model, "credit_model.pkl")
print("Model disimpan sebagai credit_model.pkl")


Model disimpan sebagai credit_model.pkl


## 8. Simpan Dataset Hasil Preprocessing

In [None]:

df.to_csv("credit_approval_clean.csv", index=False)
print("Dataset disimpan sebagai credit_approval_clean.csv")


Dataset disimpan sebagai credit_approval_clean.csv


 ### Deployment

 Link :  https://credit-approval-app-rxsc987ps2suggotsmjwvz.streamlit.app/
