# Contents

* Introduction
* Stage 1 : Data overview
    * 1.1 Goal
    * 1.2 Stages
* Stage 2 : Data preprocessing
    * 2.1 Header Style
    * 2.2 Missing Values
    * 2.3 Duplicates
    * 2.4 Conclusions
* Stage 3 : Testing the hyphotheses
    * 3.1 Hyphothesis 1: Apakah terdapat hubungan antara memiliki anak dan probabilitas seseorang melakukan gagal bayar pinjaman?
    * 3.2 Hyphothesis 2: Apakah terdapat hubungan antara status perkawinan dan probabilitas seseorang melakukan gagal bayar pinjaman?
    * 3.3 Hyphothesis 3: Apakah terdapat hubungan antara tingkat pendapatan dan probabilitas seseorang melakukan gagal bayar pinjaman?
    * 3.4 Hyphothesis 4: Bagaimana perbedaan tujuan pinjaman memengaruhi probabilitas seseorang melakukan gagal bayar pinjaman?
* Findings

##  Introduction

Setiap kali kita melakukan penelitian, kita membutuhkan formula hipotesis yang akan kita uji. Terkadang kita bisa menerima hipotesis tersebut, dan juga kita dapat menolaknya. Pebisnis harus paham untuk membuat asumsi yang tepat.

Dalam projek kali ini, kita akan mencari tahu pengaruh status perkawinan seorang dan jumlah anak yang dimilikinya terhadap probabilitas gagal bayar dalam pelunasan pinjaman. Pihak bank telah memberi kita beberapa data mengenai kelayakan kredit nasabah, yang mana data tersebut akan dilakukan uji hipotesis dibawah dan mencari tahu probabilitas gagal bayar peminjam

1.1 Goal:
Terdapat 4 hipotesis, sebagai berikut :

    1. Terdapat hubungan antara memiliki anak dan probabilitas seseorang melakukan gagal bayar pinjaman
    2. Terdapat hubungan antara status perkawinan dan probabilitas seseorang melakukan gagal bayar pinjaman
    3. Terdapat hubungan antara tingkat pendapatan dan probabilitas seseorang melakukan gagal bayar pinjaman
    4. Perbedaan tujuan pinjaman memengaruhi probabilitas seseorang melakukan gagal bayar pinjaman
    
1.2 Stages

Data kelayakan kredit nasabah disimpan dalam file '/datasets/credit_scoring_eng.csv'. Tidak terdapat informasi tentang kualitas data, sehingga kita harus eksplor data tersebut sebelum melakukan hipotesis.

Pertama, kita akan mengevaluasi kualitas data dan melihat apakah ada masalah yang signifikan. Kemudian, selama data preprocessing, kita akan menghitung masalah kritis.

Dalam projek ini terdiri dari tiga tahapan : 

    1. Data overview
    2. Data preprocessing
    3. Testing the hypothesis

# Data Overview

## Menganalisis risiko gagal bayar peminjam

Tugasmu adalah menyiapkan laporan untuk divisi kredit suatu bank. Kamu akan mencari tahu pengaruh status perkawinan seorang nasabah dan jumlah anak yang dimilikinya terhadap probabilitas gagal bayar dalam pelunasan pinjaman. Pihak bank sudah memiliki beberapa data mengenai kelayakan kredit nasabah.

Laporanmu akan dipertimbangkan pada saat membuat **penilaian kredit** untuk calon nasabah. **Penilaian kredit** digunakan untuk mengevaluasi kemampuan calon peminjam untuk melunasi pinjaman mereka.

## Buka file data dan baca informasi umumnya.


In [1]:
# Muat semua library
import pandas as pd

In [2]:
# Muat datanya
path = '/datasets/credit_scoring_eng.csv'
data_credit = pd.read_csv(path)

## Soal 1. Eksplorasi data

**Deskripsi data**
- `children` - jumlah anak dalam keluarga
- `days_employed` - pengalaman kerja nasabah dalam hari
- `dob_years` - usia nasabah dalam tahun
- `education` - tingkat pendidikan nasabah
- `education_id` - pengidentifikasi untuk tingkat pendidikan nasabah
- `family_status` - status perkawinan
- `family_status_id` - pengidentifikasi untuk status perkawinan nasabah
- `gender` - jenis kelamin nasabah
- `income_type` - jenis pekerjaan
- `debt` - apakah nasabah pernah melakukan gagal bayar pinjaman
- `total_income` - pendapatan bulanan
- `purpose` - tujuan mendapatkan pinjaman

Lihat berapa banyak baris dan kolom yang dimiliki oleh dataset

In [3]:
# Mari kita lihat berapa banyak baris dan kolom yang dimiliki oleh dataset kita
data_credit.shape

(21525, 12)

In [4]:
# Mari tampilkan N baris pertama
data_credit.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


Setiap baris dalam tabel menyimpan data terkait kelayakan kredit nasabah. Sejumlah kolom menyimpan data pribadi nasabah, seperti jenis kelamin, tingkat pendidikan, status perkawinan, jumlah anak, hari kerja, pendapatan, dan jenis pendapatan. Sisanya menyimpan data terkait alasan nasabah melakukan pinjaman.

Dari sampel data yang ditampilkan diatas sudah cukup baik baik untuk 10 baris pertama, tidak ada data yang hilang, akan tetapi ada sesuatu yang mengganjal yaitu nilai dari kolom 'days_employed' yang bernilai negatif, padahal days_employed itu hari kerja dan tidak mungkin bernilai negatif, serta jumlah hari pada days_employed terlalu banyak

In [5]:
# Dapatkan informasi data
data_credit.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Dari informasi diatas kita dapat mendapatkan beberapa gambaran, diantaranya : 

    1. Dataset kita berjumlah 2152 baris dan 12 kolom
    2. Beberapa kolom terdapat missing value seperti pada kolom days_employed dan total_income
    3. Seluruh nama kolom telah ditulis dengan baik dengan huruf kecil 
    4. Tipe Data setiap kolom telah diisi dengan benar

In [6]:
# Mari kita lihat tabel yang telah difilter dengan nilai yang hilang di kolom pertama yang mengandung data yang hilang
days_missing = data_credit[data_credit['days_employed'].isnull()]
days_missing.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
65,0,,21,secondary education,1,unmarried,4,M,business,0,,transactions with commercial real estate
67,0,,52,bachelor's degree,0,married,0,F,retiree,0,,purchase of the house for my family
72,1,,32,bachelor's degree,0,married,0,M,civil servant,0,,transactions with commercial real estate
82,2,,50,bachelor's degree,0,married,0,F,employee,0,,housing
83,0,,52,secondary education,1,married,0,M,employee,0,,housing


In [7]:
data_credit.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [8]:
days_missing.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

* Missing value pada kolom tersebut terlihat simetris, karena kebetulan hanya kedua kolom tersebut yang memiliki missing value setelah difilter yaitu kolom days_employed dan total_income.

In [9]:
# Mari kita terapkan beberapa kondisi untuk memfilter data dan melihat jumlah baris dalam tabel yang telah difilter.
missing_data = data_credit.loc[(data_credit['days_employed'].isnull()) & (data_credit['total_income'].isnull())]
missing_data.shape

(2174, 12)

In [10]:
missing_data.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Kesimpulan sementara**

* Jumlah baris dalam tabel yang telah difilter sesuai dengan jumlah nilai yang hilang, hal tersebut terbukti dengan jumlah nilai yang hilang pada kolom days_employed dan kolom total_income sama.


*Presentase nilai yang hilang terhadap keseluruhan dataset adalah: jumlah data yang hilang / keseluruhan data x 100%.*

*Maka : 2174 / 21525 x 100% = 1.02*

*Nilai yang hilang tersebut merupakan bagian dari data yang cukup besar, maka dari itu sebaiknya kita perlu mengisi nilai yang hilang. Nilai yang hilang bisa jadi disebabkan oleh karakteristik nasabah tertentu, seperti jenis pekerjaan, ada nasabah yang bekerja dan ada yang tidak, kemudian tingkat pendidikan nasabah juga bisa jadi berpengaruh terhadap jenis pekerjaan nasabah.*

*Ada sebuah ketergantungan nilai yang hilang pada nilai indikator lain yaitu kolom nilai yang hilang pada kolom "days_employed" dengan nilai yang ada pada kolom "total_income". Ketergantungan tersebut dikarenakan identifikasi karakteristik tertentu nasabah yang mana jika nasabah tidak memiliki pekerjaan, maka nasabah juga tidak memiliki pemasukan.*



*Langkah selanjutnya adalah dengan mengisi nilai yang hilang agar nilai yang hilang tidak bergantung pada indikator lain.*

In [11]:
# Mari kita periksa nasabah yang tidak memiliki data tentang karakteristik yang teridentifikasi dan kolom dengan nilai yang hilang
data_null = data_credit.loc[(data_credit['days_employed'].isnull()) & (data_credit['total_income'].isnull())]
data_null.head(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding


In [12]:
# Periksalah distribusinya
data_count = data_null['family_status'].value_counts()
data_percent = data_null["family_status"].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%": data_percent, "count": data_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
married,56.9%,1237
civil partnership,20.33%,442
unmarried,13.25%,288
divorced,5.15%,112
widow / widower,4.37%,95




* Distribusi pada kolom family_status menunjukkan status perkawinan dari sampel data yang dimiliki, beserta jumlah individu dalam masing - masing kategori. Terdapat beberapa temuan yang dapat di identifikasi dari data tersebut, yaitu 
    * Mayoritas individu dalam sampel data ini adalah yang sudah menikah (56.9%). Kemudian, ada sebagian yang berstatus sebagai pasangan sipil (20.33%) dan yang tidak menikah (13.25%).Proporsi individu yang duda/janda (widow/widower) lebih rendah dibandingkan dengan status lainnya (4.37%). Ini menunjukkan bahwa jumlah duda dan janda relatif lebih sedikit dalam sampel data ini.Proporsi individu yang bercerai (divorced) juga tergolong rendah (5.15%) dibandingkan dengan status perkawinan lainnya.

**Kemungkinan penyebab hilangnya nilai dalam data**

* Terdapat 2 kolom yang memiliki nilai yang hilang, yaitu kolom days_employed dan total_income. Kemungkinan penyebab hilangnya nilai dalam data pada kolom days_employed bisa jadi disebabkan oleh beberapa faktor, seperti kesalahan penginputan data, human error, individu yang tidak memiliki pekerjaan atau perbedaan definisi tentang "hari kerja". Sedangkan nilai yang hilang pada kolom total income dapat disebabkan oleh individu yang tidak memiliki pendapatan, informasi pendapatan yang tidak lengkap, atau masalah pada pengumpulan data.



In [13]:
# Memeriksa distribusi di seluruh dataset
data_count = data_credit['family_status'].value_counts()
data_percent = data_credit["family_status"].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%": data_percent, "count": data_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
married,57.51%,12380
civil partnership,19.41%,4177
unmarried,13.07%,2813
divorced,5.55%,1195
widow / widower,4.46%,960


**Kesimpulan sementara**


* Distribusi dalam dataset yang asli mirip dengan distribusi tabel yang telah di filter dalam case kali ini saya memfilter kolom family_status, hal tersebut artinya kolom family_status bukan penyebab nilai yang hilang

In [14]:
# Periksa penyebab dan pola lain yang dapat mengakibatkan nilai yang hilang
data_count = data_credit['education'].value_counts()
data_percent = data_credit["education"].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%": data_percent, "count": data_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
secondary education,63.88%,13750
bachelor's degree,21.92%,4718
SECONDARY EDUCATION,3.59%,772
Secondary Education,3.3%,711
some college,3.1%,668
BACHELOR'S DEGREE,1.27%,274
Bachelor's Degree,1.25%,268
primary education,1.16%,250
Some College,0.22%,47
SOME COLLEGE,0.13%,29


In [15]:
data_count = data_null['education'].value_counts()
data_percent = data_null["education"].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%": data_percent, "count": data_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
secondary education,64.77%,1408
bachelor's degree,22.82%,496
SECONDARY EDUCATION,3.08%,67
Secondary Education,2.99%,65
some college,2.53%,55
Bachelor's Degree,1.15%,25
BACHELOR'S DEGREE,1.06%,23
primary education,0.87%,19
SOME COLLEGE,0.32%,7
Some College,0.32%,7


**Kesimpulan sementara**

Dari hal diatas, kita dapat memastikan bahwa nilai yang hilang bukanlah suatu kebetulan, mungkin ada beberapa error/kesalahan yang terjadi saat penginputan data.

In [16]:
# Periksa pola lainnya - jelaskan pola tersebut
data_count = data_credit['purpose'].value_counts()
data_percent = data_credit["purpose"].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%": data_percent, "count": data_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
wedding ceremony,3.7%,797
having a wedding,3.61%,777
to have a wedding,3.6%,774
real estate transactions,3.14%,676
buy commercial real estate,3.08%,664
buying property for renting out,3.03%,653
housing transactions,3.03%,653
transactions with commercial real estate,3.02%,651
housing,3.01%,647
purchase of the house,3.01%,647


**Kesimpulan**

* Saya tidak dapat menemukan suatu pola dalam dataset tersebut, karena kebetulan kedua kolom yang terdapat nilai yang hilang tersebut berada di dua kolom yang berbeda dan posisi baris yang sama. Adanya missing value atau nilai yang hilang bisa jadi disebabkan human error, sistem error,technical problem dan yang lainnya*

* Untuk mengatasi nilai yang hilang dapat dilakukan dengan beberapa cara, yaitu dengan menghapus nilai yang hilang tersebut atau mengisi nilai yang hilang. Namun, dalam case kali ini saya akan mengatasi nilai yang hilang dengan mengisi nilai yang hilang tersebut bisa dengan nilai rata - rata atau median dari dataset.*

* Langkah selanjutnya adalah mentranformasi data yang terdapat masalah seperti nilai duplikat, sumber data yang salah, pencatatan yang berbeda, dan nilai yang hilang. Hal - hal tersebut perlu diatasi dengan mentransformasi data baik itu menghapus nilai duplikat, menyamakan pencatatan yang berbeda, memperbaiki sumber data yang salah dan mengisi nilai yang hilang

## Transformasi data

Pertama, mari kita lihat setiap kolom apakah ada masalah, jika ada maka harus diperbaiki.

Jika terdapat duplikat, maka hapuslah duplikat tersebut


In [18]:
# Mari kita lihat semua nilai di kolom pendidikan untuk memeriksa ejaan apa yang perlu diperbaiki
data_credit['education'].value_counts()

secondary education    13750
bachelor's degree       4718
SECONDARY EDUCATION      772
Secondary Education      711
some college             668
BACHELOR'S DEGREE        274
Bachelor's Degree        268
primary education        250
Some College              47
SOME COLLEGE              29
PRIMARY EDUCATION         17
Primary Education         15
graduate degree            4
Graduate Degree            1
GRADUATE DEGREE            1
Name: education, dtype: int64

* Nilai pada kolom education terdapat pencatatan yang berbeda, akan tetapi semua ejaan atau tulisannya sama, hanya berbeda besar kecil nya saja. Oleh karena itu, perlu diperbaiki dengan cara menyamakan semua huruf ejaannya, dalam case kali ini saya akan menyamakan semua huruf ejaan ke huruf kecil atau lower case.

In [19]:
# Perbaiki pencatatan jika diperlukan
data_credit['education'] = data_credit['education'].str.lower()

In [20]:
# Periksa semua nilai di kolom untuk memastikan bahwa kita telah memperbaikinya dengan tepat
data_credit['education'].value_counts()

secondary education    15233
bachelor's degree       5260
some college             744
primary education        282
graduate degree            6
Name: education, dtype: int64

* Nilai pada kolom education berhasil diperbaiki, pencatatan nilai sama semua dengan huruf kecil atau lowercase

In [21]:
# Mari kita lihat distribusi nilai pada kolom `children`
data_credit['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64



*Ada beberapa hal yang aneh dalam kolom children tersebut, diantaranya yaitu nilai -1 yang mana jumlah anak tidak mungkin bernilai negatif, kemudian nilai 20, nilai ini mencurigakan karena jumlah anak yang tinggi tidak biasa.*

*Untuk memperbaiki data ini dapat dilakukan dengan mengganti nilai -1 dan nilai 20*

In [22]:
# [perbaiki data berdasarkan keputusanmu]
data_credit['children'] = data_credit['children'].replace(-1, 1).replace(20, 2)

In [23]:
# Periksa kembali kolom `children` untuk memastikan bahwa semuanya telah diperbaiki
data_credit['children'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

In [24]:
# Temukan data yang bermasalah di kolom `days_employed` jika memang terdapat masalah dan hitung persentasenya
data_credit['days_employed'].describe()

count     19351.000000
mean      63046.497661
std      140827.311974
min      -18388.949901
25%       -2747.423625
50%       -1203.369529
75%        -291.095954
max      401755.400475
Name: days_employed, dtype: float64

*Jumlah data yang bermasalah cukup tinggi, hal tersebut dapat terjadi karena beberapa kesalahan teknis seperti kesalahan input, kesalahan format, data tidak lengkap dan kesalahan sistem.*

In [25]:
# Atasi nilai yang bermasalah, jika ada
# Kemungkinan datanya perjam maka perlu dibagi 24
days_employ = data_credit.loc[data_credit['days_employed'] > 0, "days_employed" ] / 24
data_credit.loc[data_credit['days_employed'] > 0, "days_employed" ] = days_employ

In [26]:
# handle data negatif menjadi positif
data_credit['days_employed'] = data_credit['days_employed'].abs()

In [27]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
data_credit['days_employed'].describe()

count    19351.000000
mean      4641.641176
std       5355.964289
min         24.141633
25%        927.009265
50%       2194.220567
75%       5537.882441
max      18388.949901
Name: days_employed, dtype: float64

In [28]:
# Periksa `dob_years` untuk nilai yang mencurigakan dan hitung persentasenya
data_credit['dob_years'].unique()

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51,  0, 59, 29, 60, 55, 58, 71, 22, 73,
       66, 69, 19, 72, 70, 74, 75])

*Terdapat nilai yang ambigu yaitu nilai 0, hal ini dapat membawa masalah apakah nilai tersebut bernilai int 0 atau tidak, oleh karena itu kita dapat mengganti nilai 0 tersebut dengan median.*

In [29]:
# Atasi masalah pada kolom `dob_years`, jika terdapat masalah
median_dob_years = int(data_credit['dob_years'].median())
data_credit['dob_years'].replace(0, median_dob_years, inplace=True)

In [30]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
data_credit['dob_years'].unique()

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51, 59, 29, 60, 55, 58, 71, 22, 73, 66,
       69, 19, 72, 70, 74, 75])

In [31]:
# Mari kita lihat nilai untuk kolom ini
data_credit['family_status'].value_counts()

married              12380
civil partnership     4177
unmarried             2813
divorced              1195
widow / widower        960
Name: family_status, dtype: int64

In [42]:
# Atasi nilai yang bermasalah di `family_status`, jika ada

* Tidak terdapat nilai yang bermasalah pada kolom family_status, baik itu nilai yang hilang, maupun nilai duplikat. Sehingga tidak perlu adanya handling value, karena datanya sudah baik

**Memeriksa kolom gender, apakah ada masalah atau tidak**

In [32]:
# Mari kita liat nilai dalam kolom ini
data_credit['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

* Pada kolom gender terdapat 1 nilai yang mencurigakan atau anomali yaitu nilai XNA, oleh karena itu kita harus menghilangkan nilai XNA tersebut

In [33]:
# Atasi nilai-nilai yang bermasalah, jika ada
data_credit = data_credit[data_credit['gender'] != "XNA"]

In [34]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
data_credit['gender'].value_counts()

F    14236
M     7288
Name: gender, dtype: int64

* Nilai XNA sudah tidak ada dalam kolom gender

**Periksa kolom income_type, apakah ada masalah atau tidak**

In [35]:
# Mari kita lihat nilai dalam kolom ini
data_credit['income_type'].value_counts()

employee                       11119
business                        5084
retiree                         3856
civil servant                   1459
unemployed                         2
entrepreneur                       2
paternity / maternity leave        1
student                            1
Name: income_type, dtype: int64

* Tidak terdapat nilai yang bermasalah pada kolom income_type, baik itu nilai yang hilang, maupun nilai duplikat. Sehingga tidak perlu adanya handling value, karena datanya sudah baik

**Periksa apakah ada duplikat dalam dataset**

In [36]:
# Periksa duplikat
data_credit.duplicated().sum()

72

* Terdapat duplikat sebanyak 72 baris pada dataset, oleh karena itu perlu dilakukan penghapusan duplikat atau drop duplicates

In [37]:
# Atasi duplikat, jika ada
data_credit = data_credit.drop_duplicates().reset_index(drop=True)

In [38]:
# Lakukan pemeriksaan terakhir untuk mengecek apakah kita memiliki duplikat
data_credit.duplicated().sum()

0

* Duplikat telah dihilangkan, sehingga tidak ada lagi duplikat pada dataset

In [39]:
# Periksa ukuran dataset yang sekarang kamu miliki setelah manipulasi pertama yang kamu lakukan
len(data_credit)

21452


*Dataset mengalami perubahan panjang / banyak nya baris, dari yang awalnya 21525 menjadi 21452, presentase perubahannya kurang lebih sebesar 0.99*

# Bekerja dengan nilai yang hilang

Gunakan dictionary untuk beberapa nilai yang memiliki ID, jika ingin mempercepat pekerjaan.

In [40]:
data_credit.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,14177.753002,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding


In [41]:
# Temukan dictionary
#data_credit.loc[:, ['education_id', 'education']].drop_duplicates().reset_index(drop=True)

#menggunakan zip dan dict :
#zip(education_id, education)

#education_dict = dict(zip(education_id, education))           
#education_dict

#pd.Series(education,index=education_id).to_dict()

data_credit.set_index('education_id').to_dict()['education']

{0: "bachelor's degree",
 1: 'secondary education',
 2: 'some college',
 3: 'primary education',
 4: 'graduate degree'}

In [42]:
#data_credit.loc[:, ['family_status_id', 'family_status']].drop_duplicates().reset_index(drop=True)

#menggunakan zip dan dict :
#family_status_dict = dict(zip(family_status_id, family_status))
#family_status_dict
#pd.Series(education,index=education_id).to_dict()

data_credit.set_index('family_status_id').to_dict()['family_status']

{0: 'married',
 1: 'civil partnership',
 2: 'widow / widower',
 3: 'divorced',
 4: 'unmarried'}

### Memperbaiki nilai yang hilang di `total_income`

* Nilai yang hilang pada kolom "days_employed" dan "total_income" harus diperbaiki dengan cara mengisi nilai yang hilang tersebut*

* Untuk mengatasi total nilai pendapatan yang hilang, pertama buat kategori usia untuk nasabah dan membuat kolom baru yang memuat kategori usia tersebut.

In [43]:
# Mari kita tulis sebuah fungsi untuk menghitung kategori usia
def age_category(age):
    if age <= 20:
        return '0 - 20'
    elif age > 20 and age <= 40:
        return '20 - 40'
    elif age > 40 and age <= 60:
        return '40 - 60'
    else:
        return '> 60'

In [44]:
# Lakukan pengujian untuk melihat apakah fungsimu bekerja atau tidak
age_category(35)

'20 - 40'

In [45]:
# Buatlah kolom baru berdasarkan fungsi
data_credit['dob_category'] = data_credit['dob_years'].apply(age_category)

In [46]:
# Periksa bagaimana nilai di dalam kolom baru
#data_credit['dob_category'].value_counts()
data_credit.loc[:, ['dob_years', 'dob_category']].head(10)

Unnamed: 0,dob_years,dob_category
0,42,40 - 60
1,36,20 - 40
2,33,20 - 40
3,32,20 - 40
4,53,40 - 60
5,27,20 - 40
6,43,40 - 60
7,50,40 - 60
8,35,20 - 40
9,41,40 - 60



* Faktor-faktor yang biasanya bergantung pada pendapatan seseorang dapat bervariasi, namun ada beberapa faktor umum diantaranya yaitu pendidikan, jenis pekerjaan, usia, pengalaman kerja, dan tingkat tanggungan keluarga.
* Untuk menentukan apakah menggunakan nilai rata-rata atau median untuk mengganti nilai yang hilang tergantung pada outlier, jika outlier signifikan lebih baik menggunakan median, jika distribusinya cenderung simetris (tidak ada outlier signifikan) maka nilai rata-rata dapat digunakan.

In [47]:
# Buat tabel tanpa nilai yang hilang dan tampilkan beberapa barisnya untuk memastikan semuanya berjalan dengan baik
clean_data = data_credit[~(data_credit['total_income'].isnull())]

In [48]:
# Perhatikan nilai rata-rata untuk pendapatan berdasarkan faktor yang telah kamu identifikasi
total_income_mean = data_credit.pivot_table(index='dob_category', values='total_income', aggfunc='mean')
total_income_mean

Unnamed: 0_level_0,total_income
dob_category,Unnamed: 1_level_1
0 - 20,19586.303559
20 - 40,27421.165343
40 - 60,27034.666405
> 60,23057.777452


In [49]:
# Perhatikan nilai median untuk pendapatan berdasarkan faktor yang telah kamu identifikasi
total_income_median = data_credit.pivot_table(index='dob_category', values='total_income', aggfunc='median')
total_income_median

Unnamed: 0_level_0,total_income
dob_category,Unnamed: 1_level_1
0 - 20,17257.277
20 - 40,23972.193
40 - 60,23219.8075
> 60,19637.056



* Faktor-faktor yang biasanya bergantung pada pendapatan seseorang, yaitu:
    1. Faktor Pendidikan
        Jika distribusi tingkat pendidikan merata atau memiliki skewness (kemiringan) ringan, nilai rata-rata bisa digunakan. Namun, jika terdapat perbedaan yang signifikan, median bisa lebih sesuai untuk menghindari bias.
    2. Faktor Jenis Pekerjaan
        Jika distribusi jenis pekerjaan memiliki perbedaan yang signifikan, median mungkin lebih sesuai. Namun, jika distribusi relatif merata, nilai rata-rata bisa digunakan.
    3. Faktor Usia
        Jika distribusi usia mendekati normal atau memiliki skewness ringan, nilai rata-rata bisa digunakan. Namun, jika terdapat perbedaan yang signifikan, median bisa lebih cocok.
    4. Faktor Pengalaman Kerja
        Jika distribusi pengalaman kerja mendekati normal atau memiliki skewness ringan, nilai rata-rata bisa digunakan. Namun, jika terdapat perbedaan yang signifikan, median bisa lebih sesuai.
    5. Faktor Tingkat Tanggungan Kerja
        Jika distribusi tingkat tanggungan mendekati normal atau memiliki skewness ringan, nilai rata-rata bisa digunakan. Namun, jika terdapat perbedaan yang signifikan, median bisa lebih sesuai.

* Berdasarkan faktor-faktor yang telah dijelaskan sebelumnya, keputusan tentang karakteristik yang paling menentukan pendapatan adalah faktor "Jenis Pekerjaan". Apakah menggunakan median atau rata-rata, berikut pertimbangannya :
    1. Jenis pekerjaan dapat memengaruhi pendapatan secara signifikan, terutama jika ada perbedaan yang besar antara pendapatan berdasarkan jenis pekerjaan.
    2. Jika distribusi jenis pekerjaan memiliki perbedaan yang tajam, menggunakan median akan lebih baik untuk menghindari bias akibat nilai ekstrem.
    3. Median lebih tahan terhadap pengaruh outlier, sehingga jika ada beberapa jenis pekerjaan dengan pendapatan yang sangat tinggi atau rendah, median akan memberikan gambaran yang lebih akurat tentang pendapatan rata-rata pada jenis pekerjaan tertentu.
    
    
        Maka dari itu, keputusan yang baik adalah menggunakan median untuk mengganti nilai yang hilang, karena distribusi pendapatan berdasarkan jenis pekerjaan mungkin tidak merata, dan menggunakan median akan membantu mengurangi pengaruh nilai ekstrem dan memberikan representasi yang lebih akurat tentang pendapatan pada jenis pekerjaan tertentu.

In [50]:
#  Tulis fungsi yang akan kita gunakan untuk mengisi nilai yang hilang
def fillna_median(dataframe, agg_column, value_column):
    grouped_values = dataframe.groupby(agg_column)[value_column].median().reset_index()
    size = len(grouped_values)
    for i in range(size):
        group = grouped_values[agg_column][i]
        value = grouped_values[value_column][i]
        dataframe.loc[(dataframe[agg_column] == group) & (dataframe[value_column].isna()), value_column] = value
    return dataframe

In [51]:
# Memeriksa bagaimana nilai di dalam kolom baru
data_median = fillna_median(data_credit, "dob_category", "total_income")
data_median.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dob_category
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40 - 60
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,20 - 40
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,20 - 40
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,20 - 40
4,0,14177.753002,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,40 - 60
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,20 - 40
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,40 - 60
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,40 - 60
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,20 - 40
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,40 - 60


In [52]:
# Terapkan fungsi tersebut ke setiap baris
data_median2 = fillna_median(data_credit, "education", "total_income")
data_median2.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dob_category
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40 - 60
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,20 - 40
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,20 - 40
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,20 - 40
4,0,14177.753002,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,40 - 60
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,20 - 40
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,40 - 60
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,40 - 60
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,20 - 40
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,40 - 60


In [53]:
# Periksa apakah kita mendapatkan kesalahan
data_credit.isnull().sum()

children               0
days_employed       2102
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
dob_category           0
dtype: int64


* Nilai yang hilang pada kolom income_type telah berhasil diisi oleh nilai median, sehingga tidak ada nilai yang hilang lagi pada kolom tersebut.
* Akan tetapi, masih terdapat kesalahan data pada kolom days_employed, yang merupakan kolom jumlah hari bekerja. Ada kemungkinan ada kesalahan dalam pengumpulan atau pengisian data. Dalam hal ini, perlu dilakukan pemeriksaan lebih lanjut terhadap metode pengumpulan data atau kemungkinan kesalahan pengisian. Maka dari itu nilai yang hilang tersebut perlu diperbaiki dengan mengisi nilai yang hilang dengan median atau rata - rata.

* Nilai yang hilang pada total_income telah berhasil diisi dengan nilai median. Kemudian kita periksa apakah jumlah nilai di kolom tersebut sesuai dengan jumlah nilai di kolom lain.

In [54]:
# Periksa jumlah entri di kolom
data_credit.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21452 entries, 0 to 21451
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21452 non-null  int64  
 1   days_employed     19350 non-null  float64
 2   dob_years         21452 non-null  int64  
 3   education         21452 non-null  object 
 4   education_id      21452 non-null  int64  
 5   family_status     21452 non-null  object 
 6   family_status_id  21452 non-null  int64  
 7   gender            21452 non-null  object 
 8   income_type       21452 non-null  object 
 9   debt              21452 non-null  int64  
 10  total_income      21452 non-null  float64
 11  purpose           21452 non-null  object 
 12  dob_category      21452 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.1+ MB


###  Memperbaiki nilai di `days_employed`

* Untuk memperbaiki nilai yang hilang dapat dilakukan dengan dua cara, menggunakan rata - rata atau median. Untuk menentukan apakah menggunakan nilai rata-rata atau median untuk mengganti nilai yang hilang tergantung pada outlier, jika outlier signifikan lebih baik menggunakan median, jika distribusinya cenderung simetris (tidak ada outlier signifikan) maka nilai rata-rata dapat digunakan. 

In [55]:
# Distribusi median dari `days_employed` berdasarkan parameter yang kamu identifikasi
days_employed_median = data_credit.pivot_table(index='dob_category', values='days_employed', aggfunc='median')
days_employed_median

Unnamed: 0_level_0,days_employed
dob_category,Unnamed: 1_level_1
0 - 20,695.968951
20 - 40,1344.500686
40 - 60,3037.283661
> 60,14854.612029


In [56]:
# Distribusi rata-rata dari `days_employed` berdasarkan parameter yang kamu identifikasi
days_employed_mean = data_credit.pivot_table(index='dob_category', values='days_employed', aggfunc='mean')
days_employed_mean

Unnamed: 0_level_0,days_employed
dob_category,Unnamed: 1_level_1
0 - 20,673.648361
20 - 40,1847.177086
40 - 60,5555.450769
> 60,12879.092659


* Untuk menentukan apakah menggunakan rata-rata atau median untuk mengisi nilai pada kolom days_employed, kita harus memahami distribusi data dalam kolom ini dan pertimbangkan karakteristik data tersebut. Pertimbangan penting lainnya yaitu sensivitas terhadap outlier, apakah outlier bernilai besar atau kecil. 
* Saya menggunakan nilai median untuk mengisi nilai yang hilang pada kolom days_employed, karena terdapat outlier yang signifikan dalam distribusi "days_employed", dan karena median lebih tahan fluktuasi ekstrem dalam data dan tidak akan terpengaruh oleh nilai outlier 

In [57]:
# Mari tulis fungsi yang menghitung rata-rata atau median (tergantung keputusanmu) berdasarkan parameter yang kamu identifikasi
def fillna_median(dataframe, agg_column, value_column):
    grouped_values = dataframe.groupby(agg_column)[value_column].median().reset_index()
    size = len(grouped_values)
    for i in range(size):
        group = grouped_values[agg_column][i]
        value = grouped_values[value_column][i]
        dataframe.loc[(dataframe[agg_column] == group) & (dataframe[value_column].isna()), value_column] = value
    return dataframe

In [58]:
# Periksa apakah fungsimu bekerja
data_median_days_employed = fillna_median(data_credit, "dob_category", "days_employed")
data_median_days_employed.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dob_category
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40 - 60
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,20 - 40
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,20 - 40
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,20 - 40
4,0,14177.753002,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,40 - 60
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,20 - 40
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,40 - 60
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,40 - 60
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,20 - 40
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,40 - 60


In [59]:
# Terapkan fungsi ke income_type
data_median_days_employed2 = fillna_median(data_credit, "income_type", "days_employed")
data_median_days_employed2.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dob_category
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40 - 60
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,20 - 40
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,20 - 40
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,20 - 40
4,0,14177.753002,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,40 - 60
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,20 - 40
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,40 - 60
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,40 - 60
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,20 - 40
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,40 - 60


In [60]:
# Periksa apakah fungsimu bekerja
data_median_days_employed3 = fillna_median(data_credit, "education", "days_employed")
data_median_days_employed3.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dob_category
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40 - 60
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,20 - 40
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,20 - 40
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,20 - 40
4,0,14177.753002,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,40 - 60
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,20 - 40
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,40 - 60
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,40 - 60
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,20 - 40
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,40 - 60


In [61]:
# Ganti nilai yang hilang
data_credit.isnull().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dob_category        0
dtype: int64

Periksa jumlah total nilai pada kolom days_employed apakah sesuai dengan jumlah nilai di kolom lain

In [62]:
# Periksa entri di semua kolom - pastikan kita memperbaiki semua nilai yang hilang
data_credit.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21452 entries, 0 to 21451
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21452 non-null  int64  
 1   days_employed     21452 non-null  float64
 2   dob_years         21452 non-null  int64  
 3   education         21452 non-null  object 
 4   education_id      21452 non-null  int64  
 5   family_status     21452 non-null  object 
 6   family_status_id  21452 non-null  int64  
 7   gender            21452 non-null  object 
 8   income_type       21452 non-null  object 
 9   debt              21452 non-null  int64  
 10  total_income      21452 non-null  float64
 11  purpose           21452 non-null  object 
 12  dob_category      21452 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.1+ MB


## Pengkategorian data

Mengkategorikan data text ke kategorikal

In [63]:
# Tampilkan nilai data yang kamu pilih untuk pengkategorian
data_credit[['purpose']]

Unnamed: 0,purpose
0,purchase of the house
1,car purchase
2,purchase of the house
3,supplementary education
4,to have a wedding
...,...
21447,housing transactions
21448,purchase of a car
21449,property
21450,buying my own car


Periksa nilai unik pada kolom purpose

In [64]:
# Periksa nilai unik
data_credit['purpose'].unique()

array(['purchase of the house', 'car purchase', 'supplementary education',
       'to have a wedding', 'housing transactions', 'education',
       'having a wedding', 'purchase of the house for my family',
       'buy real estate', 'buy commercial real estate',
       'buy residential real estate', 'construction of own property',
       'property', 'building a property', 'buying a second-hand car',
       'buying my own car', 'transactions with commercial real estate',
       'building a real estate', 'housing',
       'transactions with my real estate', 'cars', 'to become educated',
       'second-hand car purchase', 'getting an education', 'car',
       'wedding ceremony', 'to get a supplementary education',
       'purchase of my own house', 'real estate transactions',
       'getting higher education', 'to own a car', 'purchase of a car',
       'profile education', 'university education',
       'buying property for renting out', 'to buy a car',
       'housing renovation', 'going



* Pada kolom purpose atau tujuan pinjaman dapat diidentifikasi kelompok utama berdasarkan nilai uniknya, diantaranya yaitu beberapa nasabah ada yang mengambil pinjaman atau kredit dengan tujuan untuk membeli rumah atau properti rumah, ada yang untuk melaksanakan pernikahan atau wedding, ada yang untuk membeli mobil, dan ada yang untuk membayar biaya pendidikan.

Kita akan mengategorikan data kita berdasarkan topik ini


In [65]:
# Mari kita tulis sebuah fungsi untuk mengategorikan data berdasarkan topik umum
def purpose_category(tujuan):
    tujuan = tujuan.lower()
    
    if ('house' in tujuan) or ('property' in tujuan) or ('estate' in tujuan) or ('housing' in tujuan):
        category = 'house'
    elif ('educat' in tujuan) or ('university' in tujuan):
        category = 'education'
    elif ('wed' in tujuan):
        category = 'wedding'
    elif ('car' in tujuan):
        category = 'car'
    else:
        category = 'Unidentified'
    
    return category

In [66]:
# Buat kolom yang memuat kategori dan hitung nilainya
data_credit['purpose_group'] = data_credit['purpose'].apply(purpose_category)

Kategorikan tipe data numerik ke tipe data kategorikal

In [67]:
# Lihat semua data numerik di kolom yang kamu pilih untuk pengkategorian
data_credit.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dob_category,purpose_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40 - 60,house
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,20 - 40,car
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,20 - 40,house
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,20 - 40,education
4,0,14177.753002,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,40 - 60,wedding
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,20 - 40,house
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,40 - 60,house
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,40 - 60,education
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,20 - 40,wedding
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,40 - 60,house


In [67]:
# Dapatkan kesimpulan statistik untuk kolomnya
data_credit['purpose_group'].value_counts()

house        10810
car           4306
education     4013
wedding       2323
Name: purpose_group, dtype: int64

* Pengelompokan selanjutnya adalah mengelompokan tipe data numerik pada kolom "total_income", saya akan menggunakan rentang pendapatan dengan rentang nilai 10000 yang ada pada kolom tersebut. Saya menggunakan rentang pendapatan 10000 untuk mempermudah pengkategorian.


In [68]:
# Buat fungsi yang melakukan pengkategorian menjadi kelompok numerik yang berbeda berdasarkan rentang
def group_income(income):
    if income <= 10000:
        income = '0 - 10000'
    elif income > 10000 and income <= 20000:
        income = '10000 - 20000'
    elif income > 20000 and income <= 30000:
        income = '20000 - 30000'
    elif income > 30000 and income <= 40000:
        income = '30000 - 40000'
    else:
        income = '> 40000'
    return income 

group_income(5000)

'0 - 10000'

In [69]:
# Buat kolom yang memuat kategori
data_credit['group_income'] = data_credit['total_income'].apply(group_income)
data_credit.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dob_category,purpose_group,group_income
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40 - 60,house,> 40000
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,20 - 40,car,10000 - 20000
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,20 - 40,house,20000 - 30000
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,20 - 40,education,> 40000
4,0,14177.753002,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,40 - 60,wedding,20000 - 30000


In [70]:
# Hitung setiap nilai kategori untuk melihat pendistribusiannya
data_credit['group_income'].value_counts()

20000 - 30000    7950
10000 - 20000    6658
30000 - 40000    3106
> 40000          2812
0 - 10000         926
Name: group_income, dtype: int64

* Kita telah melakukan pengkategorian data dengan tipe data text ke tipe data kategorikal yakni pada kolom "purpose"  dan tipe data numerikal ke tipe data kategorikal yakni pada kolom "total_income".
    
    - Untuk pengkategorian tipe data text ke tipe data kategorikal pada kolom purpose, kita mengkategorikan data berdasarkan tujuan nasabah melakukan pinjaman, seperti untuk membeli rumah atau properti rumah, melakukan pernikahan, membeli mobil, dan membayar biaya pendidikan.
    - Untuk pengkategorian tipe data numerikal ke tipe data kategorikal, kita mengkategorikan data berdasarkan rentang pendapatan sebesar 10000, dimulai dari pendapatan 0 - 10000, 10000 - 20000, 20000 - 30000, 30000 - 40000, dan pendapatan lebih dari 40000

## Memeriksa hipotesis


**Apakah terdapat korelasi antara memiliki anak dengan probabilitas melakukan gagal bayar pinjaman?**

In [71]:
# Ganti value debt dari integer ke string
data_credit['debt'] = data_credit['debt'].replace(0, 'Tidak Gagal').replace(1, 'Gagal Bayar')

# Periksa data anak dan data gagal bayar pinjaman
child_debt = pd.pivot_table(data_credit,
                            index='children', 
                            columns='debt', 
                            values='income_type',
                            aggfunc='count',
                            margins=True).reset_index()

child_debt = child_debt[:-1]


# Hitung persentase gagal bayar berdasarkan jumlah anak
child_debt['% Gagal Bayar'] = child_debt['Gagal Bayar'] / child_debt['All'] * 100
child_debt['% Tidak Gagal'] = child_debt['Tidak Gagal'] / child_debt['All'] * 100
child_debt.sort_values(by='% Gagal Bayar', ascending=True)


debt,children,Gagal Bayar,Tidak Gagal,All,% Gagal Bayar,% Tidak Gagal
0,0,1063.0,13026.0,14089,7.544893,92.455107
3,3,27.0,303.0,330,8.181818,91.818182
1,1,445.0,4410.0,4855,9.165808,90.834192
2,2,202.0,1926.0,2128,9.492481,90.507519
4,4,4.0,37.0,41,9.756098,90.243902
5,5,,9.0,9,,100.0


**Kesimpulan**

* Berdasarkan data diatas, dapat disimpulkan bahwa terdapat korelasi antara memiliki anak dengan probabilitas melakukan gagal bayar pinjaman. Semakin banyak anak semakin besar kemungkinan gagal bayar, meskipun selisih persentase nya tidak terlalu besar dari value 7.5% hingga 9.7%. Data anak 5 tidak dapat digunakan karena sampelnya terlalu sedikit

**Apakah terdapat korelasi antara status keluarga dengan probabilitas melakukan gagal bayar pinjaman?**

In [72]:
# Periksa data status keluarga dan data gagal bayar pinjaman
family_status_debt = pd.pivot_table(data_credit,
                                    index='family_status', 
                                    columns='debt', 
                                    values='income_type',
                                    aggfunc='count',
                                    margins=True).reset_index()

family_status_debt = family_status_debt[:-1]

# Hitung persentase gagal bayar berdasarkan status keluarga
family_status_debt['% Gagal Bayar'] = family_status_debt['Gagal Bayar'] / family_status_debt['All'] * 100
family_status_debt['% Tidak Gagal'] = family_status_debt['Tidak Gagal'] / family_status_debt['All'] * 100
family_status_debt.sort_values(by='% Gagal Bayar', ascending=True)

debt,family_status,Gagal Bayar,Tidak Gagal,All,% Gagal Bayar,% Tidak Gagal
4,widow / widower,63,896,959,6.569343,93.430657
1,divorced,85,1110,1195,7.112971,92.887029
2,married,931,11408,12339,7.545182,92.454818
0,civil partnership,388,3761,4149,9.351651,90.648349
3,unmarried,274,2536,2810,9.75089,90.24911


**Kesimpulan**

* Dari data tersebut kita dapat melihat bahwa kelompok "civil partnership" dan "unmarried" memiliki persentase gagal bayar yang lebih tinggi (9.35% dan 9.75% masing-masing) dibandingkan dengan kelompok lainnya. Sementara itu, kelompok "widow / widower", "divorced", dan "married" memiliki persentase gagal bayar yang lebih rendah.
* Berdasarkan data diatas dapat disimpulkan bahwa terdapat korelasi antara status keluarga dengan probabilitas melakukan gagal bayar pinjaman, dimana beberapa kelompok status keluarga memiliki persentase gagal bayar lebih tinggi daripada yang lainnya, yakni  dengan nasabah berstatus civil partnership dan unmarried.

**Apakah terdapat korelasi antara tingkat pendapatan dengan probabilitas melakukan gagal bayar pinjaman?**

In [73]:
# Periksa data tingkat pendapatan dan data gagal bayar pinjaman
total_income_debt = pd.pivot_table(data_credit,
                                    index='group_income', 
                                    columns='debt', 
                                    values='income_type',
                                    aggfunc='count',
                                    margins=True).reset_index()

total_income_debt = total_income_debt[:-1]

# Hitung persentase gagal bayar berdasarkan tingkat pendapatan
total_income_debt['% Gagal Bayar'] = total_income_debt['Gagal Bayar'] / total_income_debt['All'] * 100
total_income_debt['% Tidak Gagal'] = total_income_debt['Tidak Gagal'] / total_income_debt['All'] * 100
total_income_debt.sort_values(by='% Gagal Bayar', ascending=True)

debt,group_income,Gagal Bayar,Tidak Gagal,All,% Gagal Bayar,% Tidak Gagal
0,0 - 10000,58,868,926,6.263499,93.736501
4,> 40000,194,2618,2812,6.899004,93.100996
3,30000 - 40000,242,2864,3106,7.791372,92.208628
1,10000 - 20000,562,6096,6658,8.440973,91.559027
2,20000 - 30000,685,7265,7950,8.616352,91.383648


**Kesimpulan**

* Dari data diatas, kita bisa melihat bahwa semua kelompok memilik persentase gagal bayar yang relatif serupa, dengan perbedaan yang tidak terlalu signifikan.Secara keseluruhan, kelompok dengan tingkat pendapatan yang lebih tinggi cenderung memiliki persentase gagal bayar yang sedikit lebih rendah, tetapi perbedaannya tidak terlalu besar.


**Bagaimana tujuan kredit memengaruhi persentase gagal bayar?**

In [75]:
# Periksa persentase tingkat gagal bayar untuk setiap tujuan kredit dan lakukan penganalisisan
purpose_debt = pd.pivot_table(data_credit,
                                    index='purpose_group', 
                                    columns='debt', 
                                    values='income_type',
                                    aggfunc='count',
                                    margins=True).reset_index()

purpose_debt = purpose_debt[:-1]

purpose_debt['% Gagal Bayar'] = purpose_debt['Gagal Bayar'] / purpose_debt['All'] * 100
purpose_debt['% Tidak Gagal'] = purpose_debt['Tidak Gagal'] / purpose_debt['All'] * 100
purpose_debt.sort_values(by='% Gagal Bayar', ascending=True)

debt,purpose_group,Gagal Bayar,Tidak Gagal,All,% Gagal Bayar,% Tidak Gagal
2,house,782,10028,10810,7.234043,92.765957
3,wedding,186,2137,2323,8.006888,91.993112
1,education,370,3643,4013,9.220035,90.779965
0,car,403,3903,4306,9.359034,90.640966


**Kesimpulan**

* Dari data diatas dapat dilihat bahwa terdapat banyak tujuan kredit yang berbeda-beda, kita dapat mengamati bagaimana tujuan kredit mempengaruhi persentase gagal bayar. Berikut terdapat beberapa kesimpulan yang dapat diambil :

    1. Tujuan Kredit dengan Persentase Gagal Bayar Rendah: Tujuan kredit seperti "purchase of my own house," "housing renovation," dan "construction of own property" memiliki persentase gagal bayar yang relatif rendah, di bawah 7%. Ini menunjukkan bahwa pelamar yang mengajukan kredit untuk tujuan-tujuan ini cenderung memiliki probabilitas gagal bayar yang lebih rendah.

    2. Tujuan Kredit dengan Persentase Gagal Bayar Menengah: Beberapa tujuan kredit, seperti "buy residential real estate," "buy real estate," "purchase of the house for my family," dan "buy commercial real estate," memiliki persentase gagal bayar antara 6.7% hingga 7.4%. Ini adalah kategori di mana probabilitas gagal bayar cenderung lebih stabil, meskipun sedikit bervariasi.

    3. Tujuan Kredit dengan Persentase Gagal Bayar Tinggi: Tujuan kredit seperti "to have a wedding," "building a real estate," "transactions with my real estate," "buying property for renting out," dan lain-lain, memiliki persentase gagal bayar yang lebih tinggi, melebihi 8% bahkan hingga lebih dari 11%. Ini menunjukkan bahwa pelamar yang mengajukan kredit untuk tujuan-tujuan ini mungkin memiliki probabilitas gagal bayar yang lebih tinggi.

* Kesimpulannya, terdapat pengaruh yang cukup jelas dari tujuan kredit terhadap persentase gagal bayar. Beberapa tujuan kredit memiliki tingkat risiko gagal bayar yang lebih rendah, sementara tujuan kredit lainnya memiliki tingkat risiko yang lebih tinggi. 

# Kesimpulan umum 


* A. Data Preprocessing
    1. Dataset awal atau data mentah kita berjumlah 2152 baris dan 12, Seluruh nama kolom telah ditulis dengan baik dengan huruf kecil, tipe data setiap kolom telah diisi dengan benar, meskipun terdapat beberapa kolom yang memiliki missing value. 
    2. Dataset awal juga memiliki nilai duplikat sebanyak 72 duplikat, oleh karena itu perlu dilakukan manipulasi data yaitu dengan menghapus nilai yang terduplikat.
    3. Distribusi pada kolom family_status menunjukkan status perkawinan dari sampel data yang dimiliki, beserta jumlah individu dalam masing - masing kategori. Terdapat beberapa temuan yang dapat di identifikasi dari data tersebut, yaitu 
    
            a. Mayoritas individu dalam sampel data ini adalah yang sudah menikah (56.9%). 
            b. Kemudian, ada sebagian yang berstatus sebagai pasangan sipil (20.33%) dan yang tidak menikah (13.25%).
            c. Proporsi individu yang duda/janda (widow/widower) lebih rendah dibandingkan dengan status lainnya (4.37%). 
        
          Ini menunjukkan bahwa jumlah duda dan janda relatif lebih sedikit dalam sampel data ini.Proporsi individu yang bercerai (divorced) juga tergolong rendah (5.15%) dibandingkan dengan status perkawinan lainnya
        
    4. Berdasarkan pola pada kolom education dan family_status, kita dapat memastikan bahwa nilai yang hilang bukanlah suatu kebetulan, mungkin ada beberapa error/kesalahan yang terjadi saat penginputan data.
    5. Tidak terdapat suatu pola tertentu pada kolom purpose, karena kebetulan kedua kolom yang terdapat nilai yang hilang tersebut berada di dua kolom yang berbeda dan posisi baris yang sama.
    6. Distribusi dalam dataset yang asli mirip dengan distribusi tabel yang telah di filter dalam case kali ini saya memfilter kolom family_status, hal tersebut artinya kolom family_status bukan penyebab nilai yang hilang
    7. Tidak terdapat nilai yang bermasalah pada kolom family_status, baik itu nilai yang hilang, maupun nilai duplikat. Sehingga tidak perlu adanya handling value, karena datanya sudah baik
    8. Tidak terdapat nilai yang bermasalah pada kolom income_type, baik itu nilai yang hilang, maupun nilai duplikat. Sehingga tidak perlu adanya handling value, karena datanya sudah baik
    
    
* B. Handling Missing Value
    1. Jumlah baris dalam tabel yang telah difilter sesuai dengan jumlah nilai yang hilang, hal tersebut terbukti dengan jumlah nilai yang hilang pada kolom days_employed dan kolom total_income sama.
    2. Presentase nilai yang hilang terhadap keseluruhan dataset adalah 1.02%
    3. Kemungkinan penyebab hilangnya nilai dalam data pada kolom days_employed bisa jadi disebabkan oleh beberapa faktor, seperti kesalahan penginputan data, human error, individu yang tidak memiliki pekerjaan atau perbedaan definisi tentang "hari kerja". Sedangkan nilai yang hilang pada kolom total income dapat disebabkan oleh individu yang tidak memiliki pendapatan, informasi pendapatan yang tidak lengkap, atau masalah pada pengumpulan data.
    4. Untuk mengatasi nilai yang hilang dapat dilakukan dengan beberapa cara, yaitu dengan menghapus nilai yang hilang tersebut atau mengisi nilai yang hilang. Namun, dalam case kali ini saya akan mengatasi nilai yang hilang dengan mengisi nilai yang hilang tersebut bisa dengan nilai rata - rata atau median dari dataset.
    5. Saya menggunakan dictionary untuk beberapa nilai yang memiliki ID yaitu education_id dan family_status_id, untuk mempercepat pekerjaan dalam menghandle missing value
    6. Handling Missing Value pada kolom total_income

        
          a. Faktor-faktor yang biasanya bergantung pada pendapatan seseorang dapat bervariasi, namun ada beberapa faktor umum diantaranya yaitu pendidikan, jenis pekerjaan, usia, pengalaman kerja, dan tingkat tanggungan keluarga. 
          
          b. Berdasarkan faktor-faktor yang telah dijelaskan sebelumnya, keputusan tentang karakteristik yang paling menentukan pendapatan adalah faktor "Jenis Pekerjaan".
          
          c. Maka dari itu, keputusan yang baik adalah menggunakan median untuk mengganti nilai yang hilang, karena distribusi pendapatan berdasarkan jenis pekerjaan mungkin tidak merata, dan menggunakan median akan membantu mengurangi pengaruh nilai ekstrem dan memberikan representasi yang lebih akurat tentang pendapatan pada jenis pekerjaan tertentu.
    
    
    7. Handling Missing Value pada kolom days_employed
    
          a. Untuk memperbaiki nilai yang hilang dapat dilakukan dengan dua cara, menggunakan rata - rata atau median. Untuk menentukan apakah menggunakan nilai rata-rata atau median untuk mengganti nilai yang hilang tergantung pada outlier, jika outlier signifikan lebih baik menggunakan median, jika distribusinya cenderung simetris (tidak ada outlier signifikan) maka nilai rata-rata dapat digunakan.
        
          b. Untuk menentukan apakah menggunakan rata-rata atau median untuk mengisi nilai pada kolom days_employed, kita harus memahami distribusi data dalam kolom ini dan pertimbangkan karakteristik data tersebut. Pertimbangan penting lainnya yaitu sensivitas terhadap outlier, apakah outlier bernilai besar atau kecil.
        
          c. Saya menggunakan nilai median untuk mengisi nilai yang hilang pada kolom days_employed, karena terdapat outlier yang signifikan dalam distribusi "days_employed", dan karena median lebih tahan fluktuasi ekstrem dalam data dan tidak akan terpengaruh oleh nilai outlier.


* C. Handling Duplicates value
    1. Dataset mentah memiliki nilai duplikat sebanyak 72 duplikat, untuk menghapus nilai duplikat menggunakan method drop duplicates.
    2. Setelah duplikat dihapus, dataset mengalami perubahan panjang / banyak nya baris, dari yang awalnya 21525 menjadi 21452, presentase perubahannya kurang lebih sebesar 0.99.
    
    
* D. Handling Transformation Data
    1. Pada dataset mentah ada beberapa hal yang aneh dalam kolom children tersebut, diantaranya yaitu nilai -1 yang mana jumlah anak tidak mungkin bernilai negatif, kemudian nilai 20, nilai ini mencurigakan karena jumlah anak yang tinggi tidak biasa. Untuk memperbaiki data ini dapat dilakukan dengan mengganti nilai -1 dengan nilai dan nilai 20 dengan nilai 2.
    2. Nilai pada kolom education terdapat pencatatan yang berbeda, akan tetapi semua ejaan atau tulisannya sama, hanya berbeda besar kecil nya saja. Oleh karena itu, perlu diperbaiki dengan cara menyamakan semua huruf ejaannya, dalam case kali ini saya akan menyamakan semua huruf ejaan ke huruf kecil atau lower case.
    3. Jumlah data pada kolom days_employed yang bermasalah cukup tinggi seperti nilai negatif dan jumlah nilai yang terlampau tinggi atau besar, hal tersebut dapat terjadi karena beberapa kesalahan teknis seperti kesalahan input, kesalahan format, data tidak lengkap dan kesalahan sistem. Untuk memperbaikinya kita bisa membagi jumlah nilai pada kolom tersebut dengan 24, didapat dari hitungan perhari yang mana satu hari ada 24 jam.
    4. Terdapat nilai yang ambigu pada kolom dob_years yaitu nilai 0, hal ini dapat membawa masalah apakah nilai tersebut bernilai int 0 atau tidak, oleh karena itu kita dapat mengganti nilai 0 tersebut dengan median.
    5. Pada kolom gender terdapat 1 nilai yang mencurigakan atau anomali yaitu nilai XNA, oleh karena itu kita harus menghilangkan nilai XNA tersebut dengan cara drop nilai tersebut.
    
    
* E. Data Categorization

    1. Mengkategorikan tipe data text pada kolom purpose ke tipe data kategorikal. Pada kolom purpose atau tujuan pinjaman dapat diidentifikasi kelompok utama berdasarkan nilai uniknya, diantaranya yaitu beberapa nasabah ada yang mengambil pinjaman atau kredit dengan tujuan untuk membeli rumah atau properti rumah, ada yang untuk melaksanakan pernikahan atau wedding, ada yang untuk membeli mobil, dan ada yang untuk membayar biaya pendidikan.Kita mengategorikan data kita berdasarkan topik tersebut.
    2. Pengelompokan selanjutnya adalah mengelompokan tipe data numerik pada kolom "total_income", saya akan menggunakan rentang pendapatan dengan rentang nilai 10000 yang ada pada kolom tersebut. Saya menggunakan rentang pendapatan 10000 untuk mempermudah pengkategorian.
    3. Untuk pengkategorian tipe data text ke tipe data kategorikal pada kolom purpose, kita mengkategorikan data berdasarkan tujuan nasabah melakukan pinjaman, seperti untuk membeli rumah atau properti rumah, melakukan pernikahan, membeli mobil, dan membayar biaya pendidikan.
    3. Untuk pengkategorian tipe data numerikal ke tipe data kategorikal, kita mengkategorikan data berdasarkan rentang pendapatan sebesar 10000, dimulai dari pendapatan 0 - 10000, 10000 - 20000, 20000 - 30000, 30000 - 40000, dan pendapatan lebih dari 40000.

    
* F. Testing Hypothesis

    1. Apakah terdapat korelasi antara memiliki anak dengan probabilitas melakukan gagal bayar pinjaman?
        Berdasarkan data yang telah diolah, dapat disimpulkan bahwa terdapat korelasi antara memiliki anak dengan probabilitas melakukan gagal bayar pinjaman. Semakin banyak anak semakin besar kemungkinan gagal bayar, meskipun selisih persentase nya tidak terlalu besar dari value 7.5% hingga 9.7%. Data anak 5 tidak dapat digunakan karena sampelnya terlalu sedikit

    2. Apakah terdapat korelasi antara status keluarga dengan probabilitas melakukan gagal bayar pinjaman?
       Berdasarkan data yang telah diolah, kita dapat melihat bahwa kelompok "civil partnership" dan "unmarried" memiliki persentase gagal bayar yang lebih tinggi (9.35% dan 9.75% masing-masing) dibandingkan dengan kelompok lainnya. Sementara itu, kelompok "widow / widower", "divorced", dan "married" memiliki persentase gagal bayar yang lebih rendah.
