# Menganalisis Risiko Gagal Bayar: Studi Kasus Bank Syariah <a id='intro'></a>

Sebuah `Bank Syariah` yang menerapkan akad syariah `agama islam` dalam proses bisnisnya dimana hanya menyediakan layanan jual beli, bukan akad peminjaman uang dengan riba terhadap pihak pertama (`developer/penjual`), kedua(`bank`) dan ketiga(`nasabah`). Nasabah yang menginginkan sesuatu namun terkendala biaya bisa menggunakan fasilitas ini, dimana barang dibeli oleh bank kemudian dijual kembali dengan margin yang lebih tinggi kepada nasabah dengan pembayaran cicil selama jangka waktu tertentu. Tugas kita adalah menyiapkan laporan untuk divisi bisnis suatu bank. Kita akan mencari tahu pengaruh status perkawinan seorang nasabah dan jumlah anak yang dimilikinya terhadap probabilitas gagal bayar dalam pelunasan cicilan. Pihak bank sudah memiliki beberapa data mengenai kelayakan nasabah. Dataset ini bukan merupakan dataset asli dari `Bank Syariah`, hanya dijadikan sebagai tujuan pembelajaran.

Tujuan utama yang dilakukan adalah untuk mengetahui seberapa besar resiko `Gagal Bayar` yang dilakukan nasabah berdasarkan beberapa kategori diantaranya `Tingkat Pendapatan`, `Status Keluarga`, `Tujuan Cicilan` dan `Jumlah Anak` agar digunakan oleh perusahaan untuk menilai calon nasabahnya. Hipotesis yang dibuat untuk analisa `Gagal Bayar` diantaranya:
- Apakah benar bahwa peringkat tertinggi `Gagal Bayar` oleh nasabah dengan `Tingkat Pendapatan Rendah`?
- Apakah benar bahwa peringkat tertinggi `Gagal Bayar` oleh nasabah dengan status keluarga `Unmarried`?
- Apakah benar bahwa peringkat tertinggi `Gagal Bayar` oleh nasabah dengan tujuan kredit `Keperluan Estate`?
- Apakah benar bahwa peringkat tertinggi `Gagal Bayar` oleh nasabah dengan nasabah yang `Tidak Mempunyai Anak`?

# Konten <a id='back'></a>

* [Pendahuluan](#intro)
* [Tahap 1. Eksplorasi Data](#cont_1)
    * [1.1 Buka *file* data dan informasi umum data](#cont_2)
    * [1.2 Kesimpulan sementara](#cont_3)
* [Tahap 2. Transformasi Data](#cont_4)
    * [2.1 Bekerja dengan nilai yang hilang](#cont_5)
    * [2.2 Memperbaiki nilai yang hilang di **{total_income}**](#cont_6)
    * [2.3 Memperbaiki nilai di **{days_employed}**](#cont_7)
    * [2.4 Pengkategorian Data](#cont_8)
* [Tahap 3. Memeriksa Hipotesis](#cont_9)
    * [3.1 Hipotesis 1: Apakah terdapat korelasi antara memiliki anak dengan probabilitas melakukan gagal bayar?](#cont_10)
    * [3.2 Hipotesis 2: Apakah terdapat korelasi antara status keluarga dengan probabilitas melakukan gagal bayar?](#cont_11)
    * [3.3 Hipotesis 3: Apakah terdapat korelasi antara tingkat pendapatan dengan probabilitas melakukan gagal bayar?](#cont_12)
    * [3.4 Hipotesis 3: Bagaimana tujuan cicilan memengaruhi persentase gagal bayar?](#cont_13)
* [Tahap 4. Kesimpulan Umum](#cont_14)

## Buka *file* data dan informasi umum data <a id= 'cont_2' ></a>

Library yang digunakan adalah `pandas` sebagai dataframe analisis dan `numpy` sebagai generator nan values. Dataset yang digunakan berasal dari `customers_scoring_eng.csv`. Dataset ini bukan merupakan dataset asli dari bank syariah dan ini hanya sebuah latihan analisis.

In [3]:
# memuat library yang dibutuhkan
import pandas as pd
import numpy as np

In [4]:
# memuat dataset
df = pd.read_csv('customers_scoring_eng.csv')

## Eksplorasi Data <a id= 'cont_1' ></a>

**Deskripsi Data**
Dataset berisi berbagai variabel/kolom yang dirincikan sebagai berikut:
- `children` - jumlah anak dalam keluarga
- `days_employed` - pengalaman kerja nasabah dalam hari
- `dob_years` - usia nasabah dalam tahun
- `education` - tingkat pendidikan nasabah
- `education_id` - pengidentifikasi untuk tingkat pendidikan nasabah
- `family_status` - pengidentifikasi untuk status perkawinan nasabah
- `family_status_id` - tanda pengenal status perkawinan
- `gender` - jenis kelamin nasabah
- `income_type` - jenis pekerjaan
- `debt` - apakah nasabah pernah melakukan gagal bayar pinjaman
- `total_income` - pendapatan bulanan
- `purpose` - tujuan mendapatkan pinjaman


In [5]:
# menampilkan informasi dataset
df.info()

# menampilkan sampel dataset
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding


Jumlah baris dan kolom pada dataframe `credit_score` yaitu sebanyak `21525 baris` dan `12 kolom`

Dari dataframe tersebut terlihat beberapa kesalahan yang perlu diperbaiki untuk mempermudah dalam menganalisis daintaranya:
- Pada kolom `days_employed` terdapat angka negatif dan masih berupa float number 
- Pada kolom `education` tiap value berisi makna yang sama namun beda penulisan dalam bentuk huruf besar dan kecil
- Pada kolom `total_income` untuk values masih menggunakan float number yang panjang

**Memfilter Data yang Hilang**

In [6]:
# mari kita lihat tabel yang telah difilter dengan nilai yang hilang di kolom pertama yang mengandung data yang hilang
df_filter = df[df['days_employed'].isna()]

# menampilkan sampel dataset yang hilang
df_filter.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding


In [7]:
# menghitung jumlah nilai yang hilang
df.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Dari informasi diatas terlihat bahwa ada indikasi kemiripan antara `days_employed` dan `total_income` untuk nilai yang `hilang` dengan dibuktikanya pengecekan nilai `kosong` dan berjumlah sama `2174`. Selanjutnya kita akan membuktikanya.

In [8]:
# mengecek relasi nilai yang hilang antara kolom `days_employed` dan `total_income`
df_filter_simmetry = df.loc[(df['days_employed'].isna()) & (df['total_income'].isna())]

# jumlah nilai yang hilang pada kolom `days_employed` dan `total_income`
print('days_employed -->', df_filter_simmetry['days_employed'].isna().sum())
print('total_income -->', df_filter_simmetry['total_income'].isna().sum())

days_employed --> 2174
total_income --> 2174


In [9]:
# menghitung persentase nilai yang hilang
mean_missing_values = df['days_employed'].isna().sum()/len(df)
print(f'Missing Values --> {mean_missing_values:.2%}')

Missing Values --> 10.10%


Setelah pengecekan, benar bahwa jumlah nilai `hilang` pada kolom `days_employed` sama dengan jumlah nilai `hilang` pada kolom `total_income` sebesar `2174` dan persentase nilai yang hilang sebesar `10.10%`. Hal tersebut mengindikasikan bahwa nilai `hilang` tersebut bukan merupakan nilai acak dan ada indikasi kesalahan teknis. Mari kita buktikan

**Mengecek Distribusi pada DF_Filter**

In [10]:
# distribusi children
child_count = df_filter["children"].value_counts()
child_percent = df_filter["children"].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : child_count.index.map(child_percent), "count" : child_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
0,66.19%,1439
1,21.85%,475
2,9.38%,204
3,1.66%,36
20,0.41%,9
4,0.32%,7
-1,0.14%,3
5,0.05%,1


In [11]:
# distribusi education
edu_count = df_filter["education"].value_counts()
edu_percent = df_filter["education"].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : edu_count.index.map(edu_percent), "count" : edu_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
secondary education,64.77%,1408
bachelor's degree,22.82%,496
SECONDARY EDUCATION,3.08%,67
Secondary Education,2.99%,65
some college,2.53%,55
Bachelor's Degree,1.15%,25
BACHELOR'S DEGREE,1.06%,23
primary education,0.87%,19
Some College,0.32%,7
SOME COLLEGE,0.32%,7


In [12]:
# distribusi family_status_id
famid_count = df_filter["family_status_id"].value_counts()
famid_percent = df_filter["family_status_id"].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : famid_count.index.map(famid_percent), "count" : famid_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
0,56.9%,1237
1,20.33%,442
4,13.25%,288
3,5.15%,112
2,4.37%,95


In [13]:
# distribusi income_type
income_count = df_filter["income_type"].value_counts()
income_percent = df_filter["income_type"].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : income_count.index.map(income_percent), "count" : income_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
employee,50.83%,1105
business,23.37%,508
retiree,19.0%,413
civil servant,6.76%,147
entrepreneur,0.05%,1


Dari temuan diatas persentase nilai yang `hilang` sebesar `10%` dari dataset, nilai ini merupakan nilai yang cukup besar dan tidak bisa langsung dihilangkan begitu saja. kemungkinan penyebab nilai yang hilang bisa dilihat dari distribusi kolom `education` yang masih bercampur nilai huruf besar dan kecil (tidak bisa membedakan).

**Mengecek Distribusi pada DF**

In [14]:
# distribusi children
child_all_count = df["children"].value_counts()
child_all_percent = df["children"].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : child_all_count.index.map(child_all_percent), "count" : child_all_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
0,65.73%,14149
1,22.38%,4818
2,9.55%,2055
3,1.53%,330
20,0.35%,76
-1,0.22%,47
4,0.19%,41
5,0.04%,9


In [15]:
# distribusi education_id
edu_id_all_count = df["education_id"].value_counts()
edu_id_all_percent = df["education_id"].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : edu_id_all_count.index.map(edu_id_all_percent), "count" : edu_id_all_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
1,70.77%,15233
0,24.44%,5260
2,3.46%,744
3,1.31%,282
4,0.03%,6


In [16]:
# distribusi education
edu_all_count = df["education"].value_counts()
edu_all_percent = df["education"].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : edu_all_count.index.map(edu_all_percent), "count" : edu_all_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
secondary education,63.88%,13750
bachelor's degree,21.92%,4718
SECONDARY EDUCATION,3.59%,772
Secondary Education,3.3%,711
some college,3.1%,668
BACHELOR'S DEGREE,1.27%,274
Bachelor's Degree,1.25%,268
primary education,1.16%,250
Some College,0.22%,47
SOME COLLEGE,0.13%,29


In [17]:
# distribusi family_status_id
fam_id_all_count = df["family_status_id"].value_counts()
fam_id_all_percent = df["family_status_id"].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : fam_id_all_count.index.map(fam_id_all_percent), "count" : fam_id_all_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
0,57.51%,12380
1,19.41%,4177
4,13.07%,2813
3,5.55%,1195
2,4.46%,960


In [18]:
# distribusi income_type
income_all_count = df["income_type"].value_counts()
income_all_percent = df["income_type"].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : income_all_count.index.map(income_all_percent), "count" : income_all_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
employee,51.66%,11119
business,23.62%,5085
retiree,17.91%,3856
civil servant,6.78%,1459
unemployed,0.01%,2
entrepreneur,0.01%,2
student,0.0%,1
paternity / maternity leave,0.0%,1


Setelah pengecekan distribusi dari dataset `dataframe asli` dan dsitribusi dari dataset `datasets filter` menunjukan kesamaan persis polanya bahwa untuk masing-masing value `datasets filter` yaitu sebesar `10x lipat` dari datasets asli `dataframe asli`. Ada indikasi kuat bahwa nilai yang `hilang` bukan nilai acak.

**Mengecek Distribusi Kolom `family_status`**

In [19]:
# mencari pola lain
# distribusi family_status dataframe
famstat_all_count = df["family_status"].value_counts()
famstat_all_percent = df["family_status"].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : famstat_all_count.index.map(famstat_all_percent), "count" : famstat_all_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
married,57.51%,12380
civil partnership,19.41%,4177
unmarried,13.07%,2813
divorced,5.55%,1195
widow / widower,4.46%,960


In [20]:
# distribusi family_status dataframe_filter
famstat_count = df_filter["family_status"].value_counts()
famstat_percent = df_filter["family_status"].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : famstat_count.index.map(famstat_percent), "count" : famstat_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
married,56.9%,1237
civil partnership,20.33%,442
unmarried,13.25%,288
divorced,5.15%,112
widow / widower,4.37%,95


**Mengecek Distribusi Kolom `education_id`**

In [21]:
# distribusi education_id dataframe
eduid_all_count = df["education_id"].value_counts()
eduid_all_percent = df["education_id"].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : eduid_all_count.index.map(eduid_all_percent), "count" : eduid_all_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
1,70.77%,15233
0,24.44%,5260
2,3.46%,744
3,1.31%,282
4,0.03%,6


In [22]:
# distribusi education_id dataframe_filter
eduid_count = df_filter["education_id"].value_counts()
eduid_percent = df_filter["education_id"].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : eduid_count.index.map(eduid_percent), "count" : eduid_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
1,70.84%,1540
0,25.02%,544
2,3.17%,69
3,0.97%,21


**Kesimpulan sementara** <a id= 'cont_3' ></a>

Dari temuan kolom `education_id` mengindikasikan bahwa pola dari `datasets filter` tidak memiliki semua values dari `datasets asli` yang berarti tidak ada value khusus yang berkaitan dengan nilai `kosong` dan bukan merupakan kebetulan.

In [23]:
# distribusi income_type dataftame
inc_all_count = df['income_type'].value_counts()
inc_all_percent = df['income_type'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : inc_all_count.index.map(inc_all_percent), "count" : inc_all_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
employee,51.66%,11119
business,23.62%,5085
retiree,17.91%,3856
civil servant,6.78%,1459
unemployed,0.01%,2
entrepreneur,0.01%,2
student,0.0%,1
paternity / maternity leave,0.0%,1


In [24]:
# distribusi income_type dataftame_filter
inc_all_count = df_filter['income_type'].value_counts()
inc_all_percent = df_filter['income_type'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : inc_all_count.index.map(inc_all_percent), "count" : inc_all_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
employee,50.83%,1105
business,23.37%,508
retiree,19.0%,413
civil servant,6.76%,147
entrepreneur,0.05%,1


**Kesimpulan Sementara**

Dari kolom `income_type` mengindikasikan bahwa nilai `student` dan `paternity / maternity leave` masih memiliki pendapatan `total_income` dibandikan nilai lain. Hal ini dapat disimpukan bahwa nilai yang `hilang` disebabkan kesalahan teknis dan bukan nilai acak. Untuk mengatasinya diperlukan langkah sebagai berikut:
- Karena nilai yang hilang berupa `numerik` maka perlu dilakukan pencarian nilai statistik seperti `mean` dan `median`.
- Mempertimbangkan manakah nilai yang digunakan untuk mengisi nilai yang hilang seperti nilai `mean` atau `median`.
- Pengecekan duplikat 
- Menghapus duplikat
- Merubah tipe data

## Transformasi data <a id= 'cont_4' ></a>

Selanjutnya mari kita perbaiki kesalahan-kesalahan yang ada pada dataset untuk mempermudah dalam melakukan analisis berikutnya.

In [25]:
# melihat nilai unik pada kolom `education`
df['education'].value_counts()

education
secondary education    13750
bachelor's degree       4718
SECONDARY EDUCATION      772
Secondary Education      711
some college             668
BACHELOR'S DEGREE        274
Bachelor's Degree        268
primary education        250
Some College              47
SOME COLLEGE              29
PRIMARY EDUCATION         17
Primary Education         15
graduate degree            4
Graduate Degree            1
GRADUATE DEGREE            1
Name: count, dtype: int64

Nilai pada kolom `education` masih belum dihitung dengan benar karena format huruf belum seragam. Mari ubah ke huruf yang seragam

In [26]:
# mengubah semua value pada kolom `education` menjadi huruf kecil
df['education'] = df['education'].str.lower()

In [27]:
# memeriksa kolom `education` untuk memastikan bahwa semuanya telah diperbaiki
df['education'].value_counts()

education
secondary education    15233
bachelor's degree       5260
some college             744
primary education        282
graduate degree            6
Name: count, dtype: int64

Nilai pada kolom `education` sudah bisa dihitung dengan benar karena format huruf sudah seragam.

In [28]:
# memeriksa `children` untuk nilai yang mencurigakan
df['children'].value_counts()

children
 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: count, dtype: int64

Untuk jumlah anak pada kolom `children` terdapat nilai yang janggal yaitu `'-1'` hal tersebut mungkin dikarenakan kesalahan input user yang tidak sengaja memasukan tanda `'-'`. Mari ubah ke bentuk positif dengan menghilangkan tanda `'-'`.

In [29]:
# mengubah nilai `-1` menjadi `1` pada kolom children
df.loc[df['children'] == -1, 'children'] = 1

In [30]:
# memeriksa kolom `children` untuk memastikan bahwa semuanya telah diperbaiki
df['children'].unique()

array([ 1,  0,  3,  2,  4, 20,  5], dtype=int64)

Kolom `children` sudah tidak memiliki nilai negatif.

In [31]:
# menemukan data yang bermasalah di kolom `days_employed` dan menghitung persentasenya
negative_values = df.loc[df['days_employed'] < 0, 'days_employed'].count()
percent_neg = negative_values/df['days_employed'].count()
print(f'Persentase nilai negatif `days_employed` --> {percent_neg:.0%}\n')

# menampilkan sampel data
df.head()

Persentase nilai negatif `days_employed` --> 82%



Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding


Dari temuan sebelumnya terdapat angka `negatif` pada kolom `days_employed` sebanyak `82%`. Mengingat jumlah hari tidak ada yang `negatif` maka perlu mengubahnya menjadi `positif` sebagai berikut:

In [32]:
# mengubah nilai negatif menjadi nilai positif
df['days_employed'] = df['days_employed'].abs()

In [33]:
# memastikan sudah tidak ada nilai negatif
negative_values = df.loc[df['days_employed'] < 0, 'days_employed'].count()
percent_neg = negative_values/df['days_employed'].count()
print(f'Persentase nilai negatif `days_employed` --> {percent_neg:.0%}\n')

# menampilkan sampel data
df.head()

Persentase nilai negatif `days_employed` --> 0%



Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding


Sudah tidak ada nilai yang `negatif` pada kolom `days_employed`.

In [34]:
# memeriksa `dob_years` untuk nilai yang mencurigakan

# menampilkan head
print(df['dob_years'].value_counts().sort_index().head())

# menampilkan tail
print(df['dob_years'].value_counts().sort_index().tail())

dob_years
0     101
19     14
20     51
21    111
22    183
Name: count, dtype: int64
dob_years
71    58
72    33
73     8
74     6
75     1
Name: count, dtype: int64


In [35]:
# persentase nilai yang bernilai nol
zero_values = df.loc[df['dob_years'] == 0]['dob_years'].count()
percent_zero  = zero_values/df['dob_years'].count()
print(f'Persentase Nilai 0 dalam "dob_years" adalah: {percent_zero:.2%}')

Persentase Nilai 0 dalam "dob_years" adalah: 0.47%


Dari temuan diatas terdapat value yang janggal yaitu masih ada usia yang bernilai `'0'` pada kolom `dob_years`. Mengingat usia tidak ada yang bernilai `'0'`. Selanjutnya kita menggantinya dengan nilai rata-rata `dob_years`.

In [36]:
# mengganti nilai 0 pada kolom `dob_years` dengan nilai rata-ratanya
df.loc[df['dob_years'] == 0,'dob_years'] = int(df['dob_years'].mean())

In [37]:
# memastikan sudah tidak ada nilai 0 pada kolom `dob_years`
zero_values = df.loc[df['dob_years'] == 0]['dob_years'].count()
percent_zero  = zero_values/df['dob_years'].count()
print(f'Persentase Nilai 0 dalam "dob_years" adalah: {percent_zero:.2%}')

Persentase Nilai 0 dalam "dob_years" adalah: 0.00%


In [38]:
# memeriksa `family_status` untuk nilai yang mencurigakan
df['family_status'].value_counts()

family_status
married              12380
civil partnership     4177
unmarried             2813
divorced              1195
widow / widower        960
Name: count, dtype: int64

Terdapat nilai `widow / widower` pada kolom `family_status`. Mari ubah ke nilai yang lebih sederhana untuk menganalis.

In [39]:
# mengubah nilai `widow/widower` menjadi `widowed`
df.loc[df['family_status'] == 'widow / widower','family_status'] = 'widowed'

In [40]:
# memeriksa kembali kolom `family_status` yang sudah diperbaiki
df['family_status'].value_counts()

family_status
married              12380
civil partnership     4177
unmarried             2813
divorced              1195
widowed                960
Name: count, dtype: int64

nilai `widow / widower` sudah diubah kedalam `widowed`.

In [41]:
# memeriksa `gender` untuk nilai yang mencurigakan
df['gender'].value_counts()

gender
F      14236
M       7288
XNA        1
Name: count, dtype: int64

Dari kolom `gender` terdapat tiga nilai. Untuk mempermudah dalam pembacaan maka kita perjelas kembali sebagai berikut:

In [42]:
# memperbaiki kolom gender sesuai dengan makna aslinya
df.loc[df['gender'] == 'F','gender'] = 'female'
df.loc[df['gender'] == 'M','gender'] = 'male'
df.loc[df['gender'] == 'XNA','gender'] = 'unknown'

In [43]:
# memeriksa kembali kolom `gender` yang sudah diperbaiki
df['gender'].value_counts()

gender
female     14236
male        7288
unknown        1
Name: count, dtype: int64

In [44]:
# memeriksa `income_type` untuk nilai yang mencurigakan
df['income_type'].value_counts()

income_type
employee                       11119
business                        5085
retiree                         3856
civil servant                   1459
unemployed                         2
entrepreneur                       2
student                            1
paternity / maternity leave        1
Name: count, dtype: int64

Terdapat nilai `paternity / maternity leave` pada kolom `income_status`. Mari ubah ke nilai yang lebih sederhana untuk menganalis.

In [45]:
# mengubah nilai `paternity / maternity leave` menjadi `furlough`
df.loc[df['income_type'] == 'paternity / maternity leave','income_type'] = 'furlough'

In [46]:
# memeriksa kembali kolom `income_type` yang sudah diperbaiki
df['income_type'].value_counts()

income_type
employee         11119
business          5085
retiree           3856
civil servant     1459
unemployed           2
entrepreneur         2
student              1
furlough             1
Name: count, dtype: int64

nilai `paternity / maternity leave` sudah diubah kedalam `furlough`.

**Memeriksa Duplikat Data**

Selanjutnya mari kita cek apakah terdapat duplikat dalam dataset yang kita miliki.

In [47]:
# memeriksa duplikat dataset
df.duplicated().sum()

71

Terdapat sebanyak `71` duplikat pada `dataframe asli`. Duplikat tersebut harus kita hilangkan untuk mendapatkan hasil yang akurat karena akan mempengaruhi dalam perhitungan.

In [48]:
# mengatasi nilai duplikat
df.drop_duplicates(inplace=True)

In [49]:
# mengecek kembali terhadap nilai yang hilang
df.duplicated().sum()

0

# Bekerja dengan nilai yang hilang <a id= 'cont_5' ></a>

Dictionary digunakan untuk mempermudah dalam pembacaan suatu data atau nilai. Disini kita ingin memuat dictionary yang ditemukan pada dataset. Adapun dictionary yang akan kita buat yaitu `education` dan `family_status`.

In [50]:
# dictionary education
edu_dict = dict(zip(df.education_id,df.education))
edu_dict

{0: "bachelor's degree",
 1: 'secondary education',
 2: 'some college',
 3: 'primary education',
 4: 'graduate degree'}

In [51]:
# dictionary family_status
fam_dict = dict(zip(df.family_status_id,df.family_status))
fam_dict

{0: 'married',
 1: 'civil partnership',
 2: 'widowed',
 3: 'divorced',
 4: 'unmarried'}

### Memperbaiki nilai yang hilang di `total_income` <a id= 'cont_6' ></a>

Untuk memperbaiki nilai yang `hilang` pada kolom `total_income` diperlukan strategi seperti berikut:
- Mengidentifikasi manakah yang efektif untuk mengisi nilai yang hilang apakah dengan `mean` atau `median`
- Pengelompokan kategori nasabah berdasarkan usianya `dob_years` buat dalam kolom baru
- Menghitung `mean` dan `median` dari kolom `total_income` untuk kategori kelompok nasabah
- Menentukan apakah `mean` atau `median` yang dipakai
- Mengisi nilai yang `hilang`
- Mengecek apakah masih ada nilai yang `hilang`

In [52]:
# membuat fungsi untuk mengkategorikan usia
def kategori_usia(umur):
    if isinstance(umur, (int, float, complex)):
        if umur < 25:
            return 'remaja'
        elif 25 <= umur < 60:
            return 'dewasa'
        elif umur >= 60:
            return 'tua'
    else:
        return 'unknown'

In [53]:
# menguji fungsi yang sudah dibuat untuk mengkategorikan umur

# uji remaja
budi = 18
print(f'kategori : {kategori_usia(budi)}')

# uji dewasa
dudung = 34
print(f'kategori : {kategori_usia(dudung)}')

# uji tua
andi = 65
print(f'kategori : {kategori_usia(andi)}')

kategori : remaja
kategori : dewasa
kategori : tua


In [54]:
# membuat kolom baru berdasarkan kategori usia
df['kategori_usia'] = df['dob_years'].agg(kategori_usia)

In [55]:
# mengecek kolom baru yang sudah dibuat
df['kategori_usia'].value_counts()

kategori_usia
dewasa    18079
tua        2500
remaja      875
Name: count, dtype: int64

Banyak faktor yang mempengaruhi pendapatan, namun kali ini akan dibahas beberapa faktor yang mempengaruhi pendapatan `total_income` untuk menentukan manakah nilai `mean` atau `median` yang dipakai.

In [56]:
# memfilter dataset tanpa adanya nilai yang hilang
df_without_nan = df.dropna(subset=['days_employed','total_income'])
print(f'{df_without_nan.isna().sum()}\n')

# menamilkan sampel dataset yang sudah difilter
df_without_nan.head()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
kategori_usia       0
dtype: int64



Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,kategori_usia
0,1,8437.673028,42,bachelor's degree,0,married,0,female,employee,0,40620.102,purchase of the house,dewasa
1,1,4024.803754,36,secondary education,1,married,0,female,employee,0,17932.802,car purchase,dewasa
2,0,5623.42261,33,secondary education,1,married,0,male,employee,0,23341.752,purchase of the house,dewasa
3,3,4124.747207,32,secondary education,1,married,0,male,employee,0,42820.568,supplementary education,dewasa
4,0,340266.072047,53,secondary education,1,civil partnership,1,female,retiree,0,25378.572,to have a wedding,dewasa


In [57]:
# menghitung nilai rata-rata untuk pendapatan berdasarkan faktor kategori usia
mean_income = df_without_nan.groupby('kategori_usia')['total_income'].mean()
mean_income

kategori_usia
dewasa    27503.004629
remaja    22703.351103
tua       23021.639994
Name: total_income, dtype: float64

In [58]:
# menghitung nilai median untuk pendapatan berdasarkan faktor kategori usia
median_income = df_without_nan.groupby('kategori_usia')['total_income'].median()
median_income

kategori_usia
dewasa    23857.962
remaja    20572.209
tua       19761.425
Name: total_income, dtype: float64

In [59]:
# menghitung nilai rata-rata untuk pendapatan berdasarkan edukasi
mean_income_edu = df_without_nan.groupby('education')['total_income'].mean()
mean_income_edu

education
bachelor's degree      33142.802434
graduate degree        27960.024667
primary education      21144.882211
secondary education    24594.503037
some college           29045.443644
Name: total_income, dtype: float64

In [60]:
# menghitung nilai median untuk pendapatan berdasarkan edukasi
median_income_edu = df_without_nan.groupby('education')['total_income'].median()
median_income_edu

education
bachelor's degree      28054.5310
graduate degree        25161.5835
primary education      18741.9760
secondary education    21836.5830
some college           25618.4640
Name: total_income, dtype: float64

In [61]:
# menghitung nilai rata-rata untuk pendapatan berdasarkan family_status
mean_income_fam = df_without_nan.groupby('family_status')['total_income'].mean()
mean_income_fam

family_status
civil partnership    26694.428597
divorced             27189.354550
married              27041.784689
unmarried            26934.069805
widowed              22984.208556
Name: total_income, dtype: float64

In [62]:
# menghitung nilai median untuk pendapatan berdasarkan family_status
median_income_fam = df_without_nan.groupby('family_status')['total_income'].median()
median_income_fam

family_status
civil partnership    23186.534
divorced             23515.096
married              23389.540
unmarried            23149.028
widowed              20514.190
Name: total_income, dtype: float64

Dari beberapa pengujian yang telah dilakukan dapat disimpulkan bahwa nilai `mean` dan `median` dari `total_income` berdasarkan beberapa faktor yang diujikan memiliki nilai yang tidak jauh berbeda. Hal tersebut menunjukan bahwa nilai hampir seragam. Sehingga `mean` akan diterapkan untuk mengisi nilai yang hilang.

In [63]:
#  membuat fungsi untuk mengisi nilai yang hilang
def fill_na_category(data,col,value):
    data[col] = data[col].fillna(value)
    return data[col]

In [64]:
# menghitung nilai rata-rata pada kolom `total_income`
mean_all = df_without_nan['total_income'].mean()
mean_all

26787.568354658673

In [65]:
# menerapkan fungsi tersebut ke setiap baris
fill_na_category(df,'total_income',mean_all)

0        40620.102
1        17932.802
2        23341.752
3        42820.568
4        25378.572
           ...    
21520    35966.698
21521    24959.969
21522    14347.610
21523    39054.888
21524    13127.587
Name: total_income, Length: 21454, dtype: float64

In [66]:
# memeriksa apakah nilai yang hilang masih ada pada kolom `total_income`
df['total_income'].isna().sum()

0

Setelah memperbaiki nilai yang `hilang` pada kolom `total_income`, maka jumlah nilai pada kolom `total_income` sudah sama dengan jumlah kolom-kolom lainya kecuali pada kolom `days_employed` yang akan diperbaiki setelahnya.

###  Memperbaiki nilai di `days_employed` <a id= 'cont_7' ></a>

In [67]:
# menghitung median dari `days_employed` 
median_days = df_without_nan.groupby('kategori_usia')['days_employed'].median()
median_days

kategori_usia
dewasa      1978.781961
remaja       744.542130
tua       355229.618218
Name: days_employed, dtype: float64

In [68]:
# menghitung rata-rata dari `days_employed`
mean_days = df_without_nan.groupby('kategori_usia')['days_employed'].mean()
mean_days

kategori_usia
dewasa     39695.452041
remaja      1282.650421
tua       286544.143436
Name: days_employed, dtype: float64

Dari hasil perhitungan untuk mengkomparasi nilai `mean` dan `median` berdasarkan kategori usia nasabah, terlihat bahwa nilai yang ada pada kolom `days_employed` tidak seragam disetiap kategorinya. Hal tersebut membuktikan bahwa nilai tidak terkonsentrasi ke satu pusat sehingga nilai `mean` tidak bisa digunakan untuk mengisi nilai yang hilang. Nilai `median` yang bisa mengisi nilai yang hilang tersebut.

In [69]:
# membuat fungsi untuk mendapatkan nilai median
def median_days(data,col):
    calc_median = data[col].median(skipna=True)
    return calc_median

In [70]:
# mencoba fungsi apakah bekerja?
row = [45,np.nan,66,np.nan,77,88]
col = ['coba']
try_df = pd.DataFrame(data=row,columns=col)
median_days(try_df,'coba')

71.5

In [71]:
# menerapkan fungsi ke days_employed untuk mendapatkan nilai median
calc_median_days = median_days(df,'days_employed')

In [72]:
# mengganti nilai yang hilang pada kolom `days_employed` menggunakan nilai medianya
fill_na_category(df,'days_employed',calc_median_days)

0          8437.673028
1          4024.803754
2          5623.422610
3          4124.747207
4        340266.072047
             ...      
21520      4529.316663
21521    343937.404131
21522      2113.346888
21523      3112.481705
21524      1984.507589
Name: days_employed, Length: 21454, dtype: float64

In [73]:
# memeriksa apakah nilai yang hilang masih ada pada kolom `days_employed`
df['days_employed'].isna().sum()

0

Untuk mempermudah pembacaan kita akan mengubah tipe data pada kolom `days_employed` dan `total_income` mejadi tipe `integer` sebagai berikut:

In [74]:
# mengubah tipe data kategori dari float menjadi integer
df['days_employed'] = df['days_employed'].astype('int')
df['total_income'] = df['total_income'].astype('int')

In [75]:
# memeriksa keseluruhan dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 21454 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21454 non-null  int64 
 1   days_employed     21454 non-null  int32 
 2   dob_years         21454 non-null  int64 
 3   education         21454 non-null  object
 4   education_id      21454 non-null  int64 
 5   family_status     21454 non-null  object
 6   family_status_id  21454 non-null  int64 
 7   gender            21454 non-null  object
 8   income_type       21454 non-null  object
 9   debt              21454 non-null  int64 
 10  total_income      21454 non-null  int32 
 11  purpose           21454 non-null  object
 12  kategori_usia     21454 non-null  object
dtypes: int32(2), int64(5), object(6)
memory usage: 2.1+ MB


Setelah memperbaiki nilai yang `hilang` pada kolom `days_employed`, maka jumlah nilai pada kolom `days_employed` sudah sama dengan jumlah kolom-kolom lainya.

## Pengkategorian Data <a id= 'cont_8' ></a>

Selanjutnya mari kita membuat beberapa kolom tambahan berupa pengkategorian data menggunakan `Data Kategorik` dan `Data Numerik` seperti berikut:

**Data Kategorik**

In [76]:
# memilih kolom yang akan dibuatkan kategorinya
df_categories = df[['children','debt','purpose']]

# menampilkan sampel data
df_categories.head()

Unnamed: 0,children,debt,purpose
0,1,0,purchase of the house
1,1,0,car purchase
2,0,0,purchase of the house
3,3,0,supplementary education
4,0,0,to have a wedding


In [77]:
# mengecek nilai unik `children`
df['children'].unique()

array([ 1,  0,  3,  2,  4, 20,  5], dtype=int64)

In [78]:
# mengecek nilai unik `debt`
df['debt'].unique()

array([0, 1], dtype=int64)

In [79]:
# mengecek nilai unik `purpose`
df['purpose'].unique()

array(['purchase of the house', 'car purchase', 'supplementary education',
       'to have a wedding', 'housing transactions', 'education',
       'having a wedding', 'purchase of the house for my family',
       'buy real estate', 'buy commercial real estate',
       'buy residential real estate', 'construction of own property',
       'property', 'building a property', 'buying a second-hand car',
       'buying my own car', 'transactions with commercial real estate',
       'building a real estate', 'housing',
       'transactions with my real estate', 'cars', 'to become educated',
       'second-hand car purchase', 'getting an education', 'car',
       'wedding ceremony', 'to get a supplementary education',
       'purchase of my own house', 'real estate transactions',
       'getting higher education', 'to own a car', 'purchase of a car',
       'profile education', 'university education',
       'buying property for renting out', 'to buy a car',
       'housing renovation', 'going

Terdapat beberapa kolom yang akan kita kategorikan kembali untuk mempermudah pembacaan dan kita buat kolom baru berdasarkan pengkategorian tersebut. kolom `children` dan `debt` kita kategorikan bedasarkan dictionarynya, sedangkan kolom `purpose` kita kategorikan berdasarkan keumuman.

In [80]:
# membuat fungsi untuk mengategorikan data berdasarkan topik umum

# Untuk kategori children_status
def children(children):
    if children == 0:
        return 'tidak mempunyai anak' 
    else:
        return 'mempunyai anak'

# Untuk kategori debt_status
def debt_status(debt):
    if debt == 0:
        return 'tepat waktu'
    else:
        return 'gagal bayar'

# Untuk kategori purpose_status
def purpose_status(purpose):
    if 'cars' in purpose:
        return 'keperluan mobil'
    elif 'car' in purpose:
        return 'keperluan mobil'
    elif 'education' in purpose:
        return 'keperluan edukasi'
    elif 'university' in purpose:
        return 'keperluan edukasi'
    elif 'educated' in purpose:
        return 'keperluan edukasi'
    elif 'wedding' in purpose:
        return 'keperluan pernikahan'
    elif 'house' in purpose:
        return 'keperluan properti'
    elif 'housing' in purpose:
        return 'keperluan properti'
    elif 'estate' in purpose:
        return 'keperluan properti'
    elif 'property' in purpose:
        return 'keperluan properti'

In [81]:
# menerapkan masing-masing fungsi untuk membuat kolom baru
df['children_status'] = df['children'].agg(children)
df['debt_status'] = df['debt'].agg(debt_status)
df['purpose_status'] = df['purpose'].agg(purpose_status)

In [82]:
# menampilkan hasil kolom `children_status`
df['children_status'].value_counts()

children_status
tidak mempunyai anak    14091
mempunyai anak           7363
Name: count, dtype: int64

In [83]:
# menampilkan hasil kolom `debt_status`
df['debt_status'].value_counts()

debt_status
tepat waktu    19713
gagal bayar     1741
Name: count, dtype: int64

In [84]:
# menampilkan hasil kolom `purpose_status`
df['purpose_status'].value_counts()

purpose_status
keperluan properti      10811
keperluan mobil          4306
keperluan edukasi        4013
keperluan pernikahan     2324
Name: count, dtype: int64

**Data Numerik**

In [85]:
# memilih kolom `total_income` sebagai data numerik
df_numeric = df[['total_income']]

# menampilkan sampel data
df_numeric.head()

Unnamed: 0,total_income
0,40620
1,17932
2,23341
3,42820
4,25378


In [86]:
# mendapatkan nilai rata-rata dan median pada kolom `total_income`

dict_income = {'total_income':['mean','median']}
stat_income_new = df.agg(dict_income)

mean_income_new = int(stat_income_new['total_income']['mean'])
median_income_new = int(stat_income_new['total_income']['median'])

print(f"Nilai mean income : {mean_income_new}")
print(f"Nilai median income : {median_income_new}")

Nilai mean income : 26787
Nilai median income : 24966


Untuk kategori numerik kita akan kelompokan `total_income` bedasarkan nilai `mean` dari `total_income` tersebut. nilai `mean` dipilih karena data atau nilai `total_income` terkonsentrasi mengarah pusat yang sama yaitu `mean`.

In [87]:
# fungsi untuk melakukan pengkategorian kelompok numerik menjadi kategorik
def income_status(income):
    if income < mean_income_new:
        return 'pendapatan dibawah rata-rata'
    else:
        return 'pendapatan diatas rata-rata'

In [88]:
# membuat kolom baru kategorik dari kolom `total_income`
df['income_status'] = df['total_income'].agg(income_status)

In [89]:
# menampilkan hasil kolom `total_income`
df['income_status'].value_counts()

income_status
pendapatan dibawah rata-rata    11892
pendapatan diatas rata-rata      9562
Name: count, dtype: int64

In [90]:
# menampilkan hasil akhir pengkategorian data
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,kategori_usia,children_status,debt_status,purpose_status,income_status
0,1,8437,42,bachelor's degree,0,married,0,female,employee,0,40620,purchase of the house,dewasa,mempunyai anak,tepat waktu,keperluan properti,pendapatan diatas rata-rata
1,1,4024,36,secondary education,1,married,0,female,employee,0,17932,car purchase,dewasa,mempunyai anak,tepat waktu,keperluan mobil,pendapatan dibawah rata-rata
2,0,5623,33,secondary education,1,married,0,male,employee,0,23341,purchase of the house,dewasa,tidak mempunyai anak,tepat waktu,keperluan properti,pendapatan dibawah rata-rata
3,3,4124,32,secondary education,1,married,0,male,employee,0,42820,supplementary education,dewasa,mempunyai anak,tepat waktu,keperluan edukasi,pendapatan diatas rata-rata
4,0,340266,53,secondary education,1,civil partnership,1,female,retiree,0,25378,to have a wedding,dewasa,tidak mempunyai anak,tepat waktu,keperluan pernikahan,pendapatan dibawah rata-rata


## Memeriksa hipotesis <a id= 'cont_9' ></a>


Terakhir mari kita uji beberapa hipotesis yang sudah dibuat sebelumnya menggunakan data yang sudah kita persiapkan sebelumnya.

**Hipotesis 1: Apakah terdapat korelasi antara memiliki anak dengan probabilitas melakukan gagal bayar?** <a id= 'cont_10' ></a>

In [91]:
# memeriksa data anak dan data gagal bayar
debt_status_children = pd.DataFrame(df.groupby('children_status')['debt_status'].value_counts())
debt_status_children.reset_index(inplace=True)
debt_status_children

Unnamed: 0,children_status,debt_status,count
0,mempunyai anak,tepat waktu,6685
1,mempunyai anak,gagal bayar,678
2,tidak mempunyai anak,tepat waktu,13028
3,tidak mempunyai anak,gagal bayar,1063


In [92]:
# menghitung persentase gagal bayar berdasarkan jumlah anak
group_count = debt_status_children.groupby('children_status')['count'].sum()
percent_chld = debt_status_children[debt_status_children['debt_status']=='gagal bayar'].groupby('children_status')['count'].sum()
percent_chld = round(percent_chld/group_count*100,2)
percent_chld.map('{:.2f} %'.format)

children_status
mempunyai anak          9.21 %
tidak mempunyai anak    7.54 %
Name: count, dtype: object

Dapat kita simpulkan bahwa persentase `Gagal Bayar` untuk nasabah yang `Memiliki Anak` lebih tinggi dibandingkan dengan nasabah yang `Tidak Memiliki Anak` dengan masing-masing nilai `9.21 %` dan `7.54 %`.

**Hipotesis 2: Apakah terdapat korelasi antara status keluarga dengan probabilitas melakukan gagal bayar?** <a id= 'cont_11' ></a>

In [93]:
# memeriksa data status keluarga dan data gagal bayar
debt_status_family = pd.DataFrame(df.groupby('family_status')['debt_status'].value_counts())
debt_status_family.reset_index(inplace=True)
debt_status_family

Unnamed: 0,family_status,debt_status,count
0,civil partnership,tepat waktu,3763
1,civil partnership,gagal bayar,388
2,divorced,tepat waktu,1110
3,divorced,gagal bayar,85
4,married,tepat waktu,11408
5,married,gagal bayar,931
6,unmarried,tepat waktu,2536
7,unmarried,gagal bayar,274
8,widowed,tepat waktu,896
9,widowed,gagal bayar,63


In [94]:
# menghitung persentase gagal bayar berdasarkan status keluarga
group_count = debt_status_family.groupby('family_status')['count'].sum()
percent_fml = debt_status_family[debt_status_family['debt_status']=='gagal bayar'].groupby('family_status')['count'].sum()
percent_fml = round(percent_fml/group_count*100,2)
percent_fml.map('{:.2f} %'.format)

family_status
civil partnership    9.35 %
divorced             7.11 %
married              7.55 %
unmarried            9.75 %
widowed              6.57 %
Name: count, dtype: object

Dapat kita simpulkan bahwa persentase `Gagal Bayar` untuk nasabah berdasarkan `Status Keluarga` yang paling tinggi hingga rendah yaitu status `unmarried` sebesar `9.75 %`, status `civil parnership` - `9.35 %`, `married` - `7.55 %` status `divorced` - `7.11 %` dan status `widowed` - `6.57 %`.

**Hipotesis 3: Apakah terdapat korelasi antara tingkat pendapatan dengan probabilitas melakukan gagal bayar?** <a id= 'cont_12' ></a>

In [95]:
# menghitung data tingkat pendapatan dan data gagal bayar
debt_status_income = pd.DataFrame(df.groupby('income_status')['debt_status'].value_counts())
debt_status_income.reset_index(inplace=True)
debt_status_income

Unnamed: 0,income_status,debt_status,count
0,pendapatan diatas rata-rata,tepat waktu,8824
1,pendapatan diatas rata-rata,gagal bayar,738
2,pendapatan dibawah rata-rata,tepat waktu,10889
3,pendapatan dibawah rata-rata,gagal bayar,1003


In [96]:
# menghitung persentase gagal bayar berdasarkan tingkat pendapatan
group_count = debt_status_income.groupby('income_status')['count'].sum()
percent_inc = debt_status_income[debt_status_income['debt_status']=='gagal bayar'].groupby('income_status')['count'].sum()
percent_inc = round(percent_inc/group_count*100,2)
percent_inc.map('{:.2f} %'.format)

income_status
pendapatan diatas rata-rata     7.72 %
pendapatan dibawah rata-rata    8.43 %
Name: count, dtype: object

Dapat kita simpulkan bahwa persentase `Gagal Bayar` untuk nasabah yang memiliki `Pendapatan Dibawah Rata-Rata` lebih tinggi dibandingkan dengan nasabah yang memiliki `Pendapatan Diatas Rata-Rata` dengan masing-masing nilai `8.43 %` dan `7.72 %`.

**Hipotesis 3: Bagaimana tujuan cicilan memengaruhi persentase gagal bayar?** <a id= 'cont_13' ></a>

In [97]:
# menghitung data tujuan kredit dan data gagal bayar
debt_status_purpose = pd.DataFrame(df.groupby('purpose_status')['debt_status'].value_counts())
debt_status_purpose.reset_index(inplace=True)
debt_status_purpose

Unnamed: 0,purpose_status,debt_status,count
0,keperluan edukasi,tepat waktu,3643
1,keperluan edukasi,gagal bayar,370
2,keperluan mobil,tepat waktu,3903
3,keperluan mobil,gagal bayar,403
4,keperluan pernikahan,tepat waktu,2138
5,keperluan pernikahan,gagal bayar,186
6,keperluan properti,tepat waktu,10029
7,keperluan properti,gagal bayar,782


In [98]:
# menghitung persentase tingkat gagal bayar untuk setiap tujuan cicilan dan lakukan penganalisisan
group_count = debt_status_purpose.groupby('purpose_status')['count'].sum()
percent_prps = debt_status_purpose[debt_status_purpose['debt_status']=='gagal bayar'].groupby('purpose_status')['count'].sum()
percent_prps = round(percent_prps/group_count*100,2)
percent_prps.map('{:.2f} %'.format)

purpose_status
keperluan edukasi       9.22 %
keperluan mobil         9.36 %
keperluan pernikahan    8.00 %
keperluan properti      7.23 %
Name: count, dtype: object

Dapat kita simpulkan bahwa persentase `Gagal Bayar` untuk nasabah berdasarkan `Tujuan Cicilan` yang paling tinggi hingga rendah yaitu tujuan cicilan `keperluan mobil` - `9.36 %`, `keperluan edukasi` - `9.22 %`, `keperluan pernikahan` - `8.00 %` dan `keperluan properti` - `7.23%`.

# Kesimpulan umum <a id= 'cont_14' ></a>

`Gagal Bayar` merupakan fenomena dimana nasabah tidak mampu membayar secara tepat waktu, sehingga diperlukan analisis untuk mengetahui dikategori seperti apa yang menyebabkan `Gagal Bayar` terjadi. Analisis membutuhkan data yang relevan terkait fenomena `Gagal Bayar` tersebut dimulai dari proses identikasi jumlah baris dan kolom pada dataframe. Memperbaiki nilai pada kategori apakah sudah benar atau perlu diperbaiki. Kemudian dilakukan pencarian nilai yang hilang pada dataframe tersebut, pencarian penyebab kenapa bisa terjadi nilai yang hilang. Apakah nilai yang hilang tersebut merupakan kejadian acak atau berpola. Memeriksa pola yang berkaitan dengan nilai yang hilang, jika memang nilai yang hilang bukan secara acak maka pencarian nilai lain berdasarkan statistiknya seperti `mean` dan `median` dari masing-masing kolom `total_income` dan `days_employed`. Kemudian setelah diperoleh nilai pengganti, masukan nilai tersebut kepada nilai yang hilang.

Setelah proses memperbaiki dilakukan maka dilakukan proses analisis untuk menguji hipotesis yang telah dibuat. Tahap pertama yang dilakukan yaitu pengkategorian data. Pencarian nilai unik dan membuat kategori yang baru dapat mempermudah dalam pengerjaan analisis, disni dibuatlah kolom baru yaitu `debt_status`, `children_status` dan `purpose_status` untuk memudahkan pengelompokan data. Selanjutnya adalah membuat dictionary berdasarkan data yang memiliki ID dan deskripsi ID tersebut. Disini dictionary yang dibuat adalah dictionary `education` dan dictionary `family_status`.

Tahap final yaitu menguji hipotesis diantaranya sebagai berikut:
- Hubungan antara `Gagal Bayar` terhadap `Jumlah Anak` diperoleh bahwa nasabah yang `Memiliki Anak` memiliki nilai yang lebih tinggi dibandingkan dengan nasabah yang `Tidak Memiliki Anak` yaitu sebesar `9.21 %`.
- Hubungan antara `Gagal Bayar` terhadap `Status Keluarga` diperoleh bahwa nasabah tertinggi adalah `unmarried` sebesar `9.75 %`.
- Hubungan antara `Gagal Bayar` terhadap `Tingkat Pendapatan` diperoleh bahwa nasabah tertinggi adalah nasabah dengan `Tingkat Pendapatan Dibawah Rata-Rata` yaitu sebesar `8.43 %`.
- Hubungan antara `Gagal Bayar` terhadap `Tujuan Cicilan` diperoleh bahwa nasabah tertinggi adalah untuk tujuan `Keperluan Mobil` yaitu sebesar `9.36 %`.