# Analisis Penilaian Kredit

Proyek ini akan mencari tahu pengaruh status perkawinan seorang nasabah dan jumlah anak yang dimilikinya terhadap probabilitas gagal bayar dalam pelunasan pinjaman. Pihak bank sudah memiliki beberapa data mengenai kelayakan kredit nasabah.

Laporan ini akan dipertimbangkan pada saat membuat penilaian kredit untuk calon nasabah. Penilaian kredit digunakan untuk mengevaluasi kemampuan calon peminjam untuk melunasi pinjaman mereka.

<b>Hipotesis:</b>
    
   1. Terdapat korelasi antara memiliki anak dengan melakukan pelunasan  tepat waktu
   2. Terdapat korelasi antara status keluarga dengan pelunasan tepat waktu
   3. Terdapat korelasi antara tingkat pendapatan dengan membayar kembali tepat waktu
   4. Tujuan kredit memengaruhi tingkat gagal bayar

<b>Tahapan:</b>

1. [Ikhtisar Data](#Mulai)
    - [Kemungkinan penyebab hilangnya nilai dalam data](#penyebab)
2. [Pra-pemprosesan Data](#pra-pemrosesan)
    - [Memeriksa tiap kolom](#kolom)
    - [Nilai duplikat](#duplikat)
    - [Nilai-nilai yang hilang](#missing)
3. [Pengkategorian Data](#kategori)
    - [Tipe kolom kategorik](#kategorik)
    - [Tipe kolom numerik](#numerik)
4. [Menguji Hipotesis](#Test)
    - [Hipotesis 1: korelasi antara memiliki anak dengan melakukan pelunasan tepat waktu](#1)
    - [Hipotesis 2: korelasi antara status keluarga dengan pelunasan tepat waktu](#2)
    - [Hipotesis 3: korelasi antara tingkat pendapatan dengan membayar kembali tepat waktu](#3)
    - [Hipotesis 4: bagaimana tujuan kredit memengaruhi tingkat gagal bayar](#4)
5. [Kesimpulan Umum](#Kesimpulan)

## Ikhtisar Data <a id="Mulai"></a>

In [2]:
# Memuat library
import pandas as pd

In [3]:
# Dataset
df = pd.read_csv('Y:\\Online Course\\Practicum\\Jupyter Notebook\\2 Project\\credit_scoring_eng.csv')

In [4]:
# Informasi umum dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [5]:
# Ukuran dataset
df.shape

(21525, 12)

In [6]:
# Sampel data
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


Dokumentasi:
- `children` - jumlah anak dalam keluarga
- `days_employed` - pengalaman kerja nasabah dalam hari
- `dob_years` - usia nasabah dalam tahun
- `education` - tingkat pendidikan nasabah
- `education_id` - pengidentifikasi untuk tingkat pendidikan nasabah
- `family_status` - pengidentifikasi untuk status perkawinan nasabah
- `family_status_id` - tanda pengenal status perkawinan
- `gender` - jenis kelamin nasabah
- `income_type` - jenis pekerjaan
- `debt` - apakah nasabah memiliki hutang pembayaran pinjaman
- `total_income` - pendapatan bulanan
- `purpose` - tujuan mendapatkan pinjaman
- `age_group` - kategori usia
- `purpose_group` - kategori tujuan pinjaman
- `total_income_group` - kategori pendapatan

In [7]:
# Filter nilai yang hilang pada kolom `days_employed`
df.loc[df['days_employed'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


In [8]:
# Filter nilai yang hilang pada kolom `days_employed` dan `total_income`
df_null = df.loc[(df['days_employed'].isna()) & (df['total_income'].isna())]

In [9]:
# Melihat jumlah baris dalam tabel yang telah difilter
df_null.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [10]:
# Melihat jumlah baris dalam keseluruhan dataset
df.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Seperti yang terlihat, jumlah nilai yang hilang di semua baris sama dengan nilai yang hilang pada kolom yang sudah difilter, ini menunjukkan bahwa nilai yang hilang tampak simetris.
    
Bisa juga dilakukan analisa yang lebih dalam, untuk melihat nilai yang hilang simetris atau tidak dengan melihat nilai *mean, median, dan modus* seperti berikut:

In [11]:
# Melihat deskripsi dari dataset untuk mengetahui dataset memiliki distribusi simetris atau tidak
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,26787.568355
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,16475.450632
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,3306.762
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,16488.5045
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,23202.87
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,32549.611
max,20.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


In [12]:
# Melihat nilai mean, median, mode dari lewat sebuah kolom
# untuk menentukan nilai yang hilang simetris atau tidak
CentralTendacy = {}
CentralTendacy['Mean'] = df['children'].mean()
CentralTendacy['Median'] = df['children'].median()
CentralTendacy['Mode'] = df['children'].mode()[0]

CentralTendacy

{'Mean': 0.5389082462253194, 'Median': 0.0, 'Mode': 0}

Distribusi data akan dianggap simetris jika memiliki nilai *mean, median,* dan *modus* yang hampir sama.

Seperti deskripsi dari dataset dan juga pada kolom children, nilai *mean,  median, modus* tidak terlalu jauh, jadi dapat disimpulkan dataset memiliki distribusi data yang simetris yang berarti tidak ada *outlier*.

In [13]:
# Persentase nilai yang hilang dibandingkan dengan keseluruhan dataset
(len(df_null)/len(df)) * 100

10.099883855981417

Persentase sekitar 10% lebih, menunjukkan bahwa nilai yang hilang cukup besar. Jadi nilai ini perlu di tangani lebih lanjut dengan mengisi nilai tersebut.

### Kemungkinan penyebab hilangnya nilai dalam data <a id="penyebab"></a>

In [14]:
# Memeriksa dataset dengan nasabah yang tidak memiliki data tentang karakteristik yang teridentifikasi 
# dan kolom dengan nilai yang hilang
df_null['income_type'].value_counts()

employee         1105
business          508
retiree           413
civil servant     147
entrepreneur        1
Name: income_type, dtype: int64

In [15]:
# Membandingkan dengan dataset
df['income_type'].value_counts()

employee                       11119
business                        5085
retiree                         3856
civil servant                   1459
unemployed                         2
entrepreneur                       2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64

Jika dilihat dari karakteristik jenis pendapatan nasabah, pada kolom `'income_type'` yang difilter menunjukkan 5 jenis nilai.

In [16]:
# karakteristik lainnya seperti tingkat pendidikan nasabah
df_null['education'].value_counts()

secondary education    1408
bachelor's degree       496
SECONDARY EDUCATION      67
Secondary Education      65
some college             55
Bachelor's Degree        25
BACHELOR'S DEGREE        23
primary education        19
Some College              7
SOME COLLEGE              7
Primary Education         1
PRIMARY EDUCATION         1
Name: education, dtype: int64

In [17]:
# dibandingkan dengan dataset
df['education'].value_counts()

secondary education    13750
bachelor's degree       4718
SECONDARY EDUCATION      772
Secondary Education      711
some college             668
BACHELOR'S DEGREE        274
Bachelor's Degree        268
primary education        250
Some College              47
SOME COLLEGE              29
PRIMARY EDUCATION         17
Primary Education         15
graduate degree            4
Graduate Degree            1
GRADUATE DEGREE            1
Name: education, dtype: int64

In [18]:
# karakteristik lainnya seperti jenis kelamin nasabah
df_null['gender'].value_counts()

F    1484
M     690
Name: gender, dtype: int64

In [19]:
# dibandingkan dengan dataset
df['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

**Kesimpulan sementara**

*Findings*:
1. Terdapat kejanggalan pada kolom `days_employed` yang kemungkinan bernilai positif, 
2. Kolom `education`, dan `purpose` terdapat nilai yang memiliki makna sama namun ditulis dengan beberapa cara,
3. Nilai yang hilang:
    - Kemungkinan tidak ada *outlier* pada kolom yang terdapat nilai yang hilang,
    - Terlihat jumlah baris dalam tabel yang telah difilter sesuai dengan jumlah nilai yang hilang, ini artinya ketika kolom `'days_employed'` memiliki nilai `NaN` di kolom `'total income'` juga ada nilai `NaN` yang menunjukkan bahwa nilai yang hilang tampak simetris,
    - Terdapat perbedaaan jika dilihat dari jenis nilai, pada kolom `'income_type'` yang difilter menunjukkan 5 jenis nilai, sedangkan *dataset* memiliki 8 jenis nilai. Namun belum bisa disimpulkan bahwa nilai ini acak atau terdapat pola,
    - Terdapat perbedaaan jenis nilai juga pada karakteristik tingkat pendidikan nasabah, pada kolom `'education'` yang difilter terdapat 12 jenis nilai, sedangkan pada *dataset* memiliki 15 jenis nilai
    - Terdapat perbedaaan jenis nilai juga pada karakteristik jenis kelamin nasabah, pada kolom `'gender'` yang difilter terdapat 2 jenis nilai, sedangkan pada *dataset* memiliki 3 jenis nilai.

## Pra-pemrosesan Data <a id="pra-pemrosesan"></a>

In [20]:
# Checkpoint variabel
df_edit = df

### Memeriksa tiap kolom <a id="kolom"></a>

#### Kolom `'education'`.

In [21]:
# Nilai unik kolom pendidikan
df_edit['education'].unique()

array(["bachelor's degree", 'secondary education', 'Secondary Education',
       'SECONDARY EDUCATION', "BACHELOR'S DEGREE", 'some college',
       'primary education', "Bachelor's Degree", 'SOME COLLEGE',
       'Some College', 'PRIMARY EDUCATION', 'Primary Education',
       'Graduate Degree', 'GRADUATE DEGREE', 'graduate degree'],
      dtype=object)

In [22]:
# Memperbaiki nilai
df_edit['education'] = df_edit['education'].str.lower()

In [23]:
# Memeriksa hasilnya
df_edit['education'].unique()

array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

Ada beberapa jenis nilai yang memiliki makna yang sama namun ditulis berbeda, jadi bisa diperbaiki agar bisa membuat jenis nilai tersebut memiliki makna yang berbeda satu sama lainnya.

#### Kolom `children`.

In [24]:
# Distribusi nilai pada kolom `children`
df_edit['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Terdapat 47 baris di kolom `'children'` yang memiliki nilai -1 dan 76 baris yang memiliki nilai 20, normalnya tidak ada orang yang memiliki 20 anak atau bahkan -1 anak.

Ada dua opsi untuk memperbaiki nilai ini, dihapus, atau diperbaiki nilainya. Bisa diputuskan setelah melihat persentasenya terhadap keseluruhan dataset.

In [25]:
# Persentase nilai dibandingkan dengan keseluruhan dataset
print(len(df_edit.loc[df_edit['children']==20])/len(df)*100)
print(len(df_edit.loc[df_edit['children']==-1])/len(df)*100)

0.3530778164924506
0.2183507549361208


Seperti yang dilihat sangat persentasenya sangat sedikit, jadi nilainya bisa dihapus/diperbaiki. Karena nilainya masih masih memungkinkan untuk bisa diperbaiki, maka lebih baik dilakukan perbaikan daripada melakukan penghapusan.

In [26]:
# Memperbaiki dataset
df_edit.loc[df_edit['children']==20, 'children'] = 2
df_edit.loc[df_edit['children']==-1, 'children'] = 1

In [27]:
# Memeriksa hasilnya
df_edit['children'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

Kolom `'children'` sudah diberbaiki dengan mengganti nilai 20 menjadi 2 dan -1 menjadi 1.

#### Kolom `days_employed`.

In [100]:
# Mencari data yang bermasalah di `days_employed`
df_edit['days_employed'].value_counts(normalize=True)

6.379736     0.049878
5.788341     0.023370
36.431115    0.017937
36.000000    0.011896
37.000000    0.011381
               ...   
1.838577     0.000047
5.534585     0.000047
3.533909     0.000047
1.219963     0.000047
5.437007     0.000047
Name: days_employed, Length: 15883, dtype: float64

Terdapat masalah di kolom `'days_employed'` yang menunjukkan nilai negatif, dimana normalnya lama seseorang bekerja akan dicatat dalam nilai positif.

In [29]:
# Mengkonversikan nilai pada kolom 'days_employed' menjadi per tahun
df_edit['days_employed'] = df_edit['days_employed'] / 365
df_edit['days_employed'].describe()

count    19351.000000
mean       172.730131
std        385.828252
min        -50.380685
25%         -7.527188
50%         -3.296903
75%         -0.797523
max       1100.699727
Name: days_employed, dtype: float64

Seperti yang terlihat terdapat nilai yang menunjukkan seseorang nasabah yang bekerja hingga 1100 tahun lebih, normalnya ini tidak terjadi. Di 45 negara bagian menunjukkan bahwa rata-rata seseorang yang pensiun dari pekerjaan mereka pada umur 62 dan 65, dan untuk usia pensiun tersebut mereka memiliki masa kerja sekitar 42 tahun. Tidak mendekati 48 atau 52 tahun.

In [30]:
# Menghitung persentase nilai negatif
print(len(df_edit.loc[df['days_employed']<0])/len(df) *100)

# dan lama bekerja yang tidak normal
print(len(df_edit.loc[df_edit['days_employed']>42])/len(df) *100)

73.89547038327527
16.004645760743323


Mengingat persentase data yang bermasalah sangat banyak jadi baris yang bermasalah ini tidak bisa dihapus, harus diperbaiki, dan menyarankan untuk mengecek ulang pada saat proses pengambilan data.

In [31]:
# Memperbaiki dataset
# misal seseorang mulai bekerja pada usia 23
value_replace = df_edit.loc[df_edit['days_employed']>42, 'dob_years'] - 23
df_edit.loc[df_edit['days_employed']>42, 'days_employed'] = value_replace

In [32]:
# Memeriksa hasilnya
df_edit.loc[df_edit['days_employed']>42, 'days_employed']

25       44.0
35       45.0
128      44.0
150      48.0
168      44.0
         ... 
21405    43.0
21419    44.0
21450    44.0
21504    45.0
21521    44.0
Name: days_employed, Length: 565, dtype: float64

In [33]:
# Memperbaiki nilai yang bermasalah, untuk nilai negatif
df_edit['days_employed'] = abs(df_edit['days_employed'])

In [34]:
# Memeriksa hasilnya
df_edit[df_edit['days_employed']<0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


Seperti yang terlihat kolom `'days_employed'` sudah diperbaiki dengan merubah semua nilai yang kelihatan tidak normal, menggantinya dengan memasukkan nilai dari kolom `'dob_years'` dikurangi usia seseorang mulai bekerja. Juga merubah semua nilai negatif ke positif

#### Data pada kolom `'dob_years'`.

In [35]:
# Memeriksa kolom `dob_years`
df_edit['dob_years'].value_counts()

35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
22    183
66    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

Seperti yang terlihat terdapat 101 baris yang memiliki nilai 0, normalnya tidak ada usia dengan nilai 0.

In [36]:
# Menghitung persentasenya
len(df_edit.loc[df_edit['dob_years']==0])/len(df)*100

0.4692218350754936

Karena persentsenya sangat kecil dan tidak memungkinkan untuk nilai ini diperbaiki jadi nilainya bisa dihapus.

In [37]:
# Memperbaiki dataset
index_drop = df_edit[df_edit['dob_years']==0].index
df_edit.drop(index_drop , inplace=True)

In [38]:
# Memeriksa hasilnya
df_edit.loc[df_edit['dob_years']==0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


Kolom `'dob_years'` sudah berhasil diperbaiki dengan menghapus setiap baris dengan nilai 0.

#### Kolom `family_status`.

In [39]:
# Memeriksa kolom `family_status`
df_edit['family_status'].value_counts()

married              12331
civil partnership     4156
unmarried             2797
divorced              1185
widow / widower        955
Name: family_status, dtype: int64

Seperti yang dilihat tidak ada masalah pada kolom ini.

#### Kolom `gender`.

In [40]:
# Memeriksa kolom `gender`
df_edit['gender'].value_counts()

F      14164
M       7259
XNA        1
Name: gender, dtype: int64

Terdapat nilai `XNA` yang tidak seharusnya ada pada kolom `'gender'`, normalnya jenis kelamin akan diisi antara pria atau wanita. Dikarenakan hanya terdapat 1 baris yang memiliki nilai `XNA`, jadi baris tersebut bisa dihapus.

In [41]:
# Mencari data XNA
df_edit.loc[df_edit['gender']=='XNA']

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10701,0,6.461919,24,some college,2,civil partnership,1,XNA,business,0,32624.825,buy real estate


In [42]:
# Menghapus baris
df_edit.drop(10701, axis=0, inplace=True)

In [43]:
# Memeriksa hasilnya
df_edit['gender'].value_counts()

F    14164
M     7259
Name: gender, dtype: int64

Seperti yang terlihat kolom `'gender'` sudah berhasil diperbaiki dengan menghapus baris yang memiliki nilai `XNA` berdasarkan *index* yang dimiliki baris tersebut.

#### Kolom `income_type`.

In [44]:
# Memeriksa kolom `income_type`
df_edit['income_type'].value_counts()

employee                       11064
business                        5064
retiree                         3836
civil servant                   1453
unemployed                         2
entrepreneur                       2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64

Seperti yang dilihat tidak ada masalah pada kolom ini.

### Nilai duplikat <a id="duplikat"></a>

In [45]:
# Memeriksa duplikat
df_edit.loc[df_edit.duplicated()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
2849,0,,41,secondary education,1,married,0,F,employee,0,,purchase of the house for my family
3290,0,,58,secondary education,1,civil partnership,1,F,retiree,0,,to have a wedding
4182,1,,34,bachelor's degree,0,civil partnership,1,F,employee,0,,wedding ceremony
4851,0,,60,secondary education,1,civil partnership,1,F,retiree,0,,wedding ceremony
5557,0,,58,secondary education,1,civil partnership,1,F,retiree,0,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
20702,0,,64,secondary education,1,married,0,F,retiree,0,,supplementary education
21032,0,,60,secondary education,1,married,0,F,retiree,0,,to become educated
21132,0,,47,secondary education,1,married,0,F,employee,0,,housing renovation
21281,1,,30,bachelor's degree,0,married,0,F,employee,0,,buy commercial real estate


Terdapat 71 baris yang memiliki nilai yang terduplikat.

In [46]:
# Persentase nilai duplikat terhadap seluruh dataset
len(df_edit.loc[df_edit.duplicated()])/len(df)*100

0.33141950240395834

Karena persentasenya sedikit, jadi baris yang terduplikat bisa dihapus.

In [47]:
# Memperbaiki dataset
df_edit = df_edit.drop_duplicates().reset_index(drop=True)

In [48]:
# Memeriksa hasilnya
df_edit.duplicated().sum()

0

In [49]:
# Memeriksa ukuran dataset yang sekarang setelah manipulasi pertama yang dilakukan
print('Shape:',df_edit.shape)

Shape: (21352, 12)


**Kesimpulan sementara**

Sebelumnya *dataset* memiliki 21525 baris, dengan 12.

Setelah dilakukan pengecekan dan memperbaiki apa yang harus diperbaiki, *dataset* baru memeliki ukuran 21352 baris dengan 12 kolom.

In [50]:
# Checkpoint variabel
df_clean = df_edit

In [51]:
# Persentase perubahan yang dilakukan setelah melakukan perbaikan
((21525-21352)/21525)*100

0.8037166085946574

Persentase perubahan *dataset* awal ke *dataset* baru menunjukkan persentase yang kecil, sekitar 0.8%.

### Nilai-nilai yang hilang <a id="duplikat"></a>

#### Kolom `'total_income'`.

Pada kolom `'total_income'` terdapat nilai yang hilang yang perlu diisi karena persentase yang besar seperti yang dijelaskan diatas. 

Dan karena kolom ini memiliki tipe kuantitatif, jadi bisa nilai yang hilang bisa diisi dengan *mean* atau *median*.

In [52]:
# Fungsi untuk menghitung kategori usia
'''
Definisi:
-----------
    Fungsi untuk menghitung kategori usia
-----------
    age:
        umur yang diinginkan
'''
def age_group(age):
    try:
        if age <= 19:
            return 'child'
        elif 20 <= age <= 30:
            return 'young'
        elif 31 <= age <= 45:
            return 'adult'
        else:
            return 'old'
    except:
        return 'Unidentified'

In [53]:
# Pengujian fungsi
print(age_group(17))
print(age_group(30))
print(age_group(45))
print(age_group(70))
print(age_group('70'))

child
young
adult
old
Unidentified


In [54]:
# Menerapkan fungsi dan membuat kolom baru
df_clean['age_group'] = df_clean['dob_years'].apply(age_group)

In [55]:
# Memeriksa hasilnya
df_clean['age_group'].unique()

array(['adult', 'old', 'young', 'child'], dtype=object)

Memeriksa faktor-faktor yang kemungkinan bergantung pada pendapatan. Untuk mengetahui apakah harus menggunakan nilai *mean* atau *median* untuk mengganti nilai yang hilang.

In [56]:
# Filter tanpa nilai yang hilang
df_notnull = df_clean[df_clean['total_income'].notnull()]

# Sampel data
df_notnull.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,1,23.116912,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,adult
1,1,11.02686,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,adult
2,0,15.406637,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,adult
3,3,11.300677,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,adult
4,0,30.0,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,old
5,0,2.537495,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,young
6,0,7.888225,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,adult
7,0,0.418574,50,secondary education,1,married,0,M,employee,0,21731.829,education,old
8,2,18.985932,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,adult
9,0,5.996593,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,adult


In [57]:
# Nilai rata-rata untuk pendapatan berdasarkan agg kolom `education`
df_notnull.groupby('education')['total_income'].mean()

education
bachelor's degree      33172.428387
graduate degree        27960.024667
primary education      21144.882211
secondary education    24600.353617
some college           29035.057865
Name: total_income, dtype: float64

In [58]:
# Nilai median untuk pendapatan berdasarkan agg kolom `education`
df_notnull.groupby('education')['total_income'].median()

education
bachelor's degree      28054.5310
graduate degree        25161.5835
primary education      18741.9760
secondary education    21839.4075
some college           25608.7945
Name: total_income, dtype: float64

In [59]:
# Rata-rata pada faktor lain
df_notnull.groupby('income_type')['total_income'].mean()

income_type
business                       32397.307219
civil servant                  27361.316126
employee                       25824.679592
entrepreneur                   79866.103000
paternity / maternity leave     8612.661000
retiree                        21939.310393
student                        15712.260000
unemployed                     21014.360500
Name: total_income, dtype: float64

In [60]:
# Median pada faktor lain
df_notnull.groupby('income_type')['total_income'].median()

income_type
business                       27563.0285
civil servant                  24083.5065
employee                       22815.1035
entrepreneur                   79866.1030
paternity / maternity leave     8612.6610
retiree                        18969.1490
student                        15712.2600
unemployed                     21014.3605
Name: total_income, dtype: float64

In [61]:
# Rata-rata pada faktor lain
df_notnull.groupby('gender')['total_income'].mean()

gender
F    24664.752169
M    30905.772981
Name: total_income, dtype: float64

In [62]:
# Median pada faktor lain
df_notnull.groupby('gender')['total_income'].median()

gender
F    21469.0015
M    26819.5670
Name: total_income, dtype: float64

Jika distribusi datanya simetris maka bisa menggunakan nilai *median/mean*, namun jika distribusi data tidak simetris maka bisa menggunakan nilai *median*. 

Seperti yang terlihat pada nilai *median* dan *mean* masing-masing faktor, distribusi datanya simetris, jadi nilai yang hilang bisa diisi menggunakan *median/mean*. Dalam hal ini *mean* dipilih karena distribusi data simetris, yang berarti tidak ada *outlier*.

In [63]:
# Fungsi untuk mengisi nilai yang hilang
'''
Definisi:
-----------
    Fungsi ini untuk mengisi nilai yang hilang berdasarkan kondisi dari kolom lain
-----------
    data:
        data yang diinginkan
    agg_column:
        Kondisi kolom lain yang ingin dibandingkan
    value_column:
        kolom yang akan diisi (berisi nilai yang hilang)
    button:
        1 berarti nilai yang hilang diisi dengan median
        2 berarti nilai yang hilang diisi dengan mean
        3 berarti nilai yang hilang diisi dengan mode/modus
'''
def fill_missing_value(data, agg_column, value_column, button=1):
    
    # Tombol untuk mengganti mean/median
    if button == 1:
        grouped_values = data.groupby(agg_column)[value_column].median().reset_index()
    elif button == 2:
        grouped_values = data.groupby(agg_column)[value_column].mean().reset_index()
    else:
        grouped_values = data.groupby(agg_column)[value_column].apply(pd.Series.mode).reset_index()
    
    # Jumlah baris pada kolom yang dikelompokkan
    size = len(grouped_values)
    
    # Memasukkan nilai yang hilang kedalam dataset
    for i in range(size):
        group = grouped_values[agg_column][i]
        value = grouped_values[value_column][i]
        data.loc[ (data[agg_column]==group) & (data[value_column].isna()), value_column ] = value
    return data

In [64]:
# Memeriksa kolom `total_income`
df_clean[['total_income']]

Unnamed: 0,total_income
0,40620.102
1,17932.802
2,23341.752
3,42820.568
4,25378.572
...,...
21347,35966.698
21348,24959.969
21349,14347.610
21350,39054.888


In [65]:
# Menerapkan fungsi
df_clean = fill_missing_value(data=df_clean, agg_column='income_type', value_column='total_income', button=2)

In [66]:
# Memeriksa hasilnya
df_clean.isna().sum()

children               0
days_employed       2093
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
age_group              0
dtype: int64

In [67]:
# Memeriksa kemungkinan kesalahan yang lain
sorted(df_clean['total_income'].unique())

[3306.762,
 3392.845,
 3418.824,
 3471.216,
 3503.298,
 3595.641,
 3815.153,
 3913.227,
 4036.463,
 4049.374,
 4212.77,
 4245.348,
 4386.4,
 4444.179,
 4465.254,
 4494.861,
 4592.45,
 4650.812,
 4664.644,
 4672.012,
 4708.271,
 4759.97,
 4812.103,
 4818.545999999999,
 4860.001,
 4919.749,
 5002.295,
 5028.623,
 5029.439,
 5037.321,
 5045.56,
 5053.838,
 5090.55,
 5112.186,
 5137.573,
 5148.514,
 5167.9940000000015,
 5168.082,
 5172.669,
 5195.285,
 5208.353,
 5217.0340000000015,
 5220.544,
 5259.254,
 5274.611,
 5288.165,
 5290.465,
 5330.769,
 5331.621,
 5335.014,
 5402.85,
 5409.738,
 5430.683000000001,
 5443.908,
 5452.4940000000015,
 5461.996,
 5464.092,
 5478.583000000001,
 5490.018,
 5496.834,
 5514.581,
 5515.539000000002,
 5529.334,
 5531.2040000000015,
 5562.874,
 5577.521,
 5579.965,
 5591.44,
 5604.991999999998,
 5622.0790000000015,
 5630.865,
 5639.846,
 5651.584,
 5703.853,
 5768.392,
 5772.8780000000015,
 5801.651,
 5803.271,
 5820.374,
 5826.733,
 5831.255,
 5837.099,
 5

In [68]:
# Memperbaiki dataset
df_clean['total_income'] = round(df_clean['total_income'], 2)

In [69]:
# Meriksa jumlah entri dataset
df_clean.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21352 entries, 0 to 21351
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21352 non-null  int64  
 1   days_employed     19259 non-null  float64
 2   dob_years         21352 non-null  int64  
 3   education         21352 non-null  object 
 4   education_id      21352 non-null  int64  
 5   family_status     21352 non-null  object 
 6   family_status_id  21352 non-null  int64  
 7   gender            21352 non-null  object 
 8   income_type       21352 non-null  object 
 9   debt              21352 non-null  int64  
 10  total_income      21352 non-null  float64
 11  purpose           21352 non-null  object 
 12  age_group         21352 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.1+ MB


Nilai yang hilang pada kolom `'total_income'`berhasil di perbaiki, menggantinya dengan nilai *mean* yang dimiliki kolom `'total_income'`.

#### Kolom `'days_employed'`.

In [70]:
# Distribusi median dari `days_employed` berdasarkan agg kolom `age_group`
df_notnull.groupby('age_group')['days_employed'].median()

age_group
adult     4.769766
child     1.984911
old      16.059749
young     2.875400
Name: days_employed, dtype: float64

In [71]:
# Distribusi rata-rata dari `days_employed` berdasarkan agg kolom `age_group`
df_notnull.groupby('age_group')['days_employed'].mean()

age_group
adult     6.352219
child     1.736104
old      20.223445
young     3.511801
Name: days_employed, dtype: float64

In [72]:
# Rata-rata pada parameter lain
df_notnull.groupby('income_type')['days_employed'].mean()

income_type
business                        5.788341
civil servant                   9.283585
employee                        6.379736
entrepreneur                    1.426981
paternity / maternity leave     9.032219
retiree                        36.431115
student                         1.585621
unemployed                     15.000000
Name: days_employed, dtype: float64

In [73]:
# Median pada parameter lain
df_notnull.groupby('income_type')['days_employed'].median()

income_type
business                        4.241123
civil servant                   7.324397
employee                        4.317994
entrepreneur                    1.426981
paternity / maternity leave     9.032219
retiree                        37.000000
student                         1.585621
unemployed                     15.000000
Name: days_employed, dtype: float64

In [74]:
# Rata-rata pada parameter lain
df_notnull.groupby('family_status')['days_employed'].mean()

family_status
civil partnership    10.778576
divorced             12.047446
married              11.711988
unmarried             8.925047
widow / widower      25.036825
Name: days_employed, dtype: float64

In [75]:
# Median pada parameter lain
df_notnull.groupby('family_status')['days_employed'].mean()

family_status
civil partnership    10.778576
divorced             12.047446
married              11.711988
unmarried             8.925047
widow / widower      25.036825
Name: days_employed, dtype: float64

Seperti yang sudah dibahas sebelumnya pada kolom `'total_income'`. Jika distribusi datanya simetris maka bisa menggunakan nilai *median/mean*, namun jika distribusi data tidak simetris maka bisa menggunakan nilai *median*.
    
Dan yang terlihat pada nilai *median* dan *mean* masing-masing parameter, distribusi datanya tidak simetris, jadi nilai yang hilang bisa diisi menggunakan *median*, karena nilai *median* akan lebih *robust* terhadap *outlier*.

In [76]:
# Ganti nilai yang hilang
df_clean = fill_missing_value(data=df_clean, agg_column='income_type', value_column='days_employed', button=2)

In [77]:
# Memeriksa semua kolom
df_clean.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
age_group           0
dtype: int64

Nilai yang hilang pada kolom `'days_employed'` berhasil di perbaiki, menggantinya dengan nilai median yang dimiliki kolom `'days_employed'`.

### Pengkategorian Data <a id="kategori"></a>

Dikarenakan ada beberapa dari kolom `'purpose'` memiliki makna yang sama tapi menggunakan beberapa kata yang berbeda, jadi bisa dilakukan pengkategorian untuk memudahkan pengecekan.

In [78]:
# Checkpoint variable
df_category = df_clean

#### Tipe kolom kategorik <a id="kategorik"></a>

In [79]:
# Menampilkan nilai data yang dipilih untuk pengkategorian
# Proses pertama mencakup data teks
df_category[['purpose']]

Unnamed: 0,purpose
0,purchase of the house
1,car purchase
2,purchase of the house
3,supplementary education
4,to have a wedding
...,...
21347,housing transactions
21348,purchase of a car
21349,property
21350,buying my own car


In [80]:
# Memeriksa nilai unik
sorted(df_category['purpose'].unique())

['building a property',
 'building a real estate',
 'buy commercial real estate',
 'buy real estate',
 'buy residential real estate',
 'buying a second-hand car',
 'buying my own car',
 'buying property for renting out',
 'car',
 'car purchase',
 'cars',
 'construction of own property',
 'education',
 'getting an education',
 'getting higher education',
 'going to university',
 'having a wedding',
 'housing',
 'housing renovation',
 'housing transactions',
 'profile education',
 'property',
 'purchase of a car',
 'purchase of my own house',
 'purchase of the house',
 'purchase of the house for my family',
 'real estate transactions',
 'second-hand car purchase',
 'supplementary education',
 'to become educated',
 'to buy a car',
 'to get a supplementary education',
 'to have a wedding',
 'to own a car',
 'transactions with commercial real estate',
 'transactions with my real estate',
 'university education',
 'wedding ceremony']

Seperti yang terlihat pada kolom `'purpose'` terdapat beberapa makna yang sama namun ditulis berbeda yang menjadikan beberapa nilai unik.

In [81]:
# Membuat kolom baru 
df_category['purpose_group'] = df_category['purpose']
df_category

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,purpose_group
0,1,23.116912,42,bachelor's degree,0,married,0,F,employee,0,40620.10,purchase of the house,adult,purchase of the house
1,1,11.026860,36,secondary education,1,married,0,F,employee,0,17932.80,car purchase,adult,car purchase
2,0,15.406637,33,secondary education,1,married,0,M,employee,0,23341.75,purchase of the house,adult,purchase of the house
3,3,11.300677,32,secondary education,1,married,0,M,employee,0,42820.57,supplementary education,adult,supplementary education
4,0,30.000000,53,secondary education,1,civil partnership,1,F,retiree,0,25378.57,to have a wedding,old,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21347,1,12.409087,43,secondary education,1,civil partnership,1,F,business,0,35966.70,housing transactions,adult,housing transactions
21348,0,44.000000,67,secondary education,1,married,0,F,retiree,0,24959.97,purchase of a car,old,purchase of a car
21349,1,5.789991,38,secondary education,1,civil partnership,1,M,employee,1,14347.61,property,adult,property
21350,3,8.527347,38,secondary education,1,married,0,M,employee,1,39054.89,buying my own car,adult,buying my own car


In [82]:
# Fungsi untuk mengategorikan data berdasarkan topik umum
'''
Definisi:
-----------
    Fungsi untuk mengategorikan data berdasarkan topik umum
-----------
    dtframe:
        data yang diinginkan
    column_name:
        Kolom yang diinginkan
    str_pattern:
        string yang dicari
    define_str:
        string yang akan menggantikan
'''
def string_group (dtframe, column_name, str_pattern, define_str):
    
    str_filt = str_pattern
    dtframe.loc[dtframe[column_name].str.contains(str_filt, regex=True), column_name] = define_str
    
    return dtframe

In [83]:
# Memeriksa fungsi
test = string_group (dtframe = df_category, column_name = 'purpose_group', str_pattern = 'real|property', define_str = 'real estate/property')
sorted(test['purpose_group'].unique())

['buying a second-hand car',
 'buying my own car',
 'car',
 'car purchase',
 'cars',
 'education',
 'getting an education',
 'getting higher education',
 'going to university',
 'having a wedding',
 'housing',
 'housing renovation',
 'housing transactions',
 'profile education',
 'purchase of a car',
 'purchase of my own house',
 'purchase of the house',
 'purchase of the house for my family',
 'real estate/property',
 'second-hand car purchase',
 'supplementary education',
 'to become educated',
 'to buy a car',
 'to get a supplementary education',
 'to have a wedding',
 'to own a car',
 'university education',
 'wedding ceremony']

In [84]:
# Menjalankan fungsi pada kolom baru yang telah dibuat
df_category = string_group (dtframe = df_category, column_name = 'purpose_group', str_pattern = 'hou|real|property', define_str = 'real estate/property/house')
df_category = string_group (dtframe = df_category, column_name = 'purpose_group', str_pattern = 'car', define_str = 'car')
df_category = string_group (dtframe = df_category, column_name = 'purpose_group', str_pattern = 'edu|uni', define_str = 'education')
df_category = string_group (dtframe = df_category, column_name = 'purpose_group', str_pattern = 'wed', define_str = 'wedding')

In [85]:
# Menghitung nilai pada kolom baru
df_category['purpose_group'].value_counts()

real estate/property/house    10763
car                            4284
education                      3995
wedding                        2310
Name: purpose_group, dtype: int64

Pengkategorian di kolom `'purpose'` berhasil dilakukan dan memasukkan nilainya pada kolom baru bernama `'purpose_group'`.

#### Tipe kolom numerik <a id="numerik"></a>

In [86]:
# Melihat semua data numerik yang dipilih untuk pengkategorian
df_category['total_income'].head(10)

0    40620.10
1    17932.80
2    23341.75
3    42820.57
4    25378.57
5    40922.17
6    38484.16
7    21731.83
8    15337.09
9    23108.15
Name: total_income, dtype: float64

In [87]:
# Mendapatkan kesimpulan statistik untuk kolomnya
df_category['total_income'].describe()

count     21352.000000
mean      26795.979981
std       15707.677378
min        3306.760000
25%       17223.822500
50%       24291.745000
75%       32397.310000
max      362496.640000
Name: total_income, dtype: float64

Terlihat pada kolom `'total_income'` memiliki beberapa rentang yang bisa digunakan untuk pengkategorian agar memudahkan untuk melakukan pengecekan.

In [88]:
# Fungsi yang melakukan pengkategorian menjadi kelompok numerik yang berbeda berdasarkan rentang
'''
Definisi:
-----------
    Fungsi yang melakukan pengkategorian menjadi kelompok numerik yang berbeda berdasarkan rentang
-----------
    value:
        nilai yang akan dikategorikan
'''
def number_group(value):
    
    try:
        if 0 <= value <= 10000:
            return 'very low'
        elif 10001 <= value <= 15000:
            return 'low'
        elif 15001 <= value <= 25000:
            return 'middle'
        else:
            return 'high'
    
    except:
        return 'unidentified'

In [89]:
# Melakukan pengujian untuk melihat apakah fungsi bekerja atau tidak
print(number_group(5000))
print(number_group(15000))
print(number_group(25000))
print(number_group(70000))
print(number_group('5000'))

very low
low
middle
high
unidentified


In [90]:
# Menerapkan fungsi
df_category['total_income_group'] = df_category['total_income'].apply(number_group)

In [91]:
# Melihat hasilnya
df_category['total_income_group'].value_counts()

high        10272
middle       7358
low          2801
very low      921
Name: total_income_group, dtype: int64

In [92]:
# Checkpoint variable
df_final = df_category

Pengkategorian di kolom `'total_income_group'` berhasil dilakukan dan memasukkan nilainya pada kolom baru bernama `'total_income_group'`.

## Menguji Hipotesis <a id="Test"></a>

### Hipotesis 1: Korelasi antara memiliki anak dengan melakukan pelunasan tepat waktu <a id="1"></a>

In [93]:
# Meriksa data anak dan data pelunasan tepat waktu
df_final[['children', 'debt']]

Unnamed: 0,children,debt
0,1,0
1,1,0
2,0,0
3,3,0
4,0,0
...,...,...
21347,1,0
21348,0,0
21349,1,1
21350,3,1


In [94]:
# Menghitung gagal bayar berdasarkan jumlah anak
df_final.groupby(['children', 'debt']).size()

children  debt
0         0       12963
          1        1058
1         0        4397
          1         442
2         0        1912
          1         202
3         0         301
          1          27
4         0          37
          1           4
5         0           9
dtype: int64

**Kesimpulan sementara**

*Findings*:

1. Seperti yang terlihat nasabah yang tidak memiliki anak cenderung melunasi pinjaman, 
2. Semakin banyak jumlah anak maka kemungkinan melunasi pinjaman akan semakin sedikit.

### Hipotesis 2: Korelasi antara status keluarga dengan pelunasan tepat waktu <a id="2"></a>

In [95]:
# Memeriksa data status keluarga dan pelunasan tepat waktu
df_final[['family_status', 'debt']]

Unnamed: 0,family_status,debt
0,married,0
1,married,0
2,married,0
3,married,0
4,civil partnership,0
...,...,...
21347,civil partnership,0
21348,married,0
21349,civil partnership,1
21350,married,1


In [96]:
# Menghitung gagal bayar berdasarkan status keluarga
df_final.groupby(['family_status', 'debt']).size()

family_status      debt
civil partnership  0        3743
                   1         386
divorced           0        1100
                   1          85
married            0       11363
                   1         927
unmarried          0        2521
                   1         273
widow / widower    0         892
                   1          62
dtype: int64

**Kesimpulan sementara**

*Findings*:

1. Terlihat nasabah yang memiliki status `married` memiliki kemungkinan melunasi pinjaman lebih banyak dibandingkan status perkawinan yang lain.

### Hipotesis 3: Korelasi antara tingkat pendapatan dengan membayar kembali tepat waktu <a id="3"></a>

In [97]:
# Memeriksa data tingkat pendapatan dan pelunasan tepat waktu
df_clean[['total_income', 'total_income_group', 'debt']]

Unnamed: 0,total_income,total_income_group,debt
0,40620.10,high,0
1,17932.80,middle,0
2,23341.75,middle,0
3,42820.57,high,0
4,25378.57,high,0
...,...,...,...
21347,35966.70,high,0
21348,24959.97,middle,0
21349,14347.61,low,1
21350,39054.89,high,1


In [98]:
# Menghitung gagal bayar berdasarkan tingkat pendapatan
df_final.groupby(['total_income_group', 'debt']).size()

total_income_group  debt
high                0       9465
                    1        807
low                 0       2562
                    1        239
middle              0       6729
                    1        629
very low            0        863
                    1         58
dtype: int64

**Kesimpulan sementara**

*Findings*:

1. Terlihat nasabah di tiap kriteria memiliki kemungkinan tinggi untuk melunasi pinjaman.

### Hipotesis 4: Bagaimana tujuan kredit memengaruhi tingkat gagal bayar <a id="4"></a>

In [99]:
# Menghitung gagal bayar berdasarkan tujuan kredit
df_final.groupby(['purpose_group', 'debt']).size()

purpose_group               debt
car                         0       3884
                            1        400
education                   0       3625
                            1        370
real estate/property/house  0       9984
                            1        779
wedding                     0       2126
                            1        184
dtype: int64

**Kesimpulan sementara**

*Findings*:

1. Nasabah yang mempunyai tujuan peminjaman untuk *real estate/property/house* menjadi yang terbanyak untuk melunasi pinjaman.

# Kesimpulan umum <a id="Kesimpulan"></a>

Setelah menguji tiga hipotesis berikut:

1. Terdapat korelasi antara memiliki anak dengan melakukan pelunasan tepat waktu
2. Terdapat korelasi antara status keluarga dengan pelunasan tepat waktu
3. Terdapat korelasi antara tingkat pendapatan dengan membayar kembali tepat waktu
4. Tujuan kredit memengaruhi tingkat gagal bayar

Setelah menganalisis data, dapat disimpulkan:

1. Terdapat korelasi antara memiliki anak dengan melakukan pelunasan tepat waktu, semakin banyak anak yang dimiliki nasabah semakin kecil kemungkinan nasabah tersebut melakukan pelunasan tepat pada waktunya.

Hipotesis pertama dapat diterima sepenuhnya.

2. Terdapat korelasi antara status keluarga dengan pelunasan tepat waktu, nasabah yang memiliki status sudah menikah memiliki kemungkinan pelunasan yang tinggi, dibandingkan dengan status yang lain.

Hipotesis kedua dapat diterima sepenuhnya. Perlu diingat nasabah dengan status sudah menikah juga memiliki tingkat gagal yang tinggi 

3. Tingkat pendapatan tidak terlalu berpengaruh dengan membayar pinjaman tepat waktu, dari keseluruhan kategori, rata-rata dapat membayar pinjaman.

Hipotesis ketiga tidak diterima.

4. Tujuan kredit tidak terlalu memengaruhi tingkat gagal bayar, dari keseluruhan kategori, rata-rata dapat melakukan pembayaran dari pinjaman.

Hipotesis keempat tidak diterima.