# Menganalisis risiko gagal bayar peminjam

Tugasmu adalah menyiapkan laporan untuk divisi kredit suatu bank. Kamu akan mencari tahu pengaruh status perkawinan seorang nasabah dan jumlah anak yang dimilikinya terhadap probabilitas gagal bayar dalam pelunasan pinjaman. Pihak bank sudah memiliki beberapa data mengenai kelayakan kredit nasabah.

Laporanmu akan dipertimbangkan pada saat membuat **penilaian kredit** untuk calon nasabah. **Penilaian kredit** digunakan untuk mengevaluasi kemampuan calon peminjam untuk melunasi pinjaman mereka.

Tujuan : Mencari tahu pengaruh status perkawinan seorang nasabah dan jumlah anak yang dimilikinya terhadap probabilitas gagal bayar dalam pelunasan pinjaman.

Hipotesis : 
1. Apakah resiko gagal bayar pinjaman pada nasabah yang memiliki sejumlah anak lebih tinggi dengan yang tidak sama skali?
2. Apakah resiko gagal bayar pinjaman pada nasabah yang memiliki status keluarga lebih berpengaruh dengan yang tidak sama skali?
3. Apakah resiko gagal bayar pinjaman pada nasabah yang memiliki pendapatan lebih rendah akan lebih memungkinkan untuk gagal bayar daripada yang berpendapatan tinggi?
4. Apakah resiko gagal bayar pinjaman pada nasabah dengan tujuan keuangan tertentu memiliki probabilitas yang lebih tinggi?

## Buka file data dan baca informasi umumnya.


In [1]:
import pandas as pd

try:
    data_cs = pd.read_csv('credit_scoring_eng.csv')
except:
    data_cs = pd.read_csv('/datasets/credit_scoring_eng.csv')

## Soal 1. Eksplorasi data

**Deskripsi data**
- `children` - jumlah anak dalam keluarga
- `days_employed` - pengalaman kerja nasabah dalam hari
- `dob_years` - usia nasabah dalam tahun
- `education` - tingkat pendidikan nasabah
- `education_id` - pengidentifikasi untuk tingkat pendidikan nasabah
- `family_status` - status perkawinan
- `family_status_id` - pengidentifikasi untuk status perkawinan nasabah
- `gender` - jenis kelamin nasabah
- `income_type` - jenis pekerjaan
- `debt` - apakah nasabah pernah melakukan gagal bayar pinjaman
- `total_income` - pendapatan bulanan
- `purpose` - tujuan mendapatkan pinjaman


In [2]:
data_cs.shape 

(21525, 12)

In [3]:
data_cs.head(15) 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


Pada sample data credit scoring nasabah diatas terlihat ada beberapa masalah di setiap baris dan kolomnya. Masalah seperti data yang memiliki nilai minus maupun nilai yang hilang di beberapa kolom.

In [4]:
data_cs.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Seperti pada praduga di awal, terdapat nilai hilang di beberapa kolomn dimana kolom days_employed maupun total_income hanya memiliki Non-Null data sebanyak 19351

In [5]:
data_cs.loc[data_cs['days_employed'].isnull()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


Data pada kolom days_employed maupun pada kolom total_income menunjukan nilai yang sama. Adanya indikasi nilai yang hilang di kedua kolom sama.

In [6]:
data_cs.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [7]:
data_cs['days_employed'] = abs(data_cs['days_employed'])

In [8]:
data_null = data_cs[data_cs['days_employed'].isnull()] 
data_null

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


In [9]:
data_not_null = data_cs[~data_cs['days_employed'].isnull()]
data_not_null

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,5623.422610,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21521,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21522,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


**Kesimpulan sementara**


Setelah memanggil code isnull pada keseluruhan data ternyata nilai yang hilang hanya terdapat pada days_employed dan total_income. Data yang hilang juga berjumlahkan 2174 data baik di kolom days_employed maupun total_income, yang menunjukkan adanya data yang hilang secara simetris.

In [10]:
data_cs.isna().sum()*100 / len(data_cs)

children             0.000000
days_employed       10.099884
dob_years            0.000000
education            0.000000
education_id         0.000000
family_status        0.000000
family_status_id     0.000000
gender               0.000000
income_type          0.000000
debt                 0.000000
total_income        10.099884
purpose              0.000000
dtype: float64

In [11]:
data_null['children'].value_counts()

 0     1439
 1      475
 2      204
 3       36
 20       9
 4        7
-1        3
 5        1
Name: children, dtype: int64

In [12]:
data_not_null['children'].value_counts()

 0     12710
 1      4343
 2      1851
 3       294
 20       67
-1        44
 4        34
 5         8
Name: children, dtype: int64


**Kemungkinan penyebab hilangnya nilai dalam data**


Setelah memanggil data pada kolom children dengan data_null maupun data_not_null terlihat bahwa ada beberapa data yang outlier tetapi tidak terlalu signifikan, dan dikarenakan pada kolom children juga belum di cleansing dimana data masih belum bersih maka masih banyak kemungkinan data pada days_employed bisa hilng karna pola-pola yang lain

In [13]:
data_null['family_status_id'].value_counts()

0    1237
1     442
4     288
3     112
2      95
Name: family_status_id, dtype: int64

In [14]:
data_not_null['family_status_id'].value_counts()

0    11143
1     3735
4     2525
3     1083
2      865
Name: family_status_id, dtype: int64

**Kesimpulan sementara**


Data pada kolom family_status_id setelah di panggil dengan data_not_null dan data_null juga tidak terlalu menunjukkan adanya data outlier yang signifikan, kolom family_status_id dapat dibilang tidak mempengaruhi data pada nilai yang hilang

In [15]:
data_null['debt'].value_counts() 

0    2004
1     170
Name: debt, dtype: int64

In [16]:
data_not_null['debt'].value_counts()

0    17780
1     1571
Name: debt, dtype: int64

**Kesimpulan sementara**


Pada kolom debt juga menunjukkan data yang tidak relevan untuk nilai yang hilang 

In [17]:
data_null['income_type'].value_counts() 

employee         1105
business          508
retiree           413
civil servant     147
entrepreneur        1
Name: income_type, dtype: int64

In [18]:
data_not_null['income_type'].value_counts()

employee                       10014
business                        4577
retiree                         3443
civil servant                   1312
unemployed                         2
entrepreneur                       1
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64

**Kesimpulan**


Setelah dilakukan perbandingan dengan kolom-kolom yang lain, ternyata data yang hilang pada kolom days_employed dan total_income tidak terlalu signifikan pada pola-pola tertentu. Nilai yang hilang bisa saja terjadi karena kebetulan atau dikarenakan format file mengalami masalah saat di import. Perlu adanya peninjauan lebih lanjut untuk bisa menggunakan data tersebut karena data masih terdapat masalah lain seperti penulisan value yang berbeda, sumber data yang salah, dan data duplikat di beberapa kolom.

## Transformasi data


Mulai dari kolom education yang dimana data banyak yang penulisannya berbeda akan tetapi poinnya sama

In [19]:
data_cs['education'].value_counts()

secondary education    13750
bachelor's degree       4718
SECONDARY EDUCATION      772
Secondary Education      711
some college             668
BACHELOR'S DEGREE        274
Bachelor's Degree        268
primary education        250
Some College              47
SOME COLLEGE              29
PRIMARY EDUCATION         17
Primary Education         15
graduate degree            4
GRADUATE DEGREE            1
Graduate Degree            1
Name: education, dtype: int64

In [20]:
data_cs['education'] = data_cs['education'].str.lower() 

In [21]:
data_cs['education'].value_counts()

secondary education    15233
bachelor's degree       5260
some college             744
primary education        282
graduate degree            6
Name: education, dtype: int64

Setelah kolom education terlihat juga pada kolom children memiliki beberapa masalah yang perlu di perbaiki

In [22]:
data_cs['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Setelah diperiksa pada kolom children ternyata ditemukan data yang tidak sesuai dengan nilai 20 dan -1, dimana children mengacu pada jumlah anak yang dimiliki setiap nasabah.

In [23]:
data_cs.loc[data_cs['children'] == 20] = 2 

In [24]:
data_cs.loc[data_cs['children'] == -1] = 1

In [25]:
data_cs['children'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

Sekarang pada kolom days_employed mengingat kolom tersebut memiliki nilai yang hilang, akan tetapi pada data yang not null juga memiliki nilai yang tidak relevan yaitu nilai minus dan jumlah data yang dimiliki beberapa baris cukup tinggi dengan yang lain atau memiliki nilai outlier.

In [26]:
data_cs.loc[data_cs['days_employed'].isnull()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,secondary education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,bachelor's degree,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


In [27]:
data_cs['days_employed'].isnull().sum()*100 / len(data_cs['days_employed'])

10.044134727061556

Disini untuk mengetahui data outlier yang cukup tinggi pada kolom days_employed, perlakuan yang dilakukan untuk menyelesaikan masalah teknis ini dengan cara mengkategorikan data nasabah yang memiliki hari kerja tidak melebihi patokan umur kerja seseorang hingga sampai pensiun masa kerja.

In [28]:
data_cs.loc[data_cs['days_employed'] >= 20000]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
18,0,400281.136913,53,secondary education,1,widow / widower,2,F,retiree,0,9091.804,buying a second-hand car
24,1,338551.952911,57,secondary education,1,unmarried,4,F,retiree,0,46487.558,transactions with commercial real estate
25,0,363548.489348,67,secondary education,1,married,0,M,retiree,0,8818.041,buy real estate
30,1,335581.668515,62,secondary education,1,married,0,F,retiree,0,27432.971,transactions with commercial real estate
...,...,...,...,...,...,...,...,...,...,...,...,...
21505,0,338904.866406,53,secondary education,1,civil partnership,1,M,retiree,0,12070.399,to have a wedding
21508,0,386497.714078,62,secondary education,1,married,0,M,retiree,0,11622.175,property
21509,0,362161.054124,59,bachelor's degree,0,married,0,M,retiree,0,11684.650,real estate transactions
21518,0,373995.710838,59,secondary education,1,married,0,F,retiree,0,24618.344,purchase of a car


 20000 sebagai patokan lama kerja seseorang dari kurun umur 18 - 75 tahun dalam hari, apabila melebihi dari itu maka di anggap sudah tidak bekerja

In [29]:
data_cs['years_employed'] = round(data_cs['days_employed'] / 365)

In [30]:
data_cs['year_working'] = data_cs['dob_years'] - 18

In [31]:
data_cs.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed,year_working
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,23.0,24
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,11.0,18
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,15.0,15
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,11.0,14
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,932.0,35


Dengan begini dapat diketahui masa kerja seseorang melalui years_employed sebagai lama kerja dalam tahun dan year_working yaitu durasi lama kerja seseorang sesungguhnya dalam tahun (dengan patokan umur di 18 tahun seseorang mulai bisa bekerja).

Sekarang bagian kolom dob_years yang memiliki data yang janggal dengan nilai 0, mengingat nilai pada kolom ini mengacu pada umur seseorang

In [32]:
data_cs[data_cs['dob_years'] < 19]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed,year_working
99,0,346541.618895,0,secondary education,1,married,0,F,retiree,0,11406.644,car,949.0,-18
149,0,2664.273168,0,secondary education,1,divorced,3,F,employee,0,11228.230,housing transactions,7.0,-18
270,3,1872.663186,0,secondary education,1,married,0,F,employee,0,16346.633,housing renovation,5.0,-18
291,1,1.000000,1,1,1,1,1,1,1,1,1.000,1,0.0,-17
578,0,397856.565013,0,secondary education,1,married,0,F,retiree,0,15619.310,construction of own property,1090.0,-18
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21313,0,1268.487728,0,secondary education,1,unmarried,4,M,employee,0,24387.070,housing transactions,3.0,-18
21325,2,2.000000,2,2,2,2,2,2,2,2,2.000,2,0.0,-16
21390,2,2.000000,2,2,2,2,2,2,2,2,2.000,2,0.0,-16
21404,2,2.000000,2,2,2,2,2,2,2,2,2.000,2,0.0,-16


In [33]:
data_cs['dob_years'].loc[data_cs['dob_years'] < 19].sum()*100 / len(data_cs['dob_years'])

0.924506387921022

In [34]:
year = round(data_cs['dob_years'].mean())
year

43

In [35]:
data_cs['dob_years'] = data_cs['dob_years'].replace(0, year)

In [36]:
data_cs['dob_years'].unique()

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51, 59, 29, 60, 55, 58, 71, 22, 73, 66,
        1, 69,  2, 19, 72, 70, 74, 75])

Data pada kolom dob_years yang memiliki nilai 0 digantikan dengan rata-rata data keseluruhan kolom yaitu 43, karena data yang memiliki nilai 0 hanya 0.9% dari keseluruhan data. Pada data yang memiliki nilai 1 dan 2 tidak perlu diubah terlebih dahulu dikarenakan nilai tersebut merupakan nilai duplikat. 

Selanjutnya pada kolom family_status yang setelah dilihat distribusinya ternyata tidak memiliki nilai yang janggal. Hanya pada nilai 1 dan 2 lagi yang keluar seperti di kolom dob_years yang merupakan nilai duplikat.

In [37]:
data_cs['family_status'].value_counts()

married              12302
civil partnership     4160
unmarried             2799
divorced              1189
widow / widower        952
2                       76
1                       47
Name: family_status, dtype: int64

Pada kolom gender ada sebuah data yang janggal dengan value 'XNA', maka dapat diatasi dengan code replace untuk diubahnya ke value 'F' mengingat value ini memiliki nilai major.

In [38]:
data_cs['gender'].value_counts() 

F      14154
M       7247
2         76
1         47
XNA        1
Name: gender, dtype: int64

In [39]:
data_cs.loc[data_cs['gender'] == 'XNA']

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed,year_working
10701,0,2358.600502,24,some college,2,civil partnership,1,XNA,business,0,32624.825,buy real estate,6.0,6


In [40]:
data_cs['gender'] = data_cs['gender'].astype('str')

In [41]:
data_cs['gender'] = data_cs['gender'].replace('XNA', 'F')

In [42]:
data_cs['gender'].value_counts()

F    14155
M     7247
2       76
1       47
Name: gender, dtype: int64

Sekarang pada kolom income_type setelah diperiksa distribusinya tidak ditemukan data yang mencurigakan. Lagi, hanya nilai 1 dan 2 yang keluar.

In [43]:
data_cs['income_type'].value_counts()

employee                       11050
business                        5054
retiree                         3839
civil servant                   1453
2                                 76
1                                 47
entrepreneur                       2
unemployed                         2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64

Setelah cleansing data di beberapa kolom, saatnya melakukan penanganan data duplikat secara menyeluruh. Mengingat ada nilai 1 dan 2 yang sering keluar di setiap pemeriksaan kolom. Dan juga nilai tersebut sepertinya simetris.

In [44]:
data_cs[data_cs.duplicated()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed,year_working
705,1,1.0,1,1,1,1,1,1,1,1,1.0,1,0.0,-17
720,2,2.0,2,2,2,2,2,2,2,2,2.0,2,0.0,-16
742,1,1.0,1,1,1,1,1,1,1,1,1.0,1,0.0,-17
800,1,1.0,1,1,1,1,1,1,1,1,1.0,1,0.0,-17
941,1,1.0,1,1,1,1,1,1,1,1,1.0,1,0.0,-17
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21325,2,2.0,2,2,2,2,2,2,2,2,2.0,2,0.0,-16
21390,2,2.0,2,2,2,2,2,2,2,2,2.0,2,0.0,-16
21404,2,2.0,2,2,2,2,2,2,2,2,2.0,2,0.0,-16
21415,0,,54,secondary education,1,married,0,F,retiree,0,,housing transactions,,36


In [45]:
data_cs.loc[data_cs['education'] == 1].count()

children            47
days_employed       47
dob_years           47
education           47
education_id        47
family_status       47
family_status_id    47
gender              47
income_type         47
debt                47
total_income        47
purpose             47
years_employed      47
year_working        47
dtype: int64

In [46]:
data_cs.loc[data_cs['education'] == 2].count()

children            76
days_employed       76
dob_years           76
education           76
education_id        76
family_status       76
family_status_id    76
gender              76
income_type         76
debt                76
total_income        76
purpose             76
years_employed      76
year_working        76
dtype: int64

In [47]:
data_cs = data_cs.drop_duplicates().reset_index(drop = True)

In [48]:
data_cs[data_cs.duplicated()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed,year_working


In [49]:
data_cs.loc[data_cs['family_status'] == 1]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed,year_working
291,1,1.0,1,1,1,1,1,1,1,1,1.0,1,0.0,-17


In [50]:
data_cs.loc[data_cs['family_status'] == 2]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed,year_working
606,2,2.0,2,2,2,2,2,2,2,2,2.0,2,0.0,-16


In [51]:
data_cs = data_cs.drop([291, 606])

In [52]:
data_cs.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21331 entries, 0 to 21332
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21331 non-null  int64  
 1   days_employed     19240 non-null  float64
 2   dob_years         21331 non-null  int64  
 3   education         21331 non-null  object 
 4   education_id      21331 non-null  int64  
 5   family_status     21331 non-null  object 
 6   family_status_id  21331 non-null  int64  
 7   gender            21331 non-null  object 
 8   income_type       21331 non-null  object 
 9   debt              21331 non-null  int64  
 10  total_income      19240 non-null  float64
 11  purpose           21331 non-null  object 
 12  years_employed    19240 non-null  float64
 13  year_working      21331 non-null  int64  
dtypes: float64(3), int64(6), object(5)
memory usage: 2.4+ MB


Tranformasi data telah dilakukan dengan beberapa penanganan, sekarang data jadi lebih bersih baik nilai yang tidak sesuai maupun nilai duplikat. Selanjutnya tinggal menangani nilai yang hilang di beberapa kolom.

# Bekerja dengan nilai yang hilang

Pada sampel data yang memiliki nilai hilang akan kita gantikan dengan berpatokan pada kolom lain sebagai acuan. Disini kita akan lihat nilai yang memiliki ID apakah dapat dijadikan acuan atau dictionary sebagai pembanding.

In [53]:
data_cs.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed,year_working
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,23.0,24
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,11.0,18
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,15.0,15
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,11.0,14
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,932.0,35


In [54]:
data_cs[['education_id', 'education']].drop_duplicates().reset_index(drop=True)

Unnamed: 0,education_id,education
0,0,bachelor's degree
1,1,secondary education
2,2,some college
3,3,primary education
4,4,graduate degree


In [55]:
data_cs[['family_status_id', 'family_status']].drop_duplicates().reset_index(drop=True)

Unnamed: 0,family_status_id,family_status
0,0,married
1,1,civil partnership
2,2,widow / widower
3,3,divorced
4,4,unmarried


In [56]:
data_cs['dob_years'].describe()

count    21331.000000
mean        43.479537
std         12.219530
min         19.000000
25%         33.000000
50%         43.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64

In [57]:
data_cs['income_type'].value_counts()

employee                       11015
business                        5047
retiree                         3812
civil servant                   1451
entrepreneur                       2
unemployed                         2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64

Melihat hasil dictionary pada beberapa kolom, menunjukkan kolom-kolom tersebut dapat digunakan sebagai dictionary seperti pada kolom dob_years dan income_type. Karena pada kolom tersebut cukup memberikan impact pada data yang hilang dengan nilai outlier yang cukup signifikan terutama pada kolom income_type.

### Memperbaiki nilai yang hilang di `total_income`

Pertama kita akan mencoba memperbaiki nilai hilang pada kolom total_income dengan mengacu data not_null pada kolom dob_years. Mengingat umur seseorang nasabah juga dapat menginterprestasikan pendapatan seseorang itu sendiri.

In [58]:
data_cs['total_income'].isnull().sum()

2091

In [59]:
def age_grouping(age):
    if age <= 15:
        value = '0-15 years old'
    elif age > 15 and age <= 20 :
        value = '15-20 years old'
    elif age > 20 and age <= 30 :
        value = '21-30 years old'
    elif age > 30 and age <= 40 :
        value = '31-40 years old'
    elif age > 40 and age <= 50 :
        value = '41-50 years old'
    elif age > 50 and age <= 60 :
        value = '51-60 years old'
    else:
        value = '> 60 years old'
    return value

In [60]:
data_cs['age_group'] = data_cs['dob_years'].apply(age_grouping)

In [61]:
new_not_null = data_cs[~data_cs['days_employed'].isnull()]
new_not_null

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed,year_working,age_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,23.0,24,41-50 years old
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,11.0,18,31-40 years old
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,15.0,15,31-40 years old
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,11.0,14,31-40 years old
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,932.0,35,51-60 years old
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21328,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,12.0,25,41-50 years old
21329,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,942.0,49,> 60 years old
21330,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,6.0,20,31-40 years old
21331,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,9.0,20,31-40 years old


In [62]:
income_avg_year = new_not_null[['age_group', 'total_income']].groupby('age_group').mean()['total_income']
income_avg_year

age_group
15-20 years old    19586.303559
21-30 years old    25936.267058
31-40 years old    28391.459775
41-50 years old    28343.436766
51-60 years old    25479.278587
> 60 years old     23050.631366
Name: total_income, dtype: float64

In [63]:
income_med_year = new_not_null[['age_group', 'total_income']].groupby('age_group').median()['total_income']
income_med_year

age_group
15-20 years old    17257.2770
21-30 years old    23080.9515
31-40 years old    24850.0920
41-50 years old    24563.6500
51-60 years old    22050.9965
> 60 years old     19633.0750
Name: total_income, dtype: float64

Menggunakan umur sebagai pebanding data tidak cukup relevan karena data ter-generalisasi dan kurang spesifik untuk pendapatan tetapnya setiap nasabah

Sekarang mari kita coba dengan pebanding yang lain apakah dengan kolom income_type akan terlihat nilai yang cukup signifikan yang akan digunakan sebagai nilai pengganti nilai yang hilang

In [64]:
income_avg_type = data_not_null[['income_type', 'total_income']].groupby('income_type').mean()['total_income']
income_avg_type

income_type
business                       32386.793835
civil servant                  27343.729582
employee                       25820.841683
entrepreneur                   79866.103000
paternity / maternity leave     8612.661000
retiree                        21940.394503
student                        15712.260000
unemployed                     21014.360500
Name: total_income, dtype: float64

In [65]:
income_med_type = data_not_null[['income_type', 'total_income']].groupby('income_type').median()['total_income']
income_med_type

income_type
business                       27577.2720
civil servant                  24071.6695
employee                       22815.1035
entrepreneur                   79866.1030
paternity / maternity leave     8612.6610
retiree                        18962.3180
student                        15712.2600
unemployed                     21014.3605
Name: total_income, dtype: float64

In [66]:
def isi_income(data):
    income_type = data['income_type']
    total_income = data['total_income']
    if total_income == -1:
        return income_avg_type[income_type]
    else:
        return total_income

In [67]:
data_cs['total_income'] = data_cs[['income_type', 'total_income']].fillna(-1).apply(isi_income, axis=1)

In [68]:
data_cs['total_income'].isnull().sum()

0

In [69]:
data_cs.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed,year_working,age_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,23.0,24,41-50 years old
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,11.0,18,31-40 years old
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,15.0,15,31-40 years old
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,11.0,14,31-40 years old
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,932.0,35,51-60 years old


Setelah dilakukan perbandingan data kolom total_income pada kolom dob_years maupun kolom income_type, akhirnya diputuskan menggunakan kolom income_type sebagai acuan untuk mengisi nilai yang hilang. Melihat data yang dihasilkan cenderung signifikan untuk mengisi nilai hilang dengan menggunakan nilai rata-rata pada kolom income_type.

###  Memperbaiki nilai di `days_employed`

Selanjutnya pada kolom days_employed yang akan kita perbaiki nilai hilang dengan mengisinya menggunakan pebanding pada kolom income_type juga seperti pada kolom total_income.

In [70]:
days_avg = data_not_null[['income_type', 'days_employed']].groupby('income_type').mean()['days_employed']
days_avg

income_type
business                         2111.524398
civil servant                    3399.896902
employee                         2326.499216
entrepreneur                      520.848083
paternity / maternity leave      3296.759962
retiree                        365003.491245
student                           578.751554
unemployed                     366413.652744
Name: days_employed, dtype: float64

In [71]:
def isi_days(data):
    income_type = data['income_type']
    days_employed = data['days_employed']
    if days_employed == -1:
        return days_avg[income_type]
    else:
        return days_employed

In [72]:
data_cs['days_employed'] = data_cs[['income_type', 'days_employed']].fillna(-1).apply(isi_days, axis=1)

In [73]:
data_cs.isnull().sum()

children               0
days_employed          0
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
years_employed      2091
year_working           0
age_group              0
dtype: int64

Melihat rata-rata nilai pada tabel data days_employed yang berdasarkan kolom income_type menunjukkan data tersebut dapat digunakan sebagai acuan untuk mengisi nilai yang hilang. 

Tetapi terlihat pada kolom years_employed masih memiliki nilai yang hilang mengingat kolom tersebut merupakan code tambahan sebagai pembanding pada kolom days_employed dan akan berdampak pada kolom tersebut setelah di operasikan perbaikan data. Oleh karena itu kita akan perbaiki juga pada kolom ini menggunakan metode yang sama pada nilai yang hilang di kolom days_employed.

In [74]:
years_avg = new_not_null[['income_type', 'years_employed']].groupby('income_type').mean()['years_employed']
years_avg

income_type
business                          5.807033
civil servant                     9.330528
employee                          6.365765
entrepreneur                      1.000000
paternity / maternity leave       9.000000
retiree                        1000.068825
student                           2.000000
unemployed                     1004.000000
Name: years_employed, dtype: float64

In [75]:
def isi_years(data):
    income_type = data['income_type']
    years_employed = data['years_employed']
    if years_employed == -1:
        return years_avg[income_type]
    else:
        return years_employed

In [76]:
data_cs['years_employed'] = data_cs[['income_type', 'years_employed']].fillna(-1).apply(isi_years, axis=1)

In [77]:
data_cs['years_employed'].isnull().sum()

0

In [78]:
data_cs.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed,year_working,age_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,23.0,24,41-50 years old
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,11.0,18,31-40 years old
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,15.0,15,31-40 years old
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,11.0,14,31-40 years old
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,932.0,35,51-60 years old


Setelah dilakukan perbaikan data mari kita lihat kembali apakah nilai yang hilang sudah diperbaiki di semua kolom.

In [79]:
data_cs.isnull().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
years_employed      0
year_working        0
age_group           0
dtype: int64

## Pengkategorian data


Setelah memperbaiki atau mentransfomasikan data sekarang kita dapat menguji hipotesis pada keseluruhan data. Sebelum menguji hipotesis, kita akan kategorikan data terlebih dahulu berdasarkan kolom total_income mengingat pendapatan seseorang nasabah dapat digunakan sebagai acuan untuk mengetahui gagal bayar seseorang.

In [80]:
data_cs['total_income'].describe()

count     21331.000000
mean      26792.749634
std       15709.859003
min        3306.762000
25%       17201.214500
50%       24304.729000
75%       32386.793835
max      362496.645000
Name: total_income, dtype: float64

Kita lihat nilai uniquenya apakah data tersebut dapat dikategorikan.

In [81]:
data_cs.loc[data_cs['total_income'] <= 15000, 'total_income'].count()

3726

In [82]:
data_cs.loc[(data_cs['total_income'] > 15000) & (data_cs['total_income'] <= 30000), 'total_income'].count()

11219

In [83]:
data_cs.loc[(data_cs['total_income'] > 30000) & (data_cs['total_income'] <= 45000), 'total_income'].count()

4537

In [84]:
data_cs.loc[(data_cs['total_income'] > 45000) & (data_cs['total_income'] <= 60000), 'total_income'].count()

1178

In [85]:
data_cs.loc[(data_cs['total_income'] > 60000), 'total_income'].count()

671

Setelah melihat nilai uniquenya kita dapat mengidentifikasi kolom total_income yang akan digunakan sebagai kelompok utama untuk acuan topik hipotesis selanjutnya.

In [86]:
def income_grouping(income):
    if income <= 15000:
        value = '<= 15000'
    elif income > 15000 and income <= 30000 :
        value = '15000-30000'
    elif income > 30000 and income <= 45000 :
        value = '30000-45000'
    elif income > 45000 and income <= 60000 :
        value = '45000-60000'
    else:
        value = '> 60000'
    return value

In [87]:
data_cs['income_group'] = data_cs['total_income'].apply(income_grouping)

Pengkategorian ini merupakan gambaran secara umum apakah pendapatan seseorang mempengaruhi gagal bayar pinjaman. Dimana pada hipotesis nanti kita akan coba pada faktor atau pola yang lain untuk merujuk ke sebuah kesimpulan akhir.

In [88]:
data_cs[['total_income', 'income_group']]

Unnamed: 0,total_income,income_group
0,40620.102,30000-45000
1,17932.802,15000-30000
2,23341.752,15000-30000
3,42820.568,30000-45000
4,25378.572,15000-30000
...,...,...
21328,35966.698,30000-45000
21329,24959.969,15000-30000
21330,14347.610,<= 15000
21331,39054.888,30000-45000


In [89]:
data_cs['income_group'].value_counts()

15000-30000    11219
30000-45000     4537
<= 15000        3726
45000-60000     1178
> 60000          671
Name: income_group, dtype: int64

Setelah kita membuat pengkategorian untuk kolom income_group, maka kita dapat menarik kesimpulan secara statistik bahwa pendapatan nasabah pada rentang > 60000 total pendapatan nasabah memiliki value yang paling sedikit sebanyak 671 nasabah. Sedangkan untuk rentang pendapatan 15000-30000 memiliki value paling banyak dengan total 11219 nasabah, lalu di ikuti oleh rentang 30000-45000 dengan sebanyak 4537 yang dimana seharusnya kemampuan seorang nasabah untuk gagal bayar cukup kecil.

Sekarang kita akan menggunakan pengelompokan teks pada kolom puprose untuk mengetahui lebih detil data statistik yang akan membantu hipotesis maupun hasil akhir pada kesimpulan.

In [90]:
data_cs['purpose'].unique()

array(['purchase of the house', 'car purchase', 'supplementary education',
       'to have a wedding', 'housing transactions', 'education',
       'having a wedding', 'purchase of the house for my family',
       'buy real estate', 'buy commercial real estate',
       'buy residential real estate', 'construction of own property',
       'property', 'building a property', 'buying a second-hand car',
       'buying my own car', 'transactions with commercial real estate',
       'building a real estate', 'housing',
       'transactions with my real estate', 'cars', 'to become educated',
       'second-hand car purchase', 'getting an education', 'car',
       'wedding ceremony', 'to get a supplementary education',
       'purchase of my own house', 'real estate transactions',
       'getting higher education', 'to own a car', 'purchase of a car',
       'profile education', 'university education',
       'buying property for renting out', 'to buy a car',
       'housing renovation', 'going

In [91]:
housing = [
    'purchase of the house', 'housing transactions',
    'purchase of the house for my family', 'housing',
    'purchase of my own house', 'housing renovation',
    'buy real estate', 'buy commercial real estate',
    'buy residential real estate', 'real estate transactions',
    'transactions with commercial real estate',
    'transactions with my real estate', 'building a real estate',
    'construction of own property', 'property',
    'buying property for renting out', 'building a property'
]

In [92]:
cars = [
    'car purchase', 'buying a second-hand car',
    'buying my own car', 'second-hand car purchase',
    'cars', 'car', 'purchase of a car',
    'to own a car', 'to buy a car'
]

In [93]:
education = [
    'supplementary education', 'education', 'going to university',
    'to become educated', 'getting an education',
    'to get a supplementary education', 'profile education',
    'getting higher education', 'university education'
]

In [94]:
wedding = [
    'to have a wedding', 'having a wedding',
    'wedding ceremony'
]

In [95]:
data_cs.loc[data_cs['purpose'].isin(housing), 'purpose'] = 'housing'

In [96]:
data_cs.loc[data_cs['purpose'].isin(cars), 'purpose'] = 'cars'

In [97]:
data_cs.loc[data_cs['purpose'].isin(education), 'purpose'] = 'education'

In [98]:
data_cs.loc[data_cs['purpose'].isin(wedding), 'purpose'] = 'wedding'

In [99]:
data_cs.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed,year_working,age_group,income_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,housing,23.0,24,41-50 years old,30000-45000
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,cars,11.0,18,31-40 years old,15000-30000
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,housing,15.0,15,31-40 years old,15000-30000
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,education,11.0,14,31-40 years old,30000-45000
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,wedding,932.0,35,51-60 years old,15000-30000


## Memeriksa hipotesis


**Apakah terdapat korelasi antara memiliki anak dengan probabilitas melakukan gagal bayar pinjaman?**

Terdapat probabilitas gagal bayar pinjaman dengan jumlah anak yang dimiliki seorang nasabah. Korelasinya terdapat pada nilai presentase children dengan nilai 4 (memiliki anak 4) jauh lebih tinggi daripada yang lain.

In [100]:
children_debt = pd.pivot_table(data_cs, index='children', columns='debt', values='income_group', aggfunc='count').fillna(0).reset_index()
children_debt

debt,children,0,1
0,0,13028.0,1063.0
1,1,4364.0,444.0
2,2,1858.0,194.0
3,3,303.0,27.0
4,4,37.0,4.0
5,5,9.0,0.0


In [101]:
children_debt['total'] = children_debt[0] + children_debt[1]
children_debt['percent 0'] = round(children_debt[0] / children_debt['total'] * 100, 1).astype(str) + '%'
children_debt['percent 1'] = round(children_debt[1] / children_debt['total'] * 100, 1).astype(str) + '%'
children_debt.sort_values('percent 1', ascending=False)

debt,children,0,1,total,percent 0,percent 1
4,4,37.0,4.0,41.0,90.2%,9.8%
2,2,1858.0,194.0,2052.0,90.5%,9.5%
1,1,4364.0,444.0,4808.0,90.8%,9.2%
3,3,303.0,27.0,330.0,91.8%,8.2%
0,0,13028.0,1063.0,14091.0,92.5%,7.5%
5,5,9.0,0.0,9.0,100.0%,0.0%


In [102]:
children_debt['children' == 5]

0    13028.0
1     4364.0
2     1858.0
3      303.0
4       37.0
5        9.0
Name: 0, dtype: float64

**Kesimpulan**

Ternyata dengan menggunakan perbandingan kolom children dengan debt cukup menunjukkan bahwa seorang nasabah dalam kemampuan gagal bayar pinjaman tidak cukup relevan. Dikarenakan presentase jumlah anak 3 dengan nilai presentase 8.2% menduduki peringkat 4 setelah nasabah yang memiliki jumlah anak 1 maupun 2 (9.2% dan 9.5%). Yang mengindikasikan bahwa gagal bayar seseorang bisa di sebabkan oleh beberapa faktor dan tidak hanya di pengaruhi oleh jumlah kepemilikan anak.

**Apakah terdapat korelasi antara status keluarga dengan probabilitas melakukan gagal bayar pinjaman?**

Pada kolom family_status_id kecil kemungkinan probabilitas gagal bayar pinjaman seorang nasabah dengan status yang dimilikinya. Karena sedikitnya nilai presentase family_status_id dengan nilai 0 (sudah menikah) daripada yang belum menikah dengan nilai 4. Dapat dibilang tidak ada korelasi antara status keluarga dengan probabilitas gagal bayar pinjaman.

In [103]:
family_debt = pd.pivot_table(data_cs, index='family_status_id', columns='debt', values='education', aggfunc='count').fillna(0).reset_index()
family_debt

debt,family_status_id,0,1
0,0,11334,927
1,1,3749,385
2,2,888,63
3,3,1105,84
4,4,2523,273


In [104]:
family_debt['total'] = family_debt[0] + family_debt[1]
family_debt['percent 0'] = round(family_debt[0] / family_debt['total'] * 100, 1).astype(str) + '%'
family_debt['percent 1'] = round(family_debt[1] / family_debt['total'] * 100, 1).astype(str) + '%'
family_debt.sort_values('percent 1', ascending=False)

debt,family_status_id,0,1,total,percent 0,percent 1
4,4,2523,273,2796,90.2%,9.8%
1,1,3749,385,4134,90.7%,9.3%
0,0,11334,927,12261,92.4%,7.6%
3,3,1105,84,1189,92.9%,7.1%
2,2,888,63,951,93.4%,6.6%


**Kesimpulan**

Setelah di amati hasil statistik family_status_id terhadap gagal bayar pinjaman seorang nasabah menunjukkan bahwa nilai 4 atau seorang yang belum menikah jauh lebih tinggi daripada seorang yang sudah menikah, widow, maupun divorce. Berdasarkan tabel statistik presentase gagal bayar pinjaman tertinggi dengan nilai sebesar 9.8% (unmarried), diikuti 9.3% (sipil), dan nilai paling kecil 6.6% (widow). Ini menyimpulkan bahwa status seseorang tidak mempengaruhi terhadap gagal bayar pinjaman mengingat setiap orang memiliki kemampuannya sendiri-sendiri dalam situasi status keluarga yang berbeda-beda.

In [105]:
data_cs.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed,year_working,age_group,income_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,housing,23.0,24,41-50 years old,30000-45000
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,cars,11.0,18,31-40 years old,15000-30000
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,housing,15.0,15,31-40 years old,15000-30000
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,education,11.0,14,31-40 years old,30000-45000
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,wedding,932.0,35,51-60 years old,15000-30000


**Apakah terdapat korelasi antara tingkat pendapatan dengan probabilitas melakukan gagal bayar pinjaman?**

Berdasarkan tabel statistik pendapatan seseorang tidak mempengaruhi kemampuan sesorang dalam gagal bayar pinjam. Nasabah dengan pendapatan 15000-30000 memiliki debt yang lebih tinggi daripada yang lain, akan tetapi nilai berhasil bayar pinjamannya pun juga banyak. Berlaku di semua rentang pendapatan seorang nasabah, probabilitas untuk melakukan gagal bayar pinjaman bisa dibilang kecil.

In [106]:
income_group_debt = pd.pivot_table(data_cs, index='income_group', columns='debt', values='education', aggfunc='count').fillna(0).reset_index()
income_group_debt

debt,income_group,0,1
0,15000-30000,10249,970
1,30000-45000,4205,332
2,45000-60000,1084,94
3,<= 15000,3428,298
4,> 60000,633,38


In [107]:
income_group_debt['total'] = income_group_debt[0] + income_group_debt[1]
income_group_debt['percent 0'] = round(income_group_debt[0] / income_group_debt['total'] * 100, 1).astype(str) + '%'
income_group_debt['percent 1'] = round(income_group_debt[1] / income_group_debt['total'] * 100, 1).astype(str) + '%'
income_group_debt.sort_values('percent 1', ascending=False)

debt,income_group,0,1,total,percent 0,percent 1
0,15000-30000,10249,970,11219,91.4%,8.6%
2,45000-60000,1084,94,1178,92.0%,8.0%
3,<= 15000,3428,298,3726,92.0%,8.0%
1,30000-45000,4205,332,4537,92.7%,7.3%
4,> 60000,633,38,671,94.3%,5.7%


**Kesimpulan**

Secara statistik menunjukkan bahwa presentase pendapatan nasabah dengan probabilitas gagal bayar pinjaman pada rentang >60000 total pendapatan nasabah memiliki value yang paling sedikit sebesar 5.7% . Sedangkan untuk rentang pendapatan 15000-30000 memiliki value paling banyak dengan presentase 8.6%, lalu di ikuti oleh rentang 30000-45000 dengan sebesar 8.0% yang dimana seharusnya kemampuan seorang nasabah untuk gagal bayar cukup kecil.

**Bagaimana tujuan kredit memengaruhi persentase gagal bayar?**

Secara tabel menurut data purpose_debt tujuan nasabah kredit paling banyak untuk kebutuhan housing, tetapi nilai gagal bayarnya pun juga yang paling tinggi dengan nilai 780 nasabah. lalu diikuti oleh kebutuhan untuk membeli mobil, edukasi dan wedding yang paling kecil dengan nilai 183.

In [108]:
purpose_debt = pd.pivot_table(data_cs, index='purpose', columns='debt', values='education', aggfunc='count').fillna(0).reset_index()
purpose_debt

debt,purpose,0,1
0,cars,3879,400
1,education,3619,369
2,housing,9971,780
3,wedding,2130,183


In [109]:
purpose_debt['total'] = purpose_debt[0] + purpose_debt[1]
purpose_debt['percent 0'] = round(purpose_debt[0] / purpose_debt['total'] * 100, 1).astype(str) + '%'
purpose_debt['percent 1'] = round(purpose_debt[1] / purpose_debt['total'] * 100, 1).astype(str) + '%'
purpose_debt.sort_values('percent 1', ascending=False)

debt,purpose,0,1,total,percent 0,percent 1
0,cars,3879,400,4279,90.7%,9.3%
1,education,3619,369,3988,90.7%,9.3%
3,wedding,2130,183,2313,92.1%,7.9%
2,housing,9971,780,10751,92.7%,7.3%


**Kesimpulan**

Setelah melihat data statistiknya terlihat bahwa nilai presentase housing justru paling kecil dengan presentase hanya 7.3% untuk gagal bayar pinjam seorang nasabah. Dan tujuan kredit untuk mobil dan edukasi yang paling tinggi dengan nilai 9.3%, diikuti wedding dengan nilai 7.9%.

In [110]:
data_cs

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed,year_working,age_group,income_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,housing,23.0,24,41-50 years old,30000-45000
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,cars,11.0,18,31-40 years old,15000-30000
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,housing,15.0,15,31-40 years old,15000-30000
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,education,11.0,14,31-40 years old,30000-45000
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,wedding,932.0,35,51-60 years old,15000-30000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21328,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing,12.0,25,41-50 years old,30000-45000
21329,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,cars,942.0,49,> 60 years old,15000-30000
21330,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,housing,6.0,20,31-40 years old,<= 15000
21331,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,cars,9.0,20,31-40 years old,30000-45000


In [111]:
data_cs.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21331 entries, 0 to 21332
Data columns (total 16 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21331 non-null  int64  
 1   days_employed     21331 non-null  float64
 2   dob_years         21331 non-null  int64  
 3   education         21331 non-null  object 
 4   education_id      21331 non-null  int64  
 5   family_status     21331 non-null  object 
 6   family_status_id  21331 non-null  int64  
 7   gender            21331 non-null  object 
 8   income_type       21331 non-null  object 
 9   debt              21331 non-null  int64  
 10  total_income      21331 non-null  float64
 11  purpose           21331 non-null  object 
 12  years_employed    21331 non-null  float64
 13  year_working      21331 non-null  int64  
 14  age_group         21331 non-null  object 
 15  income_group      21331 non-null  object 
dtypes: float64(3), int64(6), object(7)
memor

# Kesimpulan umum 

Dimulai dari data kotor yang berjumlahkan 21525 data pada baris telah dilakukan perbaikan data mulai dari pemrosesan hingga menganalisis data sampai data final yang berjumlahkan 21331 total data, banyak nilai dari baris yang perlu diperbaiki mulai dari penulisan nilai yang berbeda seperti pada kolom education, lalu memperbaiki sumber data yang salah seperti pada kolom children, gender dan days_employed yang memiliki nilai minus.

Pada nilai yang hilang di kolom total_income ada 2174 data atau 10% dari data itu sendiri, yang dimana pada kolom days_employed juga memiliki nilai hilang yang sama dan mengindikasikan bahwa nilai yang hilang tersebut simetris. Pembersihan data dilakukan dengan cara mengisi nilai yang hilang menggunakan nilai rata-rata pada kolom total_income yang dibandingkan dengan kolom income_type untuk setiap pengelompokannya, sehingga bisa di asumsikan setiap profesi yang sama dari setiap nasabah memiliki pendapatan yang kurang lebih juga sama. Berlaku pada kolom days_employed yang menggunakan income_type sebagai acuan pembanding.

Sedangkan pada data duplikat cukup dilakukan drop_duplicates, terdapat sejumlah 192 data duplikat dan data duplikat utama nanti kita drop guna untuk menghapus data tersebut yang sbenarnya memiliki value kosong.

Setelah memperbaiki data, kita masuk ke tahap analisis dan hipotesis:
- Kolom children sebagai acuan data statistiknya dengan kolom debt ternyata menunjukkan bahwa seorang nasabah dalam kemampuan gagal bayar pinjaman tidak cukup relevan. Dikarenakan presentase jumlah anak 3 dengan nilai presentase 8.2% menduduki peringkat 4 setelah nasabah yang memiliki jumlah anak 1 maupun 2 (9.2% dan 9.5%). Yang mengindikasikan bahwa gagal bayar seseorang bisa di sebabkan oleh beberapa faktor dan tidak hanya di pengaruhi oleh jumlah kepemilikan anak.
- Kolom family_status sebagai acuan data statistiknya setelah di amati hasil statistiknya  menunjukkan bahwa nilai 4 atau seorang yang belum menikah jauh lebih tinggi daripada seorang yang sudah menikah, widow, maupun divorce. Berdasarkan tabel statistik presentase gagal bayar pinjaman tertinggi dengan nilai sebesar 9.8% (unmarried), diikuti 9.3% (sipil), dan nilai paling kecil 6.6% (widow)
- Kolom total_income sebagai acuan data statistiknya menunjukkan bahwa presentase pendapatan nasabah dengan probabilitas gagal bayar pinjaman pada rentang >60000 total pendapatan nasabah memiliki value yang paling sedikit sebesar 5.7% . Sedangkan untuk rentang pendapatan 15000-30000 memiliki value paling banyak dengan presentase 8.6%, lalu di ikuti oleh rentang 30000-45000 dengan sebesar 8.0% yang dimana seharusnya kemampuan seorang nasabah untuk gagal bayar cukup kecil.
- Kolom purpose sebagai acuan data statistiknya terlihat bahwa nilai presentase housing justru paling kecil dengan presentase hanya 7.3% untuk gagal bayar pinjam seorang nasabah. Dan tujuan kredit untuk mobil dan edukasi yang paling tinggi dengan nilai 9.3%, diikuti wedding dengan nilai 7.9%.
    
Dari keempat hipotesis secara statistik menunjukkan bahwa probabilitas gagal bayar pinjaman nasabah dapat di pengaruhi oleh beberapa faktor mengingat presentase gagal bayar cukup tinggi, seperti pada kolom children yang memiliki presentase angka 9.5% dimana nasabah yang memiliki anak 4 lebih besar kemungkinan untuk gagal bayar pinjam. Dilanjutkan pada kolom family yang dimana nasabah yang belum nikah jauh lebih tinggi presentasenya di angka 9.8%. Pada kolom total_income nasabah yang memiliki pendapatan di rentang 15000-30000 memiliki presentase gagal bayar cukup tinggi di angka 8.6%. Dan yang terakhir berdasarkan tujuan nasabah untuk kredit guna untuk keperluan biaya mobil dan edukasi dengan presentasi paling tinggi di angka 9.3% data.

Secara umum apabila kita ambil rata-rata presentase nilai daripada data final kita, maka kita bisa tahu presentase gagal bayar pinjam seluruh nasabah berkisar pada 9.3% dari keempat aspek yang kita uji pada hipotesis. Presentase tersebut bisa dibilang cukup tinggi untuk probabilitas gagal bayar pinjaman nasabah kredit. Akan tetapi mengingat data awal saat kotor banyak yang perlu di cleansing untuk penganalisisan hingga tahap kesimpulan ini. Besar kemungkinan hasil daripada hipotesis dan kesimpulan ini juga akan berbeda apabila kita tidak memiliki nilai yang hilang maupun nilai yang bermasalah.
