# Menganalisis Risiko Gagal Bayar Peminjam

Tugas Anda adalah menyiapkan laporan untuk divisi kredit suatu bank. Anda akan mencari tahu pengaruh status perkawinan seorang nasabah dan jumlah anak yang dimilikinya terhadap probabilitas gagal bayar dalam pelunasan pinjaman. Pihak bank sudah memiliki beberapa data mengenai kelayakan kredit nasabah.

Laporan Anda akan dipertimbangkan pada saat membuat **penilaian kredit** untuk calon nasabah. **Penilaian kredit** digunakan untuk mengevaluasi kemampuan calon peminjam untuk melunasi pinjaman mereka.

## Buka *file* data dan baca informasi umumnya.

In [1]:
import pandas as pd

In [2]:
data = pd.read_csv('/datasets/credit_scoring_eng.csv')
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## Eksplorasi data

**Deskripsi Data**
- `children` - jumlah anak dalam keluarga
- `days_employed` - pengalaman kerja nasabah dalam hari
- `dob_years` - usia nasabah dalam tahun
- `education` - tingkat pendidikan nasabah
- `education_id` - pengidentifikasi untuk tingkat pendidikan nasabah
- `family_status` - pengidentifikasi untuk status perkawinan nasabah
- `family_status_id` - tanda pengenal status perkawinan
- `gender` - jenis kelamin nasabah
- `income_type` - jenis pekerjaan
- `debt` - apakah nasabah pernah melakukan gagal bayar pinjaman
- `total_income` - pendapatan bulanan
- `purpose` - tujuan mendapatkan pinjaman

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [4]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


In [5]:
data.isna().sum() # menghitung nilai yang hilang

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Terdapat dua kolom yang memiliki nilai yang hilang. Yaitu pada kolom `days_employed` dan `total_income`.

In [6]:
data[data['days_employed'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


Setelah dilakukan filter data, diketahui bahwa benar terdapat nilai yang hilang (NaN) pada kolom `days_employed` dan `total_income`.

In [7]:
data[data['total_income'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


**Kesimpulan sementara**

Jumlah baris dalam tabel yang telah difilter sesuai dengan jumlah nilai yang hilang. Terdapat 2174 baris nilai yang hilang pada kolom `days_employed` dan `total_income`.

Nilai yang hilang akan dihitung persentasenya dan dibandingkan dengan keseluruhan data untuk mengetahui apakah data yang hilang merupakan data yang cukup besar. Jika benar, maka akan dilakukan pengisian nilai yang hilang. Dalam pengisian tersebut perlu mempertimbangkan faktor apa saja yang menyebabkan hilangnya nilai tersebut, seperti jenis pekerjaan atau yang lainnya. Selanjutnya dilakukan pemeriksaan terhadap adanya ketergantungan nilai yang hilang pada nilai indikator lain dengan mengidentifikasi karakteristik tertentu nasabah.

In [8]:
missing_data = data[data['days_employed'].isna() & data['total_income'].isna()]
missing_data.reset_index(drop=True)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
1,0,,41,secondary education,1,married,0,M,civil servant,0,,education
2,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
3,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
4,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
2169,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
2170,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
2171,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
2172,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


**Kemungkinan penyebab hilangnya nilai dalam data**

Nilai yang hilang akan diperiksa persentasenya setiap kolom untuk memastikan adanya pola atau acak. Hipotesis awal yaitu persentase umur, edukasi, dan status keluarga dari nasabah.

In [9]:
missing_data['dob_years'].value_counts(normalize=True)*100

34    3.173873
40    3.035879
31    2.989880
42    2.989880
35    2.943882
36    2.897884
47    2.713891
41    2.713891
30    2.667893
28    2.621895
57    2.575897
58    2.575897
54    2.529899
38    2.483901
56    2.483901
37    2.437902
52    2.437902
39    2.345906
33    2.345906
50    2.345906
51    2.299908
45    2.299908
49    2.299908
29    2.299908
43    2.299908
46    2.207912
55    2.207912
48    2.115915
53    2.023919
44    2.023919
60    1.793928
61    1.747930
62    1.747930
64    1.701932
32    1.701932
27    1.655934
23    1.655934
26    1.609936
59    1.563937
63    1.333947
25    1.057958
24    0.965961
66    0.919963
65    0.919963
21    0.827967
22    0.781969
67    0.735971
0     0.459982
68    0.413983
69    0.229991
20    0.229991
71    0.229991
70    0.137994
72    0.091996
19    0.045998
73    0.045998
Name: dob_years, dtype: float64

In [10]:
missing_data['education'].value_counts(normalize=True)*100

secondary education    64.765409
bachelor's degree      22.815087
SECONDARY EDUCATION     3.081877
Secondary Education     2.989880
some college            2.529899
Bachelor's Degree       1.149954
BACHELOR'S DEGREE       1.057958
primary education       0.873965
SOME COLLEGE            0.321987
Some College            0.321987
Primary Education       0.045998
PRIMARY EDUCATION       0.045998
Name: education, dtype: float64

In [11]:
missing_data['family_status'].value_counts(normalize=True)*100

married              56.899724
civil partnership    20.331187
unmarried            13.247470
divorced              5.151794
widow / widower       4.369825
Name: family_status, dtype: float64

**Kesimpulan sementara**

* Distribusi pada kolom `dob_years` tidak memiliki pola tertentu. Diketahui dari persentase yang kecil serta nilai yang hilang tidak berpola dari umur nasabah.
* Distribusi pada kolom `education` menunjukkan perlunya analisis selanjutnya karena adanya data duplikat. Namun dapat dipastikan pula terdapat beberapa data yang berbeda. Sehingga nilai yang hilang tidak berpola dari pendidikan.
* Distribusi pada kolom `family_status` menampilkan bahwa sebanyak 56% nilai yang hilang berasal dari status keluarga yang sudah menikah. Namun, terdapat pula status keluarga yang lain. Sehingga nilai yang hilang tidak berpola dari status keluarga.

Perlu dilakukan penyelidikan lebih lanjut. Hipotesis selanjutnya yaitu persentase jenis kelamin dan jenis pendapatan.

In [12]:
missing_data['gender'].value_counts(normalize=True)*100

F    68.26127
M    31.73873
Name: gender, dtype: float64

In [13]:
missing_data['income_type'].value_counts(normalize=True)*100

employee         50.827967
business         23.367065
retiree          18.997240
civil servant     6.761730
entrepreneur      0.045998
Name: income_type, dtype: float64

**Kesimpulan sementara**

* Distribusi pada kolom `gender` menunjukkan bahwa nilai yang hilang sebanyak 68% oleh wanita(F). Namun terdapat pula nilai yang hilang dari pria(M) sehingga nilai yang hilang tidak berpola dari jenis kelamin.
* Distribusi pada kolom `income_type` menjelaskan bahwa sebanyak 50% nilai yang hilang berasal dari jenis pekerjaan karyawan(employee). Namun tidak hanya karyawan saja yang menunjukkan nilai yang hilang sehingga nilai yang hilang tidak berpola dari jenis pekerjaan.

Hipotesis terakhir yaitu persentase tujuan.

In [14]:
missing_data['purpose'].value_counts(normalize=True)*100

having a wedding                            4.231831
to have a wedding                           3.725851
wedding ceremony                            3.495860
construction of own property                3.449862
housing transactions                        3.403864
buy real estate                             3.311868
transactions with my real estate            3.265869
purchase of the house for my family         3.265869
housing renovation                          3.219871
transactions with commercial real estate    3.219871
buy commercial real estate                  3.081877
buying property for renting out             2.989880
property                                    2.851886
buy residential real estate                 2.805888
real estate transactions                    2.805888
housing                                     2.759890
building a property                         2.713891
cars                                        2.621895
going to university                         2.

**Kesimpulan**

Dari hasil distribusi dapat ditarik kesimpulan bahwa persentase pada setiap kolom tidak memiliki pola tertentu dan nilai yang hilang secara acak. Namun ada beberapa indikator yang cukup besar persentasenya yaitu pada kolom `family_status` dengan married sebesar 56%, `gender` dengan wanita(F) sebesar 68%, dan `income_type` dengan employee sebesar 50%. Untuk kolom `education` perlu dilakukan transformasi data karena terdapat data duplikat sehingga tidak dapat dijadikan acuan. Sedangkan kolom `purpose` tidak perlu dilakukan perubahan walaupun memiliki data duplikat karena data tersebut tidak akan mempengaruhi data.

Langkah selanjutnya dalam mengatasi nilai yang hilang, akan dilakukan proses transformasi data dengan menghilangkan duplikat serta melakukan perhitungan rata-rata yang mungkin adalah keputusan yang tepat.
[Rencanakan secara singkat langkah Anda selanjutnya untuk mentransformasi data. Anda mungkin perlu mengatasi berbagai jenis masalah: duplikat, pencatatan yang berbeda, sumber data yang salah, dan nilai yang hilang.]

## Transformasi data

**Memperbaiki nilai duplikat**

In [15]:
data['education'].unique()

array(["bachelor's degree", 'secondary education', 'Secondary Education',
       'SECONDARY EDUCATION', "BACHELOR'S DEGREE", 'some college',
       'primary education', "Bachelor's Degree", 'SOME COLLEGE',
       'Some College', 'PRIMARY EDUCATION', 'Primary Education',
       'Graduate Degree', 'GRADUATE DEGREE', 'graduate degree'],
      dtype=object)

In [16]:
data['education'] = data['education'].str.lower()

In [17]:
data['education'].value_counts()

secondary education    15233
bachelor's degree       5260
some college             744
primary education        282
graduate degree            6
Name: education, dtype: int64

Nilai pada kolom `education` terdapat perbedaan penulisan huruf besar dan kecil. Saya telah memperbaikinya menjadi huruf kecil sehingga tidak adanya duplikat.

In [18]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

Nilai pada kolom `children` memiliki keanehan, yaitu anak yang berjumlah negatif satu serta dua puluh anak yang sepertinya tidak mungkin. Kemungkinan adanya salah ketik. Solusi dalam mengatasi masalah ini yaitu dengan mengubah -1 menjadi 1 dan 20 anak menjadi 2.

In [19]:
data['children'] = data['children'].replace(-1,1)
data['children'] = data['children'].replace(20,2)

In [20]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

In [21]:
data['days_employed']

0         -8437.673028
1         -4024.803754
2         -5623.422610
3         -4124.747207
4        340266.072047
             ...      
21520     -4529.316663
21521    343937.404131
21522     -2113.346888
21523     -3112.481705
21524     -1984.507589
Name: days_employed, Length: 21525, dtype: float64

Data di dalam kolom `days_employed` memiliki masalah, yaitu terdapat nilai yang negatif. Untuk memastikannya, dilakukan perhitungan persentase kesalahan data.

In [22]:
wrong_data_days = data[data['days_employed']<0]
wrong_data_days['days_employed'].reset_index(drop=True)

0       -8437.673028
1       -4024.803754
2       -5623.422610
3       -4124.747207
4        -926.185831
            ...     
15901   -2351.431934
15902   -4529.316663
15903   -2113.346888
15904   -3112.481705
15905   -1984.507589
Name: days_employed, Length: 15906, dtype: float64

In [23]:
percentage_days = wrong_data_days['days_employed'].count() / data['days_employed'].count()
print("Persentase data yang bermasalah pada kolom 'days_employed' yaitu:{:.0%} dari keseluruhan data.".format(percentage_days))

Persentase data yang bermasalah pada kolom 'days_employed' yaitu:82% dari keseluruhan data.


Persentase data yang bermasalah cukup tinggi yang mungkin disebabkan oleh beberapa masalah teknis. Alasan hal ini kemungkinan dari salahnya format yang perhitungannya berdasarkan waktu bukan hari atau hal lainnya. Data yang benar seharusnya data yang tidak negatif.

Untuk memperbaikinya, akan dilakukan pengubahan data dari nilai negatif menjadi nilai positif.

In [24]:
data['days_employed'] = data['days_employed'].abs()

In [25]:
data['days_employed']

0          8437.673028
1          4024.803754
2          5623.422610
3          4124.747207
4        340266.072047
             ...      
21520      4529.316663
21521    343937.404131
21522      2113.346888
21523      3112.481705
21524      1984.507589
Name: days_employed, Length: 21525, dtype: float64

In [26]:
data['dob_years'].unique()

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51,  0, 59, 29, 60, 55, 58, 71, 22, 73,
       66, 69, 19, 72, 70, 74, 75])

Data di dalam kolom `dob_years` memiliki masalah, yaitu terdapat nilai yang nol. Dikarenakan data umur nasabah tidak mungkin 0 dan apabila diperbaiki tentu tidak mungkin karena 0 memiliki banyak opsi umur puluhan, solusi terbaik yaitu menghapus data tersebut. Sebelum itu dilakukan pemeriksaan persentase data yang bermasalah pada kolom `dob_years` untuk memastikan dampak dari solusi menghapus data terhadap keseluruhan data.

In [27]:
wrong_dob_years = data[data['dob_years'] == 0]
wrong_dob_years['dob_years'].reset_index(drop=True)

0      0
1      0
2      0
3      0
4      0
      ..
96     0
97     0
98     0
99     0
100    0
Name: dob_years, Length: 101, dtype: int64

In [28]:
percentage_dob_years = wrong_dob_years['dob_years'].count() / data['dob_years'].count()
print("Persentase data yang bermasalah pada kolom 'dob_years' yaitu:{:.3%} dari keseluruhan data.".format(percentage_dob_years))

Persentase data yang bermasalah pada kolom 'dob_years' yaitu:0.469% dari keseluruhan data.


Persentase data yang bermasalah sangat kecil, sehingga dampak penghapusan data tidak akan bermasalah terhadap keseluruhan data.

In [29]:
data_new = data
data_new = data_new[data_new['dob_years'] != 0].reset_index(drop=True)

In [30]:
data_new['dob_years'].unique()

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51, 59, 29, 60, 55, 58, 71, 22, 73, 66,
       69, 19, 72, 70, 74, 75])

In [31]:
data_new['family_status'].unique()

array(['married', 'civil partnership', 'widow / widower', 'divorced',
       'unmarried'], dtype=object)

Data pada kolom `family_status` sudah cukup baik, tidak perlu ada perubahan.

In [32]:
data_new['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

In [33]:
data_new['gender'].value_counts()

F      14164
M       7259
XNA        1
Name: gender, dtype: int64

Data pada kolom `gender` terdapat nilai XNA. Jenis kelamin XNA tidak ada dan data diketahui hanya 1 nilai, karena hal tersebut data dapat didrop.

In [34]:
data_new.drop(data_new[data_new['gender'] == 'XNA'].index, inplace = True)
data_new['gender'].value_counts()

F    14164
M     7259
Name: gender, dtype: int64

In [35]:
data_new['income_type'].unique()

array(['employee', 'retiree', 'business', 'civil servant', 'unemployed',
       'entrepreneur', 'student', 'paternity / maternity leave'],
      dtype=object)

Data pada kolom `income_type` sudah cukup baik, tidak perlu ada perubahan.

**Memeriksa data duplikat**

In [36]:
data_new.duplicated().sum()

71

In [37]:
data_new = data_new.drop_duplicates().reset_index(drop=True)

In [38]:
data_new.duplicated().sum()

0

In [39]:
data_new.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding


Pada dataset baru yaitu `data_new`, terdapat beberapa hal perubahan. Yaitu memperbaiki duplikat penulisan huruf pada kolom `education`, kemudian memperbaiki jumlah yang tidak mungkin pada kolom `children`. Selanjutnya kolom `days_employed` diubah hari-hari yang bernilai negatif menjadi positif serta menghapus umur nasabah yang tidak mungkin pada kolom `dob_years`. Terakhir memeriksa duplikat pada dataset baru dan memperbaikinya.

# Bekerja dengan nilai yang hilang

Pada data, terdapat dua kolom yang memiliki ID, yaitu kolom `education` dan `family_status`. *dictionary* digunakan untuk menyimpan nilai data dalam pasangan key:value agar mempermudah pemrosesan data.

In [40]:
data_new[['education', 'education_id']].drop_duplicates().reset_index(drop=True)

Unnamed: 0,education,education_id
0,bachelor's degree,0
1,secondary education,1
2,some college,2
3,primary education,3
4,graduate degree,4


In [41]:
data_new[ ['family_status', 'family_status_id'] ].drop_duplicates().reset_index(drop=True)

Unnamed: 0,family_status,family_status_id
0,married,0
1,civil partnership,1
2,widow / widower,2
3,divorced,3
4,unmarried,4


### Memperbaiki nilai yang hilang di `total_income`

Nilai yang hilang pada kolom `total_income` dapat diperbaiki dengan membuat katagori usia untuk nasabah.

In [42]:
def age_group(age):   
    if age <= 30:
        return 'young adult'
    if 31 <= age <= 45:
        return 'middle-aged adult'
    else:
        return 'old-aged adult'
    return 'Unidentified' 

In [43]:
age_group(70)

'old-aged adult'

In [44]:
data_new['age_group'] = data_new['dob_years'].apply(age_group)

In [45]:
data_new['age_group'].value_counts()

old-aged adult       9150
middle-aged adult    8486
young adult          3716
Name: age_group, dtype: int64

In [46]:
data_new.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,middle-aged adult
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,middle-aged adult
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,middle-aged adult
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,middle-aged adult
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,old-aged adult


In [47]:
data_notna = data_new[data_new['days_employed'].notna()].reset_index(drop=True)

In [48]:
data_notna.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
age_group           0
dtype: int64

In [49]:
data_notna.groupby('age_group')['total_income'].mean()

age_group
middle-aged adult    28500.918312
old-aged adult       25605.151757
young adult          25815.651899
Name: total_income, dtype: float64

In [50]:
data_notna.groupby('age_group')['total_income'].median()

age_group
middle-aged adult    24752.294
old-aged adult       22112.445
young adult          22955.474
Name: total_income, dtype: float64

In [51]:
data_notna.groupby('income_type')['total_income'].mean().sort_values()

income_type
paternity / maternity leave     8612.661000
student                        15712.260000
unemployed                     21014.360500
retiree                        21939.310393
employee                       25824.679592
civil servant                  27361.316126
business                       32397.307219
entrepreneur                   79866.103000
Name: total_income, dtype: float64

In [52]:
data_notna.groupby('income_type')['total_income'].median().sort_values()

income_type
paternity / maternity leave     8612.6610
student                        15712.2600
retiree                        18969.1490
unemployed                     21014.3605
employee                       22815.1035
civil servant                  24083.5065
business                       27563.0285
entrepreneur                   79866.1030
Name: total_income, dtype: float64

Dari data tersebut untuk mengolah karakteristik data yang tepat yaitu menggunakan data median. Karena data yang didapatkan tidak simetris sehingga cocok untuk distribusi tersebut. Serta parameter `total_income` dapat mengidentifikasi dengan `age_group` karena usia dapat mempengaruhi jumlah pendapatan. Semakin tinggi usia maka jumlah pendapatan akan bertambah.

In [53]:
def fill_missing_total_income_value (dataframe, agg_column, value_column):
    grouped_values = dataframe.groupby(agg_column)[value_column].median().reset_index()
    size = len(grouped_values)
    for i in range(size):
        group = grouped_values[agg_column][i]
        value = grouped_values[value_column][i]
        dataframe.loc[(dataframe[agg_column]==group) & (dataframe[value_column].isna()), value_column] = value
    return dataframe

In [54]:
data_new = fill_missing_total_income_value(dataframe = data_new, agg_column = 'age_group', value_column = 'total_income')

In [55]:
data_new['total_income'].reset_index()

Unnamed: 0,index,total_income
0,0,40620.102
1,1,17932.802
2,2,23341.752
3,3,42820.568
4,4,25378.572
...,...,...
21347,21347,35966.698
21348,21348,24959.969
21349,21349,14347.610
21350,21350,39054.888


In [56]:
data_new.isna().sum()

children               0
days_employed       2093
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
age_group              0
dtype: int64

In [57]:
data_new.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21352 entries, 0 to 21351
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21352 non-null  int64  
 1   days_employed     19259 non-null  float64
 2   dob_years         21352 non-null  int64  
 3   education         21352 non-null  object 
 4   education_id      21352 non-null  int64  
 5   family_status     21352 non-null  object 
 6   family_status_id  21352 non-null  int64  
 7   gender            21352 non-null  object 
 8   income_type       21352 non-null  object 
 9   debt              21352 non-null  int64  
 10  total_income      21352 non-null  float64
 11  purpose           21352 non-null  object 
 12  age_group         21352 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.1+ MB


Nilai yang hilang pada kolom `total_income` telah diperbaiki menjadi data dari median.

###  Memperbaiki nilai di `days_employed`

In [58]:
data_notna.groupby('income_type')['days_employed'].median()

income_type
business                         1548.009883
civil servant                    2673.404956
employee                         1576.067689
entrepreneur                      520.848083
paternity / maternity leave      3296.759962
retiree                        365176.336775
student                           578.751554
unemployed                     366413.652744
Name: days_employed, dtype: float64

In [59]:
data_notna.groupby('income_type')['days_employed'].mean()

income_type
business                         2112.744402
civil servant                    3388.508552
employee                         2328.603723
entrepreneur                      520.848083
paternity / maternity leave      3296.759962
retiree                        365015.727554
student                           578.751554
unemployed                     366413.652744
Name: days_employed, dtype: float64

Parameter `days_employed` dapat teridentifikasi dengan `income_type` karena hubungan antara waktu bekerja dengan jenis pekerjaan akan masuk akal. Nilai hilang akan diisi dengan median dari kolom tersebut karena data yang dimiliki tidak simetris sehingga akan cocok dengan distribusi tersebut.

In [60]:
def fill_missing_days_employed_value (dataframe, agg_column, value_column):
    grouped_values = dataframe.groupby(agg_column)[value_column].median().reset_index()
    size = len(grouped_values)
    for i in range(size):
        group = grouped_values[agg_column][i]
        value = grouped_values[value_column][i]
        dataframe.loc[(dataframe[agg_column]==group) & (dataframe[value_column].isna()), value_column] = value
    return dataframe

In [61]:
data_new = fill_missing_days_employed_value(dataframe = data_new, agg_column = 'income_type', value_column = 'days_employed')

In [62]:
data_new['days_employed'].reset_index()

Unnamed: 0,index,days_employed
0,0,8437.673028
1,1,4024.803754
2,2,5623.422610
3,3,4124.747207
4,4,340266.072047
...,...,...
21347,21347,4529.316663
21348,21348,343937.404131
21349,21349,2113.346888
21350,21350,3112.481705


In [63]:
data_new.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
age_group           0
dtype: int64

In [64]:
data_new.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21352 entries, 0 to 21351
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21352 non-null  int64  
 1   days_employed     21352 non-null  float64
 2   dob_years         21352 non-null  int64  
 3   education         21352 non-null  object 
 4   education_id      21352 non-null  int64  
 5   family_status     21352 non-null  object 
 6   family_status_id  21352 non-null  int64  
 7   gender            21352 non-null  object 
 8   income_type       21352 non-null  object 
 9   debt              21352 non-null  int64  
 10  total_income      21352 non-null  float64
 11  purpose           21352 non-null  object 
 12  age_group         21352 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.1+ MB


**Nilai yang hilang sudah teratasi.**

## Pengkategorian Data

Dalam mengkatagorikan data ini, dapat dilihat dari hipotesis berikut:
* Apakah terdapat hubungan antara memiliki anak dan probabilitas seseorang melakukan gagal bayar pinjaman?
* Apakah terdapat hubungan antara tingkat pendapatan dan probabilitas seseorang melakukan gagal bayar pinjaman?
* Bagaimana perbedaan tujuan pinjaman memengaruhi probabilitas seseorang melakukan gagal bayar pinjaman
Sebelumnya ada beberapa kolom yang sudah dikatagorikan serta ada beberapa kolom juga yang tidak bisa di katagorikan.

In [65]:
data_new[['children', 'total_income', 'purpose']]

Unnamed: 0,children,total_income,purpose
0,1,40620.102,purchase of the house
1,1,17932.802,car purchase
2,0,23341.752,purchase of the house
3,3,42820.568,supplementary education
4,0,25378.572,to have a wedding
...,...,...,...
21347,1,35966.698,housing transactions
21348,0,24959.969,purchase of a car
21349,1,14347.610,property
21350,3,39054.888,buying my own car


In [66]:
data_new[['children']].value_counts()

children
0           14021
1            4839
2            2114
3             328
4              41
5               9
dtype: int64

Dari data di atas dapat dilakukan pengkatagorian untuk `children` dengan dua katagori, yaitu 'have a child' and 'childless'.

In [67]:
def categorize_children (child):
    if child < 1:
        return 'childless'
    return 'have a child' 

In [68]:
data_new['categorize_children'] = data_new['children'].apply(categorize_children)
data_new['categorize_children'].value_counts()

childless       14021
have a child     7331
Name: categorize_children, dtype: int64

Jumlah anak berhasil dikatagorikan.

In [69]:
data_new[['total_income']].describe()

Unnamed: 0,total_income
count,21352.0
mean,26450.826904
std,15704.206248
min,3306.762
25%,17223.82125
50%,22955.474
75%,31321.653
max,362496.645


Dari data di atas, dilakukan pengkatagorian untuk `total_income` dengan rentang <15000 yang ditulis sebagai 'very low', rentang 15000 - 20000 sebagai 'low', 20000 - 25000 'middle low', 25000 - 30000 'middle', 30000 - 35000 'high', dan 35000 keatas 'very high'.

In [70]:
def categorize_income (income):
    if income < 15000:
        return 'very low'
    if 15000 <= income < 20000:
        return 'low'
    if 20000 <= income < 25000:
        return 'middle low'
    if 25000 <= income < 30000:
        return 'middle'
    if 30000 <= income < 35000:
        return 'high'
    else:
        return 'very high'
    return 'Unidentified' 

In [71]:
data_new['categorize_income'] = data_new['total_income'].apply(categorize_income)
data_new['categorize_income'].value_counts()

middle low    5461
very high     4048
very low      3723
low           3609
middle        2670
high          1841
Name: categorize_income, dtype: int64

Jumlah pendapatan berhasil dikatagorikan.

In [72]:
data_new['purpose'].unique()

array(['purchase of the house', 'car purchase', 'supplementary education',
       'to have a wedding', 'housing transactions', 'education',
       'having a wedding', 'purchase of the house for my family',
       'buy real estate', 'buy commercial real estate',
       'buy residential real estate', 'construction of own property',
       'property', 'building a property', 'buying a second-hand car',
       'buying my own car', 'transactions with commercial real estate',
       'building a real estate', 'housing',
       'transactions with my real estate', 'cars', 'to become educated',
       'second-hand car purchase', 'getting an education', 'car',
       'wedding ceremony', 'to get a supplementary education',
       'purchase of my own house', 'real estate transactions',
       'getting higher education', 'to own a car', 'purchase of a car',
       'profile education', 'university education',
       'buying property for renting out', 'to buy a car',
       'housing renovation', 'going

Dari kolom `purpose` terdapat empat kelompok utama yang dapat dibagi berdasarkan nilai unik. Yaitu pembelian rumah atau properti, pembelian mobil, biaya pendidikan, dan biaya pernikahan.

In [73]:
def categorize_purpose(row):
    if 'car' in row:
        return 'car'
    if 'hous' in row or 'prop' in row or 'real est' in row:
        return 'real estate'
    if 'wedd' in row:
        return 'wedding'
    if 'educ' in row or 'uni' in row:
        return 'education'
    else:
        return 'Unidentified'

In [74]:
data_new['categorize_purpose'] = data_new['purpose'].apply(categorize_purpose)
data_new['categorize_purpose'].value_counts()

real estate    10763
car             4284
education       3995
wedding         2310
Name: categorize_purpose, dtype: int64

Tujuan peminjaman berhasil dikatagorikan.

In [75]:
data_new

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,categorize_children,categorize_income,categorize_purpose
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,middle-aged adult,have a child,very high,real estate
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,middle-aged adult,have a child,low,car
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,middle-aged adult,childless,middle low,real estate
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,middle-aged adult,have a child,very high,education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,old-aged adult,childless,middle,wedding
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21347,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,middle-aged adult,have a child,very high,real estate
21348,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,old-aged adult,childless,middle low,car
21349,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,middle-aged adult,have a child,very low,real estate
21350,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,middle-aged adult,have a child,very high,car


## Memeriksa hipotesis


**Apakah terdapat korelasi antara memiliki anak dengan probabilitas melakukan gagal bayar pinjaman?**

In [76]:
data_new[['categorize_children']].value_counts()

categorize_children
childless              14021
have a child            7331
dtype: int64

In [77]:
data_new[['categorize_children', 'debt']].value_counts()

categorize_children  debt
childless            0       12963
have a child         0        6656
childless            1        1058
have a child         1         675
dtype: int64

In [78]:
childless_sum = data_new.loc[data_new['categorize_children'] == 'childless'].count()
children_sum = data_new.loc[data_new['categorize_children'] == 'have a child'].count()

In [79]:
debtors = data_new.loc[data_new['debt'] == 1]
success = data_new.loc[data_new['debt'] != 1]

`debtors` merupakan jumlah total seluruh nasabah yang gagal bayar pinjaman.

`success` merupakan jumlah total seluruh nasabah yang berhasil bayar pinjaman.

In [80]:
children_debtors = debtors.groupby('categorize_children')['debt'].count()
children_debtors

categorize_children
childless       1058
have a child     675
Name: debt, dtype: int64

In [81]:
childless_probability = debtors.loc[debtors['categorize_children'] == 'childless'].count()
percentage_childless_probability = childless_probability['categorize_children'] / childless_sum['categorize_children']
print("Persentase nasabah childless yang gagal bayar yaitu:{:.3%}.".format(percentage_childless_probability))

Persentase nasabah childless yang gagal bayar yaitu:7.546%.


In [82]:
children_probability = debtors.loc[debtors['categorize_children'] == 'have a child'].count()
percentage_children_probability = children_probability['categorize_children'] / children_sum['categorize_children']
print("Persentase nasabah have a child yang gagal bayar yaitu:{:.3%}.".format(percentage_children_probability))

Persentase nasabah have a child yang gagal bayar yaitu:9.207%.


In [83]:
childless_success = success.loc[success['categorize_children'] == 'childless'].count()
percentage_childless_success = childless_success['categorize_children'] / childless_sum['categorize_children']
print("Persentase nasabah childless yang berhasil bayar yaitu:{:.3%}.".format(percentage_childless_success))

Persentase nasabah childless yang berhasil bayar yaitu:92.454%.


In [84]:
children_success = success.loc[success['categorize_children'] == 'have a child'].count()
percentage_children_success = children_success['categorize_children'] / children_sum['categorize_children']
print("Persentase nasabah have a child yang berhasil bayar yaitu:{:.3%}.".format(percentage_children_success))

Persentase nasabah have a child yang berhasil bayar yaitu:90.793%.


**Kesimpulan**

* Sebanyak 92% nasabah yang tidak memiliki anak, berhasil melakukan pembayaran pinjaman.
* Sebanyak 90% nasabah yang memiliki anak, berhasil melakukan pembayaran pinjaman.
* Hanya 7% nasabah yang tidak memiliki anak serta 9% nasabah yang memiliki anak gagal melakukan pembayaran pinjaman.

Dari kesimpulan tersebut dapat diketahui bahwa tidak ada korelasi antara memiliki anak dan tidak memiliki anak dengan gagal melakukan bayar pinjaman. Karena hanya sebagian kecil nasabah yang memiliki anak dan tidak memiliki anak yang gagal melakukan pembayaran pinjaman.

**Apakah terdapat korelasi antara status keluarga dengan probabilitas melakukan gagal bayar pinjaman?**

In [85]:
data_new[['family_status']].value_counts()

family_status    
married              12290
civil partnership     4129
unmarried             2794
divorced              1185
widow / widower        954
dtype: int64

In [86]:
data_new[['family_status', 'debt']].value_counts()

family_status      debt
married            0       11363
civil partnership  0        3743
unmarried          0        2521
divorced           0        1100
married            1         927
widow / widower    0         892
civil partnership  1         386
unmarried          1         273
divorced           1          85
widow / widower    1          62
dtype: int64

In [87]:
married_sum = data_new.loc[data_new['family_status'] == 'married'].count()
civil_partnership_sum = data_new.loc[data_new['family_status'] == 'civil partnership'].count()
unmarried_sum = data_new.loc[data_new['family_status'] == 'unmarried'].count()
divorced_sum = data_new.loc[data_new['family_status'] == 'divorced'].count()
widow_sum = data_new.loc[data_new['family_status'] == 'widow / widower'].count()

In [88]:
status_debtors = debtors.groupby('family_status')['debt'].count()
status_debtors

family_status
civil partnership    386
divorced              85
married              927
unmarried            273
widow / widower       62
Name: debt, dtype: int64

In [89]:
married_probability = debtors.loc[debtors['family_status'] == 'married'].count()
percentage_married_probability = married_probability['family_status'] / married_sum['family_status']

civil_partnership_probability = debtors.loc[debtors['family_status'] == 'civil partnership'].count()
percentage_civil_partnership_probability = civil_partnership_probability['family_status'] / civil_partnership_sum['family_status']

unmarried_probability = debtors.loc[debtors['family_status'] == 'unmarried'].count()
percentage_unmarried_probability = unmarried_probability['family_status'] / unmarried_sum['family_status']

divorced_probability = debtors.loc[debtors['family_status'] == 'divorced'].count()
percentage_divorced_probability = divorced_probability['family_status'] / divorced_sum['family_status']

widow_probability = debtors.loc[debtors['family_status'] == 'widow / widower'].count()
percentage_widow_probability = widow_probability['family_status'] / widow_sum['family_status']

print("Persentase nasabah menikah yang gagal bayar yaitu:{:.3%}.".format(percentage_married_probability))
print("Persentase nasabah partner hukum yang gagal bayar yaitu:{:.3%}.".format(percentage_civil_partnership_probability))
print("Persentase nasabah tidak menikah yang gagal bayar yaitu:{:.3%}.".format(percentage_unmarried_probability))
print("Persentase nasabah cerai yang gagal bayar yaitu:{:.3%}.".format(percentage_divorced_probability))
print("Persentase nasabah cerai mati yang gagal bayar yaitu:{:.3%}.".format(percentage_widow_probability))

Persentase nasabah menikah yang gagal bayar yaitu:7.543%.
Persentase nasabah partner hukum yang gagal bayar yaitu:9.349%.
Persentase nasabah tidak menikah yang gagal bayar yaitu:9.771%.
Persentase nasabah cerai yang gagal bayar yaitu:7.173%.
Persentase nasabah cerai mati yang gagal bayar yaitu:6.499%.


In [90]:
married_success = success.loc[success['family_status'] == 'married'].count()
percentage_married_success = married_success['family_status'] / married_sum['family_status']

civil_partnership_success = success.loc[success['family_status'] == 'civil partnership'].count()
percentage_civil_partnership_success = civil_partnership_success['family_status'] / civil_partnership_sum['family_status']

unmarried_success = success.loc[success['family_status'] == 'unmarried'].count()
percentage_unmarried_success = unmarried_success['family_status'] / unmarried_sum['family_status']

divorced_success = success.loc[success['family_status'] == 'divorced'].count()
percentage_divorced_success = divorced_success['family_status'] / divorced_sum['family_status']

widow_success = success.loc[success['family_status'] == 'widow / widower'].count()
percentage_widow_success = widow_success['family_status'] / widow_sum['family_status']

print("Persentase nasabah menikah yang berhasil bayar yaitu:{:.3%}.".format(percentage_married_success))
print("Persentase nasabah partner hukum yang berhasil bayar yaitu:{:.3%}.".format(percentage_civil_partnership_success))
print("Persentase nasabah tidak menikah yang berhasil bayar yaitu:{:.3%}.".format(percentage_unmarried_success))
print("Persentase nasabah cerai yang berhasil bayar yaitu:{:.3%}.".format(percentage_divorced_success))
print("Persentase nasabah cerai mati yang berhasil bayar yaitu:{:.3%}.".format(percentage_widow_success))

Persentase nasabah menikah yang berhasil bayar yaitu:92.457%.
Persentase nasabah partner hukum yang berhasil bayar yaitu:90.651%.
Persentase nasabah tidak menikah yang berhasil bayar yaitu:90.229%.
Persentase nasabah cerai yang berhasil bayar yaitu:92.827%.
Persentase nasabah cerai mati yang berhasil bayar yaitu:93.501%.


**Kesimpulan**

* Sebanyak 92% nasabah yang menikah, berhasil melakukan pembayaran pinjaman.
* Sebanyak 90% nasabah yang berpasangan secara hukum, berhasil melakukan pembayaran pinjaman.
* Sebanyak 90% nasabah yang tidak menikah, berhasil melakukan pembayaran pinjaman.
* Sebanyak 92% nasabah yang cerai, berhasil melakukan pembayaran pinjaman.
* Sebanyak 93% nasabah yang cerai mati, berhasil melakukan pembayaran pinjaman.
* Hanya 7% nasabah yang menikah dan cerai, 9% nasabah yang berpasangan secara hukum dan tidak menikah,  dan 6% cerai mati yang gagal melakukan pembayaran pinjaman.

Dari kesimpulan tersebut dapat diketahui bahwa tidak ada korelasi antara status keluarga dengan gagal melakukan bayar pinjaman. Karena hanya sebagian kecil nasabah yang memiliki hubungan keluarga dan tidak yang gagal melakukan pembayaran pinjaman.


**Apakah terdapat korelasi antara tingkat pendapatan dengan probabilitas melakukan gagal bayar pinjaman?**

In [91]:
data_new[['categorize_income']].value_counts()

categorize_income
middle low           5461
very high            4048
very low             3723
low                  3609
middle               2670
high                 1841
dtype: int64

In [92]:
data_new[['categorize_income', 'debt']].value_counts()

categorize_income  debt
middle low         0       5005
very high          0       3759
very low           0       3426
low                0       3301
middle             0       2433
high               0       1695
middle low         1        456
low                1        308
very low           1        297
very high          1        289
middle             1        237
high               1        146
dtype: int64

In [93]:
very_low_sum = data_new.loc[data_new['categorize_income'] == 'very low'].count()
low_sum = data_new.loc[data_new['categorize_income'] == 'low'].count()
middle_low_sum = data_new.loc[data_new['categorize_income'] == 'middle low'].count()
middle_sum = data_new.loc[data_new['categorize_income'] == 'middle'].count()
high_sum = data_new.loc[data_new['categorize_income'] == 'high'].count()
very_high_sum = data_new.loc[data_new['categorize_income'] == 'very high'].count()

In [94]:
income_debtors = debtors.groupby('categorize_income')['debt'].count()
income_debtors

categorize_income
high          146
low           308
middle        237
middle low    456
very high     289
very low      297
Name: debt, dtype: int64

In [95]:
very_low_probability = debtors.loc[debtors['categorize_income'] == 'very low'].count()
percentage_very_low_probability = very_low_probability['categorize_income'] / very_low_sum['categorize_income']

low_probability = debtors.loc[debtors['categorize_income'] == 'low'].count()
percentage_low_probability = low_probability['categorize_income'] / low_sum['categorize_income']

middle_low_probability = debtors.loc[debtors['categorize_income'] == 'middle low'].count()
percentage_middle_low_probability = middle_low_probability['categorize_income'] / middle_low_sum['categorize_income']

middle_probability = debtors.loc[debtors['categorize_income'] == 'middle'].count()
percentage_middle_probability = middle_probability['categorize_income'] / middle_sum['categorize_income']

high_probability = debtors.loc[debtors['categorize_income'] == 'high'].count()
percentage_high_probability = high_probability['categorize_income'] / high_sum['categorize_income']

very_high_probability = debtors.loc[debtors['categorize_income'] == 'very high'].count()
percentage_very_high_probability = very_high_probability['categorize_income'] / very_high_sum['categorize_income']

print("Persentase nasabah pendapatan sangat rendah yang gagal bayar yaitu:{:.3%}.".format(percentage_very_low_probability))
print("Persentase nasabah pendapatan rendah yang gagal bayar yaitu:{:.3%}.".format(percentage_low_probability))
print("Persentase nasabah pendapatan menengah bawah yang gagal bayar yaitu:{:.3%}.".format(percentage_middle_low_probability))
print("Persentase nasabah pendapatan menengah yang gagal bayar yaitu:{:.3%}.".format(percentage_middle_probability))
print("Persentase nasabah pendapatan tinggi yang gagal bayar yaitu:{:.3%}.".format(percentage_high_probability))
print("Persentase nasabah pendapatan sangat tinggi yang gagal bayar yaitu:{:.3%}.".format(percentage_very_high_probability))

Persentase nasabah pendapatan sangat rendah yang gagal bayar yaitu:7.977%.
Persentase nasabah pendapatan rendah yang gagal bayar yaitu:8.534%.
Persentase nasabah pendapatan menengah bawah yang gagal bayar yaitu:8.350%.
Persentase nasabah pendapatan menengah yang gagal bayar yaitu:8.876%.
Persentase nasabah pendapatan tinggi yang gagal bayar yaitu:7.930%.
Persentase nasabah pendapatan sangat tinggi yang gagal bayar yaitu:7.139%.


In [96]:
very_low_success = success.loc[success['categorize_income'] == 'very low'].count()
percentage_very_low_success = very_low_success['categorize_income'] / very_low_sum['categorize_income']

low_success = success.loc[success['categorize_income'] == 'low'].count()
percentage_low_success = low_success['categorize_income'] / low_sum['categorize_income']

middle_low_success = success.loc[success['categorize_income'] == 'middle low'].count()
percentage_middle_low_success = middle_low_success['categorize_income'] / middle_low_sum['categorize_income']

middle_success = success.loc[success['categorize_income'] == 'middle'].count()
percentage_middle_success = middle_success['categorize_income'] / middle_sum['categorize_income']

high_success = success.loc[success['categorize_income'] == 'high'].count()
percentage_high_success = high_success['categorize_income'] / high_sum['categorize_income']

very_high_success = success.loc[success['categorize_income'] == 'very high'].count()
percentage_very_high_success = very_high_success['categorize_income'] / very_high_sum['categorize_income']

print("Persentase nasabah pendapatan sangat rendah yang gagal bayar yaitu:{:.3%}.".format(percentage_very_low_success))
print("Persentase nasabah pendapatan rendah yang gagal bayar yaitu:{:.3%}.".format(percentage_low_success))
print("Persentase nasabah pendapatan menengah bawah yang gagal bayar yaitu:{:.3%}.".format(percentage_middle_low_success))
print("Persentase nasabah pendapatan menengah yang gagal bayar yaitu:{:.3%}.".format(percentage_middle_success))
print("Persentase nasabah pendapatan tinggi yang gagal bayar yaitu:{:.3%}.".format(percentage_high_success))
print("Persentase nasabah pendapatan sangat tinggi yang gagal bayar yaitu:{:.3%}.".format(percentage_very_high_success))

Persentase nasabah pendapatan sangat rendah yang gagal bayar yaitu:92.023%.
Persentase nasabah pendapatan rendah yang gagal bayar yaitu:91.466%.
Persentase nasabah pendapatan menengah bawah yang gagal bayar yaitu:91.650%.
Persentase nasabah pendapatan menengah yang gagal bayar yaitu:91.124%.
Persentase nasabah pendapatan tinggi yang gagal bayar yaitu:92.070%.
Persentase nasabah pendapatan sangat tinggi yang gagal bayar yaitu:92.861%.


**Kesimpulan**

Dari data tersebut dapat menunjukkan bahwa tingkat pendapatan tidak ada kaitannya dengan probabilitas melakukan gagal bayar pinjaman. Buktinya dapat dilihat pada data tersebut, tingkat pendapatan memiliki persentase diatas 90% berhasil melakukan bayar pinjaman.

**Bagaimana tujuan kredit memengaruhi persentase gagal bayar?**

In [97]:
data_new[['categorize_purpose']].value_counts()

categorize_purpose
real estate           10763
car                    4284
education              3995
wedding                2310
dtype: int64

In [98]:
data_new[['categorize_purpose', 'debt']].value_counts()

categorize_purpose  debt
real estate         0       9984
car                 0       3884
education           0       3625
wedding             0       2126
real estate         1        779
car                 1        400
education           1        370
wedding             1        184
dtype: int64

In [99]:
estate_sum = data_new.loc[data_new['categorize_purpose'] == 'real estate'].count()
car_sum = data_new.loc[data_new['categorize_purpose'] == 'car'].count()
education_sum = data_new.loc[data_new['categorize_purpose'] == 'education'].count()
wedding_sum = data_new.loc[data_new['categorize_purpose'] == 'wedding'].count()

In [100]:
purpose_debtors = debtors.groupby('categorize_purpose')['debt'].count()
purpose_debtors

categorize_purpose
car            400
education      370
real estate    779
wedding        184
Name: debt, dtype: int64

In [101]:
estate_probability = debtors.loc[debtors['categorize_purpose'] == 'real estate'].count()
percentage_estate_probability = estate_probability['categorize_purpose'] / estate_sum['categorize_purpose']

car_probability = debtors.loc[debtors['categorize_purpose'] == 'car'].count()
percentage_car_probability = car_probability['categorize_purpose'] / car_sum['categorize_purpose']

education_probability = debtors.loc[debtors['categorize_purpose'] == 'education'].count()
percentage_education_probability = education_probability['categorize_purpose'] / education_sum['categorize_purpose']

wedding_probability = debtors.loc[debtors['categorize_purpose'] == 'wedding'].count()
percentage_wedding_probability = wedding_probability['categorize_purpose'] / wedding_sum['categorize_purpose']

print("Persentase nasabah tujuan perumahan yang gagal bayar yaitu:{:.3%}.".format(percentage_estate_probability))
print("Persentase nasabah tujuan mobil yang gagal bayar yaitu:{:.3%}.".format(percentage_car_probability))
print("Persentase nasabah tujuan pendidikan yang gagal bayar yaitu:{:.3%}.".format(percentage_education_probability))
print("Persentase nasabah tujuan pernikahan yang gagal bayar yaitu:{:.3%}.".format(percentage_wedding_probability))

Persentase nasabah tujuan perumahan yang gagal bayar yaitu:7.238%.
Persentase nasabah tujuan mobil yang gagal bayar yaitu:9.337%.
Persentase nasabah tujuan pendidikan yang gagal bayar yaitu:9.262%.
Persentase nasabah tujuan pernikahan yang gagal bayar yaitu:7.965%.


In [102]:
estate_success = success.loc[success['categorize_purpose'] == 'real estate'].count()
percentage_estate_success = estate_success['categorize_purpose'] / estate_sum['categorize_purpose']

car_success = success.loc[success['categorize_purpose'] == 'car'].count()
percentage_car_success = car_success['categorize_purpose'] / car_sum['categorize_purpose']

education_success = success.loc[success['categorize_purpose'] == 'education'].count()
percentage_education_success = education_success['categorize_purpose'] / education_sum['categorize_purpose']

wedding_success = success.loc[success['categorize_purpose'] == 'wedding'].count()
percentage_wedding_success = wedding_success['categorize_purpose'] / wedding_sum['categorize_purpose']

print("Persentase nasabah tujuan perumahan yang gagal bayar yaitu:{:.3%}.".format(percentage_estate_success))
print("Persentase nasabah tujuan mobil yang gagal bayar yaitu:{:.3%}.".format(percentage_car_success))
print("Persentase nasabah tujuan pendidikan yang gagal bayar yaitu:{:.3%}.".format(percentage_education_success))
print("Persentase nasabah tujuan pernikahan yang gagal bayar yaitu:{:.3%}.".format(percentage_wedding_success))

Persentase nasabah tujuan perumahan yang gagal bayar yaitu:92.762%.
Persentase nasabah tujuan mobil yang gagal bayar yaitu:90.663%.
Persentase nasabah tujuan pendidikan yang gagal bayar yaitu:90.738%.
Persentase nasabah tujuan pernikahan yang gagal bayar yaitu:92.035%.


**Kesimpulan**

Dari data tersebut dapat menunjukkan bahwa tujuan peminjaman tidak ada kaitannya dengan probabilitas melakukan gagal bayar pinjaman. Buktinya dapat dilihat pada data bahwa persentase tertinggi berhasil melakukan bayar pinjaman diatas 90%.


# Kesimpulan umum 

Dari hasil pemrosesan data dapat ditarik kesimpulan bahwa:

* Nilai yang hilang pada dataset ini ada secara acak tanpa pola. Dalam mengatasi data hilang ini dilakukan dengan pengisian data dari nilai median data yang tersedia.
* Data duplikat pada dataset ini diperbaiki dengan mengubah cara penulisan menjadi huruf kecil.
* Terdapat pula data yang tidak logis seperti memiliki anak berjumlah negatif dan puluhan. Asumsi kesalahan tersebut akibat salah ketik. Data tersebut diperbaiki dengan mengubah nilai negatif menjadi positif serta menghapus nilai puluhan.
* Pada kolom usia nasabah, terdapat usia yang tidak valid yaitu 0. Data tersebut diperbaiki dengan menghapus nilai tersebut karena sulit apabila diketahui data tersebut salah ketik.
* Data baru yang telah diperbaiki diperiksa kembali duplikatnya. Dilakukan proses drop duplikat.
* Data dictionary dilakukan drop duplikat karena merupakan salah satu cara mudah untuk memperbaiki data.
* Nilai yang hilang pada kolom `total_income` diperbaiki dengan membuat katagori usia untuk nasabah. Lalu diisi dengan data median yang tersedia.
* Nilai yang hilang pada kolom `days_employed` diperbaiki dengan mengisi nilai kosong dengan data median yang tersedia.
* Data dilakukan pengkatagorian data untuk mempermudah pemeriksaan hipotesis.
* Pemeriksaan hipotesis, dari data yang telah diolah dapat diketahui bahwa tidak adanya kaitannya dengan probabilitas melakukan gagal bayar pinjaman. Hanya sebagian kecil nasabah yang gagal melakukan pembayaran pinjaman yang dapat dilihat dari persentase nasabah. Diketahui bahwa nasabah dengan persentase tertinggi berhasil melakukan pembayaran pinjaman juga memiliki persentase tertinggi gagal melakukan pembayaran pinjaman.
* Dari hasil pemeriksaan data hipotesis, dapat diketahui bahwa probabilitas nasabah dalam memiliki anak, status keluarga, total pendapatan, dan tujuan pembelian tidak mempengaruhi gagal bayar nasabah karena diketahui pada data bahwa 90% ke atas nasabah berhasil membayar pinjaman.
