# Menganalisis Risiko Gagal Bayar Peminjam

Tugas Anda adalah menyiapkan laporan untuk divisi kredit suatu bank. Anda akan mencari tahu pengaruh status perkawinan seorang nasabah dan jumlah anak yang dimilikinya terhadap probabilitas gagal bayar dalam pelunasan pinjaman. Pihak bank sudah memiliki beberapa data mengenai kelayakan kredit nasabah.

Laporan Anda akan dipertimbangkan pada saat membuat **penilaian kredit** untuk calon nasabah. **Penilaian kredit** digunakan untuk mengevaluasi kemampuan calon peminjam untuk melunasi pinjaman mereka.



Tujuan dari proyek ini adalah untuk mengetahui korelasi akan kemampuan nasabah untuk membayar kredit tepat waktu. Korelasi ini dipengaruhi oleh beberapa faktor:
- Jumlah anak yang dimiliki oleh nasabah
- Status perkawinan yang disandang oleh nasabah
- Total pendapatan nasabah
- Kebutuhan kredit nasabah

Sehingga kedepannya bank bisa memprediksi nasabah yang cenderung untuk mengalami telat membayar kredit.

## Buka *file* data dan baca informasi umumnya.


In [2]:

import pandas as pd


In [3]:
try:
    credit = pd.read_csv('/datasets/credit_scoring_eng.csv')
except:
    credit = pd.read_csv('C:/Users/ASUS/credit_scoring_eng.csv')

## Soal 1. Eksplorasi data

**Deskripsi Data**
- `children` - jumlah anak dalam keluarga
- `days_employed` - pengalaman kerja nasabah dalam hari
- `dob_years` - usia nasabah dalam tahun
- `education` - tingkat pendidikan nasabah
- `education_id` - pengidentifikasi untuk tingkat pendidikan nasabah
- `family_status` - pengidentifikasi untuk status perkawinan nasabah
- `family_status_id` - tanda pengenal status perkawinan
- `gender` - jenis kelamin nasabah
- `income_type` - jenis pekerjaan
- `debt` - apakah nasabah memiliki hutang pembayaran pinjaman
- `total_income` - pendapatan bulanan
- `purpose` - tujuan mendapatkan pinjaman

[Sekarang saatnya mengeksplor data kita. Anda perlu melihat berapa banyak kolom dan baris yang dimiliki oleh data, serta mencermati beberapa baris data untuk memeriksa potensi masalah dengan data.]

In [4]:

credit.shape


(21525, 12)

In [5]:

credit.head(15)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


Terdapat nilai yang hilang pada baris ke 13 yang mengindikasikan terdapat nilai - nilai yang hilang pada tabel.

In [6]:

credit.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [7]:
credit.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,26787.568355
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,16475.450632
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,3306.762
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,16488.5045
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,23202.87
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,32549.611
max,20.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


Dari laporan statistik sederhana pada tabel, dapat terlihat secara sekilas bahwa terdapat beberapa data yang harus diperbaiki. Contohnya pada kolom 'children' terdapat data yang bernilai -1. Selain pada kolom 'days_employed' terdapat nilai yang bernilai positif dan negatif, seharusnya penulisan positif atau negatif saja untuk lebih seragam. 

Dari info sekilas tabel, terdapat kolom yang memiliki nilai yang hilang, yakni pada kolom 'days_employed' dan 'total_income'.Terdapat kemungkinan bahwa nilai yang hilang pada 'days_employed' dan 'total_income' memiliki nilai hilang yang simetris

In [8]:

credit[credit['days_employed'].isnull()].head()


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding


Pada sampel 5 baris pertama tabel yang telah difilter dengan nilai yang hilang memiliki nilai hilang yang simetris. Namun perlu dilakukan analisis lebih lanjut untuk memastikan bahwa nilai yang hilang benar - benar simetris.

In [9]:

credit[(credit['days_employed'].isna())]['children'].count()



2174

**Kesimpulan sementara**



Dari hasil filter diatas, dapat diamati bahwa nilai yang telah difilter sesuai dengan jumlah nilai yang hilang. Kesimpulan yang dapat diambil adalah bahwa terdapat hubungan antara nilai yang hilang dari 'days_employed' dan 'total_income'. 



Terdapat sekitar 10% data yang hilang dari total keseluruhan data. Nilai yang hilang ini dianggap cukup besar sehingga perlu dilakukan untuk mengisi nilai yang hilang ini.



Langkah selanjutnya adalah menghitung presentase jumlah baris yang memiliki nilai yang hilang dengan keseluruhan tabel. Selain itu perlu dilihat juga faktor apa yang menyebabkan nilai yang hilang ini.

In [10]:

print('karakteristik pekerjaan')
credit[(credit['days_employed'].isnull()) &(credit['total_income'].isnull())]['income_type'].value_counts()


karakteristik pekerjaan


employee         1105
business          508
retiree           413
civil servant     147
entrepreneur        1
Name: income_type, dtype: int64

In [11]:

credit[(credit['days_employed'].isnull()) &(credit['total_income'].isnull())]['income_type'].value_counts(normalize=True)




employee         0.508280
business         0.233671
retiree          0.189972
civil servant    0.067617
entrepreneur     0.000460
Name: income_type, dtype: float64



Lebih dari setengah data yang memiliki nilai yang hilang adalah karyawan. Dilanjut dengan pemilik bisnis, veteran, pegawai negeri, dan wirausaha.

**Kemungkinan penyebab hilangnya nilai dalam data**



Terdapat kemungkinan bahwa nilai yang hilang ini bersifat acak, artinya tidak ada seperti seluruh tipe pendapatan dari veteran memiliki nilai yang hilang.


In [12]:

credit['income_type'].value_counts(normalize = True)

employee                       0.516562
business                       0.236237
retiree                        0.179141
civil servant                  0.067782
unemployed                     0.000093
entrepreneur                   0.000093
student                        0.000046
paternity / maternity leave    0.000046
Name: income_type, dtype: float64

**Kesimpulan sementara**



Distribusi jenis pekerjaan pada seluruh data dalam tabel dan data yang memiliki nilai yang hilang memiliki nilai yang mirip. Terdapat kemungkinan bahwa nilai yang hilang ini disebabkan karena tidak terisinya data dalam tabel.


Untuk lebih memastikan bahwa data yang hilang tidak memiliki pola tertentu, perlu dilakukan penyelidikan dalam tabel lebih lanjut. Dilakukan analisa untuk kolom - kolom lain selain kolom 'income_type'

In [13]:

credit[(credit['days_employed'].isnull()) &(credit['total_income'].isnull())]['children'].value_counts(normalize=True)


 0     0.661914
 1     0.218491
 2     0.093836
 3     0.016559
 20    0.004140
 4     0.003220
-1     0.001380
 5     0.000460
Name: children, dtype: float64

In [14]:
credit['children'].value_counts(normalize=True)

 0     0.657329
 1     0.223833
 2     0.095470
 3     0.015331
 20    0.003531
-1     0.002184
 4     0.001905
 5     0.000418
Name: children, dtype: float64

**Kesimpulan sementara**



Pada kolom 'children' juga tidak ditemukan bahwa nilai yang hilang merupakan suatu pola. Hal ini terlihat dari distribusi nilai antara kolom yang memiliki nilai hilang dengan keseluruhan tabel memiliki nilai yang mirip/ 

In [15]:

credit[(credit['days_employed'].isnull()) &(credit['total_income'].isnull())]['family_status_id'].value_counts(normalize=True)

0    0.568997
1    0.203312
4    0.132475
3    0.051518
2    0.043698
Name: family_status_id, dtype: float64

In [16]:
credit['family_status_id'].value_counts(normalize=True)

0    0.575145
1    0.194053
4    0.130685
3    0.055517
2    0.044599
Name: family_status_id, dtype: float64

In [17]:
credit[(credit['days_employed'].isnull()) &(credit['total_income'].isnull())]['education_id'].value_counts(normalize=True)

1    0.708372
0    0.250230
2    0.031739
3    0.009660
Name: education_id, dtype: float64

In [18]:
credit['education_id'].value_counts(normalize=True)

1    0.707689
0    0.244367
2    0.034564
3    0.013101
4    0.000279
Name: education_id, dtype: float64

In [19]:
credit[(credit['days_employed'].isnull()) &(credit['total_income'].isnull())]['gender'].value_counts(normalize=True)

F    0.682613
M    0.317387
Name: gender, dtype: float64

In [20]:
credit['gender'].value_counts(normalize=True)

F      0.661370
M      0.338583
XNA    0.000046
Name: gender, dtype: float64

**Kesimpulan**



Dari pengamatan pada kolom 'children', 'family_status_id','gender', 'education_id, dan 'income_type', tidak ditemukan adanya pola dari penyebab nilai yang hilang ini. Sehingga tidak dapat memberikan kesimpulan yang sesuai.


Untuk nilai yang hilang ini dapat digunakan dengan menggunakan rata - rata dari tiap - tiap jenis pekerjaan apabila tidak terdapat outlier yang signifikan. Namun apabila terdapat outlier yang signifikan, maka nilai yang hilang akan diganti dengan nilai median dari tiap - tiap jenis pekerjaan. 


Setelah dilakukan eksplorasi data, langkah selanjutnya adalah melakukan transformasi data. Baik menghilangkan nilai - nilai yang memiliki pencatatan berbeda, nilai duplikat, dll.

## Transformasi data

Pertama dilakukan transformasi data pada kolom edukasi

In [21]:

credit['education'].sort_values().unique()

array(["BACHELOR'S DEGREE", "Bachelor's Degree", 'GRADUATE DEGREE',
       'Graduate Degree', 'PRIMARY EDUCATION', 'Primary Education',
       'SECONDARY EDUCATION', 'SOME COLLEGE', 'Secondary Education',
       'Some College', "bachelor's degree", 'graduate degree',
       'primary education', 'secondary education', 'some college'],
      dtype=object)

In [22]:

credit['education'] = credit['education'].str.lower()

In [23]:

credit['education'].sort_values().unique()


array(["bachelor's degree", 'graduate degree', 'primary education',
       'secondary education', 'some college'], dtype=object)

Lalu dilakukan transformasi data pada kolom 'children'

In [24]:

credit['children'].value_counts(normalize = True)

 0     0.657329
 1     0.223833
 2     0.095470
 3     0.015331
 20    0.003531
-1     0.002184
 4     0.001905
 5     0.000418
Name: children, dtype: float64



Terdapat nilai yang aneh, seperti angka -1. Tidak mungkin anda memiliki anak sejumlah -1 orang. Nilai 20 juga dianggap janggal. Hal ini disebabkan karena memang ada kasus bahwa seseorang memiliki anak sejumlah 20 orang, namun harusnya distribusi ini sangat kecil. Pada tabel nilai 20 lebih besar dibanding nilai 4 dan 5. 

In [25]:

credit = credit[(credit['children'] >= 0) & (credit['children'] <= 5)]

In [26]:

credit['children'].value_counts(normalize = True)


0    0.661106
1    0.225119
2    0.096019
3    0.015419
4    0.001916
5    0.000421
Name: children, dtype: float64



Pada cuplikan data diatas, pada kolom 'days_employed' selain terdapat nilai yang hilang terdapat pula nilai minus. Maka kita perlu melihat jumlah data yang bermasalah

In [27]:

error_days = credit[credit['days_employed'] < 0]['children'].count()/credit['days_employed'].count()
print('{:.2%}'.format(error_days))

82.17%




Persentase dari data yang bermasalah cukup tinggi. Hal ini disebabkan salah satunya karena perbedaan penulisan pada kolom 'days_employed'. Sebagian besar penulisannya menggunakan minus, yang secara logika memang tidak salah namun mengakibatkan kesalahan fatal dikarenakan penulisannya tidak seragam dalam satu tabel.

In [28]:

credit['days_employed'] = credit['days_employed'].abs()


In [29]:

error_days = credit[credit['days_employed'] < 0]['children'].count()/credit['days_employed'].count()
print('{:.2%}'.format(error_days))

0.00%


[Sekarang mari kita lihat usia nasabah dan mengecek apakah terdapat masalah di sana. Sekali lagi, pikirkan tentang kemungkinan kejanggalan apa yang bisa kita temui dalam kolom ini, misalnya angka usia yang tidak masuk akal.]

In [30]:

credit['dob_years'].value_counts(normalize = True)

35    0.028689
40    0.028175
41    0.028175
34    0.027895
38    0.027801
42    0.027661
33    0.026960
39    0.026726
31    0.025979
36    0.025839
44    0.025371
29    0.025371
30    0.025044
48    0.025044
37    0.024811
43    0.023830
50    0.023783
32    0.023643
49    0.023596
28    0.023409
45    0.023082
27    0.022895
52    0.022568
56    0.022521
47    0.022428
54    0.022241
46    0.021914
58    0.021540
57    0.021353
53    0.021353
51    0.020839
59    0.020606
55    0.020606
26    0.018970
60    0.017568
25    0.016634
61    0.016494
62    0.016400
63    0.012522
64    0.012289
24    0.012289
23    0.011775
65    0.009065
22    0.008551
66    0.008551
67    0.007803
21    0.005140
0     0.004672
68    0.004626
69    0.003878
70    0.003037
71    0.002710
20    0.002383
72    0.001542
19    0.000654
73    0.000374
74    0.000280
75    0.000047
Name: dob_years, dtype: float64

In [31]:
error_ages = credit[credit['dob_years'] == 0]['children'].count()/credit['dob_years'].count()
print('{:.2%}'.format(error_ages))

0.47%




Pada tabel, dapat dilihat bahwa terdapat umur yang ditulis dengan angka 0, yang merupakan sebuah nilai yang bermasalah. Namun jumlah baris yang memiliki nilai 0 tahun sebesar 0,47%. Sehingga nilai ini bisa didrop.

In [32]:

credit.drop(credit[credit['dob_years'] == 0].index, inplace = True)

In [33]:

credit['dob_years'].value_counts(normalize = True).apply('{:.2%}'.format)

35    2.88%
41    2.83%
40    2.83%
34    2.80%
38    2.79%
42    2.78%
33    2.71%
39    2.69%
31    2.61%
36    2.60%
29    2.55%
44    2.55%
48    2.52%
30    2.52%
37    2.49%
43    2.39%
50    2.39%
32    2.38%
49    2.37%
28    2.35%
45    2.32%
27    2.30%
52    2.27%
56    2.26%
47    2.25%
54    2.23%
46    2.20%
58    2.16%
53    2.15%
57    2.15%
51    2.09%
59    2.07%
55    2.07%
26    1.91%
60    1.77%
25    1.67%
61    1.66%
62    1.65%
63    1.26%
64    1.23%
24    1.23%
23    1.18%
65    0.91%
66    0.86%
22    0.86%
67    0.78%
21    0.52%
68    0.46%
69    0.39%
70    0.31%
71    0.27%
20    0.24%
72    0.15%
19    0.07%
73    0.04%
74    0.03%
75    0.00%
Name: dob_years, dtype: object

Sekarang saatnya memeriksa kolom `family_status`.

In [34]:

credit['family_status'].value_counts()


married              12254
civil partnership     4139
unmarried             2783
divorced              1179
widow / widower        947
Name: family_status, dtype: int64

Dari hasil pengelompokan nilai pada kolom 'family_status', terdapat 5 jenis status, yakni 'married', 'civil partnership', 'unmarried', 'divorced', dan 'widow/ widower'. Walaupun 'civip partnership' merupakan suatu status yang tidak biasa di Indonesia, namun di beberapa negara status 'civil partnership' merupakan suatu status yang mendapat pengakuan tersendiri, seperti pada laman dibawah [ini](https://www.citizensadvice.org.uk/family/living-together-marriage-and-civil-partnership/living-together-and-civil-partnership-legal-differences/). Sehingga kolom 'family_status' tidak memiliki nilai yang bermasalah.

In [35]:

credit['gender'].value_counts()

F      14083
M       7218
XNA        1
Name: gender, dtype: int64

Terdapat 1 nilai gender yang bernilai 'XNA'. Karena nilai ini merepresentasikan kurang dari 1% dari keseluruhan data, maka nilai ini bisa didrop.

In [36]:

credit.drop(credit[credit['gender'] == 'XNA'].index, inplace = True)

In [37]:

credit['gender'].value_counts()


F    14083
M     7218
Name: gender, dtype: int64

Sekarang saatnya memeriksa kolom `income_type`.

In [38]:

credit['income_type'].value_counts()

employee                       10996
business                        5033
retiree                         3819
civil servant                   1447
unemployed                         2
entrepreneur                       2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64

Pada data 'income_type', terdapat beberapa nilai yang aneh, yakni yang mengambil cuti melahirkan, enterprener, dan bisnis. Untuk cuti melahirkan, nilai dari data ini bisa didrop. Untuk enterprener nilai ini akan disatukan dengan bisnis dikarenakan pengertian dari enterprener adalah seseorang yang membuka bisnis secara mandiri. 

In [39]:

credit.drop(credit[credit['income_type'] == 'paternity / maternity leave'].index, inplace=True)

In [40]:
credit.loc[credit['income_type'] == 'entrepreneur', 'income_type'] = 'business'

In [41]:

credit['income_type'].value_counts()

employee         10996
business          5035
retiree           3819
civil servant     1447
unemployed           2
student              1
Name: income_type, dtype: int64

Sekarang saatnya melihat apakah ada duplikat di dalam data

In [42]:

credit.duplicated().sum()


71

In [43]:

credit = credit.drop_duplicates().reset_index(drop = True)

In [44]:

credit.duplicated().sum()

0

In [45]:

credit.shape

(21229, 12)


Terdapat beberapa perubahan yang dilakukan dalam tabel, yakni:
- pada kolom 'education' dirubah seluruh datanya menjadi lowercase agar data lebih seragam.
- pada kolom 'children' terdapat beberapa data yang didrop, yang data yang memiliki nilai -1 dan 20
- pada kolom 'gender', terdapat satu kelamin yang memiliki nilai 'XNA', nilai ini didrop dikarenakan tidak hanya terdapat 1 nilai yang memiliki nilai 'XNA'
- pada kolom 'dob_years', terdapat umur dengan nilai 0, nilai ini didrop dikarenakan data yang memiliki nilai ini berjumlah kurang dari 1% dari keseluruhan tabel.
- pada kolom 'income_type', dilakukan drop nilai untuk 'paternity/maternity leave' dan penyatuan nilai enterprener kedalam bisnis.


Persentase perubahan terbesar adalah merubah nilai pada 'days_employed' menjadi nilai mutlak, sebesar 82%.


# Bekerja dengan nilai yang hilang

### Memperbaiki nilai yang hilang di `total_income`


Akan dilakukan pengelompokan nasabah terhadap usia. Pengelompokan berdasarkan situs [ini](https://www.fsps.muni.cz/emuni/data/reader/book-19/04.html).

In [46]:

def age_category(age):
    if age < 20:
        return 'adolescene'
    elif  age < 30:
        return 'early adulthood'
    elif age < 45:
        return 'middle adulthood'
    elif age < 60:
        return 'late adulthood'
    elif age < 75:
        return 'early old age'
    elif age < 70:
        return 'middle old age'
    else:
        return 'late old age'

In [47]:
#dilakukan pengetesan akan fungsi diatas
print(age_category(45))

late adulthood


In [48]:

credit['age_category'] = credit['dob_years'].apply(age_category)


In [49]:

credit.head()


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_category
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,middle adulthood
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,middle adulthood
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,middle adulthood
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,middle adulthood
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,late adulthood




Pendapatan seseorang dapat dipengaruhi oleh banyak faktor. Berbagai kemungkinan faktor tersebut seperti:
- Usia dari seseorang, terdapat banyak sumber yang menyebut terdapat korelasi antara usia dan pendapat, salah satunya terdapat pada situs [ini](https://taxfoundation.org/average-income-age/)
- Jenis kelamin seseorang, terdapat banyak sumber yang menyatakan pada umumnya wanita memiliki pendapatan yang lebih rendah dibanding pria, salah satunya terdapat pada situs [ini](https://www.pewresearch.org/fact-tank/2021/05/25/gender-pay-gap-facts/)
- Jenis pekerjaan, seseorang yang merupakan pensiunan memiliki pendapatan yang berbeda dengan karyawan aktif.
- Pendidikan terakhir, pendidikan terakhir seseorang dapat memengaruhi pendapatan yang ia miliki, seperti yang terdapat pada situs [ini](https://www.the-learning-agency.com/insights/education-and-income-how-learning-leads-to-better-salaries/). 

In [50]:
# Buat tabel tanpa nilai yang hilang dan tampilkan beberapa barisnya untuk memastikan semuanya berjalan dengan baik
credit_dropna = credit.dropna()
credit_dropna.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_category
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,middle adulthood
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,middle adulthood
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,middle adulthood
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,middle adulthood
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,late adulthood
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,early adulthood
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,middle adulthood
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,late adulthood
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,middle adulthood
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,middle adulthood


In [51]:
# Perhatikan nilai rata-rata untuk pendapatan berdasarkan faktor yang telah Anda identifikasi
credit_dropna[(credit_dropna['age_category'] == 'middle adulthood') & (credit_dropna['income_type'] == 'employee')]['total_income'].mean()

26344.124439075673

In [52]:
# Perhatikan nilai median untuk pendapatan berdasarkan faktor yang telah Anda identifikasi
credit_dropna[(credit_dropna['age_category'] == 'middle adulthood') & (credit_dropna['income_type'] == 'employee')]['total_income'].median()

23222.1385



Untuk pengisian dari nilai yang hilang pada tabel 'total_income', akan dilihat dengan umur. Terdapat beberapa sumber yang menyatakan terdapat korelasi akan umur dengan pendapatan seseorang. Salah satunya terdapat pada link [ini](https://taxfoundation.org/average-income-age/). Selain itu, jenis pekerjaan juga menentukan seberapa besar pendapatan yang dimiliki. Lalu pengisian dari nilai yang hilang ini menggunakan nilai rata - rata, dikarenakan setelah mendapatkan nilai yang telah difilter sesuai umur dan jenis pekerjaan, distribusi nilai yang dihasilkan tidak berbeda signifikan.

In [53]:
#  Tulis fungsi yang akan kita gunakan untuk mengisi nilai yang hilang
def total_income_insert (age, job):
    income_list = credit.loc[
        (credit['age_category'] == age) &
        (credit['income_type'] == job)
    ]
    income_list_mean = income_list['total_income'].mean()
    return income_list_mean

In [54]:
# Memeriksa bagaimana nilai di dalam kolom baru
total_income_insert('middle adulthood', 'employee')

26344.124439075673

In [55]:
# Terapkan fungsi tersebut ke setiap baris
credit['total_income'] = credit['total_income'].fillna(value=total_income_insert(credit['age_category'], credit['income_type']))

In [56]:
# Periksa apakah kita mendapatkan kesalahan
credit.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_category
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,middle adulthood
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,middle adulthood
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,middle adulthood
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,middle adulthood
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,late adulthood
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,early adulthood
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,middle adulthood
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,late adulthood
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,middle adulthood
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,middle adulthood


In [57]:
# Ganti nilai yang hilang jika terdapat kesalahan
credit['total_income'].isna().sum()

0

In [58]:
# Periksa jumlah entri di kolom
credit.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21229 entries, 0 to 21228
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21229 non-null  int64  
 1   days_employed     19148 non-null  float64
 2   dob_years         21229 non-null  int64  
 3   education         21229 non-null  object 
 4   education_id      21229 non-null  int64  
 5   family_status     21229 non-null  object 
 6   family_status_id  21229 non-null  int64  
 7   gender            21229 non-null  object 
 8   income_type       21229 non-null  object 
 9   debt              21229 non-null  int64  
 10  total_income      21229 non-null  float64
 11  purpose           21229 non-null  object 
 12  age_category      21229 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.1+ MB


###  Memperbaiki nilai di `days_employed`



Parameter yang dipilih untuk pengisian 'days_employed' diambil jenis pekerjaan.

In [59]:
# Distribusi median dari `days_employed` berdasarkan parameter yang Anda identifikasi
credit.groupby('income_type')['days_employed'].median()



income_type
business           1555.947387
civil servant      2672.903939
employee           1573.791064
retiree          365269.100414
student             578.751554
unemployed       366413.652744
Name: days_employed, dtype: float64

In [60]:
# Distribusi rata-rata dari `days_employed` berdasarkan parameter yang Anda identifikasi
credit.groupby('income_type')['days_employed'].mean()

income_type
business           2119.160116
civil servant      3392.119263
employee           2325.740892
retiree          365037.486121
student             578.751554
unemployed       366413.652744
Name: days_employed, dtype: float64



Dari sampel diatas, diambil nilai rata -rata. Hal ini disebabakan perbedaan nilai rata - rata yang berbeda tidak secara signifikan dibanding dengan nilai median.

In [61]:
# Mari tulis fungsi yang menghitung rata-rata atau median (tergantung keputusan Anda) berdasarkan parameter yang Anda identifikasi
def days_employed (job):
    days_employed = credit.loc[
        (credit['income_type'] == job) 
    ]
    days_employed_median = days_employed['days_employed'].mean()
    return days_employed_median

In [62]:
# Periksa apakah fungsi Anda dapat bekerja
days_employed ('employee')


2325.740891572717

In [63]:
# Ganti nilai yang hilang
credit['days_employed'] = credit['days_employed'].fillna(days_employed(credit['income_type']))

In [64]:
# Periksa entri di semua kolom - pastikan kita memperbaiki semua nilai yang hilang
credit.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21229 entries, 0 to 21228
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21229 non-null  int64  
 1   days_employed     21229 non-null  float64
 2   dob_years         21229 non-null  int64  
 3   education         21229 non-null  object 
 4   education_id      21229 non-null  int64  
 5   family_status     21229 non-null  object 
 6   family_status_id  21229 non-null  int64  
 7   gender            21229 non-null  object 
 8   income_type       21229 non-null  object 
 9   debt              21229 non-null  int64  
 10  total_income      21229 non-null  float64
 11  purpose           21229 non-null  object 
 12  age_category      21229 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.1+ MB


## Pengkategorian Data



Untuk mengkategori data yang ada, akan dilihat dari apa yang mendasari seseorang meminjamkan uang, status keluarga, anak, dan jumlah pendapatan. Status keluarga dan jumlah anak telah dikelompokan sehingga tinggal alasan meminjam uang dan jumlah pendapatan.


In [65]:
# Tampilkan nilai data yang Anda pilih untuk pengkategorian
credit[[ 'total_income', 'purpose']]


Unnamed: 0,total_income,purpose
0,40620.102,purchase of the house
1,17932.802,car purchase
2,23341.752,purchase of the house
3,42820.568,supplementary education
4,25378.572,to have a wedding
...,...,...
21224,35966.698,housing transactions
21225,24959.969,purchase of a car
21226,14347.610,property
21227,39054.888,buying my own car


In [66]:
# Periksa nilai unik
sorted(credit['purpose'].unique())

['building a property',
 'building a real estate',
 'buy commercial real estate',
 'buy real estate',
 'buy residential real estate',
 'buying a second-hand car',
 'buying my own car',
 'buying property for renting out',
 'car',
 'car purchase',
 'cars',
 'construction of own property',
 'education',
 'getting an education',
 'getting higher education',
 'going to university',
 'having a wedding',
 'housing',
 'housing renovation',
 'housing transactions',
 'profile education',
 'property',
 'purchase of a car',
 'purchase of my own house',
 'purchase of the house',
 'purchase of the house for my family',
 'real estate transactions',
 'second-hand car purchase',
 'supplementary education',
 'to become educated',
 'to buy a car',
 'to get a supplementary education',
 'to have a wedding',
 'to own a car',
 'transactions with commercial real estate',
 'transactions with my real estate',
 'university education',
 'wedding ceremony']

Terdapat 4 kelompok utama yang dapat dibagi berdasarkan nilai uniknya. Pertama adalah untuk membeli rumah/properti, lalu untuk membeli mobi, untuk pendidikan, dan untuk pernikahan. 

In [67]:
# Mari kita tulis sebuah fungsi untuk mengategorikan data berdasarkan topik umum
def credit_purpose(purpose):
    for word in purpose.split(' '):
        if 'hous' in word:
            return 'house'
        elif 'property' in word:
            return 'house'
        elif 'real' in word:
            return 'house'
        elif 'car' in word:
            return 'car'
        elif 'educ' in word:
            return 'education'
        elif 'university' in word:
            return 'education'
        elif 'wedding' in word:
            return 'wedding'
    return purpose   

In [68]:
# Buat kolom yang memuat kategori dan hitung nilainya
credit['purpose_category'] = [credit_purpose(x) for x in credit['purpose']]
credit['purpose_category'].value_counts()

house        10703
car           4257
education     3970
wedding       2299
Name: purpose_category, dtype: int64



Lalu dilakukan kategori untuk mengkategorikan pendapatan yang diperoleh.

In [69]:
# Lihat semua data numerik di kolom yang Anda pilih untuk pengkategorian
credit[[ 'total_income']]

Unnamed: 0,total_income
0,40620.102
1,17932.802
2,23341.752
3,42820.568
4,25378.572
...,...
21224,35966.698
21225,24959.969
21226,14347.610
21227,39054.888


In [70]:
# Dapatkan kesimpulan statistik untuk kolomnya
credit[['total_income']].describe()

Unnamed: 0,total_income
count,21229.0
mean,26799.648772
std,15685.034721
min,3306.762
25%,17210.289
50%,24971.05
75%,31327.922
max,362496.645




Dari deskripsi data diatas, dilakukan pengelompokan untuk jumlah pendapatan dengan rentang 15000 kebawah yang ditulis sebagai pendapatan sangat rendah, lalu rentang 15000 hingga 20000 (pendapatan rendah), 20000 hingga 25000 (pendapatan menengah kebawah), 25000 hingga 30000 (pendapatan menengah), 30000 hingga 40000 (pendapatan menengah keatas), dan 40000 keatas (pendapatan tinggi).

In [71]:
# Buat fungsi yang melakukan pengkategorian menjadi kelompok numerik yang berbeda berdasarkan rentang
def group_income (income):
    if income <15000:
        return 'sangat rendah'
    elif income <20000:
        return 'rendah'
    elif income <25000:
        return 'menengah kebawah'
    elif income <30000:
        return 'menengah'
    elif income <40000:
        return 'menengah keatas'
    else: 
        return 'tinggi'

In [72]:
# Buat kolom yang memuat kategori
credit['group_income'] = credit['total_income'].apply(group_income)

In [73]:
# Hitung setiap nilai kategori untuk melihat pendistribusiannya
credit['group_income'].value_counts(normalize = True)

menengah            0.223138
sangat rendah       0.174525
rendah              0.169108
menengah kebawah    0.157238
menengah keatas     0.144896
tinggi              0.131094
Name: group_income, dtype: float64

## Memeriksa hipotesis


**Apakah terdapat korelasi antara memiliki anak dengan melakukan pelunasan tepat waktu?**

In [74]:
# Periksa data anak dan data pelunasan tepat waktu
credit[['children', 'debt']]

# Hitung gagal bayar berdasarkan jumlah anak
total_credit_children = credit.groupby('children')['debt'].count()
debt_credit_children = credit.groupby('children')['debt'].sum()
ratio_children = debt_credit_children/total_credit_children
ratio_children.sort_values(ascending=False)

children
4    0.097561
2    0.094701
1    0.092028
3    0.082317
0    0.075458
5    0.000000
Name: debt, dtype: float64

**Kesimpulan**

Nasabah yang ingin mengajukan kredit dan memiliki anak pada umumnya memiliki kecendurungan untuk telat membayar dibandingkan dengan nasabah yang belum memiliki anak. Namun bagi nasabah yang memiliki anak lebih dari 4 orang semuanya membayar kredit tepat waktu.


**Apakah terdapat korelasi antara status keluarga dengan pelunasan tepat waktu?**

In [75]:
# Periksa data status keluarga dan pelunasan tepat waktu
credit [['family_status', 'debt']]


# Hitung gagal bayar berdasarkan status keluarga
total_credit_familyid = credit.groupby('family_status')['debt'].count()
debt_credit_familyid = credit.groupby('family_status')['debt'].sum()
ratio_familyid = debt_credit_familyid/total_credit_familyid
ratio_familyid.sort_values(ascending=False)


family_status
unmarried            0.097842
civil partnership    0.093142
married              0.075500
divorced             0.071247
widow / widower      0.065539
Name: debt, dtype: float64

**Kesimpulan**

Nasabah yang memiliki status perkawinan 'civil partnership' dan 'unmarried' memiliki rasio tingkat membayar kredit tidak tepat waktu lebih tinggi dibandingkan nasabah yang memiliki status perkawinan 'divorced', 'married', dan 'widow/widower'.


**Apakah terdapat korelasi antara tingkat pendapatan dengan membayar kembali tepat waktu?**

In [76]:
# Periksa data tingkat pendapatan dan pelunasan tepat waktu
credit [['group_income', 'debt']]


# Hitung gagal bayar berdasarkan tingkat pendapatan
total_credit_income = credit.groupby('group_income')['debt'].count()
debt_credit_income = credit.groupby('group_income')['debt'].sum()
ratio_income = debt_credit_income/total_credit_income
ratio_income.sort_values(ascending=False)



group_income
rendah              0.085515
menengah            0.085497
menengah kebawah    0.084482
sangat rendah       0.079892
menengah keatas     0.078023
tinggi              0.069350
Name: debt, dtype: float64

**Kesimpulan**

Nasabah yang memiliki pendapatan rendah (15000 - 20000), menengah (20000 - 25000), dan menengah kebawah (25000 - 30000) memiliki resiko membayar kredit tidak tepat waktu lebih tinggi dibandingkan dengan nasabah dengan pendapatan tinggi (lebih dari 40000), menengah keatas (30000 - 40000), dan sangat rendah (dibawah 15000).

**Bagaimana tujuan kredit memengaruhi tingkat gagal bayar?**

In [77]:
# Periksa persentase tingkat gagal bayar untuk setiap tujuan kredit dan lakukan penganalisisan
total_credit_purpose = credit.groupby('purpose_category')['debt'].count()
debt_credit_purpose = credit.groupby('purpose_category')['debt'].sum()
ratio_purpose = debt_credit_purpose/total_credit_purpose
ratio_purpose.sort_values(ascending=False)



purpose_category
car          0.093023
education    0.092947
wedding      0.078730
house        0.072596
Name: debt, dtype: float64

**Kesimpulan**

Nasabah yang meminjam uang untuk keperluan membeli mobil dan pendidikan memiliki rasio membayar kredit tidak tepat waktu lebih tinggi dibandingkan dengan nasabah yang meminjam uang untuk keperluan pernikahan dan rumah.

# Kesimpulan umum 

[Tuliskan kesimpulan Anda di bagian akhir ini. Pastikan Anda memasukkan semua kesimpulan penting yang telah Anda buat berkaitan dengan cara Anda memproses dan menganalisis data. Kesimpulan tersebut harus membahas nilai yang hilang, duplikat, dan kemungkinan alasan serta solusi untuk data bermasalah yang harus Anda tangani.]

Dari data yang telah diproses, terdapat berbagai kesimpulan yang berkaitan dengan pengolahan data, yakni:
1. Terdapat data yang hilang secara simetris pada kolom 'days_employed' dan 'total_income', namun tidak adanya suatu pola dari hilangnya data ini setelah dilakukan analisis distribusi nilai yang hilang terhadap kolom 'children', 'family_status_id', 'income_type', 'education_id', dan 'gender'. Kemungkinan hilangnya data ini adalah kesalahan teknis, sehingga untuk kedepannya para pengisi data harap memasukan data secara detai;
2. Terdapat penulisan data yang tidak seragam pada kolom 'education', sehingga untuk kedepannya perlu dilakukan penulisan secara seragam, seperti penulisan seluruhnya menggunakan lowercase
3. Pada gender terdapat 1 data yang memuat kolom gender 'XNA'.
4. Terdapat 71 nilai bersifat duplikat. Nilai yang duplikat ini bisa berarti bahwa data yang terinput lebih dari 1 atau memang ada 2 nasabah dengan data yang identik. 
5. Pada kolom 'days_employed', lebih dari 80% data sebelum diolah memiliki nilai minus, yang menunjukan terdapat penulisan lama bekerja yang tidak konsisten. Untuk kedepannya penulisan pada kolom 'days_employed' bisa lebih konsisten apakah ingin bernilai positif atau negatif.
6. Pada kolom 'children', terdapat nilai -1 dan 20, nilai ini didrop.
7. Pada kolom 'income_type', terdapat nilai yang didrop yakni 'paternal/material leave' dan nilai enterprener disatukan dengan bisnis.

[Tuliskan juga kesimpulan Anda mengenai pertanyaan-pertanyaan yang diajukan di sini.]

Jumlah anak, status perkawinan, jumlah pendapatan, dan keperluan meminjam uang memengaruhi kemampuan seseorang dalam mengembalikan kredit secara tepat waktu, yakni:
1. Nasabah yang tidak memiliki anak pada umumnya akan membayar kredit tepat waktu dibandingkan dengan nasabah yang memiliki anak, kecuali untuk nasabah yang memiliki lebih dari 5 anak.
2. Nasabah yang memiliki status perkawinan 'divorced', 'married', dan 'widow/widower' pada umumnya akan membayar kredit tepat waktu dibandingkan dengan nasabah yang memiliki status perkawinan 'civil partnership' dan 'unmarried.
3. Nasabah dengan rentang pendapatan 15000 - 30000 memiliki rasio keterlambatan membayar kredit lebih tinggi dibandingkan dengan nasabah yang memiliki pendapatan dibawah 15000 atau diatas 30000.
4. Nasabah yang meminjam kredit dengan keperluan untuk mobil dan pendidikan memiliki rasio keterlambatan membayar kredit lebih tinggi dibandingan dengan nasabah yang meminjam dengan keperluan menikah dan rumah.
