# Menganalisis Risiko Gagal Bayar Peminjam

Tugas Anda adalah menyiapkan laporan untuk divisi kredit suatu bank. Anda akan mencari tahu pengaruh status perkawinan seorang nasabah dan jumlah anak yang dimilikinya terhadap probabilitas gagal bayar dalam pelunasan pinjaman. Pihak bank sudah memiliki beberapa data mengenai kelayakan kredit nasabah.

Laporan Anda akan dipertimbangkan pada saat membuat **penilaian kredit** untuk calon nasabah. **Penilaian kredit** digunakan untuk mengevaluasi kemampuan calon peminjam untuk melunasi pinjaman mereka.

**Data:**
 * `children` — jumlah anak dalam keluarga.
 * `days_employed` — berapa lama nasabah telah bekerja.
 * `dob_years` — usia nasabah.
 * `education` — tingkat pendidikan nasabah.
 * `education_id` — pengidentifikasi untuk tingkat pendidikan nasabah.
 * `family_status` — status perkawinan nasabah.
 * `family_status_id` — pengidentifikasi untuk status perkawinan nasabah.
 * `gender` — jenis kelamin nasabah.
 * `income_type` — jenis pendapatan nasabah.
 * `debt` — apakah nasabah pernah melakukan gagal bayar pinjaman.
 * `total_income` — pendapatan bulanan.
 * `purpose` — alasan mengambil pinjaman.

**Tujuan:**

Dalam analisis risiko kredit, penting untuk mempertimbangkan faktor-faktor seperti status perkawinan dan jumlah anak yang dimiliki oleh nasabah. Hal ini karena faktor-faktor tersebut dapat berpengaruh terhadap kemampuan nasabah untuk melunasi pinjaman dan oleh karena itu, dapat memengaruhi probabilitas gagal bayar dalam pembayaran pinjaman. Oleh karena itu, perlu dilakukan penelitian yang cermat untuk memahami bagaimana faktor-faktor ini dapat memengaruhi risiko kredit dan mengambil tindakan yang sesuai untuk memitigasi risiko tersebut.

**Library yang digunakan:**

pandas

# Buka *file* data dan baca informasi umumnya.

In [1]:
import pandas as pd

data = pd.read_csv('/datasets/credit_scoring_eng.csv')
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


# Eksplorasi data

**Deskripsi Data**
- `children` - jumlah anak dalam keluarga
- `days_employed` - pengalaman kerja nasabah dalam hari
- `dob_years` - usia nasabah dalam tahun
- `education` - tingkat pendidikan nasabah
- `education_id` - pengidentifikasi untuk tingkat pendidikan nasabah
- `family_status` - pengidentifikasi untuk status perkawinan nasabah
- `family_status_id` - tanda pengenal status perkawinan
- `gender` - jenis kelamin nasabah
- `income_type` - jenis pekerjaan
- `debt` - apakah nasabah pernah melakukan gagal bayar pinjaman
- `total_income` - pendapatan bulanan
- `purpose` - tujuan mendapatkan pinjaman

In [2]:
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


In [3]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Dalam dataset yang diberikan, terdapat dua kolom yang memiliki nilai yang tidak lengkap atau hilang, yaitu pada kolom `days_employed` dan `total_income.` 

In [4]:
data[data['days_employed'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


Setelah dilakukan proses filter pada dataset, ternyata ditemukan nilai yang hilang (NaN) pada kolom `days_employed` dan `total_income.`

In [5]:
data[data['total_income'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


**Kesimpulan sementara**

Setelah dilakukan proses filter pada tabel, ditemukan bahwa terdapat 2174 baris nilai yang hilang pada kolom `days_employed` dan `total_income.` Untuk menentukan apakah jumlah nilai yang hilang tersebut signifikan atau tidak, perlu dilakukan perhitungan persentase dari total data yang ada. Jika persentase nilai yang hilang terlalu besar, maka dapat memengaruhi analisis data dan perlu dilakukan pengisian nilai yang hilang dengan hati-hati.

Pada proses pengisian nilai yang hilang, perlu mempertimbangkan faktor-faktor yang dapat memengaruhi nilai yang hilang tersebut, seperti jenis pekerjaan atau karakteristik nasabah lainnya. Selain itu, perlu dilakukan pemeriksaan terhadap adanya ketergantungan nilai yang hilang pada nilai indikator lain, seperti umur atau pendapatan lainnya. Hal ini dapat membantu mengidentifikasi karakteristik tertentu nasabah dan memperoleh informasi yang lebih akurat tentang risiko kredit. Dalam kesimpulan sementara, diperlukan analisis yang lebih mendalam untuk mengevaluasi data yang hilang dan menentukan strategi yang tepat untuk menangani masalah tersebut.

In [6]:
missing_data = data[data['days_employed'].isna() & data['total_income'].isna()]
missing_data.reset_index(drop=True)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
1,0,,41,secondary education,1,married,0,M,civil servant,0,,education
2,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
3,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
4,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
2169,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
2170,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
2171,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
2172,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


**Ada beberapa kemungkinan penyebab hilangnya nilai dalam data**

Untuk memastikan adanya pola atau acak pada nilai yang hilang, perlu dilakukan pemeriksaan persentase nilai yang hilang pada setiap kolom data. Hipotesis awal yang dapat dilakukan adalah membandingkan persentase nilai yang hilang pada kolom umur, edukasi, dan status keluarga dari nasabah dengan persentase nilai yang hilang pada kolom lainnya.

In [7]:
missing_data['dob_years'].value_counts(normalize=True)*100

34    3.173873
40    3.035879
31    2.989880
42    2.989880
35    2.943882
36    2.897884
47    2.713891
41    2.713891
30    2.667893
28    2.621895
57    2.575897
58    2.575897
54    2.529899
38    2.483901
56    2.483901
37    2.437902
52    2.437902
39    2.345906
33    2.345906
50    2.345906
51    2.299908
45    2.299908
49    2.299908
29    2.299908
43    2.299908
46    2.207912
55    2.207912
48    2.115915
53    2.023919
44    2.023919
60    1.793928
61    1.747930
62    1.747930
64    1.701932
32    1.701932
27    1.655934
23    1.655934
26    1.609936
59    1.563937
63    1.333947
25    1.057958
24    0.965961
66    0.919963
65    0.919963
21    0.827967
22    0.781969
67    0.735971
0     0.459982
68    0.413983
69    0.229991
20    0.229991
71    0.229991
70    0.137994
72    0.091996
19    0.045998
73    0.045998
Name: dob_years, dtype: float64

In [8]:
missing_data['education'].value_counts(normalize=True)*100

secondary education    64.765409
bachelor's degree      22.815087
SECONDARY EDUCATION     3.081877
Secondary Education     2.989880
some college            2.529899
Bachelor's Degree       1.149954
BACHELOR'S DEGREE       1.057958
primary education       0.873965
SOME COLLEGE            0.321987
Some College            0.321987
Primary Education       0.045998
PRIMARY EDUCATION       0.045998
Name: education, dtype: float64

In [9]:
missing_data['family_status'].value_counts(normalize=True)*100

married              56.899724
civil partnership    20.331187
unmarried            13.247470
divorced              5.151794
widow / widower       4.369825
Name: family_status, dtype: float64

**Kesimpulan sementara**

   - Distribusi pada kolom `dob_years` tidak memiliki pola tertentu karena persentase nilai yang hilang relatif kecil dan nilai yang hilang tidak berpola dari umur nasabah.
   - Distribusi pada kolom `education` memerlukan analisis selanjutnya karena terdapat data duplikat dan data yang berbeda, tetapi tidak terdapat pola yang menunjukkan bahwa nilai yang hilang berpola dari pendidikan.
   - Distribusi pada kolom `family_status` menunjukkan bahwa sebanyak 56% nilai yang hilang berasal dari status keluarga yang sudah menikah, tetapi tidak terdapat pola yang menunjukkan bahwa nilai yang hilang berpola dari status keluarga.

Perlu dilakukan penyelidikan lebih lanjut terhadap persentase jenis kelamin dan jenis pendapatan sebagai hipotesis berikutnya.

In [10]:
missing_data['gender'].value_counts(normalize=True)*100

F    68.26127
M    31.73873
Name: gender, dtype: float64

In [11]:
missing_data['income_type'].value_counts(normalize=True)*100

employee         50.827967
business         23.367065
retiree          18.997240
civil servant     6.761730
entrepreneur      0.045998
Name: income_type, dtype: float64

**Kesimpulan sementara**

   - Distribusi pada kolom `gender` menunjukkan bahwa sebanyak 68% nilai yang hilang berasal dari wanita(F), tetapi juga terdapat nilai yang hilang dari pria(M), sehingga tidak terdapat pola yang menunjukkan bahwa nilai yang hilang berpola dari jenis kelamin.
   - Distribusi pada kolom `income_type` menunjukkan bahwa sebanyak 50% nilai yang hilang berasal dari jenis pekerjaan karyawan(employee). Namun, karena terdapat nilai yang hilang dari jenis pekerjaan lain, tidak terdapat pola yang menunjukkan bahwa nilai yang hilang berpola dari jenis pekerjaan.
   
Hipotesis terakhir adalah persentase tujuan dari pengajuan pinjaman yang menjadi penyebab nilai yang hilang.

In [12]:
missing_data['purpose'].value_counts(normalize=True)*100

having a wedding                            4.231831
to have a wedding                           3.725851
wedding ceremony                            3.495860
construction of own property                3.449862
housing transactions                        3.403864
buy real estate                             3.311868
purchase of the house for my family         3.265869
transactions with my real estate            3.265869
transactions with commercial real estate    3.219871
housing renovation                          3.219871
buy commercial real estate                  3.081877
buying property for renting out             2.989880
property                                    2.851886
buy residential real estate                 2.805888
real estate transactions                    2.805888
housing                                     2.759890
building a property                         2.713891
cars                                        2.621895
going to university                         2.

**Kesimpulan**

Kesimpulan dari distribusi data menunjukkan bahwa nilai yang hilang dalam dataset tidak memiliki pola tertentu dan terjadi secara acak pada setiap kolom. Namun, terdapat indikator tertentu yang memiliki persentase cukup besar dari nilai yang hilang, yaitu `family_status` dengan married sebesar 56%, `gender` dengan wanita(F) sebesar 68%, dan `income_type` dengan employee sebesar 50%. Perlu dilakukan transformasi data pada kolom `education` karena adanya data duplikat. Sedangkan pada kolom `purpose` tidak perlu dilakukan perubahan karena data tersebut tidak akan mempengaruhi analisis data selanjutnya.

Langkah selanjutnya adalah melakukan transformasi data dengan menghilangkan data duplikat pada kolom `education` dan melakukan perhitungan rata-rata untuk mengatasi nilai yang hilang pada kolom `dob_years.` Selain itu, perlu dilakukan pengecekan dan koreksi terhadap pencatatan yang berbeda pada kolom `income_type` dan `purpose.` Kemudian, dilakukan verifikasi terhadap sumber data untuk memastikan keakuratan data yang digunakan dalam analisis.

# Transformasi data

**Memperbaiki nilai duplikat**

In [13]:
data['education'].unique()

array(["bachelor's degree", 'secondary education', 'Secondary Education',
       'SECONDARY EDUCATION', "BACHELOR'S DEGREE", 'some college',
       'primary education', "Bachelor's Degree", 'SOME COLLEGE',
       'Some College', 'PRIMARY EDUCATION', 'Primary Education',
       'Graduate Degree', 'GRADUATE DEGREE', 'graduate degree'],
      dtype=object)

In [14]:
data['education'] = data['education'].str.lower()
data['education'].value_counts()

secondary education    15233
bachelor's degree       5260
some college             744
primary education        282
graduate degree            6
Name: education, dtype: int64

Saya telah menemukan perbedaan penulisan huruf besar dan kecil pada kolom `education.` Oleh karena itu, saya telah memperbaikinya dengan mengubah seluruh tulisan menjadi huruf kecil agar tidak ada lagi duplikat dalam data tersebut.

In [15]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

Dalam kolom `children` terdapat nilai yang aneh, seperti jumlah anak negatif dan lebih dari 20 anak yang mungkin disebabkan oleh kesalahan pengetikan. Solusinya adalah dengan mengubah nilai -1 menjadi 1 dan 20 menjadi 2.

In [16]:
data['children'] = data['children'].replace(-1,1)
data['children'] = data['children'].replace(20,2)
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

In [17]:
data['days_employed']

0         -8437.673028
1         -4024.803754
2         -5623.422610
3         -4124.747207
4        340266.072047
             ...      
21520     -4529.316663
21521    343937.404131
21522     -2113.346888
21523     -3112.481705
21524     -1984.507589
Name: days_employed, Length: 21525, dtype: float64

Terdapat masalah pada data kolom `days_employed`, karena adanya nilai yang negatif. Sehingga perlu dilakukan perhitungan persentase kesalahan data untuk memastikannya.

In [18]:
wrong_data_days = data[data['days_employed']<0]
wrong_data_days['days_employed'].reset_index(drop=True)

0       -8437.673028
1       -4024.803754
2       -5623.422610
3       -4124.747207
4        -926.185831
            ...     
15901   -2351.431934
15902   -4529.316663
15903   -2113.346888
15904   -3112.481705
15905   -1984.507589
Name: days_employed, Length: 15906, dtype: float64

In [19]:
percentage_days = wrong_data_days['days_employed'].count() / data['days_employed'].count()
print("Persentase data yang bermasalah pada kolom 'days_employed' yaitu:{:.0%} dari keseluruhan data.".format(percentage_days))

Persentase data yang bermasalah pada kolom 'days_employed' yaitu:82% dari keseluruhan data.


Setelah dilakukan analisis terhadap kolom `days_employed`, ditemukan bahwa terdapat beberapa nilai yang tidak masuk akal yaitu nilai negatif dan nilai yang sangat besar. Hal ini mungkin disebabkan oleh kesalahan teknis dalam pengumpulan dan/atau penyimpanan data. Oleh karena itu, perlu dilakukan transformasi data dengan mengubah nilai negatif menjadi nilai positif dan menghilangkan nilai yang sangat besar karena tidak masuk akal. Selain itu, perlu juga dilakukan perhitungan rata-rata untuk mengisi nilai yang hilang.

Untuk mengatasi masalah pada kolom `days_employed` yang memiliki nilai negatif, akan dilakukan pengubahan data menjadi nilai positif agar sesuai dengan format perhitungan yang benar. Hal ini akan membantu memperbaiki persentase data yang bermasalah dan mengurangi kemungkinan adanya kesalahan teknis.

In [20]:
data['days_employed'] = data['days_employed'].abs()
data['days_employed']

0          8437.673028
1          4024.803754
2          5623.422610
3          4124.747207
4        340266.072047
             ...      
21520      4529.316663
21521    343937.404131
21522      2113.346888
21523      3112.481705
21524      1984.507589
Name: days_employed, Length: 21525, dtype: float64

In [21]:
data.loc[data['days_employed'] > 36500, 'days_employed'] = pd.NaT

avg_days_employed = data['days_employed'].mean()
data['days_employed'].fillna(avg_days_employed, inplace=True)

data['years_employed'] = data['days_employed'] / 365

print(data['years_employed'])

0        23.116912
1        11.026860
2        15.406637
3        11.300677
4         6.446619
           ...    
21520    12.409087
21521     6.446619
21522     5.789991
21523     8.527347
21524     5.437007
Name: years_employed, Length: 21525, dtype: float64


In [22]:
data['dob_years'].unique()

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51,  0, 59, 29, 60, 55, 58, 71, 22, 73,
       66, 69, 19, 72, 70, 74, 75])

Langkah pertama adalah melakukan perhitungan persentase data yang bermasalah pada kolom `dob_years` untuk memastikan tingkat dampak dari data yang akan dihapus. Setelah itu, akan dilakukan penghapusan data dengan nilai nol pada kolom tersebut untuk mengatasi masalah tersebut.

In [23]:
wrong_dob_years = data[data['dob_years'] == 0]
wrong_dob_years['dob_years'].reset_index(drop=True)

0      0
1      0
2      0
3      0
4      0
      ..
96     0
97     0
98     0
99     0
100    0
Name: dob_years, Length: 101, dtype: int64

In [24]:
percentage_dob_years = wrong_dob_years['dob_years'].count() / data['dob_years'].count()
print("Persentase data yang bermasalah pada kolom 'dob_years' yaitu:{:.3%} dari keseluruhan data.".format(percentage_dob_years))

Persentase data yang bermasalah pada kolom 'dob_years' yaitu:0.469% dari keseluruhan data.


Masalah data pada kolom `dob_years` mencakup 0.469% dari total data.

Persentase data yang bermasalah pada kolom `dob_years` sangat kecil, sehingga penghapusan data yang bermasalah tidak akan berdampak signifikan terhadap keseluruhan data.

In [25]:
data_new = data
data_new = data_new[data_new['dob_years'] != 0].reset_index(drop=True)
data_new['dob_years'].unique()

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51, 59, 29, 60, 55, 58, 71, 22, 73, 66,
       69, 19, 72, 70, 74, 75])

In [26]:
data_new['family_status'].unique()

array(['married', 'civil partnership', 'widow / widower', 'divorced',
       'unmarried'], dtype=object)

Data pada kolom `family_status` tidak memerlukan perubahan karena sudah cukup baik.

In [27]:
data_new['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

In [28]:
data_new['gender'].value_counts()

F      14164
M       7259
XNA        1
Name: gender, dtype: int64

Dikarenakan hanya ada satu nilai yang tidak lazim pada kolom `gender` yaitu XNA dan jenis kelamin tersebut tidak lazim, maka data tersebut dapat dihapus.

In [29]:
data_new.drop(data_new[data_new['gender'] == 'XNA'].index, inplace = True)
data_new['gender'].value_counts()

F    14164
M     7259
Name: gender, dtype: int64

In [30]:
data_new['income_type'].unique()

array(['employee', 'retiree', 'business', 'civil servant', 'unemployed',
       'entrepreneur', 'student', 'paternity / maternity leave'],
      dtype=object)

Data pada kolom `income_type` sudah cukup baik dan tidak perlu diubah.

**Memeriksa data duplikat**

In [31]:
data_new.duplicated().sum()

71

In [32]:
data_new = data_new.drop_duplicates().reset_index(drop=True)
data_new.duplicated().sum()

0

In [33]:
data_new.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,23.116912
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,11.02686
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,15.406637
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,11.300677
4,0,2353.015932,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,6.446619


Dataset baru yaitu data_new mengalami beberapa perubahan, diantaranya penanganan duplikat pada kolom `education`, perbaikan nilai yang tidak mungkin pada kolom `children`, pengubahan nilai negatif pada kolom `days_employed` menjadi positif, penghapusan nilai yang tidak mungkin pada kolom `dob_years`, serta penanganan duplikat pada dataset baru.

# Bekerja dengan nilai yang hilang

Untuk mempermudah pemrosesan data pada kolom education dan `family_status` yang memiliki ID, digunakan *dictionary* untuk menyimpan nilai data dalam pasangan key:value.

In [34]:
data_new[['education', 'education_id']].drop_duplicates().reset_index(drop=True)

Unnamed: 0,education,education_id
0,bachelor's degree,0
1,secondary education,1
2,some college,2
3,primary education,3
4,graduate degree,4


In [35]:
data_new[ ['family_status', 'family_status_id'] ].drop_duplicates().reset_index(drop=True)

Unnamed: 0,family_status,family_status_id
0,married,0
1,civil partnership,1
2,widow / widower,2
3,divorced,3
4,unmarried,4


# Memperbaiki nilai yang hilang di `total_income`

Sebaiknya nilai yang hilang pada kolom `total_income` dapat diperbaiki dengan menggunakan metode imputasi seperti mengisi nilai kosong dengan rata-rata atau median dari data yang ada. Namun, jika ingin mempertimbangkan usia nasabah dalam mengisi nilai yang hilang, dapat dilakukan pengelompokan usia dan imputasi nilai kosong berdasarkan kelompok usia tersebut.

In [36]:
def age_group(age):   
    if age <= 30:
        return 'young adult'
    if 31 <= age <= 45:
        return 'middle-aged adult'
    else:
        return 'old-aged adult'
    return 'Unidentified' 
age_group(70)

'old-aged adult'

In [37]:
data_new['age_group'] = data_new['dob_years'].apply(age_group)
data_new['age_group'].value_counts()

old-aged adult       9150
middle-aged adult    8486
young adult          3716
Name: age_group, dtype: int64

In [38]:
data_new.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed,age_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,23.116912,middle-aged adult
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,11.02686,middle-aged adult
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,15.406637,middle-aged adult
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,11.300677,middle-aged adult
4,0,2353.015932,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,6.446619,old-aged adult


In [39]:
data_notna = data_new[data_new['days_employed'].notna()].reset_index(drop=True)
data_notna.isna().sum()

children               0
days_employed          0
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2093
purpose                0
years_employed         0
age_group              0
dtype: int64

In [40]:
data_notna.groupby('age_group')['total_income'].mean()

age_group
middle-aged adult    28500.918312
old-aged adult       25605.151757
young adult          25815.651899
Name: total_income, dtype: float64

In [41]:
data_notna.groupby('age_group')['total_income'].median()

age_group
middle-aged adult    24752.294
old-aged adult       22112.445
young adult          22955.474
Name: total_income, dtype: float64

In [42]:
data_notna.groupby('income_type')['total_income'].mean().sort_values()

income_type
paternity / maternity leave     8612.661000
student                        15712.260000
unemployed                     21014.360500
retiree                        21939.310393
employee                       25824.679592
civil servant                  27361.316126
business                       32397.307219
entrepreneur                   79866.103000
Name: total_income, dtype: float64

In [43]:
data_notna.groupby('income_type')['total_income'].median().sort_values()

income_type
paternity / maternity leave     8612.6610
student                        15712.2600
retiree                        18969.1490
unemployed                     21014.3605
employee                       22815.1035
civil servant                  24083.5065
business                       27563.0285
entrepreneur                   79866.1030
Name: total_income, dtype: float64

Penanganan data pada kolom `total_income` dapat dilakukan dengan menggunakan median karena distribusinya tidak simetris. Selain itu, pengelompokan berdasarkan usia `(age_group)` dapat membantu dalam identifikasi parameter total_income karena usia dapat mempengaruhi jumlah pendapatan. Semakin tinggi usia, maka jumlah pendapatan cenderung bertambah.

In [44]:
def fill_missing_total_income_value (dataframe, agg_column, value_column):
    grouped_values = dataframe.groupby(agg_column)[value_column].median().reset_index()
    size = len(grouped_values)
    for i in range(size):
        group = grouped_values[agg_column][i]
        value = grouped_values[value_column][i]
        dataframe.loc[(dataframe[agg_column]==group) & (dataframe[value_column].isna()), value_column] = value
    return dataframe

data_new = fill_missing_total_income_value(dataframe = data_new, agg_column = 'age_group', value_column = 'total_income')

data_new['total_income'].reset_index()

Unnamed: 0,index,total_income
0,0,40620.102
1,1,17932.802
2,2,23341.752
3,3,42820.568
4,4,25378.572
...,...,...
21347,21347,35966.698
21348,21348,24959.969
21349,21349,14347.610
21350,21350,39054.888


In [45]:
data_new.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
years_employed      0
age_group           0
dtype: int64

In [46]:
data_new.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21352 entries, 0 to 21351
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21352 non-null  int64  
 1   days_employed     21352 non-null  float64
 2   dob_years         21352 non-null  int64  
 3   education         21352 non-null  object 
 4   education_id      21352 non-null  int64  
 5   family_status     21352 non-null  object 
 6   family_status_id  21352 non-null  int64  
 7   gender            21352 non-null  object 
 8   income_type       21352 non-null  object 
 9   debt              21352 non-null  int64  
 10  total_income      21352 non-null  float64
 11  purpose           21352 non-null  object 
 12  years_employed    21352 non-null  float64
 13  age_group         21352 non-null  object 
dtypes: float64(3), int64(5), object(6)
memory usage: 2.3+ MB


Sudah dilakukan perbaikan nilai yang hilang pada kolom `total_income` dengan menggunakan nilai median sehingga data telah terisi dengan baik.

#  Memperbaiki nilai di `days_employed`

In [47]:
data_notna.groupby('income_type')['days_employed'].median()

income_type
business                       1767.113959
civil servant                  2384.740642
employee                       1806.462129
entrepreneur                   1436.932008
paternity / maternity leave    3296.759962
retiree                        2353.015932
student                         578.751554
unemployed                     2353.015932
Name: days_employed, dtype: float64

In [48]:
data_notna.groupby('income_type')['days_employed'].mean()

income_type
business                       2136.453221
civil servant                  3285.030654
employee                       2330.961053
entrepreneur                   1436.932008
paternity / maternity leave    3296.759962
retiree                        2353.015932
student                         578.751554
unemployed                     2353.015932
Name: days_employed, dtype: float64

Solusi untuk mengatasi nilai hilang pada kolom `days_employed` adalah dengan mengisi nilainya menggunakan median dari kolom tersebut, dengan mempertimbangkan parameter `income_type` karena hubungannya yang masuk akal. Ini karena data `days_employed` tidak simetris, sehingga median lebih tepat digunakan daripada mean.

In [49]:
def fill_missing_days_employed_value (dataframe, agg_column, value_column):
    grouped_values = dataframe.groupby(agg_column)[value_column].median().reset_index()
    size = len(grouped_values)
    for i in range(size):
        group = grouped_values[agg_column][i]
        value = grouped_values[value_column][i]
        dataframe.loc[(dataframe[agg_column]==group) & (dataframe[value_column].isna()), value_column] = value
    return dataframe

data_new = fill_missing_days_employed_value(dataframe = data_new, agg_column = 'income_type', value_column = 'days_employed')

data_new['days_employed'].reset_index()

Unnamed: 0,index,days_employed
0,0,8437.673028
1,1,4024.803754
2,2,5623.422610
3,3,4124.747207
4,4,2353.015932
...,...,...
21347,21347,4529.316663
21348,21348,2353.015932
21349,21349,2113.346888
21350,21350,3112.481705


In [50]:
data_new.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
years_employed      0
age_group           0
dtype: int64

In [51]:
data_new.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21352 entries, 0 to 21351
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21352 non-null  int64  
 1   days_employed     21352 non-null  float64
 2   dob_years         21352 non-null  int64  
 3   education         21352 non-null  object 
 4   education_id      21352 non-null  int64  
 5   family_status     21352 non-null  object 
 6   family_status_id  21352 non-null  int64  
 7   gender            21352 non-null  object 
 8   income_type       21352 non-null  object 
 9   debt              21352 non-null  int64  
 10  total_income      21352 non-null  float64
 11  purpose           21352 non-null  object 
 12  years_employed    21352 non-null  float64
 13  age_group         21352 non-null  object 
dtypes: float64(3), int64(5), object(6)
memory usage: 2.3+ MB


**Nilai yang hilang sudah teratasi.**

# Pengkategorian Data

Dalam mengkategorikan data ini, dapat digunakan hipotesis sebagai acuan dalam melakukan pemrosesan data lebih lanjut.

  - Apakah terdapat hubungan antara memiliki anak dan probabilitas seseorang melakukan gagal bayar pinjaman?
  - Apakah terdapat hubungan antara tingkat pendapatan dan probabilitas seseorang melakukan gagal bayar pinjaman?
  - Bagaimana perbedaan tujuan pinjaman memengaruhi probabilitas seseorang melakukan gagal bayar pinjaman
  
Sebelumnya, beberapa kolom sudah terkategori, namun ada juga kolom yang tidak dapat dikategorikan.

In [52]:
data_new[['children', 'total_income', 'purpose']]

Unnamed: 0,children,total_income,purpose
0,1,40620.102,purchase of the house
1,1,17932.802,car purchase
2,0,23341.752,purchase of the house
3,3,42820.568,supplementary education
4,0,25378.572,to have a wedding
...,...,...,...
21347,1,35966.698,housing transactions
21348,0,24959.969,purchase of a car
21349,1,14347.610,property
21350,3,39054.888,buying my own car


In [53]:
data_new[['children']].value_counts()

children
0           14021
1            4839
2            2114
3             328
4              41
5               9
dtype: int64

Berdasarkan data di atas, dapat dilakukan pengkategorian pada kolom `children` menjadi dua kategori, yaitu 'memiliki anak (have a child)' dan 'tanpa anak (childless)'.

In [54]:
def categorize_children (child):
    if child < 1:
        return 'childless'
    return 'have a child' 

data_new['categorize_children'] = data_new['children'].apply(categorize_children)
data_new['categorize_children'].value_counts()

childless       14021
have a child     7331
Name: categorize_children, dtype: int64

Jumlah anak berhasil dikatagorikan.

In [55]:
data_new[['total_income']].describe()

Unnamed: 0,total_income
count,21352.0
mean,26450.826904
std,15704.206248
min,3306.762
25%,17223.82125
50%,22955.474
75%,31321.653
max,362496.645


Data total_income berhasil dikatagorikan menjadi beberapa rentang <15000 yang ditulis sebagai 'very low', rentang 15000 - 20000 sebagai 'low', 20000 - 25000 'middle low', 25000 - 30000 'middle', 30000 - 35000 'high', dan 35000 keatas 'very high'.

In [56]:
def categorize_income (income):
    if income < 15000:
        return 'very low'
    if 15000 <= income < 20000:
        return 'low'
    if 20000 <= income < 25000:
        return 'middle low'
    if 25000 <= income < 30000:
        return 'middle'
    if 30000 <= income < 35000:
        return 'high'
    else:
        return 'very high'
    return 'Unidentified' 

data_new['categorize_income'] = data_new['total_income'].apply(categorize_income)
data_new['categorize_income'].value_counts()

middle low    5461
very high     4048
very low      3723
low           3609
middle        2670
high          1841
Name: categorize_income, dtype: int64

Jumlah pendapatan berhasil dikatagorikan.

In [57]:
data_new['purpose'].unique()

array(['purchase of the house', 'car purchase', 'supplementary education',
       'to have a wedding', 'housing transactions', 'education',
       'having a wedding', 'purchase of the house for my family',
       'buy real estate', 'buy commercial real estate',
       'buy residential real estate', 'construction of own property',
       'property', 'building a property', 'buying a second-hand car',
       'buying my own car', 'transactions with commercial real estate',
       'building a real estate', 'housing',
       'transactions with my real estate', 'cars', 'to become educated',
       'second-hand car purchase', 'getting an education', 'car',
       'wedding ceremony', 'to get a supplementary education',
       'purchase of my own house', 'real estate transactions',
       'getting higher education', 'to own a car', 'purchase of a car',
       'profile education', 'university education',
       'buying property for renting out', 'to buy a car',
       'housing renovation', 'going

Pada kolom `purpose` terdapat empat kategori utama yang bisa dibagi berdasarkan nilai uniknya, yaitu rumah atau properti, mobil, pendidikan, dan pernikahan.

In [58]:
def categorize_purpose(row):
    if 'car' in row:
        return 'car'
    if 'hous' in row or 'prop' in row or 'real est' in row:
        return 'real estate'
    if 'wedd' in row:
        return 'wedding'
    if 'educ' in row or 'uni' in row:
        return 'education'
    else:
        return 'Unidentified'
    
data_new['categorize_purpose'] = data_new['purpose'].apply(categorize_purpose)
data_new['categorize_purpose'].value_counts()

real estate    10763
car             4284
education       3995
wedding         2310
Name: categorize_purpose, dtype: int64

Tujuan peminjaman berhasil dikatagorikan.

In [59]:
data_new

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed,age_group,categorize_children,categorize_income,categorize_purpose
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,23.116912,middle-aged adult,have a child,very high,real estate
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,11.026860,middle-aged adult,have a child,low,car
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,15.406637,middle-aged adult,childless,middle low,real estate
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,11.300677,middle-aged adult,have a child,very high,education
4,0,2353.015932,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,6.446619,old-aged adult,childless,middle,wedding
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21347,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,12.409087,middle-aged adult,have a child,very high,real estate
21348,0,2353.015932,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,6.446619,old-aged adult,childless,middle low,car
21349,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,5.789991,middle-aged adult,have a child,very low,real estate
21350,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,8.527347,middle-aged adult,have a child,very high,car


# Memeriksa hipotesis

**Apakah terdapat korelasi antara memiliki anak dengan probabilitas melakukan gagal bayar pinjaman?**

In [60]:
debtors = data_new.loc[data_new['debt'] == 1]
success = data_new.loc[data_new['debt'] != 1]

Kolom `debtors` mengindikasikan jumlah nasabah yang gagal bayar pinjaman

kolom `success` mengindikasikan jumlah nasabah yang berhasil membayar pinjaman.

In [61]:
def debtors_percentage(column):
    return debtors.groupby(column)['debt'].count()*100/data_new.groupby(column)['debt'].count()

def success_percentage(column):
    return success.groupby(column)['debt'].count()*100/data_new.groupby(column)['debt'].count()

anak = ['categorize_children']

for column in anak:
    print(debtors_percentage(column))

categorize_children
childless       7.545824
have a child    9.207475
Name: debt, dtype: float64


In [62]:
for column in anak:
    print(success_percentage(column))

categorize_children
childless       92.454176
have a child    90.792525
Name: debt, dtype: float64


**Kesimpulan**

 - 92% nasabah tanpa anak berhasil membayar pinjaman.
 - Sebanyak 90% nasabah yang memiliki anak berhasil membayar pinjaman.
 - Menurut data, persentase nasabah yang gagal melakukan pembayaran pinjaman lebih tinggi pada kelompok yang tidak memiliki anak yaitu 7%, sedangkan pada kelompok yang memiliki anak persentasenya sedikit lebih tinggi yaitu 9%.

Kesimpulan dari data tersebut adalah tidak terdapat korelasi yang signifikan antara memiliki atau tidak memiliki anak dengan probabilitas gagal bayar pinjaman, karena persentase nasabah yang gagal bayar pinjaman pada kedua kelompok tersebut hanya sedikit.

**Apakah terdapat korelasi antara status keluarga dengan probabilitas melakukan gagal bayar pinjaman?**

In [63]:
status = ['family_status']

for column in status:
    print(debtors_percentage(column))

family_status
civil partnership    9.348511
divorced             7.172996
married              7.542718
unmarried            9.770938
widow / widower      6.498952
Name: debt, dtype: float64


In [64]:
for column in status:
    print(success_percentage(column))

family_status
civil partnership    90.651489
divorced             92.827004
married              92.457282
unmarried            90.229062
widow / widower      93.501048
Name: debt, dtype: float64


**Kesimpulan**

 - Dari data tersebut, 92% nasabah yang menikah berhasil membayar pinjaman.
 - 90% nasabah yang berpasangan secara hukum berhasil membayar pinjaman.
 - Dari data yang ada, terlihat bahwa sebanyak 90% nasabah yang tidak menikah berhasil melakukan pembayaran pinjaman.
 - 92% nasabah yang bercerai berhasil membayar pinjaman.
 - 93% nasabah yang cerai mati berhasil membayar pinjaman.
 - Hanya sedikit nasabah yang gagal melakukan pembayaran pinjaman, yaitu sebesar 7% dari nasabah yang menikah dan bercerai, 9% dari nasabah yang berpasangan secara hukum dan tidak menikah, dan 6% dari nasabah yang bercerai mati.
 
Tidak ada korelasi yang signifikan antara status keluarga dengan kegagalan membayar pinjaman, karena hanya sebagian kecil nasabah dengan status keluarga tertentu yang gagal melakukan pembayaran.

**Apakah terdapat korelasi antara tingkat pendapatan dengan probabilitas melakukan gagal bayar pinjaman?**

In [65]:
pendapatan = ['categorize_income']

for column in pendapatan:
    print(debtors_percentage(column))

categorize_income
high          7.930473
low           8.534220
middle        8.876404
middle low    8.350119
very high     7.139328
very low      7.977438
Name: debt, dtype: float64


In [66]:
for column in pendapatan:
    print(success_percentage(column))

categorize_income
high          92.069527
low           91.465780
middle        91.123596
middle low    91.649881
very high     92.860672
very low      92.022562
Name: debt, dtype: float64


**Kesimpulan**

Tingkat pendapatan tidak berkorelasi dengan probabilitas gagal bayar pinjaman, karena persentase keberhasilan pembayaran pinjaman di setiap kategori pendapatan di atas 90%.

**Bagaimana tujuan kredit memengaruhi persentase gagal bayar?**

In [67]:
tujuan = ['categorize_purpose']

for column in tujuan:
    print(debtors_percentage(column))

categorize_purpose
car            9.337068
education      9.261577
real estate    7.237759
wedding        7.965368
Name: debt, dtype: float64


In [68]:
for column in tujuan:
    print(success_percentage(column))

categorize_purpose
car            90.662932
education      90.738423
real estate    92.762241
wedding        92.034632
Name: debt, dtype: float64


**Kesimpulan**

Tujuan peminjaman tidak berkorelasi dengan probabilitas gagal bayar pinjaman, seperti terlihat dari persentase di atas 90% nasabah yang berhasil membayar pinjaman di semua kategori tujuan peminjaman.

# Kesimpulan umum 

Dari hasil pemrosesan data dapat ditarik kesimpulan bahwa:

 - Data yang hilang dalam dataset ini terjadi secara acak dan tidak memiliki pola tertentu. Untuk mengatasi kehilangan data tersebut, digunakan metode pengisian data dengan nilai median dari data yang tersedia.
 - Data duplikat pada dataset ini diatasi dengan menghapus baris data yang sama dan hanya menyimpan satu data saja.
 - Mengoreksi kesalahan data yang tidak logis seperti jumlah anak berjumlah negatif dan puluhan dengan cara mengubah nilai negatif menjadi positif dan menghapus nilai puluhan.
 - Data usia nasabah yang tidak valid yaitu 0 diperbaiki dengan menghapus nilai tersebut karena tidak masuk akal dan sulit untuk diketahui apakah itu data yang salah ketik atau bukan.
 - Data yang telah diperbaiki diperiksa kembali untuk duplikasi dan kemudian dihapus menggunakan proses drop duplikat.
 - Data dictionary dilakukan drop duplikat karena merupakan salah satu cara mudah untuk memperbaiki data.
 - Nilai yang hilang pada kolom `total_income` diperbaiki dengan mengelompokkan nasabah ke dalam kategori usia tertentu. Setelah itu, nilai yang hilang diisi dengan data median yang tersedia pada setiap kategori usia.
 - Dalam mengatasi nilai kosong pada kolom `days_employed`, dilakukan pengisian dengan menggunakan nilai median yang tersedia pada dataset.
 - Dilakukan pengkategorian pada data untuk memudahkan pengecekan hipotesis.
 - Hasil pengolahan data menunjukkan bahwa tidak terdapat kaitan antara jenis kelamin nasabah dengan probabilitas gagal bayar pinjaman. Hal ini terbukti dari persentase gagal bayar pinjaman yang relatif sama antara nasabah laki-laki dan perempuan.
 - Dari hasil pemeriksaan hipotesis, terlihat bahwa probabilitas gagal bayar pinjaman tidak terkait dengan jumlah anak, status keluarga, total pendapatan, dan tujuan pinjaman. Hal ini terlihat dari fakta bahwa lebih dari 90% nasabah berhasil membayar pinjaman.
