# Menganalisis risiko gagal bayar peminjam

Proyek kali ini adalah menyiapkan laporan untuk divisi kredit suatu bank. Dengan mencari tahu pengaruh status perkawinan seorang nasabah dan jumlah anak yang dimilikinya terhadap probabilitas gagal bayar dalam pelunasan pinjaman. Pihak bank sudah memiliki beberapa data mengenai kelayakan kredit nasabah.

Laporan ini akan dipertimbangkan pada saat membuat **penilaian kredit** untuk calon nasabah. **Penilaian kredit** digunakan untuk mengevaluasi kemampuan calon peminjam untuk melunasi pinjaman mereka.

Project ini bertujuan untuk menganalisis beberapa hipotesis dengan tujuan apakah nasabah mempunyai risiko gagal bayar berdasarkan karakteristik tertentu. Untuk itu, saatnya untuk memroses data credit_scoring_eng.csv untuk mengamati dan menganalisis karakteristik nasabah.


## Persiapan Dataset

Memuat library yang dibutuhkan seperti pandas dan numpy serta menyimpan dataset dalam tabel df.

In [1]:
# memuat semua library
import pandas as pd
import numpy as np


In [2]:
# memuat datanya
try: 
    df = pd.read_csv(
        r'C:\Users\Adam\OneDrive\Course\TripleTen\Sprint 2\credit_scoring_eng.csv' 
    )
    
except: 
    df = pd.read_csv('/datasets/credit_scoring_eng.csv')

## Eksplorasi data

**Deskripsi data** dalam dataset yaitu sebagai berikut:
- `children` - jumlah anak dalam keluarga
- `days_employed` - pengalaman kerja nasabah dalam hari
- `dob_years` - usia nasabah dalam tahun
- `education` - tingkat pendidikan nasabah
- `education_id` - pengidentifikasi untuk tingkat pendidikan nasabah
- `family_status` - status perkawinan
- `family_status_id` - pengidentifikasi untuk status perkawinan nasabah
- `gender` - jenis kelamin nasabah
- `income_type` - jenis pekerjaan
- `debt` - apakah nasabah pernah melakukan gagal bayar pinjaman
- `total_income` - pendapatan bulanan
- `purpose` - tujuan mendapatkan pinjaman


In [3]:
# lihat berapa banyak baris dan kolom yang dimiliki oleh dataset 
df.shape

(21525, 12)

In [4]:
# menampilkan 15 baris pertama
df.head(15)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


In [5]:
# Dapatkan informasi data
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Dalam sampel data di atas, terdapat beberapa kolom yang berisi informasi seperti jumlah anak, lamanya masa kerja dalam hari, usia saat lahir, tingkat pendidikan, status perkawinan, jenis kelamin, jenis penghasilan, jumlah hutang, total pendapatan, dan tujuan pengajuan pinjaman.

Beberapa kolom memiliki nilai yang bersifat numerik seperti pada kolom `days_employed`, `dob_years`, dan `total_income`. Namun, jika dilihat secara seksama, terdapat nilai negatif atau nilai yang tidak masuk akal pada kolom `days_employed`. Lalu pada kolom `education` dan `education id` berisi informasi tentang jenjang pendidikan. Tapi terdapat gaya penulisan yang bervariasi seperti penggunaan huruf kapital, sehingga kolom perlu dilakukannya pembersihan data. Tabel ini juga memiliki nilai yang hilang pada kolom `days_employed` dan `total_income` dengan jumlah nilai yang hilang di kedua kolom tersebut sama.

In [6]:
# melihat tabel yang telah difilter dengan nilai yang hilang di kolom pertama yang mengandung data yang hilang
df[df['days_employed'].isnull()]


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


Nilai-nilai yang hilang di kolom `days_employed` tampak simetris dengan nilai yang hilang pada kolom `total_income` dan jumlah baris dengan nilai yang hilang yaitu 2174. Akan tetapi, butuh eksplorasi data lebih lanjut mengenai nilai yang hilang.

In [7]:
# menerapkan beberapa kondisi untuk memfilter data dan melihat jumlah baris dalam tabel yang telah difilter.
df_null = df[(df['days_employed'].isnull()) & (df['total_income'].isnull())]
df_null.shape


(2174, 12)

In [8]:
# menghitung presentase nilai yang hilang
str(round(df_null.shape[0]/df.shape[0]*100, 2))+'%'

'10.1%'

**Kesimpulan sementara**

Jumlah baris dalam tabel yang difilter sesuai dengan jumlah nilai yang hilang. Dari kesimpulan ini, dapat disimpulkan bahwa baris-baris tersebut memiliki nilai yang hilang pada kolom `days_employed` dan `total_income`. Dengan persentase nilai yang hilang yaitu 10.1%

Dengan persentase nilai yang sebesar 10.1%, bisa dibilang bahwa nilai yang hilang cukup besar dan sangat berdampak pada analisis dataset tersebut. Oleh karena itu, langkah yang paling tepat ialah mengisi nilai yang hilang berdasarkan karakteristik baris dengan nilai yang hilang tersebut. Akan tetapi, harus dilakukan eksplorasi lebih lanjut mengenai data yang hilang. 
- Pertama, harus mempertimbangkan data yang hilang berdasarkan karakteristik tertentu, seperti umur, jenis pekerjaan, atau yang lainnya. 
- Kedua, harus memeriksa apakah ada ketergantungan nilai yang hilang pada nilai indikator lain dengan kolom-kolom yang mengidentifikasikan karakteristik tertentu nasabah.

Langkah selanjutnya yaitu melakukan analisis lebih lanjut terhadap karakteristik nasabah dan mengeksplorasi hubungan antara nilai yang hilang dengan faktor-faktor lain dalam dataset. 

In [9]:
# memeriksa nasabah yang tidak memiliki data tentang karakteristik yang teridentifikasi dan kolom dengan nilai yang hilang
df[(df['days_employed'].isnull()) | (df['total_income'].isnull())].head()


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding


In [10]:
# memeriksa distribusinya
cat_col_df = ['children', 'dob_years', 'education', 'family_status', 'debt', 'income_type', 'purpose']
dist_df = []

for col in cat_col_df:    
    df_dist = df_null[col].value_counts()
    df_dist = df_dist.rename('count').reset_index().rename(columns={'index': 'unique'})
    df_dist['percent'] = round(df_dist['count'] / df_null.shape[0] * 100, 2).astype(str) + '%'
    dist_df.append(df_dist)

dist_df[0]

Unnamed: 0,unique,count,percent
0,0,1439,66.19%
1,1,475,21.85%
2,2,204,9.38%
3,3,36,1.66%
4,20,9,0.41%
5,4,7,0.32%
6,-1,3,0.14%
7,5,1,0.05%


In [11]:
# memeriksa distribusi pada family_status
dist_df[3]

Unnamed: 0,unique,count,percent
0,married,1237,56.9%
1,civil partnership,442,20.33%
2,unmarried,288,13.25%
3,divorced,112,5.15%
4,widow / widower,95,4.37%


In [12]:
# memeriksa distribusi pada income_type
dist_df[5]

Unnamed: 0,unique,count,percent
0,employee,1105,50.83%
1,business,508,23.37%
2,retiree,413,19.0%
3,civil servant,147,6.76%
4,entrepreneur,1,0.05%


Pada beberapa tabel distribusi di atas, distribusi nilai yang hilang pada pada ketiga tabel diatas paling tinggi pada masing-masing kolom berada di atas 50%. Seperti pada tabel distribusi untuk kolom `children`, data nasabah yang mengandung nilai yang hilang paling tinggi berasal dari nasabah yang tidak mempunyai anak atau dengan jumlah anak 0, dengan sebanyak 1439 data atau sekitar 66.19% dari data yang hilang. Jumlah data yang hilang dari nasabah yang memiliki jumlah anak 1, 2, 3, 4, dan 5 juga signifikan, namun semakin kecil persentasenya. Dari tabel tersebut dapat diketahui bahwa terdapat nilai jumlah anak yang tidak masuk akal yaitu -1 dan 20.

Kemudian, pada tabel distribusi untuk kolom `fanily_status`, data nasabah yang mengandung nilai yang hilang paling tinggi berasal dari nasabah yang sudah menikah atau dengan status married sebanyak 1237 nasabah dengan persentase sebesar 56.9% dari data yang hilang. Diikuti nasabah dengan status civil partnership, unmarried, divorced, widow / widower yang berturut-turut nilai persentasenya semakin kecil. 

Lalu pada tabel distribusi untuk kolom `income_type`, data nasabah yang paling banyak mengandung nilai yang hilang berasal dari nasabah dengan status pekerjaan employee sebanyak 1105 data nasabah dan dengan persentase 50.83% dari data yang hilang. Diikuti oleh nasabah dengan status pekerjaan `business` sebesar 23.37% dan `retiree` sebesar 19%.


**Kemungkinan penyebab hilangnya nilai dalam data**

Kemungkinan penyebab hilangnya nilai dalam data ini dapat disebabkan oleh nasabah dengan karakteristik tertentu. Pertama, banyaknya data yang hilang berasal dari nasabah yang tidak mempunyai anak, dengan persentase sebesar 66.19%. Kedua, banyaknya data yang hilang berasal dari nasabah yang sudah menikah, dengan persentase sebesar 56.9%. Ketiga, banyaknya data yang hiilang berasal dari nasabah dengan jenis pekerjaan employee, dengan persentase sebesar 50.83%.

Berdasarkan karakteristik tersebut, beberapa faktor seperti kesalahan dalam pengumpulan data dan kegagalan pengisian data oleh nasabah bisa jadi penyebab hilanngnya data.


In [13]:
# memeriksa distribusi di seluruh dataset
df_dist = str(round(df_null.shape[0] / df.shape[0] * 100, 2))
df_dist+'%'

'10.1%'

**Kesimpulan sementara**

Distribusi dalam dataset yang asli tidak mirip dengan distribusi tabel yang telah difilter. Persentase nilai yang hilang dalam dataset asli sekitar 10.1% dari keseluruhan data. Dari persentase tersebut dapat disimpulkan bahwa nilai yang hilang tidak secara acak melainkan adanya pola dari karakteristik nasabah tertentu.

In [14]:
# memeriksa penyebab dan pola lain yang dapat mengakibatkan nilai yang hilang
dist_df = []

for col in cat_col_df:    
    df_dist = df[col].value_counts(dropna=False)
    df_dist = df_dist.rename('count').reset_index().rename(columns={'index': 'unique'})
    df_dist['percent'] = round(df_dist['count'] / df.shape[0] * 100, 2).astype(str) + '%'
    dist_df.append(df_dist)

# memeriksa data yang tidak hilang dari keseluruhan dataset pada kolom children
dist_df[0]

Unnamed: 0,unique,count,percent
0,0,14149,65.73%
1,1,4818,22.38%
2,2,2055,9.55%
3,3,330,1.53%
4,20,76,0.35%
5,-1,47,0.22%
6,4,41,0.19%
7,5,9,0.04%


In [15]:
# memeriksa data yang tidak hilang dari keseluruhan dataset pada kolom family_status
dist_df[3]

Unnamed: 0,unique,count,percent
0,married,12380,57.51%
1,civil partnership,4177,19.41%
2,unmarried,2813,13.07%
3,divorced,1195,5.55%
4,widow / widower,960,4.46%


In [16]:
# memeriksa data yang tidak hilang dari keseluruhan dataset pada kolom income_type
dist_df[5]

Unnamed: 0,unique,count,percent
0,employee,11119,51.66%
1,business,5085,23.62%
2,retiree,3856,17.91%
3,civil servant,1459,6.78%
4,unemployed,2,0.01%
5,entrepreneur,2,0.01%
6,student,1,0.0%
7,paternity / maternity leave,1,0.0%


**Kesimpulan sementara**

Pada analisis yang dilakukan di atas, menunjukkan bahwa data yang tidak hilang paling banyak yaitu dengan nasabah dengan karakteristik yang sama dengan nasabah yang mempunyai kecenderungan penyebab nilai yang hilang. Dari data di atas, nasabah dengan karakteristik tidak mempunyai anak, berstatus married, dan memiliki pekerjaan employee dengan persentase berturut-turut sebesar 65.73%, 57.51%, dan 51.66%. Akan tetapi, perlu dilakukan analisis lebih lanjut untuk memastikannya.

In [17]:
# memeriksa pola lainnya - jelaskan pola tersebut
df_not_null = df.loc[(~df['total_income'].isnull()) & (~df['days_employed'].isnull())]
dist_df = []

for col in cat_col_df:    
    df_dist = df_not_null[col].value_counts(dropna=False)
    df_dist = df_dist.rename('count').reset_index().rename(columns={'index': 'unique'})
    df_dist['percent'] = round(df_dist['count'] / df_not_null.shape[0] * 100, 2).astype(str) + '%'
    dist_df.append(df_dist)


# Memeriksa data yang tidak hilang dari dataset tanpa nilai yang hilang pada kolom debt
dist_df[4]

Unnamed: 0,unique,count,percent
0,0,17780,91.88%
1,1,1571,8.12%


In [18]:
# memeriksa data yang tidak hilang dari dataset tanpa nilai yang hilang pada kolom family_status
dist_df[3]

Unnamed: 0,unique,count,percent
0,married,11143,57.58%
1,civil partnership,3735,19.3%
2,unmarried,2525,13.05%
3,divorced,1083,5.6%
4,widow / widower,865,4.47%


In [19]:
# memeriksa data yang tidak hilang dari dataset tanpa nilai yang hilang pada kolom income_type
dist_df[5]

Unnamed: 0,unique,count,percent
0,employee,10014,51.75%
1,business,4577,23.65%
2,retiree,3443,17.79%
3,civil servant,1312,6.78%
4,unemployed,2,0.01%
5,student,1,0.01%
6,entrepreneur,1,0.01%
7,paternity / maternity leave,1,0.01%


**Kesimpulan**

Pada data yang dihasilkan, nilai yang hilang berdasarkan nasabah yang pernah gagal bayar pinjaman yaitu pada kolom debt hanya sebesar 7.82%. Sedangkan untuk nasabah yang belum pernah gagal bayar sebesar 92.18% hampir dari keseluruhan total nilai yang hilang. Lalu dibandingkan lagi berdasarkan jenis pekerjaan nasabah dengan persentase tertinggi pada nasabah yang memiliki pekerjaan "employee" sebesar 51.87% dan diikuti berturut-turut "business" sebesar 23.37%, "retiree" sebesar 19%, "civil servant" sebesar 6.76%, dan "entrepreneur" yang terkecil sebesar 0.05%.

Dapat terlihat sebuah pola nilai yang hilang disebabkan oleh banyaknya nasabah yang belum pernah gagal bayar pinjaman yang dapat diartikan nasabah belum pernah melakukan pinjaman. Kemungkinan terbesar bahwa nasabah mengalami kebingungan dalam pengisian data pengajuan pinjaman, sehingga terjadi kegagalan pengisian data oleh nasabah. Sebagian besar nasabah yang menyebabkan kegagalan pengisian data, 56.9% nasabah dalam status "married" dan 66.19% nasabah yang tidak memiliki anak. Kebanyakan nasabah yang menyebabkan kegagalan pengisian data mempunyai pekerjaan "employee" sebesar 50.83%, "business" sebesar 23.37%, dan "retiree" sebesar 19%.

Untuk mengatasi nilai-nilai yang hilang, perlu dilakukan analisis lebih lanjut. 
- Pertama, melakukan pembersihan data seperti mengatasi nilai yang tidak masuk akal dan menghapus duplikat. 
- Kedua, mengkategorikan data nasabah berdasarkan data lainnya. Setelah pengkategorian data selesai, maka nilai-nilai yang hilang bisa diisi dengan baik.

Selanjutnya yaitu melakukan pembersihan data. Seperti memperbaiki ejaan, nilai yang tidak masuk akal, menghapus duplikat, dan menghapus data yang tidak masuk akal.

## Transformasi data

Memeriksa kolom `education`

In [20]:
# melihat semua nilai di kolom pendidikan untuk memeriksa ejaan apa yang perlu diperbaiki
df_cleaned = df.copy()
df_cleaned['education'].unique()

array(["bachelor's degree", 'secondary education', 'Secondary Education',
       'SECONDARY EDUCATION', "BACHELOR'S DEGREE", 'some college',
       'primary education', "Bachelor's Degree", 'SOME COLLEGE',
       'Some College', 'PRIMARY EDUCATION', 'Primary Education',
       'Graduate Degree', 'GRADUATE DEGREE', 'graduate degree'],
      dtype=object)

Dari deretan tabel di atas, terdapat banyak sekali ejaan penulisan yang berbeda-beda sehingga dapat membuat masalah dalam menganalisis data. Oleh karena itu, kolom ini akan diperbaiki mengenai ejaannya.

In [21]:
# perbaikan pencatatan 
df_cleaned['education'] = df['education'].str.lower()

In [22]:
# Periksa semua nilai di kolom untuk memastikan bahwa kita telah memperbaikinya dengan tepat
df_cleaned['education'].unique()


array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

Memeriksa kolom `children`

In [23]:
# melihat distribusi nilai pada kolom `children`
child_list = df_cleaned['children'].value_counts()
child_dist = child_list / len(df)*100
child_dist

 0     65.732869
 1     22.383275
 2      9.547038
 3      1.533101
 20     0.353078
-1      0.218351
 4      0.190476
 5      0.041812
Name: children, dtype: float64

Terdapat nilai yang tidak realistis pada data tersebut, yaitu adanya nilai -1 dan 20. Dilihat dari distribusi data dari kolom `children`, terdapat nilai 20 dengan distribusi 0,35% dan nilai -1 dengan distribusi 0,21%. Mungkin hal tersebut terjadi karena adanya kesalahan dalam pengumpulan data. Karena data yang bermasalah tersebut berdistribusi dibawah 1% dari tabel, sepertinya tidak masalah untuk mengganti nilai -1 menjadi 1 dan 20 menjadi 2.

In [24]:
# mengganti nilai data 'children' yang bermasalah dengan -1 dan 2
df_cleaned['children'] = df_cleaned['children'].replace(-1, 1)

df_cleaned.loc[df_cleaned['children'] == 20, 'children'] = 2

In [25]:
# memeriksa kembali kolom `children` untuk memastikan bahwa semuanya telah diperbaiki
df_cleaned['children'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

Memeriksa kolom `days_employed`. Berhubung terdapat nilai yang hilang dalam kolom ini dan nilai yang tidak masuk akal.

In [26]:
# menemukan data yang bermasalah di kolom `days_employed` jika memang terdapat masalah dan hitung persentasenya
invalid_data = df_cleaned[df_cleaned['days_employed'] < 0]

# menghitung persentase data bermasalah
percentage_invalid = len(invalid_data) / len(df) * 100
str(round(percentage_invalid, 2))+'%'

'73.9%'

Dengan persentase data yang bermasalah sebesar 73.9% pada kolom `days_employed`. Untuk mengatasinya, perlu mengubah absolut pada seluruh data di kolom ini dan mengatasi nilai yang tidak masuk akal dengan melakukan perhitungan berdasarkan usia minimal memiliki pekerjaan yaitu 18 tahun dengan usia nasabah.

In [27]:
# mengatasi nilai yang bermasalah
df_cleaned['days_employed'] = df_cleaned['days_employed'].abs()

# mengatasi nilai yang tidak masuk akal
df_cleaned['years_employed'] = round(df_cleaned['days_employed'] / 365)
df_cleaned['year_working'] = df_cleaned['dob_years'] - 18

# mengganti days_employed sesuai dengan year_working
df_cleaned.loc[df_cleaned['years_employed'] > df_cleaned['year_working'], 'days_employed'] = df_cleaned['year_working'] * 365

In [28]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
df_cleaned.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed,year_working
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,23.0,24
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,11.0,18
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,15.0,15
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,11.0,14
4,0,12775.0,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,932.0,35
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,3.0,9
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,8.0,25
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,0.0,32
8,2,6205.0,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,19.0,17
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,6.0,23


Memeriksa kolom `dob_years`.

In [29]:
# memeriksa `dob_years` untuk nilai yang mencurigakan dan hitung persentasenya
dob_year = df_cleaned['dob_years'].value_counts()
dob_year_dist = dob_year / len(df)*100
dob_year_dist.sort_values()

75    0.004646
74    0.027875
73    0.037166
19    0.065041
72    0.153310
20    0.236934
71    0.269454
70    0.301974
69    0.394890
68    0.459930
0     0.469222
21    0.515679
67    0.775842
66    0.850174
22    0.850174
65    0.901278
23    1.180023
24    1.226481
64    1.231127
63    1.249710
62    1.635308
61    1.649245
25    1.658537
60    1.751452
26    1.895470
55    2.058072
59    2.062718
51    2.081301
53    2.132404
57    2.137050
58    2.141696
46    2.206736
54    2.225319
47    2.229965
52    2.248548
56    2.262485
27    2.290360
45    2.308943
28    2.336818
49    2.360046
32    2.369338
43    2.383275
50    2.387921
37    2.494774
48    2.499419
30    2.508711
29    2.531940
44    2.541231
36    2.578397
31    2.601626
39    2.662021
33    2.699187
42    2.773519
38    2.778165
34    2.801394
41    2.819977
40    2.829268
35    2.866434
Name: dob_years, dtype: float64

<div class="alert alert-success">
<b>Chamdani's comment v.1</b> <a class="tocSkip"></a>

Mantab Kerja bagus

</div>

Terdapat nilai 0 pada kolom tersebut, untuk mengatasinya yaitu mengganti nilai 0 dengan mean berdasarkan kelompok dari kolom `family_status` dan `children`.

In [30]:
# mengatasi masalah pada kolom `dob_years`, jika terdapat masalah
df_cleaned['dob_years'] = df_cleaned['dob_years'].replace(0, np.nan)
med_dob_years = df_cleaned.groupby(['family_status', 'children'])['dob_years'].median()

# membuat fungsi untuk mengganti nilai usia 0 dengan mean usia dari kelompok yang sesuai
def impute_age(row):
    if pd.isnull(row['dob_years']):
        group_key = (row['family_status'], row['children'])
        if group_key in med_dob_years:
            return med_dob_years[group_key]
    return row['dob_years']

# mengaplikasikan fungsi impute_age ke kolom 'dob_years'
df_cleaned['dob_years'] = df_cleaned.apply(impute_age, axis=1)
df_cleaned['dob_years'] = df_cleaned['dob_years'].astype(int)

In [31]:
# memeriksa hasilnya 
df_cleaned['dob_years'].value_counts()

35    630
40    610
41    607
38    605
34    603
42    597
33    581
39    573
36    571
31    560
44    547
29    545
37    545
30    540
49    539
48    538
50    521
43    513
32    510
45    510
28    503
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
59    449
51    448
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

Memeriksa kolom family_status

In [32]:
# melihat nilai untuk kolom ini
df_cleaned['family_status'].value_counts()


married              12380
civil partnership     4177
unmarried             2813
divorced              1195
widow / widower        960
Name: family_status, dtype: int64

Untuk kolom `family_status` tidak ada masalah apapun, sehingga kita bisa menghiraukannya dan melanjutkan perbaikan pada kolom `gender`.

In [33]:
# meliat nilai dalam kolom ini
df_cleaned['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

Untuk kolom ini terdapat nilai XNA yang hanya terdapat 1 baris saja, solusinya menggantinya dengan nilai dari data yang paling mendominasi yaitu nilai F.

In [34]:
# mengganti nilai yang bermasalah dengan nilai yang paling banyak
df_cleaned['gender'].replace('XNA', 'F', inplace=True)

In [35]:
# memeriksa hasilnya
df_cleaned['gender'].value_counts()

F    14237
M     7288
Name: gender, dtype: int64

Memeriksa kolom `income_type`

In [36]:
# melihat nilai dalam kolom ini
df_cleaned['income_type'].value_counts()

employee                       11119
business                        5085
retiree                         3856
civil servant                   1459
unemployed                         2
entrepreneur                       2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64

Pada kolom ini terdapat nilai "student" dan "paternity / maternity leave" dengan jumlah satu baris saja. Selain itu terdapat nilai "entrepreneur" yang artinya nasabah tersebut menjalankan bisnis. Sekarang membuat nilai "others" untuk menggantikan nilai "paternity / maternity leave" dan "student" serta menggabungkan data nasabah dengan nilai "entrepreneur" dengan nilai yang baru yaitu "business owner".

In [37]:
# mengatasi nilai yang bermasalah
df_cleaned['income_type'] = df_cleaned['income_type'].replace(['paternity / maternity leave', 'student'], 'others')
df_cleaned['income_type'] = df_cleaned['income_type'].replace(['business', 'entrepreneur'], 'business owner')

In [38]:
# memeriksa hasilnya
df_cleaned['income_type'].value_counts()


employee          11119
business owner     5087
retiree            3856
civil servant      1459
unemployed            2
others                2
Name: income_type, dtype: int64

Sekarang saatnya untuk memeriksa data duplikat. Untuk mengatasinya yaitu dengan menghapus data duplikat tersebut.

In [39]:
# memeriksa duplikat
df_cleaned.duplicated().sum()


71

In [40]:
# menghapus duplikat
df_cleaned = df_cleaned.drop_duplicates().reset_index(drop=True)

In [41]:
# Lakukan pemeriksaan terakhir untuk mengecek apakah kita memiliki duplikat
df_cleaned.duplicated().sum()

0

In [42]:
# memeriksa ukuran dataset yang sekarang 
df_cleaned.shape

(21454, 14)

Dataset ini merupakan dataset yang sudah dilakukan proses pembersihan data seperti tingkat pendidikan dengan ejaan yang berbeda pada kolom `education`, memperbaiki nilai yang tidak masuk akal pada kolom `days_Employed`, mengganti nilai jumlah anak yang tidak masuk akal pada `children`, mengganti nilai usia 0 pada `dob_years`, dan mengganti nilai XNA pada `gender`. Dengan persentase perubahan data yaitu:

In [43]:
# menghitung persentase perubahan data
str(round((df.shape[0] - df_cleaned.shape[0])  / df.shape[0] *100,2))+'%'

'0.33%'

Dengan persentase perubahan data dibawah 1%, tidak akan mempengaruhi hasil analisis dataset tersebut.

# Bekerja dengan nilai yang hilang

Untuk mempercepat pekerjaan dengan sejumlah data, perlu membuat dictionary dari `days_employed` dan `total_income`.

In [44]:
# membuat dictionary
dict_edu = zip(df_cleaned['education_id'], df_cleaned['education'])
dict_fam = zip(df_cleaned['family_status_id'], df_cleaned['family_status'])
dict(dict_fam)

{0: 'married',
 1: 'civil partnership',
 2: 'widow / widower',
 3: 'divorced',
 4: 'unmarried'}

In [45]:
dict(dict_edu)

{0: "bachelor's degree",
 1: 'secondary education',
 2: 'some college',
 3: 'primary education',
 4: 'graduate degree'}

### Memperbaiki nilai yang hilang di `total_income`

Dengan banyaknya nilai yang hilang di kolom `total_income` dan `days_employed`, yaitu mengisi nilai-nilai yang hilang tersebut berhubung tidak bisa menghapus data dengan nilai yang hilang. Nilai yang hilang akan diisi dengan melakukan pengkategorian data usia nasabah, dengan begitu nilai-nilai yang hilang dapat diisi.

In [46]:
# membuat fungsi untuk menghitung kategori usia
def age_group(age):
    try:
        if age <= 17:
            return 'Remaja'
        elif 18 <= age <= 30:
            return 'Pemuda'
        elif 31 <= age <= 50:
            return 'Dewasa'
        else:
            return 'Lansia'
    except:
        return 'Unidentified'

In [47]:
# melakukan pengujian 
age_group(25)

'Pemuda'

In [48]:
# membuat kolom baru berdasarkan fungsi
df_cleaned['age_group'] = df_cleaned['dob_years'].apply(age_group)
df_cleaned.head()


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed,year_working,age_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,23.0,24,Dewasa
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,11.0,18,Dewasa
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,15.0,15,Dewasa
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,11.0,14,Dewasa
4,0,12775.0,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,932.0,35,Lansia


In [49]:
# memeriksa bagaimana nilai di dalam kolom baru
df_cleaned['age_group'].value_counts()


Dewasa    11088
Lansia     6649
Pemuda     3717
Name: age_group, dtype: int64

Kategori usia nasabah yang paling banyak ialah Dewasa sebanyak 11088 nasabah, diikuti dengan kelompok nasabah Lansia 6649 nasabah, dan kelompok Pemuda 3717 nasabah. Selanjutya membuat tabel baru yang memuat data tanpa nilai yang hilang.

In [50]:
# membuat tabel tanpa nilai yang hilang 
not_lost_df = df_cleaned.loc[(~df_cleaned['total_income'].isnull()) & (~df_cleaned['days_employed'].isnull())]

# menampilkan hasilnya
not_lost_df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed,year_working,age_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,23.0,24,Dewasa
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,11.0,18,Dewasa
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,15.0,15,Dewasa
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,11.0,14,Dewasa
4,0,12775.0,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,932.0,35,Lansia


In [51]:
# memerhatikan nilai rata-rata untuk pendapatan berdasarkan faktor yang telah diidentifikasi
mean_income = pd.pivot_table(not_lost_df, columns='age_group', values='total_income', aggfunc='mean') 

# memerhatikan nilai median untuk pendapatan berdasarkan faktor yang telah diidentifikasi
med_income = pd.pivot_table(not_lost_df, columns='age_group', values='total_income', aggfunc='median')

# melihat perbandingan 
mean_income.index = ['mean']
med_income.index = ['median']

# menggabungkan kedua tabel secara vertikal (menjadi baris baru)
income_summary = pd.concat([mean_income, med_income])

# Menampilkan hasil
income_summary

age_group,Dewasa,Lansia,Pemuda
mean,28359.573248,24699.741208,25817.674826
median,24711.559,21305.846,22957.185


Setelah membandingkan nilai rata-rata dan median pada kolom total_income, nilai yang efektif untuk mengganti nilai yang hilang yaitu dengan menggunakan median. Karena dalam dataset ini memiliki outlier yang sangat signifikan sehingga data tidak berdistribusi secara normal.

In [52]:
#  membuat fungsi yang akan digunakan untuk mengisi nilai yang hilang
def replace_income(dataset, agg_column, value_column):
    grouped_values = dataset.groupby(agg_column)[value_column].median().reset_index()
    size = len(grouped_values)
    for i in range(size):
        group = grouped_values[agg_column][i]
        value = grouped_values[value_column][i]
        dataset.loc[(dataset[agg_column]==group) & (dataset[value_column].isna()), value_column] = value
    return dataset

In [53]:
# memeriksa bagaimana nilai di dalam kolom baru
replace_income(df_cleaned, 'age_group', 'total_income')

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed,year_working,age_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,23.0,24,Dewasa
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,11.0,18,Dewasa
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,15.0,15,Dewasa
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,11.0,14,Dewasa
4,0,12775.000000,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,932.0,35,Lansia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21449,1,4529.316663,43,secondary education,1,civil partnership,1,F,business owner,0,35966.698,housing transactions,12.0,25,Dewasa
21450,0,17885.000000,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,942.0,49,Lansia
21451,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,6.0,20,Dewasa
21452,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,9.0,20,Dewasa


In [54]:
# menerapkan fungsi tersebut ke setiap baris
df_cleaned = replace_income(df_cleaned, 'age_group', 'total_income')

In [55]:
# memeriksa apakah kita mendapatkan kesalahan
df_cleaned.isnull().sum()

children               0
days_employed       2103
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
years_employed      2103
year_working           0
age_group              0
dtype: int64

Sepertinya tidak ada kesalahan dalam mengisi nilai yang hilang tersebut. Selanjutnya, memeriksa jumlah kolom pada dataset.

In [56]:
# memeriksa jumlah entri di kolom
df_cleaned.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 15 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21454 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21454 non-null  int32  
 3   education         21454 non-null  object 
 4   education_id      21454 non-null  int64  
 5   family_status     21454 non-null  object 
 6   family_status_id  21454 non-null  int64  
 7   gender            21454 non-null  object 
 8   income_type       21454 non-null  object 
 9   debt              21454 non-null  int64  
 10  total_income      21454 non-null  float64
 11  purpose           21454 non-null  object 
 12  years_employed    19351 non-null  float64
 13  year_working      21454 non-null  int64  
 14  age_group         21454 non-null  object 
dtypes: float64(3), int32(1), int64(5), object(6)
memory usage: 2.4+ MB


###  Memperbaiki nilai di `days_employed`

Untuk memperbaiki nilai di kolom `days_employed`, yaitu hanya perlu mengisi nilai yang hilang tersebut dengan rata-rata atau median data sama seperti memperbaiki nilai di kolom `total_income`.

In [57]:
# menghitung median dari `days_employed` berdasarkan parameter yang diidentifikasi
med_employed = pd.pivot_table(not_lost_df, columns='income_type', values='days_employed', aggfunc='median')
med_employed.index = ['median']

# menghitung rata-rata dari `days_employed` berdasarkan parameter yang diidentifikasi
mean_employed = pd.pivot_table(not_lost_df, columns='income_type', values='days_employed', aggfunc='mean')
mean_employed.index = ['mean']

# membandingkan median dan rata-rata
employed_summary = pd.concat([mean_employed, med_employed])

# Menampilkan hasil
employed_summary

income_type,business owner,civil servant,employee,others,retiree,unemployed
mean,2071.558104,3323.696297,2270.98802,1937.755758,15015.037758,7300.0
median,1525.919873,2649.455489,1563.678696,1937.755758,15330.0,7300.0


Disini memperbaiki nilai yang hilang yaitu menggantinya dengan nilai median. Dikarenakan terdapat outlier data yang signifikan, sehingga dengan menggunakan median nilai pada dataset tersebut dapat memperbaiki nilai yang hilang.

In [58]:
# membuat fungsi yang menghitung median berdasarkan parameter yang diidentifikasi
def replace_days_emp(dataset, agg_column, value_column):
    grouped_values = dataset.groupby(agg_column)[value_column].median().reset_index()
    size = len(grouped_values)
    for i in range(size):
        group = grouped_values[agg_column][i]
        value = grouped_values[value_column][i]
        dataset.loc[(dataset[agg_column]==group) & (dataset[value_column].isna()), value_column] = value
    return dataset

In [60]:
# memeriksa fungsi
replace_days_emp(df_cleaned, 'income_type', 'days_employed')

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed,year_working,age_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,23.0,24,Dewasa
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,11.0,18,Dewasa
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,15.0,15,Dewasa
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,11.0,14,Dewasa
4,0,12775.000000,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,932.0,35,Lansia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21449,1,4529.316663,43,secondary education,1,civil partnership,1,F,business owner,0,35966.698,housing transactions,12.0,25,Dewasa
21450,0,17885.000000,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,942.0,49,Lansia
21451,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,6.0,20,Dewasa
21452,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,9.0,20,Dewasa


In [62]:
# memeriksa hasilnya
df_cleaned['days_employed'].isnull().sum()

0

In [63]:
# mengganti nilai yang hilang
df_cleaned = replace_days_emp(df_cleaned, 'income_type', 'days_employed')

Setelah selesai mengisi nilai yang hilang, selanjutnya memeriksa jumlah total nilai di kolom `days_employed` sesuai dengan jumlah nilai di kolom lain dan membuat kolom baru yaitu `years_employed` dengan membagi jumlah hari bekerja dengan 365 hari dalam satu tahun.

In [65]:
# membuat kolom years_employed
df_cleaned['years_employed'] = round(df_cleaned['days_employed'] / 365)

# memeriksa entri di semua kolom - pastikan kita memperbaiki semua nilai yang hilang
df_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 15 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21454 non-null  int64  
 1   days_employed     21454 non-null  float64
 2   dob_years         21454 non-null  int32  
 3   education         21454 non-null  object 
 4   education_id      21454 non-null  int64  
 5   family_status     21454 non-null  object 
 6   family_status_id  21454 non-null  int64  
 7   gender            21454 non-null  object 
 8   income_type       21454 non-null  object 
 9   debt              21454 non-null  int64  
 10  total_income      21454 non-null  float64
 11  purpose           21454 non-null  object 
 12  years_employed    21454 non-null  float64
 13  year_working      21454 non-null  int64  
 14  age_group         21454 non-null  object 
dtypes: float64(3), int32(1), int64(5), object(6)
memory usage: 2.4+ MB


## Pengkategorian data

Terkait pengkategorian data, yaitu mengelompokkan data sesuai dengan tujuan analisis yaitu untuk mengetahui apakah terdapat hubungan antara tingkat pendapatan dan probabilitas seseorang melakukan gagal bayar pinjaman dan bagaimana perbedaan tujuan pinjaman memengaruhi probabilitas seseorang melakukan gagal bayar pinjaman. Untuk itu, perlu mengelompokkan data berdasarkan tujuan kredit dari kolom purpose dan kategori tingkat pendapatan nasabah dari kolom `total_income`.


In [66]:
# menampilkan nilai data untuk pengkategorian
df_cleaned['purpose']

0          purchase of the house
1                   car purchase
2          purchase of the house
3        supplementary education
4              to have a wedding
                  ...           
21449       housing transactions
21450          purchase of a car
21451                   property
21452          buying my own car
21453               to buy a car
Name: purpose, Length: 21454, dtype: object

Memeriksa nilai unik

In [67]:
# Periksa nilai unik
df_cleaned['purpose'].value_counts()

wedding ceremony                            791
having a wedding                            768
to have a wedding                           765
real estate transactions                    675
buy commercial real estate                  661
housing transactions                        652
buying property for renting out             651
transactions with commercial real estate    650
purchase of the house                       646
housing                                     646
purchase of the house for my family         638
construction of own property                635
property                                    633
transactions with my real estate            627
building a real estate                      624
buy real estate                             621
purchase of my own house                    620
building a property                         619
housing renovation                          607
buy residential real estate                 606
buying my own car                       

Dari data yang disajikan, tujuan kredit nasabah dapat dikelompokkan menjadi beberapa yaitu pembelian mobil (car), properti (house, propery, real estate), pernikahan (wedding), dan pendidikan (education, university)

Setelah mengetahui kelompok tujuan kredit, selanjutnya membuat kolom baru yang memuat kategori tujuan kredit nasabah.


In [68]:
# membuat fungsi untuk mengategorikan data berdasarkan topik umum
def categorize_purpose(row):
    if 'car' in row:
        return 'car'
    elif 'hous' in row or 'prop' in row or 'real est' in row:
        return 'real estate'
    elif 'wedd' in row:
        return 'wedding'
    elif 'educ' in row or 'uni' in row:
        return 'education'
    else:
        return 'Unidentified'

In [70]:
# membuat kolom yang memuat kategori dan menghitung nilainya
df_cleaned['purpose_category'] = df_cleaned['purpose'].apply(categorize_purpose)
df_cleaned['purpose_category'].value_counts()

real estate    10811
car             4306
education       4013
wedding         2324
Name: purpose_category, dtype: int64

Selanjutnya mengkategorikan tingkatan pendapatan para nasabah.

In [71]:
# meihat semua data numerik di kolom yang kamu pilih untuk pengkategorian
df_cleaned['total_income']

0        40620.102
1        17932.802
2        23341.752
3        42820.568
4        25378.572
           ...    
21449    35966.698
21450    24959.969
21451    14347.610
21452    39054.888
21453    13127.587
Name: total_income, Length: 21454, dtype: float64

In [72]:
# melihat kesimpulan statistik untuk kolomnya
df_cleaned['total_income'].describe()

count     21454.000000
mean      26448.214890
std       15688.159979
min        3306.762000
25%       17219.817250
50%       23234.038000
75%       31330.237250
max      362496.645000
Name: total_income, dtype: float64

Selanjutnya menentukan rentang yang utama yaitu berdasarkan rata-rata dan median pendapatan keseluruhan nasabah yaitu 26448 dan 23234. Dengan kategori average akan mengkategorikan pendapatan di sekitar rata-rata dan median pendapatan keseluruhan nasabah dengan rentang 15000 sampai 30000. Lalu untuk dibawah 15000 akan dikategorikan sebagai small. 

Setelah itu, membuat kategori above average dengan menggunakan pendekatan kuartil 3 atau 75% data pendapatan yaitu pada 31330 dengan  membuat kategori above average dengan rentang 30000 sampai 45000. Setelahnya, membuat kategori high dengan rentang 45000 sampai dengan 60000. Diikuti dengan kategori very high dengan rentang di atas 60000.

In [73]:
# Buat fungsi yang melakukan pengkategorian menjadi kelompok numerik yang berbeda berdasarkan rentang
def income_level(income):
    if income <= 15000:
        return 'small'
    elif (income > 15000) and (income <= 30000):
        return 'average'
    elif (income > 30000) and (income <= 45000):
        return 'above average'
    elif (income > 45000) and (income <= 60000):
        return 'high'
    elif income > 60000:
        return 'very high'
    else:
        return 'unknown'

In [74]:
# Buat kolom yang memuat kategori
df_cleaned['income_level'] = df_cleaned['total_income'].apply(income_level)

In [75]:
# Hitung setiap nilai kategori untuk melihat pendistribusiannya
df_cleaned['income_level'].value_counts()

average          11792
above average     4060
small             3743
high              1187
very high          672
Name: income_level, dtype: int64

In [76]:
# membuat dataset final
df_final = df_cleaned.copy()
df_final.head()  

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed,year_working,age_group,purpose_category,income_level
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,23.0,24,Dewasa,real estate,above average
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,11.0,18,Dewasa,car,average
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,15.0,15,Dewasa,real estate,average
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,11.0,14,Dewasa,education,above average
4,0,12775.0,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,35.0,35,Lansia,wedding,average


## Memeriksa hipotesis


**Apakah terdapat korelasi antara memiliki anak dengan probabilitas melakukan gagal bayar pinjaman?**

In [111]:
# memeriksa data anak dan data gagal bayar pinjaman
debt_child = pd.pivot_table(df_final, index='children', columns='debt', values='income_type', aggfunc='count').fillna(0)

# mengitung distribusi gagal bayar berdasarkan jumlah anak
debt_child['total'] = debt_child[0] + debt_child[1]
debt_child['dist debt 0'] = round(debt_child[0] / debt_child['total'] *100, 2).astype(str) + '%'
debt_child['dist debt 1'] = round(debt_child[1] / debt_child['total'] *100, 2).astype(str) + '%'

# menghitung persentase dari total keseluruhan dataset
debt_child['debt 0 (total %)'] = round(debt_child[0] / debt_child[0].sum() * 100, 2).astype(str) + '%'
debt_child['debt 1 (total %)'] = round(debt_child[1] / debt_child[1].sum() * 100, 2).astype(str) + '%'

# mengurutkan berdasarkan persentase debt 1
debt_child.sort_values('debt 1 (total %)', ascending=False)

debt,0,1,total,dist debt 0,dist debt 1,debt 0 (total %),debt 1 (total %)
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,13028.0,1063.0,14091.0,92.46%,7.54%,66.09%,61.06%
1,4410.0,445.0,4855.0,90.83%,9.17%,22.37%,25.56%
2,1926.0,202.0,2128.0,90.51%,9.49%,9.77%,11.6%
3,303.0,27.0,330.0,91.82%,8.18%,1.54%,1.55%
4,37.0,4.0,41.0,90.24%,9.76%,0.19%,0.23%
5,9.0,0.0,9.0,100.0%,0.0%,0.05%,0.0%


**Kesimpulan**

Berdasarkan analisis data yang dilakukan, terdapat perbedaan persentase gagal bayar pinjaman berdasarkan jumlah anak. Dari analis tabel di atas menunjukkan bahwa:
- Kelompok nasabah yang tidak mempunyai anak atau dengan jumlah anak 0 memiliki jumlah gagal bayar pinjaman tertinggi yaitu sebesar 61.06%. Namun tingkat gagal bayarnya relatif rendah (7.54%), yang berarti sebagian besar peminjam di kelompok ini tetap membayar pinjamannya.
- Sementara itu, kelompok nasabah dengan jumlah anak 1 dan 2 memiliki jumlah gagal bayar masing-masing yaitu 25.56%, dan 11.6%. Namun tingkat gagal bayar yang tinggi berturut-turut yaitu 9.17% dan 9.49%.
- Kelompok nasabah dengan jumlah anak 3 dan 4 memiliki jumlah gagal bayar masing-masing yaitu =1.55%, dan 0.23%. Namun tingkat gagal bayar tertinggi pada nasabah dengan 4 anak sebesar 9.76% dan nasabah dengan 3 anak sebesar 8.18%.
- Jumlah gagal bayar sebesar 0% hanya dimiliki oleh kelompok nasabah dengan jumlah anak 5.

Dari data tersebut, terlihat adanya pola yang jelas antara memiliki anak berhubungan secara langsung terhadap probabilitas gagal bayar Dapat disimpulkan bahwa:
- Semakin banyak anak, semakin tinggi tingkat gagal bayar, meskipun jumlah peminjam berkurang.
- Kelompok tanpa anak memiliki jumlah gagal bayar tertinggi, tetapi risiko gagal bayarnya rendah dibandingkan kelompok dengan anak.

**Apakah terdapat korelasi antara status keluarga dengan probabilitas melakukan gagal bayar pinjaman?**

In [112]:
# memeriksa data status keluarga dan data gagal bayar pinjaman
debt_family = df_final.pivot_table(index='family_status', columns='debt', values='income_type', aggfunc='count')


# mengitung tingkat gagal bayar berdasarkan status keluarga
debt_family['total'] = debt_family[0] + debt_family[1]
debt_family['dist debt 0'] = round(debt_family[0] / debt_family['total'] *100, 2).astype(str) + '%'
debt_family['dist debt 1'] = round(debt_family[1] / debt_family['total'] *100, 2).astype(str) + '%'

# menghitung jumlah gagal bayar berdasarkan status keluarga
debt_family['debt 0 (total %)'] = round(debt_family[0] / debt_family[0].sum() *100, 2).astype(str) + '%'
debt_family['debt 1 (total %)'] = round(debt_family[1] / debt_family[1].sum() *100, 2).astype(str) + '%'

# mengurutkan berdasarkan jumlah persentasi gagal bayar
debt_family = debt_family.sort_values(1, ascending=False)
debt_family

debt,0,1,total,dist debt 0,dist debt 1,debt 0 (total %),debt 1 (total %)
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
married,11408,931,12339,92.45%,7.55%,57.87%,53.48%
civil partnership,3763,388,4151,90.65%,9.35%,19.09%,22.29%
unmarried,2536,274,2810,90.25%,9.75%,12.86%,15.74%
divorced,1110,85,1195,92.89%,7.11%,5.63%,4.88%
widow / widower,896,63,959,93.43%,6.57%,4.55%,3.62%


**Kesimpulan**

Berdasarkan analisis data yang dilakukan, dapat diketahui bahwa:
- Kelompok nasabah dengan status menikah memiliki jumlah gagal bayar yang tinggi sebersar 53.48%, namun tingkat gagal bayar pada kelompok ini tergolong rendah yaitu 7.55%.
- Kelompok nasabah dengan status civil partnership dan unmarried memiliki jumlah gagal bayar cenderung tinggi yaitu 22.29% dan 15.74%. Namun memiliki tingkat gagal bayar yang tinggi berturut-turut sebesar 9.35% dan 9.75%.
- Kelompok nasabah dengan status divorced dan widow/widower memiliki jumlat gagal bayar yang rendah berturut-turut yaitu 4.88% dan 3.62% dan juga memiliki tingkat gagal bayar yang rendah sebesar 7.11% dan 6.57%.

Dapat disimpulkan bahwa nasabah dengan status civil partnership dan unmarried memiliki risiko gagal bayar yang lebih tinggi dibandingkan dengan nasabah yang sudah atau pernah berkeluarga.

**Apakah terdapat korelasi antara tingkat pendapatan dengan probabilitas melakukan gagal bayar pinjaman?**

In [109]:
# memeriksa data tingkat pendapatan dan data gagal bayar pinjaman
debt_income = df_final.pivot_table(index='income_level', columns='debt', values='income_type', aggfunc='count')


# menghitung tingkat gagal bayar berdasarkan tingkat pendapatan
debt_income['total'] = debt_income[0] + debt_income[1]
debt_income['debt 0 (%)'] = round(debt_income[0] / debt_income['total'] *100, 2).astype(str) + '%'
debt_income['debt 1 (%)'] = round(debt_income[1] / debt_income['total'] *100, 2).astype(str) + '%'

# menghitung jumlah gagal bayar berdasarkan tingkat pendapatan
debt_income['debt 0 (total %)'] = round(debt_income[0] / debt_income[0].sum() *100, 2).astype(str) + '%'
debt_income['debt 1 (total %)'] = round(debt_income[1] / debt_income[1].sum() *100, 2).astype(str) + '%'

# mengurutkan berdasarkan jumlah gagal bayar
debt_income.sort_values(1, ascending=False)

debt,0,1,total,debt 0 (%),debt 1 (%),debt 0 (total %),debt 1 (total %)
income_level,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
average,10785,1007,11792,91.46%,8.54%,54.71%,57.84%
above average,3756,304,4060,92.51%,7.49%,19.05%,17.46%
small,3445,298,3743,92.04%,7.96%,17.48%,17.12%
high,1093,94,1187,92.08%,7.92%,5.54%,5.4%
very high,634,38,672,94.35%,5.65%,3.22%,2.18%


**Kesimpulan**
Berdasarkan data di atas dapat diketahui bahwa:
- Nasabah dengan tingkat penghasilan average memiliki jumlah gagal bayar yang tinggi yaitu sebesar 57.84% dan juga memiliki tingkat gagal bayar yang tinggi sebesar 8.54%.
- Nasabah dengan tingkat penghasilan above average dan small juga memiliki jumlah gagal bayar yang cukup tinggi yaitu sebesar 17.46% dan 17.12%. Dengan tingkat gagal bayar sebesar 7.49% dan 7.96%.
- Nasabah dengan tingkat penghasilan high dan very high memiliki jumlah gagal bayar yang rendah hanya sebesar 5.4% dan 2.18%. Namun tingkat gagal bayar nasabah dengan tingkat penghasilan high cukup tinggi yaitu sebesar 7.92% dibandingkat dengan nasabah tingkat penghasilan very high yang hanya sebesar 5.65%

Dari hasil tersebut, dapat disimpulkan bahwa:
- Tingkat pendapatan dapat berpengaruh terhadap probabilitas gagal bayar pinjaman. 
- Nasabah dengan tingkat pendapatan dibawah rata-rata cenderung memiliki risiko gagal bayar yang sedikit lebih tinggi dibandingkan dengan nasabah dengan tingkat pendapatan lebih tinggi.

**Bagaimana tujuan kredit memengaruhi persentase gagal bayar?**

In [114]:
# memeriksa persentase tingkat gagal bayar untuk setiap tujuan kredit 
debt_purpose = df_final.pivot_table(index='purpose_category', columns='debt', values='income_type', aggfunc='count')

# menghitung tingkat gagal bayar berdasarkan tujuan kredit
debt_purpose['total'] = debt_purpose[0] + debt_purpose[1]
debt_purpose['debt 0 (%)'] = round(debt_purpose[0] / debt_purpose['total'] *100, 2).astype(str) + '%'
debt_purpose['debt 1 (%)'] = round(debt_purpose[1] / debt_purpose['total'] *100, 2).astype(str) + '%'

# menghitung jumlah gagal bayar berdasarkan tujuan kredit
debt_purpose['debt 0 (total %)'] = round(debt_purpose[0] / debt_purpose[0].sum() *100, 2).astype(str) + '%'
debt_purpose['debt 1 (total %)'] = round(debt_purpose[1] / debt_purpose[1].sum() *100, 2).astype(str) + '%'

# mengurutkan data berdasarkan jumlah
debt_purpose.sort_values(1, ascending=False)

debt,0,1,total,debt 0 (%),debt 1 (%),debt 0 (total %),debt 1 (total %)
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
real estate,10029,782,10811,92.77%,7.23%,50.88%,44.92%
car,3903,403,4306,90.64%,9.36%,19.8%,23.15%
education,3643,370,4013,90.78%,9.22%,18.48%,21.25%
wedding,2138,186,2324,92.0%,8.0%,10.85%,10.68%


**Kesimpulan**

Berdasarkan analisis data yang dilakukan, terdapat perbedaan tingkat gagal bayar pinjaman berdasarkan tujuan kredit. 
- Nasabah dengan tujuan kredit untuk real estate memiliki jumlah gagal bayar yang tinggi sebesar 44.92% namun tingkat gagal bayar yang rendah yaitu sebesar 7.23%.
- Sementara itu nasabah dengan tujuan kredit untuk pembelian mobil cenderung memiliki risiko gagal dengan tingkat gagal bayar sebesar 9.36% diikuti dengan tujuan kredit nasabah untuk pendidikan sebesar 9.22%. 
- Kemudian nasabah dengan tujuan kredit pernikahan memiliki jumlah dan tingkat gagal bayar yang rendah berturut-turut yaitu 10.68% dan 8%

Dapat disimpulkan bahwa nasabah yang mengajukan kredit untuk tujuan konsumsi seperti mobil dan pendidikan cenderung memiliki risiko gagal bayar yang sedikit lebih tinggi dibandingkan dengan nasabah yang mengajukan kredit untuk tujuan pernikahan atau kepemilikan properti (real estate).

# Kesimpulan umum 

Berikut beberapa proses pengolahan data:
- Pertama-tama sebelum melakukan analisis data, data perlu diolah terlebih dahulu. Dan menemukan beberapa masalah seperti nilai yang hilang, nilai yang bermasalah, dan duplikat dan mengatasi masalah tersebut dengan mengisi nilai yang hilang, memperbaiki nilai yang bermasalah, dan menghapus duplikat. Setelah pra-pemrosesan, ukuran dataset menjadi (21454, 12), dengan sedikit penurunan jumlah baris akibat penghapusan duplikat.
- Kedua, proses pengisian data yang hilang dengan mengkategorikan beberapa data nasabah pada kolom `days_employed` dan `total_income`. Nilai yang hilang diisi dengan median dari kedua kolom tersebut. 
- Ketiga, membuat kategori untuk tujuan kredit dan tingkatan pendapatan supaya dapat melakukan analisis data dengan mudah. 

### Kesimpulan 
- Terdapat korelasi antara memiliki anak dengan probabilitas gagal bayar pinjaman. Semakin banyak anak yang dimiliki nasabah, semakin tinggi kemungkinan gagal bayar.
- Terdapat korelasi antara status keluarga dengan probabilitas gagal bayar pinjaman. Nasabah yang tidak menikah atau berada dalam kemitraan sipil memiliki risiko gagal bayar yang lebih tinggi daripada nasabah yang menikah atau duda/janda.
- Terdapat korelasi antara tingkat pendapatan dengan probabilitas gagal bayar pinjaman. Nasabah dengan tingkat pendapatan rendah atau sangat tinggi cenderung memiliki risiko gagal bayar yang lebih rendah daripada nasabah dengan tingkat pendapatan menengah.
- Tujuan kredit memengaruhi persentase gagal bayar. Nasabah yang mengajukan kredit untuk tujuan konsumsi seperti mobil dan pendidikan cenderung memiliki risiko gagal bayar yang sedikit lebih tinggi dibandingkan dengan nasabah yang mengajukan kredit untuk tujuan pernikahan atau kepemilikan properti (real estate).

### Rekomendasi Bisnis
- Penyesuaian batas pinjaman dan tenor pembayaran untuk nasabah dengan banyak anak.
- Opsi pinjaman dengan bunga lebih rendah untuk nasabah dengan lebih dari 2 anak, tetapi dengan persyaratan ketat seperti pendapatan stabil atau agunan tambahan.
- Analisis kredit yang lebih ketat untuk nasabah lajang atau dalam kemitraan sipil, misalnya melalui penilaian stabilitas pendapatan dan histori keuangan lebih dalam.
- Memberikan insentif bunga lebih rendah untuk pasangan menikah karena mereka memiliki tingkat risiko gagal bayar lebih rendah.
- Penyuluhan keuangan bagi nasabah lajang untuk meningkatkan kesadaran akan pengelolaan utang.
- Kredit dengan pendekatan berbasis risiko yaitu pendapatan menengah bisa diberikan jaminan tambahan atau asuransi kredit untuk mengurangi risiko gagal bayar.
- Paket pinjaman khusus dengan batasan cicilan maksimal 30-40% dari penghasilan untuk mencegah beban finansial berlebihan.
- Edukasi pengelolaan keuangan bagi nasabah dengan pendapatan menengah untuk meningkatkan literasi keuangan dan mencegah gagal bayar.
- Penyesuaian suku bunga berdasarkan tujuan pinjaman seperti kredit konsumsi (mobil, pendidikan) dapat memiliki bunga lebih tinggi atau persyaratan ketat. Sedangkan kredit untuk pernikahan dan kepemilikan properti dapat diberikan insentif seperti tenor lebih panjang atau suku bunga lebih rendah.
- Sediakan opsi fleksibilitas pembayaran untuk kredit konsumsi, misalnya grace period atau opsi refinancing jika terjadi kesulitan keuangan.
- Promosi pinjaman berbasis investasi (seperti properti dan bisnis) dengan skema bunga lebih menguntungkan untuk menarik lebih banyak nasabah berkualitas.