# Menganalisis Risiko Gagal Bayar Peminjam

Tugas Anda adalah menyiapkan laporan untuk divisi kredit suatu bank. Anda akan mencari tahu pengaruh status perkawinan seorang nasabah dan jumlah anak yang dimilikinya terhadap probabilitas gagal bayar dalam pelunasan pinjaman. Pihak bank sudah memiliki beberapa data mengenai kelayakan kredit nasabah.

Laporan Anda akan dipertimbangkan pada saat membuat **penilaian kredit** untuk calon nasabah. **Penilaian kredit** digunakan untuk mengevaluasi kemampuan calon peminjam untuk melunasi pinjaman mereka.

Dengan banyaknya pengajuan pinjaman oleh nasabah, maka diperlukan analisis mengenai kemungkinan gagal bayar dari data nasabah yang ada. Dari dataset yang ada, akan diolah sebaik mungkin dengan melihat masalah dan solusi yang dapat dilakukan untuk memperbaiki informasi di dalam dataset ini sehingga dapat di analisa.

Tujuan dari proyek ini untuk mengidentifikasi karakteristik dari nasabah gagal bayar yang akan diuji dengan :

1. Pengaruh jumlah anak terhadap gagal bayar pinjaman.
2. Pengaruh status keluarga terhadap gagal bayar pinjaman.
3. Pengaruh tingkat penghasilan terhadap gagal bayar pinjaman.
4. Pengaruh tujuan pinjaman terhadap gagal bayar pinjaman.

## Buka *file* data dan baca informasi umumnya.


In [3]:
# Muat semua *library*
import pandas as pd

In [4]:
# Muat datanya
try :
    data = pd.read_csv(r'C:\Users\vidop\Documents\Practicum\Sprint 2\File\credit_scoring_eng.csv')

except :
    data = pd.read_csv('/datasets/credit_scoring_eng.csv')

## Soal 1. Eksplorasi data

**Deskripsi Data**
- `children` - jumlah anak dalam keluarga
- `days_employed` - pengalaman kerja nasabah dalam hari
- `dob_years` - usia nasabah dalam tahun
- `education` - tingkat pendidikan nasabah
- `education_id` - pengidentifikasi untuk tingkat pendidikan nasabah
- `family_status` - pengidentifikasi untuk status perkawinan nasabah
- `family_status_id` - tanda pengenal status perkawinan
- `gender` - jenis kelamin nasabah
- `income_type` - jenis pekerjaan
- `debt` - apakah nasabah pernah melakukan gagal bayar pinjaman
- `total_income` - pendapatan bulanan
- `purpose` - tujuan mendapatkan pinjaman


In [5]:
# Mari kita lihat berapa banyak baris dan kolom yang dimiliki oleh dataset kita
data.size

258300

In [6]:
# Mari tampilkan N baris pertama
data.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


Dari data sampel diatas terdapat beberapa masalah yaitu :

1. Pada data ini tidak memiliki informasi identitas pada tiap barisnya.
2. Pada kolom 'days_employed' , di dalam baris datanya memiliki nilai positif (+) dan negatif (-). seharusnya hanya nilai positif saja.
3. Pada kolom 'days_employed' memiliki data 'Nan' / hilang.
4. Pada kolom 'education', format penulisan di dalam baris data tidak seragam.
5. Pada kolom 'total_income", memiliki data 'Nan' / hilang.





In [7]:
# Dapatkan informasi data
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Jumlah baris data pada kolom 'days_employed' dan 'total_income' tidak sama dengan total baris data.


In [8]:
# Mari kita lihat tabel yang telah difilter dengan nilai yang hilang di kolom pertama yang mengandung data yang hilang

data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Jumlah baris nilai yang hilang tampak simetris di kedua kolom, namun bukan berarti setiap nilai yang hilang di kolom 'days_employed' dan 'total_income' berada di baris yang sama. 



In [9]:
# Mari kita terapkan beberapa kondisi untuk memfilter data dan melihat jumlah baris dalam tabel yang telah difilter.

((data['days_employed'].isna()) & (data['total_income'].isna())).sum()

2174

**Kesimpulan sementara**

Jumlah baris yang telah di filter sama dengan baris nilai yang hilang, maka setiap baris yang memiliki nilai yang hilang pada kolom 'days_employed' juga memiliki nilai yang hilang pada kolom 'total_income'.

Persentase jumlah baris nilai yang hilang sebesar 10% dari total baris data.


In [10]:
# Mari kita periksa nasabah yang tidak memiliki data tentang karakteristik yang teridentifikasi dan kolom dengan nilai yang hilang
incomplete_data = data[(data['days_employed'].isna()) & (data['total_income'].isna())]

incomplete_data.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
65,0,,21,secondary education,1,unmarried,4,M,business,0,,transactions with commercial real estate
67,0,,52,bachelor's degree,0,married,0,F,retiree,0,,purchase of the house for my family
72,1,,32,bachelor's degree,0,married,0,M,civil servant,0,,transactions with commercial real estate
82,2,,50,bachelor's degree,0,married,0,F,employee,0,,housing
83,0,,52,secondary education,1,married,0,M,employee,0,,housing


In [11]:
# Periksalah distribusinya
incomplete_data['income_type'].value_counts()

income_type
employee         1105
business          508
retiree           413
civil servant     147
entrepreneur        1
Name: count, dtype: int64

Data nasabah yang memiliki nilai yang hilang paling banyak bekerja sebagai karyawan ('employee')


**Kemungkinan penyebab hilangnya nilai dalam data**

Kemungkinan nilai pada kolom 'days_employed' dan 'total_income' tidak di isi pada saat pengajuan pinjaman. Karena tidak mungkin jika nasabah yang memiliki pekerjaan sebagai karyawan ('employee') tidak memiliki pendapatan per bulan nya ('total_income').


In [12]:
# Memeriksa distribusi di seluruh *dataset*
data['income_type'].value_counts()


income_type
employee                       11119
business                        5085
retiree                         3856
civil servant                   1459
unemployed                         2
entrepreneur                       2
student                            1
paternity / maternity leave        1
Name: count, dtype: int64

**Kesimpulan sementara**

Distribusi data nilai yang hilang mirip dengan distribusi dataset asli. Data dengan nilai yang hilang terdistribusi di 5 jumlah baris kategori 'income_type' tertinggi.

In [13]:
# Periksa penyebab dan pola lain yang dapat mengakibatkan nilai yang hilang
incomplete_data_debt_count = incomplete_data[(incomplete_data['debt'] == 1)]['purpose'].count()
incomplete_data_debt_total = incomplete_data['purpose'].count()
incomplete_data_debt_percentage = incomplete_data_debt_count / incomplete_data_debt_total

data_debt_count = data[(data['debt'] == 1)]['purpose'].count()
data_row_total = data['purpose'].count()
data_debt_percentage = data_debt_count / data_row_total

print(f"Persentase nasabah gagal bayar dari data yang memiliki nilai yang hilang {incomplete_data_debt_percentage:.2%}")
print(f"Persentase nasabah gagal bayar dari total baris dataset asli {data_debt_percentage:.2%}")

Persentase nasabah gagal bayar dari data yang memiliki nilai yang hilang 7.82%
Persentase nasabah gagal bayar dari total baris dataset asli 8.09%


**Kesimpulan sementara**

Persentase data nasabah gagal bayar mirip antara data yang memiliki nilai yang hilang sebesar 7.82% dengan dataset asli sebesar 8.09%. 


In [14]:
# Periksa pola lainnya - jelaskan pola tersebut
data.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,26787.568355
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,16475.450632
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,3306.762
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,16488.5045
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,23202.87
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,32549.611
max,20.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


**Kesimpulan**

Data yang memiliki nilai yang hilang selain memiliki distribusi data di kategori 'income_type' yang sama dengan dataset asli, juga memiliki persentase nasabah gagal bayar yang serupa.

Terdapat 2 kemungkinan terjadinya hal ini :

1. Data di kolom 'days_employed' & 'total_income' tidak di input.
2. Terjadi error dalam proses tarik data di dataset asli sehingga menimbulkan nilai Nan. Selain itu data di kolom 'days_employed' juga memiliki nilai negatif.

Untuk mengatasi nilai yang hilang pada kolom 'days_employed' dan 'total_income' akan di isi dengan nilai rata - rata atau median.

Langkah selanjutnya untuk mentransformasi data :
1. Memeriksa dan memperbaiki nilai di setiap kolom data jika diperlukan.
2. Memeriksa dan menghapus data duplikat jika diperlukan.
3. Memperbaiki nilai yang hilang.

## Transformasi data

In [15]:
# Mari kita lihat semua nilai di kolom pendidikan untuk memeriksa ejaan apa yang perlu diperbaiki
data['education'].unique()


array(["bachelor's degree", 'secondary education', 'Secondary Education',
       'SECONDARY EDUCATION', "BACHELOR'S DEGREE", 'some college',
       'primary education', "Bachelor's Degree", 'SOME COLLEGE',
       'Some College', 'PRIMARY EDUCATION', 'Primary Education',
       'Graduate Degree', 'GRADUATE DEGREE', 'graduate degree'],
      dtype=object)

In [16]:
# Perbaiki pencatatan jika diperlukan
data['education'] = data['education'].str.lower()



In [17]:
# Periksa semua nilai di kolom untuk memastikan bahwa kita telah memperbaikinya dengan tepat
data['education'].unique()

array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

[Periksa data kolom `children`]

In [18]:
# Mari kita lihat distribusi nilai pada kolom `children`
data['children'].describe()

count    21525.000000
mean         0.538908
std          1.381587
min         -1.000000
25%          0.000000
50%          0.000000
75%          1.000000
max         20.000000
Name: children, dtype: float64

Nilai data yang terdapat di kolom 'children', memiliki nilai yang tidak wajar.
Data memiliki jumlah anak -1, dan jumlah anak maximum 20.

In [19]:
data.groupby('children')['purpose'].count()

children
-1        47
 0     14149
 1      4818
 2      2055
 3       330
 4        41
 5         9
 20       76
Name: purpose, dtype: int64

Jika baris data dikelompokkan berdasarkan jumlah anak : 
1. Data yang memiliki jumlah anak -1 sebanyak 47 baris. Data yang memiliki nilai negatif ini akan dirubah menjadi nilai 1 (positif). Kemungkinan karena adanya salah penulisan data menjadi nilai negatif.
2. Data yang memiliki jumlah anak 20 sebanyak 76 baris. Data yang memiliki nilai maximum ini akan dirubah menjadi nilai maximum data yang wajar yaitu 5. Karena tidak mungkin untuk mengecek data secara detail apakah memang benar nasabah memiliki anak sejumlah ini dan tidak diketahui kenapa nilainya begitu besar. 

In [20]:
# [perbaiki data berdasarkan keputusan Anda]
data.loc[data['children'] == -1, 'children'] = 1
data.loc[data['children'] == 20, 'children'] = 5

In [21]:
# Periksa kembali kolom `children` untuk memastikan bahwa semuanya telah diperbaiki
data.groupby('children')['purpose'].count()


children
0    14149
1     4865
2     2055
3      330
4       41
5       85
Name: purpose, dtype: int64

In [22]:
# Temukan data yang bermasalah di kolom `days_employed` jika memang terdapat masalah, dan hitung persentasenya
data['days_employed'].describe()


count     19351.000000
mean      63046.497661
std      140827.311974
min      -18388.949901
25%       -2747.423625
50%       -1203.369529
75%        -291.095954
max      401755.400475
Name: days_employed, dtype: float64

In [23]:
negative_days_employed_count = data[(data['days_employed'] < 0)]['purpose'].count()
negative_days_employed_percentage = negative_days_employed_count / data_row_total
print(f"Jumlah baris data yang memiliki nilai negatif {negative_days_employed_count} baris, {negative_days_employed_percentage:.2%} dari total baris data")

Jumlah baris data yang memiliki nilai negatif 15906 baris, 73.90% dari total baris data


Kolom 'days_employed' memiliki nilai data negatif dengan jumlah besar. kemungkinan disebabkan oleh error di dataset. karena tidak mungkin untuk menghitung secara manual nilai yang sebenarnya, maka nilai negatif ini akan dirubah menjadi positif.

In [24]:
# Atasi nilai yang bermasalah, jika ada
data['days_employed'] = data['days_employed'].abs()


In [25]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
data[(data['days_employed'] < 0)]['purpose'].count()

0

In [26]:
# Periksa `dob_years` untuk nilai yang mencurigakan dan hitung persentasenya
data['dob_years'].describe()


count    21525.000000
mean        43.293380
std         12.574584
min          0.000000
25%         33.000000
50%         42.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64

In [27]:
zero_dob_years = data[(data['dob_years'] == 0)]['purpose'].count()
total_data_row = data['purpose'].count()
percentage = (zero_dob_years / total_data_row)
dob_years_avg = data['dob_years'].mean()
dob_years_median = data['dob_years'].median()
print(f"'zero_dob_years' yang memiliki nilai 0 sebanyak {zero_dob_years} baris, {percentage:.2%} dari total baris data")
print(f"Rata -rata umur nasabah {dob_years_avg:.2f}, Median umur nasabah {dob_years_median}")


'zero_dob_years' yang memiliki nilai 0 sebanyak 101 baris, 0.47% dari total baris data
Rata -rata umur nasabah 43.29, Median umur nasabah 42.0


Data yang memiliki nilai 0 ini akan di isi dengan nilai rata - rata umur nasabah. Karena persentase data bermasalah ini hanya 0.47% dari total baris data, seharusnya tidak berpengaruh banyak.

In [28]:
# Atasi masalah pada kolom `dob_years`, jika terdapat masalah
data.loc[data['dob_years'] == 0, 'dob_years'] = dob_years_avg

In [29]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
data[(data['dob_years'] == 0)]['purpose'].count()

0

In [30]:
# Mari kita lihat nilai untuk kolom ini
data['family_status'].unique()


array(['married', 'civil partnership', 'widow / widower', 'divorced',
       'unmarried'], dtype=object)

In [31]:
# Atasi nilai yang bermasalah di `family_status`, jika ada
data.loc[data['family_status'] == 'unmarried', 'family_status'] = 'single'


In [32]:
# Periksa hasilnya - pastikan nilainya telah diperbaiki
data['family_status'].unique()

array(['married', 'civil partnership', 'widow / widower', 'divorced',
       'single'], dtype=object)

In [33]:
# Mari kita liat nilai dalam kolom ini
data['gender'].value_counts()

gender
F      14236
M       7288
XNA        1
Name: count, dtype: int64

In [34]:
# Atasi nilai-nilai yang bermasalah, jika ada
data.loc[data['gender'] == 'XNA', 'gender'] = 'F'

In [35]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
data['gender'].value_counts()

gender
F    14237
M     7288
Name: count, dtype: int64

In [36]:
# Mari kita lihat nilai dalam kolom ini
data['income_type'].value_counts()

income_type
employee                       11119
business                        5085
retiree                         3856
civil servant                   1459
unemployed                         2
entrepreneur                       2
student                            1
paternity / maternity leave        1
Name: count, dtype: int64

In [37]:
# Atasi nilai yang bermasalah, jika ada
data.loc[data['income_type'] == 'paternity / maternity leave', 'income_type'] = 'employee'

In [38]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
data['income_type'].value_counts()


income_type
employee         11120
business          5085
retiree           3856
civil servant     1459
unemployed           2
entrepreneur         2
student              1
Name: count, dtype: int64

In [39]:
# Periksa duplikat
data.duplicated().sum()

71

Dataset asli memiliki duplikat eksplisit sebanyak 71 baris, data duplikat ini akan di hapus.

In [40]:
# Atasi duplikat, jika ada
data = data.drop_duplicates().reset_index(drop=True)

In [41]:
# Lakukan pemeriksaan terakhir untuk mengecek apakah kita memiliki duplikat
data.duplicated().sum()

0

In [42]:
# Periksa ukuran dataset yang sekarang Anda miliki setelah manipulasi pertama yang Anda lakukan
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21454 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21454 non-null  float64
 3   education         21454 non-null  object 
 4   education_id      21454 non-null  int64  
 5   family_status     21454 non-null  object 
 6   family_status_id  21454 non-null  int64  
 7   gender            21454 non-null  object 
 8   income_type       21454 non-null  object 
 9   debt              21454 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21454 non-null  object 
dtypes: float64(3), int64(4), object(5)
memory usage: 2.0+ MB


Jumlah baris dataset baru berkurang sebanyak 71 baris dari dataset lama karena duplikat eksplisit selain itu juga terdapat perubahan didalam nilai kolomnya yaitu :
1. Perubahan penulisan menjadi lower case pada kolom 'education'.
2. Perbaikan nilai negatif dan nilai maximum yang wajar pada kolom 'children'.
3. Perbaikan nilai negatif pada kolom 'days_employed'.
4. Perbaikan nilai 0 menjadi rata - rata pada kolom 'dob_years'.
5. Perubahan status 'unmarried' menjadi 'single' pada kolom 'family_status'.
6. Perubahan data 'XNA' menjadi 'F' pada kolom 'gender'.
7. Perubahan data 'paternity / maternity leave' menjadi 'employee' pada kolom 'income_type'.


# Bekerja dengan nilai yang hilang

In [43]:
# Temukan dictionary
family_status_id = ['married', 'civil partnership', 'widow / widower', 'divorced', 'single']
education_id = ["bachelor's degree", 'secondary education', 'some college', 'primary education', 'graduate degree']


## Memperbaiki nilai yang hilang di `total_income`

Terdapat data yang memiliki nilai yang hilang pada kolom 'total_income' dan 'days_employed'.
Dari data di kedua kolom ini akan dilihat apakah nilai yang akan diperbaiki akan menggunakan nilai median atau rata -rata.


In [44]:
# Mari kita tulis sebuah fungsi untuk menghitung kategori usia
def age_grouping(row):
    dob_years = row['dob_years']
    if dob_years <= 30 :
        return '19-30'
    if dob_years <= 40 :
        return '31-40'
    if dob_years <=50 :
        return '41-50'
    if dob_years <=60 :
        return '51-60'
    if dob_years <=70 :
        return '61-70'
    return '71+'


    

In [45]:
# Lakukan pengujian untuk melihat apakah fungsi Anda bekerja atau tidak
cat1 = data.iloc[766]
cat2 = data.iloc[8]
cat3 = data.iloc[48]
cat4 = data.iloc[122]
cat5 = data.iloc[12]
cat6 = data.iloc[850]

print(age_grouping(cat1))
print(age_grouping(cat2))
print(age_grouping(cat3))
print(age_grouping(cat4))
print(age_grouping(cat5))
print(age_grouping(cat6))

19-30
31-40
41-50
51-60
61-70
71+


In [46]:
# Buatlah kolom baru berdasarkan fungsi
data['age_group'] = data.apply(age_grouping, axis=1)


In [47]:
# Periksa bagaimana nilai di dalam kolom baru
data.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,1,8437.673028,42.0,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,41-50
1,1,4024.803754,36.0,secondary education,1,married,0,F,employee,0,17932.802,car purchase,31-40
2,0,5623.42261,33.0,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,31-40
3,3,4124.747207,32.0,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,31-40
4,0,340266.072047,53.0,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,51-60
5,0,926.185831,27.0,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,19-30
6,0,2879.202052,43.0,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,41-50
7,0,152.779569,50.0,secondary education,1,married,0,M,employee,0,21731.829,education,41-50
8,2,6929.865299,35.0,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,31-40
9,0,2188.756445,41.0,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,41-50


In [48]:
# Buat tabel tanpa nilai yang hilang dan tampilkan beberapa barisnya untuk memastikan semuanya berjalan dengan baik
key = data['total_income'].isnull()
data_notna = data.loc[~key]
data_notna

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,1,8437.673028,42.0,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,41-50
1,1,4024.803754,36.0,secondary education,1,married,0,F,employee,0,17932.802,car purchase,31-40
2,0,5623.422610,33.0,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,31-40
3,3,4124.747207,32.0,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,31-40
4,0,340266.072047,53.0,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,51-60
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21449,1,4529.316663,43.0,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,41-50
21450,0,343937.404131,67.0,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,61-70
21451,1,2113.346888,38.0,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,31-40
21452,3,3112.481705,38.0,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,31-40


In [49]:
# Perhatikan nilai rata-rata untuk pendapatan berdasarkan faktor yang telah Anda identifikasi
data_notna.groupby('age_group')['total_income'].mean()

age_group
19-30    25817.674826
31-40    28376.735148
41-50    28332.806009
51-60    25482.856294
61-70    23245.390243
71+      19575.454327
Name: total_income, dtype: float64

In [50]:
# Perhatikan nilai median untuk pendapatan berdasarkan faktor yang telah Anda identifikasi
data_notna.groupby('age_group')['total_income'].median()

age_group
19-30    22957.1850
31-40    24825.1865
41-50    24563.6500
51-60    22056.7710
61-70    19705.8550
71+      18611.5935
Name: total_income, dtype: float64

Terdapat nilai outlier yang tinggi di jenis 'income_type' sehingga mempengaruhi nilai rata - rata 'total_income' berdasarkan 'age_group'. Maka nilai yang hilang ini akan di isi dengan nilai median per 'age_group'.

In [51]:
#  Tulis fungsi yang akan kita gunakan untuk mengisi nilai yang hilang
median_by_age_group = data_notna.groupby('age_group')['total_income'].median()

def change_total_income(row) :
    age_group = row['age_group']
    return median_by_age_group[age_group]

data['test'] = data[(data['total_income'].isnull())].apply(change_total_income, axis=1)
    

In [52]:
# Memeriksa bagaimana nilai di dalam kolom baru
data[(data['total_income'].isnull())].head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,test
12,0,,65.0,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding,61-70,19705.855
26,0,,41.0,secondary education,1,married,0,M,civil servant,0,,education,41-50,24563.65
29,0,,63.0,secondary education,1,single,4,F,retiree,0,,building a real estate,61-70,19705.855
41,0,,50.0,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase,41-50,24563.65
55,0,,54.0,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding,51-60,22056.771
65,0,,21.0,secondary education,1,single,4,M,business,0,,transactions with commercial real estate,19-30,22957.185
67,0,,52.0,bachelor's degree,0,married,0,F,retiree,0,,purchase of the house for my family,51-60,22056.771
72,1,,32.0,bachelor's degree,0,married,0,M,civil servant,0,,transactions with commercial real estate,31-40,24825.1865
82,2,,50.0,bachelor's degree,0,married,0,F,employee,0,,housing,41-50,24563.65
83,0,,52.0,secondary education,1,married,0,M,employee,0,,housing,51-60,22056.771


In [53]:
# Terapkan fungsi tersebut ke setiap baris
data['total_income'] = data['total_income'].fillna(data['test'])

In [54]:
# Periksa apakah kita mendapatkan kesalahandata_
data['total_income'].isnull().sum()

0

In [55]:
data[data['test'].isnull()].head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,test
0,1,8437.673028,42.0,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,41-50,
1,1,4024.803754,36.0,secondary education,1,married,0,F,employee,0,17932.802,car purchase,31-40,
2,0,5623.42261,33.0,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,31-40,
3,3,4124.747207,32.0,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,31-40,
4,0,340266.072047,53.0,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,51-60,
5,0,926.185831,27.0,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,19-30,
6,0,2879.202052,43.0,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,41-50,
7,0,152.779569,50.0,secondary education,1,married,0,M,employee,0,21731.829,education,41-50,
8,2,6929.865299,35.0,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,31-40,
9,0,2188.756445,41.0,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,41-50,


In [56]:
# Ganti nilai yang hilang jika terdapat kesalahan

In [57]:
# Periksa jumlah entri di kolom
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21454 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21454 non-null  float64
 3   education         21454 non-null  object 
 4   education_id      21454 non-null  int64  
 5   family_status     21454 non-null  object 
 6   family_status_id  21454 non-null  int64  
 7   gender            21454 non-null  object 
 8   income_type       21454 non-null  object 
 9   debt              21454 non-null  int64  
 10  total_income      21454 non-null  float64
 11  purpose           21454 non-null  object 
 12  age_group         21454 non-null  object 
 13  test              2103 non-null   float64
dtypes: float64(4), int64(4), object(6)
memory usage: 2.3+ MB


##  Memperbaiki nilai di `days_employed`

In [58]:
# Distribusi median dari `days_employed` berdasarkan parameter yang Anda identifikasi
data_notna.groupby('income_type')['days_employed'].median()


income_type
business           1547.382223
civil servant      2689.368353
employee           1574.429209
entrepreneur        520.848083
retiree          365213.306266
student             578.751554
unemployed       366413.652744
Name: days_employed, dtype: float64

In [59]:
# Distribusi rata-rata dari `days_employed` berdasarkan parameter yang Anda identifikasi
data_notna.groupby('income_type')['days_employed'].mean()

income_type
business           2111.524398
civil servant      3399.896902
employee           2326.596097
entrepreneur        520.848083
retiree          365003.491245
student             578.751554
unemployed       366413.652744
Name: days_employed, dtype: float64

Nilai yang hilang akan di ganti dengan nilai median 'days_employed'. Karena data days employed juga memiliki nilai outlier ekstrim.

In [60]:
# Mari tulis fungsi yang menghitung rata-rata atau median (tergantung keputusan Anda) berdasarkan parameter yang Anda identifikasi
median_by_income_type = data_notna.groupby('income_type')['days_employed'].median()


In [61]:
# Periksa apakah fungsi Anda dapat bekerja
median_by_income_type

income_type
business           1547.382223
civil servant      2689.368353
employee           1574.429209
entrepreneur        520.848083
retiree          365213.306266
student             578.751554
unemployed       366413.652744
Name: days_employed, dtype: float64

In [62]:
# Terapkan fungsi ke income_type
def change_days_employed(row) :
    typ = row['income_type']
    return median_by_income_type[typ]


In [63]:
# Periksa apakah fungsi Anda bekerja
change_days_employed(data.iloc[110])


2689.3683533043886

In [64]:
# Ganti nilai yang hilang
data['test1'] = data[(data['days_employed'].isnull())].apply(change_days_employed, axis=1)
data['days_employed'] = data['days_employed'].fillna(data['test1'])

Cek baris data setelah dilakukan perbaikan

In [65]:
# Periksa entri di semua kolom - pastikan kita memperbaiki semua nilai yang hilang
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 15 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21454 non-null  int64  
 1   days_employed     21454 non-null  float64
 2   dob_years         21454 non-null  float64
 3   education         21454 non-null  object 
 4   education_id      21454 non-null  int64  
 5   family_status     21454 non-null  object 
 6   family_status_id  21454 non-null  int64  
 7   gender            21454 non-null  object 
 8   income_type       21454 non-null  object 
 9   debt              21454 non-null  int64  
 10  total_income      21454 non-null  float64
 11  purpose           21454 non-null  object 
 12  age_group         21454 non-null  object 
 13  test              2103 non-null   float64
 14  test1             2103 non-null   float64
dtypes: float64(5), int64(4), object(6)
memory usage: 2.5+ MB


# Pengkategorian Data


In [66]:
# Tampilkan nilai data yang Anda pilih untuk pengkategorian
data['purpose'].describe()


count                21454
unique                  38
top       wedding ceremony
freq                   791
Name: purpose, dtype: object

In [67]:
# Periksa nilai unik
sorted(data['purpose'].unique())

['building a property',
 'building a real estate',
 'buy commercial real estate',
 'buy real estate',
 'buy residential real estate',
 'buying a second-hand car',
 'buying my own car',
 'buying property for renting out',
 'car',
 'car purchase',
 'cars',
 'construction of own property',
 'education',
 'getting an education',
 'getting higher education',
 'going to university',
 'having a wedding',
 'housing',
 'housing renovation',
 'housing transactions',
 'profile education',
 'property',
 'purchase of a car',
 'purchase of my own house',
 'purchase of the house',
 'purchase of the house for my family',
 'real estate transactions',
 'second-hand car purchase',
 'supplementary education',
 'to become educated',
 'to buy a car',
 'to get a supplementary education',
 'to have a wedding',
 'to own a car',
 'transactions with commercial real estate',
 'transactions with my real estate',
 'university education',
 'wedding ceremony']

Tujuan 'purpose' dapat dikategorikan menjadi :
1. 'property loan' pinjaman property.
2. 'car loan' pinjaman mobil.
3. 'education loan' pinjaman pendidikan.
4. 'wedding loan' pinjaman pernikahan.



In [68]:
# Mari kita tulis sebuah fungsi untuk mengategorikan data berdasarkan topik umum
def categorize_purpose(purpose) :
    if 'car' in purpose :
        return 'car loan'
    if 'educ' in purpose or 'univ' in purpose :
        return 'education loan'
    if 'hous' in purpose or 'proper'in purpose or 'real' in purpose:
        return 'property loan'
    if 'wedd' in purpose :
        return 'wedding loan'


In [69]:
# Buat kolom yang memuat kategori dan hitung nilainya
data['purpose_group'] = data['purpose'].apply(categorize_purpose)

In [70]:
data.groupby('purpose_group')['purpose'].count()

purpose_group
car loan           4306
education loan     4013
property loan     10811
wedding loan       2324
Name: purpose, dtype: int64

In [71]:
# Lihat semua data numerik di kolom yang Anda pilih untuk pengkategorian
data.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income,test,test1
count,21454.0,21454.0,21454.0,21454.0,21454.0,21454.0,21454.0,2103.0,2103.0
mean,0.49119,67059.271572,43.475046,0.817097,0.973898,0.08115,26448.175726,23325.214831,68389.297777
std,0.797313,139199.747434,12.21347,0.548674,1.421567,0.273072,15689.317737,1638.632896,140770.512812
min,0.0,24.141633,19.0,0.0,0.0,0.0,3306.762,18611.5935,520.848083
25%,0.0,1023.662702,33.0,1.0,0.0,0.0,17219.81725,22056.771,1574.429209
50%,0.0,1996.223132,43.0,1.0,0.0,0.0,23234.83,24563.65,1574.429209
75%,1.0,5320.665263,53.0,1.0,1.0,0.0,31330.23725,24825.1865,2689.368353
max,5.0,401755.400475,75.0,4.0,4.0,1.0,362496.645,24825.1865,365213.306266


In [72]:
# Dapatkan kesimpulan statistik untuk kolomnya
days_employed_avg_grouped = data.groupby('income_type').agg({'days_employed' : 'mean'})
days_employed_avg_grouped['year_employed'] = days_employed_avg_grouped['days_employed'] / 365
days_employed_avg_grouped

Unnamed: 0_level_0,days_employed,year_employed
income_type,Unnamed: 1_level_1,Unnamed: 2_level_1
business,2055.865629,5.632509
civil servant,3329.185413,9.121056
employee,2253.991805,6.17532
entrepreneur,520.848083,1.426981
retiree,365024.642615,1000.067514
student,578.751554,1.585621
unemployed,366413.652744,1003.873021


Setelah diperbaiki, data di kolom 'days_employed' masih memiliki nilai yang tidak wajar. Jika dikelompokan berdasarkan 'income_type', kelompok 'retiree' dan 'unemployed' memiliki rata - rata tahun bekerja yang sangat tinggi sehingga untuk kolom 'days_employed' tidak dapat digunakan untuk analisa dan pengelompokan data.

Kolom data numerik yang dapat dikategorikan adalah kolom 'total_income' karena data ini memiliki rentang nilai minimum dan maximum yang wajar.

In [73]:
# Buat fungsi yang melakukan pengkategorian menjadi kelompok numerik yang berbeda berdasarkan rentang

def income_range(row):
    income = row['total_income']
    if income <= 10000:
        return '1000 - 10000'
    if income <= 20000:
        return '10000 - 20000'
    if income <= 30000:
        return '20000 - 30000'
    if income <= 40000:
        return '30000 - 40000'
    if income <= 50000:
        return '40000 - 50000'
    if income <= 60000:
        return '50000 - 60000'
    if income <= 70000:
        return '60000 - 70000'
    if income <= 80000:
        return '70000 - 80000'
    if income <= 90000:
        return '80000 - 90000'
    if income <= 100000:
        return '90000 - 100000'
    return 'over 100000'



In [74]:
# Buat kolom yang memuat kategori
data['income_group'] = data.apply(income_range,axis=1)

In [75]:
# Hitung setiap nilai kategori untuk melihat pendistribusiannya
data.groupby('income_group')['purpose'].count()

income_group
1000 - 10000       926
10000 - 20000     6652
20000 - 30000     7957
30000 - 40000     3107
40000 - 50000     1492
50000 - 60000      648
60000 - 70000      294
70000 - 80000      156
80000 - 90000       83
90000 - 100000      40
over 100000         99
Name: purpose, dtype: int64

# Memeriksa hipotesis


**Apakah terdapat korelasi antara memiliki anak dengan probabilitas melakukan gagal bayar pinjaman?**

In [76]:
# Periksa data anak dan data gagal bayar pinjaman
child_pivot = data.pivot_table(
    index='children',
    columns='debt',
    values='purpose',
    aggfunc='count',
    margins=True)

# Hitung persentase gagal bayar berdasarkan jumlah anak
child_pivot['debt %'] = round((child_pivot[1] / child_pivot['All'])*100,2)
child_pivot

debt,0,1,All,debt %
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,13028,1063,14091,7.54
1,4410,445,4855,9.17
2,1858,194,2052,9.45
3,303,27,330,8.18
4,37,4,41,9.76
5,77,8,85,9.41
All,19713,1741,21454,8.12


**Kesimpulan**

Nasabah yang tidak memiliki anak ('children' = 0) memiliki kemungkinan gagal bayar yang paling kecil yaitu 7.54% daripada nasabah yang memiliki anak.


**Apakah terdapat korelasi antara status keluarga dengan probabilitas melakukan gagal bayar pinjaman?**

In [77]:
# Periksa data status keluarga dan data gagal bayar pinjaman
family_pivot = data.pivot_table(
    index='family_status',
    columns='debt',
    values='purpose',
    aggfunc='count',
    margins=True)

# Hitung persentase gagal bayar berdasarkan status keluarga
family_pivot['debt %'] = round((family_pivot[1] / family_pivot['All'])*100,2)
family_pivot


debt,0,1,All,debt %
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
civil partnership,3763,388,4151,9.35
divorced,1110,85,1195,7.11
married,11408,931,12339,7.55
single,2536,274,2810,9.75
widow / widower,896,63,959,6.57
All,19713,1741,21454,8.12


**Kesimpulan**

Nasabah yang tidak menikah ('single') memiliki kemungkinan gagal bayar paling tinggi sebesar 9.75%


**Apakah terdapat korelasi antara tingkat pendapatan dengan probabilitas melakukan gagal bayar pinjaman?**

In [78]:
# Periksa data tingkat pendapatan dan data gagal bayar pinjaman
income_pivot = data.pivot_table(
    index='income_group',
    columns='debt',
    values='purpose',
    aggfunc='count',
    margins=True)

# Hitung persentase gagal bayar berdasarkan tingkat pendapatan
income_pivot['debt %'] = round((income_pivot[1] / income_pivot['All'])*100,2)
income_pivot



debt,0,1,All,debt %
income_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1000 - 10000,868,58,926,6.26
10000 - 20000,6090,562,6652,8.45
20000 - 30000,7272,685,7957,8.61
30000 - 40000,2865,242,3107,7.79
40000 - 50000,1390,102,1492,6.84
50000 - 60000,594,54,648,8.33
60000 - 70000,278,16,294,5.44
70000 - 80000,148,8,156,5.13
80000 - 90000,77,6,83,7.23
90000 - 100000,38,2,40,5.0


**Kesimpulan**

Nasabah yang berpenghasilan 20000-30000 memiliki kemungkinan gagal bayar paling tinggi sebesar 8.61%.

**Bagaimana tujuan kredit memengaruhi persentase gagal bayar?**

In [79]:
# Periksa persentase tingkat gagal bayar untuk setiap tujuan kredit dan lakukan penganalisisan
purpose_pivot = data.pivot_table(
    index='purpose_group',
    columns='debt',
    values='purpose',
    aggfunc='count',
    margins=True)

purpose_pivot['debt %'] = round((purpose_pivot[1] / purpose_pivot['All'])*100,2)
purpose_pivot




debt,0,1,All,debt %
purpose_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
car loan,3903,403,4306,9.36
education loan,3643,370,4013,9.22
property loan,10029,782,10811,7.23
wedding loan,2138,186,2324,8.0
All,19713,1741,21454,8.12


**Kesimpulan**

Tujuan pinjaman mobil ('car loan') memiliki kemungkinan gagal bayar paling tinggi yaitu 9.36%


# Kesimpulan umum 

Terdapat data yang memiliki nilai yang hilang dari dataset asli sebesar 10% dari total baris data.
Data nilai yang hilang ini memiliki karakteristik kolom 'total_income' dan 'days_employed' bernilai Nan tiap barisnya.

Data yang memiliki nilai yang hilang selain memiliki distribusi data di kategori 'income_type' yang sama dengan dataset asli, juga memiliki persentase nasabah gagal bayar yang serupa.
Terdapat 2 kemungkinan terjadinya hal ini :

1. Data di kolom 'days_employed' & 'total_income' tidak di input.
2. Terjadi error dalam proses tarik data di dataset asli sehingga menimbulkan nilai Nan. Selain itu data di kolom 'days_employed' juga memiliki nilai negatif.

Karena data yang memiliki nilai yang hilang ini tidak terjadi secara acak maka data ini tidak bisa dihapus.

Untuk memperbaiki data yang memiliki nilai yang hilang dilakukan :

1. 'total_income' di isi dengan nilai median penghasilan per 'age_group'.
2. 'days_employed' di isi dengan nilai median hari kerja per 'income_type'.
3. Memperbaiki nilai negatif pada data 'days_employed'.

Dataset asli juga memiliki duplikat eksplisit sebanyak 71 baris. Data ini dihapus pada data yang akan di analisa.

Selain itu, dilakukan pengelompokan pada informasi yang ada di dataset agar dapat lebih mudah di analisa.

Berdasarkan pengujian yang dilakukan terhadap dataset ini, kemungkinan gagal bayar paling tinggi dimiliki oleh nasabah dengan karakteristik :

1. Nasabah yang mempunyai anak, memiliki kemungkinan gagal bayar lebih tinggi daripada nasabah yang tidak mempunyai anak.
2. Nasabah yang tidak menikah ('single') memiliki kemungkinan gagal bayar paling tinggi.
3. Nasabah dengan rentang penghasilan 20000-30000 memiliki kemungkinan gagal bayar paling tinggi.
4. Tujuan pinjaman nasabah yang memiliki kemungkinan gagal bayar tertinggi adalah pinjaman mobil ('car_loan').




