# Menganalisis risiko gagal bayar peminjam

Tugasmu adalah menyiapkan laporan untuk divisi kredit suatu bank. Kamu akan mencari tahu pengaruh status perkawinan seorang nasabah dan jumlah anak yang dimilikinya terhadap probabilitas gagal bayar dalam pelunasan pinjaman. Pihak bank sudah memiliki beberapa data mengenai kelayakan kredit nasabah.

Laporanmu akan dipertimbangkan pada saat membuat **penilaian kredit** untuk calon nasabah. **Penilaian kredit** digunakan untuk mengevaluasi kemampuan calon peminjam untuk melunasi pinjaman mereka.

[Dalam notebook ini, kamu dapat menemukan petunjuk dan instruksi singkat serta arahan untuk berpikir. Jangan abaikan petunjuk tersebut karena mereka dirancang untuk membekalimu dengan struktur pengerjaan proyek dan akan membantumu melakukan analisis secara lebih mendalam. Sebelum menyerahkan proyekmu, pastikan kamu menghapus semua petunjuk dan deskripsi yang diberikan kepadamu. Sebaliknya, buat laporan ini terlihat seolah-olah dikirimkan oleh kamu kepada rekan kerja untuk menunjukkan temuanmu - mereka tidak perlu tahu bahwa kamu mendapatkan bantuan eksternal dari kami! Untuk membantumu, kami menempatkan semua petunjuk yang harus kamu hapus dalam tanda kurung siku.]

[Sebelum kamu masuk ke dalam proses analisis datamu, jelaskan tujuan proyek dan hipotesis yang akan kamu uji.]

# Analisis Penilaian Kredit
Proyek ini bertujuan mencari tahu pengaruh status perkawinan seorang nasabah dan jumlah anak yang dimilikinya terhadap probabilitas gagal bayar dalam pelunasan pinjaman. Pihak bank sudah memiliki beberapa data mengenai kelayakan kredit nasabah.

Laporan ini akan dipertimbangkan pada saat membuat penilaian kredit untuk calon nasabah. Penilaian kredit digunakan untuk mengevaluasi kemampuan calon peminjam untuk melunasi pinjaman mereka.

# Tujuan Proyek
1. Mengetahui relasi kemungkinan gagal bayar bagi nasabah yang sudah menikah dan mempunyai anak.
2. Mengetahui seberapa besar persentase gagal bayar untuk nasabah yang sudah berstatus menikah dan mempunyai anak.

# Hipotesis
1. Terdapat korelasi antara memiliki anak dengan melakukan pelunasan tepat waktu
2. Terdapat korelasi antara status keluarga dengan pelunasan tepat waktu
3. Terdapat korelasi antara tingkat pendapatan dengan membayar kembali tepat waktu
4. Tujuan kredit memengaruhi tingkat gagal bayar

# Konten <a id='back'></a>
* [Tahap 1. Ikhtisar Data](#intro)
    * [Kemungkinan penyebab hilangnya data](#1)
* [Tahap 2. Pra-pemrosesan data](#2)
    * [2.1 Memeriksa tiap kolom](#3)
    * [2.2 Memeriksai nilai duplikat](#4)
    * [2.3 Memeriksa nilai yang hilang](#5)
* [Tahap 3. Kategori Data](#6)
    * [3.1 Tipe kolom kategorik](#7)
    * [3.2 Tipe kolom numerik](#8)
* [Tahap 4. Hipotesis](#9)
    * [Hipotesis 1: Korelasi antara memiliki anak dengan melakukan pelunasan tepat waktu](#10)
    * [Hipotesis 2: Korelasi antara status keluarga dengan pelunasan tepat waktu](#11)
    * [Hipotesis 3: Korelasi antara tingkat pendapatan dengan membayar kembali tepat waktu](#12)
    * [Hipotesis 4: Tujuan kredit memengaruhi tingkat gagal bayar](#13)
* [Tahap 5. Kesimpulan Umum](#14)

## Buka file data dan baca informasi umumnya.

[Mulailah dengan mengimpor library dan memuat datanya. Kamu mungkin akan menyadari bahwa kamu memerlukan library tambahan saat kamu mengerjakan proyek ini dan itu merupakan hal yang normal. Hanya saja, pastikan untuk memperbarui bagian ini jika dibutuhkan.]

In [3]:
# Muat semua library
import pandas as pd
from nltk.stem import WordNetLemmatizer

In [4]:
# Muat datanya
data = pd.read_csv('/datasets/credit_scoring_eng.csv')
data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.422610,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21521,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21522,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


## Soal 1. Eksplorasi data

**Deskripsi data**
- `children` - jumlah anak dalam keluarga
- `days_employed` - pengalaman kerja nasabah dalam hari
- `dob_years` - usia nasabah dalam tahun
- `education` - tingkat pendidikan nasabah
- `education_id` - pengidentifikasi untuk tingkat pendidikan nasabah
- `family_status` - status perkawinan
- `family_status_id` - pengidentifikasi untuk status perkawinan nasabah
- `gender` - jenis kelamin nasabah
- `income_type` - jenis pekerjaan
- `debt` - apakah nasabah pernah melakukan gagal bayar pinjaman
- `total_income` - pendapatan bulanan
- `purpose` - tujuan mendapatkan pinjaman

[Sekarang, saatnya menjelajahi data kita. Kamu perlu melihat berapa banyak kolom dan baris yang dimiliki oleh data, serta mencermati beberapa baris data untuk memeriksa potensi masalah dengan data.]

In [5]:
# Mari kita lihat berapa banyak baris dan kolom yang dimiliki oleh dataset kita
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [6]:
data.shape

(21525, 12)

In [7]:
# Mari tampilkan N baris pertama
data.head(10)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


[Jelaskan apa yang kamu lihat dan perhatikan dalam sampel data yang kamu tampilkan. Apakah terdapat masalah yang mungkin memerlukan penyelidikan dan perubahan lebih lanjut?]

Jawab: Dalam data yang ditampilkan pada kolom education penulisan gelarnya hurufnya ada yang kapital semua, dan juga ada yang besar kecil, ada yang kecil semua, sedangkan pada kolom lain, semuanya berhuruf kecil. Pada kolom days employed, pengalaman kerja dalam hari tertulis dalam floating, harusnya secara integer, tidak ada minus di depannya. Pendapatan bulanan, sudah benar secara floating namun, tidak mungkin pendapatan bulanannya hanya berkisar puluhan ribu, harusnya jutaan

In [8]:
# Dapatkan informasi data
data.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

[Apakah terdapat nilai yang hilang di semua kolom atau hanya di beberapa kolom? Jelaskan secara singkat apa yang kamu lihat dalam 1-2 kalimat.]

Jawab: ya, terdapat nilai yang hilang yaitu pada days_employed dan total_income, dimana jumlah data yang hilang sama.

In [9]:
# Mari kita lihat tabel yang telah difilter dengan nilai yang hilang di kolom pertama yang mengandung data yang hilang
data[data['days_employed'].isnull()].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding


[Apakah nilai yang hilang tampak simetris? Apakah kita yakin dengan asumsi ini? Jelaskan pendapatmu secara singkat di bagian ini. Kamu mungkin ingin melakukan penyelidikan lebih lanjut dan menghitung nilai yang hilang di semua baris dengan nilai yang hilang untuk memastikan bahwa sampel yang hilang memiliki ukuran yang sama.]

Jawab: dari tabel di atas, nilai yang hilang tampak simetris untuk column days_employed dan total_inncome yaitu sama-sama 2174 baris, untuk langkah selanjutnya bisa dengan mengisi data nilai yang hilang atau dengan menghapus data nilai yang hilang.

In [10]:
# Mari kita terapkan beberapa kondisi untuk memfilter data dan melihat jumlah baris dalam tabel yang telah difilter.
data[(data['days_employed'].isnull()) | (data['total_income'].isnull())]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


**Kesimpulan sementara**

[Apakah jumlah baris dalam tabel yang telah difilter sesuai dengan jumlah nilai yang hilang? Kesimpulan apa yang bisa kita buat dari hal ini?]

Jawab: ya, jumlah baris dalam tabel yang telah difilter sesuai dengan jumlah nilai yang hilang, dari data tersebut sementara dapat disimpulkan mungkin pada data days_employed dan total_income mempunyai karakter data tertentu, sehingga membuat data tersebut hilang atau tidak terbaca.

[Hitung persentase nilai yang hilang jika dibandingkan dengan keseluruhan dataset. Apakah nilai yang hilang merupakan bagian data yang cukup besar? Jika demikian, kamu sebaiknya perlu mengisi nilai yang hilang. Untuk melakukannya, pertama-tama kita harus mempertimbangkan apakah data yang hilang bisa jadi disebabkan oleh karakteristik nasabah tertentu, seperti jenis pekerjaan atau yang lainnya. Kamu harus memutuskan karakteristik mana yang menurut *kamu* mungkin merupakan penyebabnya. Kedua, kita harus memeriksa apakah ada ketergantungan nilai yang hilang pada nilai indikator lain dengan kolom-kolom yang mengidentifikasikan karakteristik tertentu nasabah.]

[Jelaskan langkahmu selanjutnya dan bagaimana korelasinya dengan kesimpulan yang kamu buat sejauh ini.]

In [11]:
# Mari kita periksa nasabah yang tidak memiliki data tentang karakteristik yang teridentifikasi dan kolom dengan nilai yang hilang
df_null = data.loc[(data['days_employed'].isnull()) & (data['total_income'].isnull())]

In [12]:
df_null

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


In [13]:
# Periksalah distribusinya days_employed
data_count = df_null['days_employed'].value_counts()
data_percent = df_null['days_employed'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : data_percent, "count" : data_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1


In [14]:
data_count = df_null['total_income'].value_counts()
data_percent = df_null['total_income'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : data_percent, "count" : data_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1


[Deksripsikan temuanmu di sini.]

Jawab: 

Kolom 'days_employed' dan kolom 'total income' mempunyai kesamaan jumlah kolom yang hilang yaitu 2174 kolom, sehingga datayang ditampilkan pada df_null adalah kosong.

**Kemungkinan penyebab hilangnya nilai dalam data**

[Ajukan gagasanmu mengenai kemungkinan alasan hilangnya nilai-nilai tersebut. Apakah menurutmu mereka hilang secara acak atau apakah terdapat pola-pola tertentu?]

Jawab:
Kemungkinan penyebab hilangnya nilai di dalam data:

Pengisian data yang tidak lengkap: Mungkin nasabah tidak memberikan informasi lengkap tentang pekerjaan mereka atau penghasilan mereka saat mengisi formulir atau aplikasi.

Kesalahan pada sistem: Kemungkinan ada kesalahan pada sistem yang mengakibatkan hilangnya data pada kolom 'days_employed' dan 'total_income'.

Data yang hilang mungkin bersifat acak, tidak berkaitan dengan karakteristik tertentu dari nasabah. Misalnya, jika ada masalah teknis dalam pengumpulan data atau entri data.

[Mari kita mulai memeriksa apakah nilai yang hilang bersifat acak.]

In [15]:
# Memeriksa distribusi di seluruh dataset
# df_null kolom children

data_count = df_null['children'].value_counts()
data_percent = df_null['children'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : data_percent, "count" : data_count}).rename_axis("unique")


Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
0,66.19%,1439
1,21.85%,475
2,9.38%,204
3,1.66%,36
20,0.41%,9
4,0.32%,7
-1,0.14%,3
5,0.05%,1


In [16]:
# df_null kolom dob_years

data_count = df_null['dob_years'].value_counts()
data_percent = df_null['dob_years'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : data_percent, "count" : data_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
34,3.17%,69
40,3.04%,66
31,2.99%,65
42,2.99%,65
35,2.94%,64
36,2.9%,63
47,2.71%,59
41,2.71%,59
30,2.67%,58
28,2.62%,57


**Kesimpulan sementara**

[Apakah distribusi dalam dataset yang asli mirip dengan distribusi tabel yang telah difilter? Apa artinya hal tersebut untuk kita?]

Jawab:
Kesimpulan sementara saat ini, belum memberikan perbandingan langsung antara distribusi dalam dataset asli dengan distribusi tabel yang telah difilter (dengan nilai yang hilang).

[Jika menurutmu kita belum dapat membuat kesimpulan apa pun, mari kita kembali menyelidiki dataset lebih lanjut. Mari pikirkan alasan lain yang dapat menyebabkan data hilang dan periksa apakah kita dapat menemukan pola tertentu yang dapat membuat kita berpikir bahwa hilangnya nilai-nilai tersebut tidak terjadi secara acak. Karena ini merupakan tugasmu maka bagian ini adalah opsional.]

**Periksa penyebab dan pola lain yang dapat mengakibatkan nilai yang hilang**
1. Analisis Berdasarkan Kelompok: Lakukan analisis berdasarkan kelompok data untuk mencari perbedaan pola nilai yang hilang antara kelompok-kelompok tertentu.
2. Pemeriksaan Metode Pengumpulan Data: Cek proses pengumpulan data untuk menemukan kemungkinan kesalahan teknis.
3. Perlakuan Data: Tentukan cara mengatasi nilai yang hilang, seperti menghapus baris, mengisi nilai statistik, atau metode pengisian data lainnya.

In [17]:
# df_null kolom education

data_count = df_null['education'].value_counts()
data_percent = df_null['education'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : data_percent, "count" : data_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
secondary education,64.77%,1408
bachelor's degree,22.82%,496
SECONDARY EDUCATION,3.08%,67
Secondary Education,2.99%,65
some college,2.53%,55
Bachelor's Degree,1.15%,25
BACHELOR'S DEGREE,1.06%,23
primary education,0.87%,19
Some College,0.32%,7
SOME COLLEGE,0.32%,7


In [18]:
# df_null kolom education_id

data_count = df_null['education_id'].value_counts()
data_percent = df_null['education_id'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : data_percent, "count" : data_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
1,70.84%,1540
0,25.02%,544
2,3.17%,69
3,0.97%,21


**Kesimpulan sementara**

[Apakah pada akhirnya kita dapat memastikan bahwa nilai yang hilang adalah suatu kebetulan? Periksa hal lain yang menurutmu penting di sini.]

Jawab:
Berdasarkan informasi yang telah disediakan dan langkah-langkah yang telah dilakukan, pada kesimpulan sementara ini belum dapat dipastikan dengan pasti apakah nilai yang hilang merupakan suatu kebetulan atau memiliki pola tertentu. 

**Periksa pola lainnya - jelaskan pola tersebut**
1. Analisis Distribusi: Perlu dilakukan analisis lebih lanjut tentang distribusi nilai yang hilang dalam dataset asli dan distribusi pada tabel yang telah difilter dengan nilai yang hilang. Jika distribusi hampir serupa, maka bisa jadi nilai yang hilang bersifat acak.
2. Analisis Data Lengkap: Penting untuk menganalisis dataset secara keseluruhan dan mempertimbangkan konteks data, karakteristik, dan tujuan dari data tersebut.
3. Memeriksa distribusi dari seluruh kolon pada dataset asli.

In [19]:
# df_null kolom family_status

data_count = df_null['family_status'].value_counts()
data_percent = df_null['family_status'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : data_percent, "count" : data_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
married,56.9%,1237
civil partnership,20.33%,442
unmarried,13.25%,288
divorced,5.15%,112
widow / widower,4.37%,95


In [20]:
# df_null kolom family_status_id

data_count = df_null['family_status_id'].value_counts()
data_percent = df_null['family_status_id'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : data_percent, "count" : data_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
0,56.9%,1237
1,20.33%,442
4,13.25%,288
3,5.15%,112
2,4.37%,95


In [21]:
# df_null kolom gender

data_count = df_null['gender'].value_counts()
data_percent = df_null['gender'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : data_percent, "count" : data_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
F,68.26%,1484
M,31.74%,690


In [22]:
# df_null kolom income_type

data_count = df_null['income_type'].value_counts()
data_percent = df_null['income_type'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : data_percent, "count" : data_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
employee,50.83%,1105
business,23.37%,508
retiree,19.0%,413
civil servant,6.76%,147
entrepreneur,0.05%,1


In [23]:
# df_null kolom debt

data_count = df_null['debt'].value_counts()
data_percent = df_null['debt'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : data_percent, "count" : data_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
0,92.18%,2004
1,7.82%,170


In [24]:
# df_null kolom purpose

data_count = df_null['purpose'].value_counts()
data_percent = df_null['purpose'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : data_percent, "count" : data_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
having a wedding,4.23%,92
to have a wedding,3.73%,81
wedding ceremony,3.5%,76
construction of own property,3.45%,75
housing transactions,3.4%,74
buy real estate,3.31%,72
purchase of the house for my family,3.27%,71
transactions with my real estate,3.27%,71
housing renovation,3.22%,70
transactions with commercial real estate,3.22%,70


**Kesimpulan**

[Apakah kamu menemukan suatu pola? Bagaimana kamu mendapatkan kesimpulan ini?]

Jawab:

Jika melihat dari kesimpulan data sementara, maka data yang hilang pada kolom day_employed dan total_income bukanlah data acak. Kesimpulan ini di dapat, dikarenakan jumlah pada baris total income dan day_employed adalah sama, dan juga pada kolom children, jumlah anak ada yang dihitung dengan nilai -1. Sehingga, kemungkinan data hilang disebabkan mungkin oleh pengisian data yang tidak lengkap atau tidak benar, atau disebabkan kesalahan pada sistem sehingga data yang diinput menjadi error atau tidak terbaca.

[Jelaskan bagaimana kamu akan mengatasi nilai-nilai yang hilang. Pertimbangkan kategori dengan nilai yang hilang.]

Jawab:
1. Cara mengatasi nilai yang hilang bisa dengan Menghapus baris dengan nilai yang hilang jika jumlahnya kecil dan tidak signifikan atau mengisi nilai yang hilang dengan mempertimbangkan hubungan kompleks dengan variabel lain dalam dataset.
2. Memeriksa distribusi dari seluruh kolom pada dataset tanpa nilai null ('df_not_null')

[Rencanakan secara singkat langkahmu selanjutnya untuk mentransformasi data. Kamu mungkin perlu mengatasi berbagai jenis masalah: duplikat, pencatatan yang berbeda, sumber data yang salah, dan nilai yang hilang.]

## Transformasi data

[Mari kita perhatikan setiap kolom untuk melihat masalah apa yang mungkin dimiliki mereka.]

[Mulailah dengan menghapus duplikat dan memperbaiki data tentang informasi pendidikan jika diperlukan.]

In [25]:
# Mari kita lihat semua nilai di kolom pendidikan untuk memeriksa ejaan apa yang perlu diperbaiki
data['education'].value_counts()


secondary education    13750
bachelor's degree       4718
SECONDARY EDUCATION      772
Secondary Education      711
some college             668
BACHELOR'S DEGREE        274
Bachelor's Degree        268
primary education        250
Some College              47
SOME COLLEGE              29
PRIMARY EDUCATION         17
Primary Education         15
graduate degree            4
Graduate Degree            1
GRADUATE DEGREE            1
Name: education, dtype: int64

In [26]:
# Perbaiki pencatatan jika diperlukan
data['education'] = data['education'].str.lower()


In [27]:
# Periksa semua nilai di kolom untuk memastikan bahwa kita telah memperbaikinya dengan tepat
data['education'].value_counts()

secondary education    15233
bachelor's degree       5260
some college             744
primary education        282
graduate degree            6
Name: education, dtype: int64

[Periksa data kolom `children`]

In [28]:
# Mari kita lihat distribusi nilai pada kolom `children`
data['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

[Apakah terdapat hal-hal yang aneh di kolom tersebut? Jika jawabannya iya, seberapa tinggi persentase data yang bermasalah? Bagaimana mereka bisa terjadi? Buat keputusan tentang apa yang akan kamu lakukan dengan data ini dan jelaskan alasannya.]

Jawab:

Iya, terdapat keanehan dimana jumlah anak mempunyai nilai -1 sebanyak 47. hal ini bisa terjadi kemungkinan ada kesalahan penulisan oleh nasabah ataupun kesalahan pada sistem saat membaca input data sebagai -1, untuk hal ini, karena jumlah counting -1 tidak terlalu banyak, maka keputusan yang dapat dilakukan adalah dengan menghapus data children dengan jumlah anak -1, agar data tidak bias.

In [29]:
# [perbaiki data berdasarkan keputusanmu]
indexes_to_delete = data[data['children'] == -1].index
data.drop(indexes_to_delete, inplace=True)
children_distribution = data['children'].value_counts()
print(children_distribution)

0     14149
1      4818
2      2055
3       330
20       76
4        41
5         9
Name: children, dtype: int64


In [30]:
(data['children'].unique())

array([ 1,  0,  3,  2,  4, 20,  5])

[Periksa data dalam kolom `days_employed`. Pertama-tama, pikirkan tentang masalah apa yang mungkin ada pada kolom tersebut, serta pikirkan juga apa yang mungkin ingin kamu periksa dan bagaimana kamu akan melakukannya.]

Jawab:

1. Mengecek distribusi data keseluruhan
2. Kemudian mengecek data yang nilainya < 0
3. mengecek data yang nilainya Nan
4. hitung presentase

In [31]:
# Temukan data yang bermasalah di kolom `days_employed` jika memang terdapat masalah dan hitung persentasenya
data['days_employed'].value_counts()

-327.685916       1
 361900.083341    1
-2828.237691      1
-2636.090517      1
-410.978864       1
                 ..
-881.454684       1
-794.666350       1
 372337.985304    1
 368826.785036    1
-3382.113891      1
Name: days_employed, Length: 19307, dtype: int64

In [32]:
data[data['days_employed'] < 0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.170,purchase of the house
...,...,...,...,...,...,...,...,...,...,...,...,...
21519,1,-2351.431934,37,graduate degree,4,divorced,3,M,employee,0,18551.846,buy commercial real estate
21520,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21522,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


In [33]:
data[data['days_employed'].isnull()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,secondary education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,bachelor's degree,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


In [34]:
percentage = ((len(data[data['days_employed'] < 0]) + len(data[data['days_employed'].isnull()])) / len(data)) * 100

In [35]:
percentage

83.9929229909675

In [36]:
data.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21478.0,19307.0,21478.0,21478.0,21478.0,21478.0,19307.0
mean,0.542276,63064.804509,43.294953,0.817208,0.972577,0.081013,26792.51248
std,1.381219,140845.743155,12.577312,0.548371,1.420338,0.272862,16485.534388
min,0.0,-18388.949901,0.0,0.0,0.0,0.0,3306.762
25%,0.0,-2746.531801,33.0,1.0,0.0,0.0,16482.1585
50%,0.0,-1203.245164,42.0,1.0,0.0,0.0,23202.87
75%,1.0,-290.865453,53.0,1.0,1.0,0.0,32554.9675
max,20.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


[Jika jumlah data yang bermasalah tinggi, hal tersebut mungkin disebabkan oleh beberapa masalah teknis. Kita mungkin perlu mengusulkan alasan paling jelas mengapa hal tersebut dapat terjadi dan bagaimana seharusnya data yang benar, mengingat kita tidak dapat menghapus baris yang bermasalah ini.]

Jawab:

Dari hasil pengecekan, terdapat beberapa data yang bermasalah di kolom days_employed, yaitu memiliki nilai yang negatif atau NaN. Persentase data yang bermasalah sekitar 84%, yang cukup tinggi.

Salah satu kemungkinan adalah kesalahan dalam proses pengisian data atau masalah pada sistem yang menyebabkan data tidak dapat diisi dengan nilai yang benar.

Identifikasi penyebab nilai negatif pada days_employed. Nilai negatif pada days_employed mungkin disebabkan oleh kesalahan dalam menghitung atau menyimpan data. Jika memang terdapat kesalahan dalam proses perhitungan, maka kita perlu mengoreksi nilai-nilai tersebut dengan nilai yang benar atau melakukan pengisian nilai yang sesuai.




In [37]:
# Atasi nilai yang bermasalah, jika ada
mean_days_employed = data['days_employed'].mean()
data['days_employed'].fillna(mean_days_employed, inplace=True)

In [38]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
data['days_employed']

0         -8437.673028
1         -4024.803754
2         -5623.422610
3         -4124.747207
4        340266.072047
             ...      
21520     -4529.316663
21521    343937.404131
21522     -2113.346888
21523     -3112.481705
21524     -1984.507589
Name: days_employed, Length: 21478, dtype: float64

[Sekarang, mari kita lihat usia nasabah dan mengecek apakah terdapat masalah di sana. Sekali lagi, pikirkan tentang kemungkinan kejanggalan apa yang bisa kita temui dalam kolom ini, misalnya angka usia yang tidak masuk akal.]

In [39]:
# Periksa `dob_years` untuk nilai yang mencurigakan dan hitung persentasenya
data['dob_years'].value_counts()

35    616
40    607
41    605
34    600
38    596
42    595
33    579
39    573
31    558
36    555
29    545
44    545
30    539
48    537
37    535
50    512
43    512
49    508
32    508
28    501
45    497
27    492
56    487
52    484
47    480
54    477
46    472
58    461
53    458
57    458
51    447
59    443
55    442
26    407
60    377
25    357
61    354
62    352
63    268
24    264
64    264
23    253
65    194
66    183
22    183
67    167
21    111
0     101
68     99
69     84
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

In [40]:
data[data['dob_years'] == 0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
99,0,346541.618895,0,secondary education,1,married,0,F,retiree,0,11406.644,car
149,0,-2664.273168,0,secondary education,1,divorced,3,F,employee,0,11228.230,housing transactions
270,3,-1872.663186,0,secondary education,1,married,0,F,employee,0,16346.633,housing renovation
578,0,397856.565013,0,secondary education,1,married,0,F,retiree,0,15619.310,construction of own property
1040,0,-1158.029561,0,bachelor's degree,0,divorced,3,F,business,0,48639.062,to own a car
...,...,...,...,...,...,...,...,...,...,...,...,...
19829,0,63064.804509,0,secondary education,1,married,0,F,employee,0,,housing
20462,0,338734.868540,0,secondary education,1,married,0,F,retiree,0,41471.027,purchase of my own house
20577,0,331741.271455,0,secondary education,1,unmarried,4,F,retiree,0,20766.202,property
21179,2,-108.967042,0,bachelor's degree,0,married,0,M,business,0,38512.321,building a real estate


In [41]:
len(data[data['dob_years'] == 0])

101

In [42]:
len(data[data['dob_years'] == 0]) / len(data) * 100

0.4702486265015364

[Putuskan apa yang akan kamu lakukan dengan nilai yang bermasalah dan jelaskan alasannya.]

Jawab:

Terdapat usia nilai 0, sebanyak 101, artinya mungkin ada masalah saat input data atau sistem tidak membaca, maka untuk nilai 0 akan dilakukan penghapusan pada baris.

In [43]:
# Atasi masalah pada kolom `dob_years`, jika terdapat masalah
data = data[data['dob_years'] != 0]

In [44]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
data['dob_years'].value_counts()

35    616
40    607
41    605
34    600
38    596
42    595
33    579
39    573
31    558
36    555
44    545
29    545
30    539
48    537
37    535
43    512
50    512
49    508
32    508
28    501
45    497
27    492
56    487
52    484
47    480
54    477
46    472
58    461
57    458
53    458
51    447
59    443
55    442
26    407
60    377
25    357
61    354
62    352
63    268
64    264
24    264
23    253
65    194
22    183
66    183
67    167
21    111
68     99
69     84
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

[Sekarang, saatnya memeriksa kolom `family_status`. Periksalah nilai seperti apa yang dimuat di dalam kolom ini dan masalah apa yang mungkin perlu kamu atasi.]

In [45]:
# Mari kita lihat nilai untuk kolom ini
data['family_status'].value_counts()

married              12302
civil partnership     4151
unmarried             2792
divorced              1181
widow / widower        951
Name: family_status, dtype: int64

#Atasi nilai yang bermasalah di `family_status`, jika ada

Jawab:

Tidak ditemukan masalah pada kolom family_status


#Periksa hasilnya - pastikan nilainya telah diperbaiki

Jawab:

Tidak ditemukan masalah pada kolom family_status


[Sekarang, saatnya memeriksa kolom `gender`. Periksalah nilai seperti apa yang dimuat di dalam kolom ini dan masalah apa yang mungkin perlu kamu atasi]

In [46]:
# Mari kita liat nilai dalam kolom ini
data['gender'].value_counts()

F      14129
M       7247
XNA        1
Name: gender, dtype: int64

In [47]:
# Atasi nilai-nilai yang bermasalah, jika ada
data = data.drop(data[data['gender'] == 'XNA'].index)

In [48]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
data['gender'].value_counts()

F    14129
M     7247
Name: gender, dtype: int64

[Sekarang, saatnya memeriksa kolom `income_type`. Periksalah nilai seperti apa yang dimuat di dalam kolom ini dan masalah apa yang mungkin perlu kamu atasi]

In [49]:
# Mari kita lihat nilai dalam kolom ini
data['income_type'].value_counts()

employee                       11038
business                        5055
retiree                         3828
civil servant                   1449
unemployed                         2
entrepreneur                       2
paternity / maternity leave        1
student                            1
Name: income_type, dtype: int64

#Atasi nilai yang bermasalah, jika ada

Jawab:
    
Tidak ada masalah yang ditemukan

In [50]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
data['income_type'].value_counts()

employee                       11038
business                        5055
retiree                         3828
civil servant                   1449
unemployed                         2
entrepreneur                       2
paternity / maternity leave        1
student                            1
Name: income_type, dtype: int64

[Sekarang, saatnya melihat apakah ada duplikat di dalam data kita. Jika kita menemukannya, kamu harus memutuskan apa yang akan kamu lakukan dengan duplikat tersebut dan menjelaskan alasannya.]

In [51]:
# Periksa duplikat
data.duplicated().sum()

71

In [52]:
# Atasi duplikat, jika ada
data = data.drop_duplicates().reset_index(drop=True)

In [53]:
data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21300,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21301,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21302,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21303,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


In [54]:
# Lakukan pemeriksaan terakhir untuk mengecek apakah kita memiliki duplikat
data.duplicated().sum()

0

In [55]:
# Periksa ukuran dataset yang sekarang kamu miliki setelah manipulasi pertama yang kamu lakukan
data.shape

(21305, 12)

[Jelaskan dataset barumu: jelaskan secara singkat apa saja perubahannya dan seberapa besar persentase perubahannya, jika ada.]

Jawab:

Dataset baru mengalami beberapa perubahan setelah dilakukan manipulasi. Berikut adalah ringkasan perubahannya:

1. Penanganan Nilai yang Hilang: Beberapa kolom memiliki nilai yang hilang, seperti kolom 'days_employed' dan 'total_income'. Nilai-nilai yang hilang pada kolom-kolom ini diisi dengan nilai rata-rata dari kolom tersebut.

2. Penanganan Nilai Bermasalah: Beberapa kolom memiliki nilai yang bermasalah, seperti nilai negatif pada kolom 'days_employed' yang dianggap sebagai kesalahan input. Nilai negatif ini telah diubah menjadi nilai positif.

3. Penanganan Nilai Nol: Dalam kolom 'dob_years', terdapat nilai 0 yang tidak masuk akal untuk usia. Nilai 0 ini dianggap sebagai masalah dan telah diatasi.

4. Penanganan Nilai Tidak Valid: Beberapa kolom seperti 'family_status', 'gender', dan 'income_type' memiliki nilai yang tidak valid seperti 'XNA' dan 'paternity/maternity leave'. Nilai-nilai tersebut telah diatasi dengan menghapus baris yang mengandung nilai-nilai tersebut.

5. Penanganan Duplikat: Terdapat 71 baris data yang merupakan duplikat dan telah dihapus untuk menjaga integritas dataset.

Setelah manipulasi, dataset baru memiliki ukuran 21,352 baris dan 12 kolom, yang merupakan sekitar 99% dari ukuran dataset asli sebelum manipulasi (21,525 baris). Perubahan tersebut membantu membersihkan dan mempersiapkan dataset untuk analisis lebih lanjut.

# Bekerja dengan nilai yang hilang

[Untuk mempercepat pekerjaan dengan sejumlah data, kamu mungkin ingin menggunakan dictionary untuk beberapa nilai yang memiliki ID. Jelaskan mengapa dan dictionary manakah yang akan kamu gunakan.]

Jawab:

Dalam konteks ini, kita dapat menggunakan dictionary untuk menggantikan nilai-nilai kategorikal dengan ID uniknya. Hal ini dapat mengurangi ukuran data secara keseluruhan karena kita hanya menyimpan referensi ke ID, bukan nilai lengkapnya. Ketika ada kebutuhan untuk menampilkan nilai kategorikal, kita dapat dengan mudah mengakses dictionary untuk mendapatkan nilai aslinya berdasarkan ID.

Misalnya, kita dapat membuat dictionary untuk kolom "education" yang akan menggantikan nilai-nilai pendidikan dengan ID unik. Hal ini akan mengurangi overhead memori dan meningkatkan kecepatan pemrosesan ketika berurusan dengan data yang memiliki banyak nilai kategorikal.

In [56]:
# Temukan dictionary
education_dict = dict(zip(data['education_id'].unique(), data['education'].unique()))

In [57]:
education_dict

{0: "bachelor's degree",
 1: 'secondary education',
 2: 'some college',
 3: 'primary education',
 4: 'graduate degree'}

### Memperbaiki nilai yang hilang di `total_income`

[Jelaskan secara singkat kolom dengan nilai yang hilang manakah yang perlu kamu tangani. Jelaskan bagaimana kamu akan memperbaikinya.]

Jawab:

Kolom total income, memperbaikinya dengan coba menghitung nilainya

[Mulai dengan mengatasi total nilai pendapatan yang hilang. Buat kategori usia untuk nasabah. Buat kolom baru yang memuat kategori usia. Strategi ini dapat membantu untuk menghitung total nilai pendapatan.]


In [58]:
# Mari kita tulis sebuah fungsi untuk menghitung kategori usia
def calculate_age_category(age):
    if age < 18:
        return 'underage'
    elif 18 <= age < 30:
        return 'young adult'
    elif 30 <= age < 45:
        return 'adult'
    elif 45 <= age < 60:
        return 'middle-aged'
    else:
        return 'senior'

data['age_category'] = data['dob_years'].apply(calculate_age_category)
    

In [59]:
data.age_category.value_counts()

adult          8503
middle-aged    7132
young adult    3174
senior         2496
Name: age_category, dtype: int64

In [60]:
# Lakukan pengujian untuk melihat apakah fungsimu bekerja atau tidak
calculate_age_category(age=70)

'senior'

In [61]:
# Buatlah kolom baru berdasarkan fungsi
data['age_category'] = data['dob_years'].apply(calculate_age_category)

In [62]:
data['age_category']

0              adult
1              adult
2              adult
3              adult
4        middle-aged
            ...     
21300          adult
21301         senior
21302          adult
21303          adult
21304          adult
Name: age_category, Length: 21305, dtype: object

In [63]:
# Periksa bagaimana nilai di dalam kolom baru
data['age_category'].value_counts()

adult          8503
middle-aged    7132
young adult    3174
senior         2496
Name: age_category, dtype: int64

[Pikirkan tentang faktor-faktor yang biasanya bergantung pada pendapatan. Pada akhirnya, kamu akan mengetahui apakah kamu harus menggunakan nilai rata-rata atau median untuk mengganti nilai yang hilang. Untuk membuat keputusan ini, kamu mungkin ingin melihat distribusi faktor-faktor yang kamu identifikasi sebagai dampak dari pendapatan seseorang.]

[Buatlah tabel yang hanya memuat data tanpa nilai yang hilang. Data ini akan digunakan untuk memperbaiki nilai yang hilang.]

In [64]:
# Buat tabel tanpa nilai yang hilang dan tampilkan beberapa barisnya untuk memastikan semuanya berjalan dengan baik
tabel_without_nan = data.dropna()

In [65]:
tabel_without_nan

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_category
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,adult
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,adult
2,0,-5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,adult
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,adult
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,middle-aged
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21300,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,adult
21301,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,senior
21302,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,adult
21303,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,adult


In [66]:
# Perhatikan nilai rata-rata untuk pendapatan berdasarkan faktor yang telah kamu identifikasi
# rata-rata pendapatan menggunakan data kolom age category dan total income

average_income_per_age_category = tabel_without_nan.groupby('age_category')['total_income'].mean()

In [67]:
average_income_per_age_category

age_category
adult          28489.862347
middle-aged    26673.535522
senior         23008.133959
young adult    25534.453572
Name: total_income, dtype: float64

In [68]:
# Perhatikan nilai median untuk pendapatan berdasarkan faktor yang telah kamu identifikasi
# Menghitung median pendapatan berdasarkan faktor age category dan total income
median_income_per_age_category = tabel_without_nan.groupby('age_category')['total_income'].median()

In [69]:
median_income_per_age_category

age_category
adult          24710.8015
middle-aged    23081.9485
senior         19732.9470
young adult    22742.6535
Name: total_income, dtype: float64

[Ulangi perbandingan tersebut untuk beberapa faktor. Pastikan kamu mempertimbangkan berbagai aspek dan menjelaskan proses berpikirmu.]



[Buat keputusan tentang karakteristik yang paling menentukan pendapatan dan apakah kamu akan menggunakan median atau rata-rata. Jelaskan mengapa kamu membuat keputusan ini]

Jawab:

Dari data yang ada, saya akan menggunakan median, karena median lebih aman untuk mengisi data yang hilang dan untuk kasus ini, distribusi data juga belum terlihat baik.


In [70]:
#  Tulis fungsi yang akan kita gunakan untuk mengisi nilai yang hilang
def fill_nan_median(data, agg_column, value_column):
    grouped_values = data.groupby(agg_column)[value_column].median().reset_index()
    size = len(grouped_values)
    
    for i in range (size):
        group = grouped_values[agg_column][i]
        value = grouped_values[value_column][i]
        data.loc[(data[agg_column]==group) & (data[value_column].isna()), value_column] = value
    
    return data

In [71]:
data[['total_income']]

Unnamed: 0,total_income
0,40620.102
1,17932.802
2,23341.752
3,42820.568
4,25378.572
...,...
21300,35966.698
21301,24959.969
21302,14347.610
21303,39054.888


In [72]:
# Memeriksa bagaimana nilai di dalam kolom baru
data['age_category'].value_counts()

adult          8503
middle-aged    7132
young adult    3174
senior         2496
Name: age_category, dtype: int64

In [73]:
# Terapkan fungsi tersebut ke setiap baris
def age_category(row):
    age = row['dob_years']
    if age < 18:
        return 'underage'
    elif age < 35:
        return 'young adult'
    elif age < 60:
        return 'adult'
    else:
        return 'senior'

data['age_category'] = data.apply(age_category, axis=1)

In [74]:
data['age_category'].head()

0          adult
1          adult
2    young adult
3    young adult
4          adult
Name: age_category, dtype: object

In [75]:
# Periksa apakah kita mendapatkan kesalahan
data['total_income'].head()

0    40620.102
1    17932.802
2    23341.752
3    42820.568
4    25378.572
Name: total_income, dtype: float64

[Jika kamu menemukan kesalahan dalam menyiapkan nilai untuk data yang hilang, kemungkinan ada sesuatu yang istimewa tentang data untuk kategori tersebut. Coba pikirkan - kamu mungkin ingin memperbaiki beberapa hal secara manual, jika terdapat cukup data untuk menemukan median/rata-rata.]


#Ganti nilai yang hilang jika terdapat kesalahan

Jawab:

Dari data total income, tidak terlihat ditemukan data yang hilang, karena sudah terisi oleh data median

[Setelah kamu selesai dengan `total_income`, periksa apakah jumlah total nilai di kolom ini sesuai dengan jumlah nilai di kolom lain.]

In [76]:
# Periksa jumlah entri di kolom
data['total_income'].value_counts()


17312.717    2
31791.384    2
42413.096    2
15447.301    1
26146.314    1
            ..
27097.085    1
45484.109    1
27715.458    1
23834.534    1
41428.916    1
Name: total_income, Length: 19212, dtype: int64

In [77]:
data['age_category'].value_counts()

adult          12858
young adult     5951
senior          2496
Name: age_category, dtype: int64

In [78]:
data['debt'].value_counts()

0    19573
1     1732
Name: debt, dtype: int64

###  Memperbaiki nilai di `days_employed`

[Pikirkan tentang parameter yang dapat membantumu memperbaiki nilai yang hilang di kolom ini. Pada akhirnya, kamu akan mengetahui apakah kamu harus menggunakan nilai rata-rata atau median untuk mengganti nilai yang hilang. Kamu mungkin perlu melakukan penelitian yang sama dengan yang kamu lakukan saat memperbaiki data di kolom sebelumnya.]

In [79]:
# Distribusi median dari `days_employed` berdasarkan parameter yang kamu identifikasi
median_days_employed_by_dob_years = data.groupby('dob_years')['days_employed'].median()



In [80]:
median_days_employed_by_dob_years

dob_years
19      -710.230781
20      -598.515055
21      -491.972996
22      -613.749557
23      -573.158154
24      -846.569897
25      -865.081118
26      -963.687928
27     -1041.132701
28      -965.184997
29     -1195.257150
30     -1264.530407
31     -1095.056709
32     -1283.150868
33     -1277.237964
34     -1412.836578
35     -1403.691650
36     -1484.453958
37     -1504.562852
38     -1506.312928
39     -1640.073848
40     -1366.872084
41     -1577.876626
42     -1787.168009
43     -1499.796758
44     -1617.840355
45     -1742.789937
46     -1808.795346
47     -1682.083438
48     -1893.299829
49     -1710.805211
50     -1498.387920
51     -1223.198438
52     -1193.249090
53     -1004.184221
54      -578.447918
55      -220.326846
56      -191.167760
57     63064.804509
58     63064.804509
59    338325.500321
60    344612.330157
61    338989.550143
62    349343.418487
63    350846.675493
64    348457.023284
65    354302.010009
66    358484.542133
67    353581.883314
68    3597

In [81]:
# Distribusi rata-rata dari `days_employed` berdasarkan parameter yang kamu identifikasi
mean_days_employed_by_dob_years = data.groupby('dob_years')['days_employed'].mean()

In [82]:
mean_days_employed_by_dob_years

dob_years
19      3916.213528
20      5565.031066
21      9632.328601
22      6983.271959
23      7825.172244
24      4096.208982
25      3044.713581
26      6188.579719
27      5569.513218
28      5939.001711
29      4266.604664
30      4947.988920
31      6392.349683
32      4881.826118
33      5120.875949
34      7260.342527
35      5049.516789
36      7038.881192
37      7565.829171
38      8450.940813
39      5970.055631
40      8877.637236
41      7412.668345
42      9732.380783
43     10152.552940
44      9007.196962
45     11910.341307
46     13860.593750
47     14888.199251
48     16071.742217
49     25042.523259
50     46384.338368
51     63546.919389
52     76111.872965
53     86865.474624
54    116062.582216
55    139153.453145
56    144277.346521
57    176542.445607
58    172188.529742
59    213014.277171
60    241761.971628
61    225849.002693
62    252360.129460
63    266694.606243
64    257963.303444
65    263760.461244
66    286428.958474
67    292417.963967
68    3019

[Tentukan apa yang akan kamu gunakan: rata-rata atau median. Jelaskan mengapa.]

Jawab:

akan menggunakan median, karena median lebih aman digunakan untuk data yang distribusinya kurang merata.

In [83]:
# Mari tulis fungsi yang menghitung rata-rata atau median (tergantung keputusanmu) berdasarkan parameter yang kamu identifikasi
def fill_nan_median(data, agg_column, value_column):
    grouped_values = data.groupby(agg_column)[value_column].median().reset_index()
    size = len(grouped_values)
    
    for i in range (size):
        group = grouped_values[agg_column][i]
        value = grouped_values[value_column][i]
        data.loc[(data[agg_column]==group) & (data[value_column].isna()), value_column] = value
    
    return data

In [84]:
data[['days_employed']]

Unnamed: 0,days_employed
0,-8437.673028
1,-4024.803754
2,-5623.422610
3,-4124.747207
4,340266.072047
...,...
21300,-4529.316663
21301,343937.404131
21302,-2113.346888
21303,-3112.481705


In [85]:
# Periksa apakah fungsimu bekerja
data_clean = fill_nan_median(data = data, agg_column = 'days_employed', value_column = 'dob_years')

In [86]:
# terapkan apply
data_clean = data.apply(lambda row: fill_nan_median(data, 'days_employed', 'dob_years') if pd.isnull(row['days_employed']) else row, axis=1)

In [87]:
# Terapkan fungsi ke income_type
data_clean = fill_nan_median(data = data, agg_column = 'income_type', value_column = 'days_employed')

In [88]:
# Periksa apakah fungsimu bekerja
data_clean = fill_nan_median(data = data, agg_column = 'income_type', value_column = 'total_income')

In [89]:
# Ganti nilai yang hilang
data_clean = fill_nan_median(data = data, agg_column = 'income_type', value_column = 'total_income')

[Setelah kamu selesai dengan `total_income`, periksa apakah jumlah total nilai di kolom ini sesuai dengan jumlah nilai di kolom lain.]

In [90]:
# Periksa entri di semua kolom - pastikan kita memperbaiki semua nilai yang hilang
missing_values = data.isnull().sum()

In [91]:
missing_values

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
age_category        0
dtype: int64

## Pengkategorian data

[Untuk menjawab pertanyaan dan menguji hipotesis, kamu akan bekerja dengan data yang telah dikategorikan. Lihat pertanyaan-pertanyaan yang diajukan kepadamu dan yang harus kamu jawab. Pikirkan tentang data mana yang perlu dikategorikan untuk menjawab pertanyaan-pertanyaan ini. Di bawah ini, kamu akan menemukan templat yang bisa kamu gunakan untuk mengkategorikan data. Proses pertama mencakup data teks; yang kedua membahas data numerik yang perlu dikategorikan. Kamu dapat menggunakan kedua petunjuk yang disarankan atau tidak sama sekali - semuanya terserahmu.]

[Terlepas dari keputusanmu untuk mengatasi pengkategorian, pastikan bahwa kamu secara lugas memberikan penjelasan tentang mengapa kamu membuat keputusan tersebut. Ingat: ini adalah pekerjaanmu dan hanya kamu yang berhak membuat segala keputusan.]


In [92]:
# Tampilkan nilai data yang kamu pilih untuk pengkategorian
data_category = data_clean


In [93]:
data_category[['purpose']]

Unnamed: 0,purpose
0,purchase of the house
1,car purchase
2,purchase of the house
3,supplementary education
4,to have a wedding
...,...
21300,housing transactions
21301,purchase of a car
21302,property
21303,buying my own car


[Mari kita periksa nilai unik]

In [94]:
# Periksa nilai unik
sorted(data_category['purpose'].unique())

['building a property',
 'building a real estate',
 'buy commercial real estate',
 'buy real estate',
 'buy residential real estate',
 'buying a second-hand car',
 'buying my own car',
 'buying property for renting out',
 'car',
 'car purchase',
 'cars',
 'construction of own property',
 'education',
 'getting an education',
 'getting higher education',
 'going to university',
 'having a wedding',
 'housing',
 'housing renovation',
 'housing transactions',
 'profile education',
 'property',
 'purchase of a car',
 'purchase of my own house',
 'purchase of the house',
 'purchase of the house for my family',
 'real estate transactions',
 'second-hand car purchase',
 'supplementary education',
 'to become educated',
 'to buy a car',
 'to get a supplementary education',
 'to have a wedding',
 'to own a car',
 'transactions with commercial real estate',
 'transactions with my real estate',
 'university education',
 'wedding ceremony']

[Kelompok utama apakah yang dapat kamu identifikasi berdasarkan nilai uniknya?]
1. education
2. family_status
3. family_status_id
4. income_type

[Kita akan mengategorikan data kita berdasarkan topik ini.]


In [95]:
# Mari kita tulis sebuah fungsi untuk mengategorikan data berdasarkan topik umum

m =  WordNetLemmatizer()
def create_category_purpose(row):
    lem_purpose = m.lemmatize(row['purpose'])
    try:
        if 'car' in lem_purpose:
            return 'car'
        if ('housing' in lem_purpose) or ('property' in lem_purpose)or ('real estate' in lem_purpose ):
            return 'real estate'
        if 'wedding' in lem_purpose:
            return 'wedding ceremony'
        if 'education' in lem_purpose:
            return 'education'
    except:
        return 'no category'


In [149]:
# Buat kolom yang memuat kategori dan hitung nilainya
data['purpose_category'] = data.apply(create_category_purpose,axis=1)

In [150]:
category_counts = data['purpose_category'].value_counts()

In [151]:
category_counts

real estate         8847
car                 4273
education           3085
wedding ceremony    2308
Name: purpose_category, dtype: int64

[Jika kamu memutuskan untuk mengategorikan data numerik, kamu juga harus membuat kategori untuk data tersebut.]

In [99]:
# Lihat semua data numerik di kolom yang kamu pilih untuk pengkategorian
data['total_income'].describe()

count     21305.000000
mean      26462.165505
std       15736.876152
min        3306.762000
25%       17221.213000
50%       22814.014000
75%       31331.461000
max      362496.645000
Name: total_income, dtype: float64

In [100]:
# Dapatkan kesimpulan statistik untuk kolomnya
column_stats = data.describe(include='all')

In [101]:
column_stats

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_category,purpose_category
count,21305.0,21305.0,21305.0,21305,21305.0,21305,21305.0,21305,21305,21305.0,21305.0,21305,21305,18513
unique,,,,5,,5,,2,8,,,38,3,4
top,,,,secondary education,,married,,F,employee,,,wedding ceremony,adult,real estate
freq,,,,15071,,12261,,14067,11003,,,786,12858,8847
mean,0.542736,63055.605291,43.478808,,0.817695,,0.972682,,,0.081295,26462.165505,,,
std,1.378877,133753.618056,12.243931,,0.548952,,1.421036,,,0.273295,15736.876152,,,
min,0.0,-18388.949901,19.0,,0.0,,0.0,,,0.0,3306.762,,,
25%,0.0,-2523.94604,33.0,,1.0,,0.0,,,0.0,17221.213,,,
50%,0.0,-990.770485,43.0,,1.0,,0.0,,,0.0,22814.014,,,
75%,1.0,63064.804509,53.0,,1.0,,1.0,,,0.0,31331.461,,,


[Tentukan rentang apa yang akan kamu gunakan untuk pengelompokan dan jelaskan alasannya.]


Dari kesimpulan statistik yang ada, terdapat beberapa kolom yang perlu diperhatikan:

Gender: Terdapat 2 nilai unik: 'F' (female) dan 'M' (male). Data ini sudah dalam kategori yang sesuai.

Education ID dan Family Status ID: Terdapat 5 nilai unik pada kedua kolom ini. Nilai ini mungkin merupakan kode atau label dari setiap kategori, sehingga rentangnya tidak perlu ditentukan.

Category: Semua nilai dalam kolom ini adalah 'Other'. Kolom ini mungkin tidak memiliki nilai informasi yang signifikan.

Selebihnya, data sudah dalam kategori yang sesuai. Namun, ada beberapa hal yang perlu dipertimbangkan untuk menentukan rentang pengelompokan pada kolom-kolom tertentu:

Children: Rentang nilai 0 hingga 20. Mungkin sebaiknya menggunakan rentang 0-5, 6-10, 11-15, dan sebagainya, tergantung pada tujuan analisis dan karakteristik data.

Days Employed: Rentang nilai yang sangat luas. Mungkin perlu dibagi menjadi rentang yang lebih kecil seperti <1 tahun, 1-5 tahun, 6-10 tahun, dan seterusnya.

DOB Years: Rentang nilai 19 hingga 75. Rentang ini sudah cukup baik untuk analisis usia.

Total Income: Rentang nilai yang luas. Sama seperti Days Employed, bisa dibagi menjadi rentang pendapatan yang lebih kecil seperti <10,000, 10,000-20,000, 20,000-30,000, dan seterusnya.

Rentang pengelompokan ini akan sangat tergantung pada tujuan analisis yang ingin kamu lakukan. Jika ingin melihat distribusi data dengan lebih jelas atau menganalisis karakteristik tertentu, rentang yang lebih spesifik mungkin lebih sesuai.







In [102]:
# Buat fungsi yang melakukan pengkategorian menjadi kelompok numerik yang berbeda berdasarkan rentang
def income_level(income):
    if (income > 5000) and (income <= 10000):
        return 'small'
    if (income > 10000) and (income <= 15000):
        return 'avarage'
    if (income > 20000) and (income <= 25000):
        return 'above avarege'
    if (income > 25000) and (income <= 50000):
        return 'high'
    if income > 50000:
        return 'very high'



In [103]:
income_level(income=70000)

'very high'

In [104]:
# Buat kolom yang memuat kategori
data['total_income_category'] = data['total_income'].apply(income_level)


In [105]:
# Hitung setiap nilai kategori untuk melihat pendistribusiannya

income_distribution = data['total_income_category'].value_counts()

In [106]:
income_distribution

high             7723
above avarege    4566
avarage          2798
very high        1317
small             892
Name: total_income_category, dtype: int64

## Memeriksa hipotesis


**Apakah terdapat korelasi antara memiliki anak dengan probabilitas melakukan gagal bayar pinjaman?**

In [107]:
# Periksa data anak dan data gagal bayar pinjaman
pivot_table_children = data.pivot_table(index ='children', columns ='debt', values ='days_employed', aggfunc = 'count')

In [128]:
pivot_table_children['percent_1'] = pivot_table_children[1] / (pivot_table_children[1] + pivot_table_children[0])*100

In [129]:
pivot_table_children.sort_values(by='percent_1', ascending=True)

debt,0,1,percent_1
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,12963.0,1058.0,7.545824
3,301.0,27.0,8.231707
1,4351.0,441.0,9.202838
2,1845.0,194.0,9.514468
4,37.0,4.0,9.756098
20,67.0,8.0,10.666667
5,9.0,,


**Kesimpulan**

[Tulis kesimpulanmu berdasarkan manipulasi dan pengamatan yang kamu lakukan.]

Jawab:

1. Hampir semua nasabah yang mempunyai anak, juga memliki kemampuan untuk melunasi pinjaman.
2. Untuk nasabah yang belum mempunyai anak, mempunyai kemampuan membayar yang lebih tinggi dari yang sudah memiliki anak.


**Apakah terdapat korelasi antara status keluarga dengan probabilitas melakukan gagal bayar pinjaman?**

In [130]:
# Periksa data status keluarga dan data gagal bayar pinjaman
pivot_table_family_status = data.pivot_table(index ='family_status', columns ='debt', values ='days_employed', aggfunc = 'count')

In [132]:
pivot_table_family_status['percent_1'] = pivot_table_family_status[1] / (pivot_table_family_status[1] + pivot_table_family_status[0])*100

In [133]:
pivot_table_family_status.sort_values(by='percent_1', ascending=True)

debt,0,1,percent_1
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
widow / widower,888,62,6.526316
divorced,1096,85,7.19729
married,11335,926,7.552402
civil partnership,3738,386,9.359845
unmarried,2516,273,9.788455


**Kesimpulan**

[Tulis kesimpulanmu berdasarkan manipulasi dan pengamatanmu.]

Jawab:

1. Terlihat nasabah yang memiliki status married memiliki kemungkinan melunasi pinjaman lebih banyak dibandingkan status perkawinan yang lain

2. dan untuk nasabah dengan status unmarried, mempunyai persentase gagal bayar yang lebih besar daripada status perkawinan lain.

**Apakah terdapat korelasi antara tingkat pendapatan dengan probabilitas melakukan gagal bayar pinjaman?**

In [152]:
# Periksa data tingkat pendapatan dan data gagal bayar pinjaman
pivot_table_total_income_category = data.pivot_table(index ='total_income_category', columns ='debt', values ='days_employed', aggfunc = 'count')


In [153]:
pivot_table_total_income_category['percent_1'] = pivot_table_total_income_category[1] / (pivot_table_total_income_category[1] + pivot_table_total_income_category[0])*100

In [154]:
pivot_table_total_income_category.sort_values(by='percent_1', ascending=True)

debt,0,1,percent_1
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
small,836,56,6.278027
very high,1225,92,6.985573
high,7113,610,7.898485
above avarege,4176,390,8.541393
avarage,2559,239,8.541816


**Kesimpulan**

[Tulis kesimpulanmu berdasarkan manipulasi dan pengamatanmu.]

Jawab:
1. Terlihat nasabah di setiap kriteria memiliki kemungkinan tinggi untuk melunasi pinjaman.
2. Nasabah dengan pendapatan yang tinggi, mempunyai potensi pelunasan yang lebih tinggi.

**Bagaimana tujuan kredit memengaruhi persentase gagal bayar?**

In [143]:
# Periksa persentase tingkat gagal bayar untuk setiap tujuan kredit dan lakukan penganalisisan
pivot_table_purpose_category = data.pivot_table(index ='purpose_category', columns ='debt', values ='days_employed', aggfunc = 'count')

In [144]:
pivot_table_purpose_category['percent_1'] = pivot_table_purpose_category[1] / (pivot_table_purpose_category[1] + pivot_table_purpose_category[0])*100

In [147]:
pivot_table_purpose_category.sort_values(by='percent_1', ascending=True)

debt,0,1,percent_1
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
real estate,8194,653,7.381033
wedding ceremony,2124,184,7.97227
education,2797,288,9.335494
car,3874,399,9.337702


**Kesimpulan**

[Tulis kesimpulanmu berdasarkan manipulasi dan pengamatan yang kamu lakukan.]

Jawab:


1. Nasabah yang mempunyai tujuan peminjaman untuk real estate/property/house menjadi yang terbanyak untuk melunasi pinjaman. 
2. Nasabah dengan mempunyai tujuan pinjaman untuk education dan car, mempunyai potensi lebih rendah untuk pelunasan, namun juga banyak yang dapat melakukan pelunasan.



# Kesimpulan umum 

[Tuliskan kesimpulanmu di bagian akhir ini. Pastikan kamu memasukkan semua kesimpulan penting yang telah kamu buat berkaitan dengan caramu memproses dan menganalisis data. Kesimpulan tersebut harus membahas nilai yang hilang, duplikat, dan kemungkinan alasan, serta solusi untuk data bermasalah yang harus kamu tangani.]

[Tuliskan juga kesimpulanmu mengenai pertanyaan-pertanyaan yang diajukan di sini.]


Kesimpulan Umum:

Dalam analisis data ini, kami telah melakukan serangkaian langkah untuk membersihkan, memproses, dan menganalisis data pelanggan bank terkait risiko gagal bayar pinjaman. Berikut adalah kesimpulan yang dapat diambil:

Nilai Hilang dan Duplikat: Kami mengidentifikasi nilai hilang pada kolom days_employed dan total_income, yang kemungkinan besar terkait dengan masalah dalam pengisian data atau pengumpulan data. Kami menggunakan pendekatan seperti mengisi nilai median dan mengganti nilai negatif dengan positif untuk mengatasi nilai hilang dan outliers. Kami juga menemukan beberapa baris duplikat yang berhasil dihapus.

Pengaruh Faktor Terhadap Gagal Bayar: Kami menemukan beberapa faktor yang berpotensi memengaruhi probabilitas gagal bayar, seperti jumlah anak, status keluarga, pendidikan, tujuan kredit, dan tingkat pendapatan. Pendekatan yang digunakan mencakup pengelompokan, kategori, dan perhitungan persentase gagal bayar untuk setiap faktor. Beberapa temuan penting termasuk:

Pelanggan dengan lebih banyak anak memiliki risiko gagal bayar lebih tinggi.
Pelanggan yang belum menikah atau bersuami/istri memiliki risiko gagal bayar lebih tinggi.
Pelanggan dengan pendidikan tinggi dan tujuan pendidikan tinggi memiliki risiko gagal bayar lebih tinggi.
Pembelian mobil dan pendidikan tinggi memiliki risiko gagal bayar lebih tinggi daripada kepemilikan rumah.
Kesimpulan Pertanyaan Utama:

Terdapat korelasi antara memiliki anak dan probabilitas gagal bayar pinjaman. Pelanggan dengan 6-10 anak memiliki risiko gagal bayar tertinggi.
Status keluarga juga mempengaruhi probabilitas gagal bayar. Pelanggan yang belum menikah atau bersuami/istri memiliki risiko lebih tinggi.
Terdapat hubungan antara tingkat pendapatan dan probabilitas gagal bayar. Pelanggan dengan pendapatan tinggi memiliki risiko lebih rendah.
Kami merekomendasikan bahwa bank dapat mempertimbangkan faktor-faktor ini dalam keputusan pemberian pinjaman dan menyesuaikan kebijakan risiko berdasarkan analisis ini. Selain itu, penting untuk terus memantau dan menganalisis data pelanggan secara berkala untuk mengidentifikasi tren dan pola baru yang mungkin muncul.