# Menganalisis risiko gagal bayar peminjam

Menyiapkan laporan untuk divisi kredti bank untuk mengetahui pengaruh status perkawinan seorang nasabah dan jumlah anak yang dimilikinya terhadap probabilitas hahal bayar dalam pelunasan pinjaman. 

## Buka file data dan baca informasi umumnya.

In [1]:
import pandas as pd# Muat semua library 

In [2]:
data = pd.read_csv('/datasets/credit_scoring_eng.csv')# Muat datanya

## Soal 1. Eksplorasi data

**Deskripsi data**
- `children` - jumlah anak dalam keluarga
- `days_employed` - pengalaman kerja nasabah dalam hari
- `dob_years` - usia nasabah dalam tahun
- `education` - tingkat pendidikan nasabah
- `education_id` - pengidentifikasi untuk tingkat pendidikan nasabah
- `family_status` - status perkawinan
- `family_status_id` - pengidentifikasi untuk status perkawinan nasabah
- `gender` - jenis kelamin nasabah
- `income_type` - jenis pekerjaan
- `debt` - apakah nasabah pernah melakukan gagal bayar pinjaman
- `total_income` - pendapatan bulanan
- `purpose` - tujuan mendapatkan pinjaman


In [3]:
data.shape# Mari kita lihat berapa banyak baris dan kolom yang dimiliki oleh dataset kita


(21525, 12)

In [4]:
data.head(30)# Mari tampilkan N baris pertama

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


1.berdasarkan 30 data yang ditampilkan diketaui terdapat 2 kolom yang memiliki missing value yaitu kolom days_employed dan total income
2.pada kolom education, gaya penulisan value masih belum seragam

In [5]:
data.info()# Dapatkan informasi data

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


1.berdasarkan informasi data,tidak semua kolom memiliki missing value, melainkan hanya 2 kolom yakni days_employed dan total_income

In [6]:
# Mari kita lihat tabel yang telah difilter dengan nilai yang hilang di kolom pertama yang mengandung data yang hilang
data[data['days_employed'].isna()].head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding


berdasarkan data yang difilter dengan kolom days_employed belum dapat disimpulkan bahwa missing value tampak simetrti. 
dibutuhkan analisa lebih lanjut terhadap kolom yang mengandung missing value 

In [7]:
# Mari kita terapkan beberapa kondisi untuk memfilter data dan melihat jumlah baris dalam tabel yang telah difilter.
data[(data['days_employed'].isna()) & (data['total_income'].isna())].shape

(2174, 12)

**Kesimpulan sementara**

In [8]:
missing_value_days_employed = data['days_employed'].isnull().sum()/21525
missing_value_total_income = data['total_income'].isnull().sum()/21525

f'Persentase nilai hilang days_employed {missing_value_days_employed:.0%}, Persentase nilai hilang total_income {missing_value_total_income:.0%}'

'Persentase nilai hilang days_employed 10%, Persentase nilai hilang total_income 10%'

setelah melakukan filter data sesuai untuk kedua kolom yang memiliki nilai yang hilang, ditemukan perbedaan jumlah baris antara kolom days_employed dengan total_income. 
jumlah baris pada kolom days_employed adalah 19531 sedangkan jumlah baris pada kolom total_income adalah 19348
besar persentase dari kedua kolom yang memiliki nilai hilang ialah sama-sama 10%
karakteristik yang menjadi acuan nilai hilang ialah kolom days_employed
hipotesa 1 : nilai pada kolom total_income memiliki ketergantungan terhadap days_employed, artinya total_income akan ditemukan jika nilai pada days_employed tersedia  
hipotesa 2 : nilai hilang tidak memiliki korelasi atau ketergantungan dengan data lainnya

In [9]:
missing_data = data[(data['days_employed'].isna()) & (data['total_income'].isna())]
missing_data.head()# Mari kita periksa nasabah yang tidak memiliki data tentang karakteristik yang teridentifikasi dan kolom dengan nilai yang hilang

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding


In [10]:
# Periksalah distribusinya
missing_data_days = missing_data['family_status'].value_counts()
missing_days_percent = missing_data['family_status'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : missing_days_percent, "count" : missing_data_days}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
married,56.9%,1237
civil partnership,20.33%,442
unmarried,13.25%,288
divorced,5.15%,112
widow / widower,4.37%,95


berdasarkan sebaran missing value days_employed dan total_income terhadap family_status dapat dilihat bahwa lebih dari 50% missing value memiliki background keluarga married yakni setara dengan 1237 baris 

In [11]:
missing_data_gender = missing_data['gender'].value_counts()
missing_gender_percent = missing_data['gender'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : missing_gender_percent, "count" : missing_data_gender}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
F,68.26%,1484
M,31.74%,690


berdasarkan sebaran missing value days_employed dan total_income terhadap gender dapat dilihat bahwa 68% missing value memiliki gender perempuan

In [12]:
missing_data_income_t = missing_data['income_type'].value_counts()
missing_income_t_percent = missing_data['income_type'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : missing_income_t_percent, "count" : missing_data_income_t}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
employee,50.83%,1105
business,23.37%,508
retiree,19.0%,413
civil servant,6.76%,147
entrepreneur,0.05%,1


berdasarkan sebaran missing value terhadap data income_type dapat ditemukan bahwa sebagain besar missing value merupakan miliki nasabah yang berkerja sebagai employee atau setara dengan 50,83%

In [13]:
missing_data_debt = missing_data['debt'].value_counts()
missing_debt_percent = missing_data['debt'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : missing_debt_percent, "count" : missing_data_debt}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
0,92.18%,2004
1,7.82%,170


berdasarkan sebaran missing value terhadap data debt dapat ditemukan bahwa lebih dari 90% missing value memiliki history lancar dalam membayar angsung pinjaman yang diajukan nasabah ke bank

**Kemungkinan penyebab hilangnya nilai dalam data**

hasil temuan:
    
berdasarkan sebaran missing value days_employed dan total_income terhadap family_status dapat dilihat bahwa lebih dari 50% missing value memiliki background keluarga married yakni setara dengan 1237 baris

berdasarkan sebaran missing value days_employed dan total_income terhadap gender dapat dilihat bahwa 68% missing value memiliki gender perempuan

berdasarkan sebaran missing value terhadap data income_type dapat ditemukan bahwa sebagain besar missing value merupakan miliki nasabah yang berkerja sebagai employee atau setara dengan 50,83%

berdasarkan sebaran missing value terhadap data debt dapat ditemukan bahwa lebih dari 90% missing value memiliki history lancar dalam membayar angsung pinjaman yang diajukan nasabah ke bank

kesimpulan berdasarkan temuan: 
profiling dari missing value pada datasets sejauh ini adalah nasabah perempuan yang telah menikah dengan pekerjaan sebagai employee serta memiliki history yang bagus dalam menjalankan kewajibannya 

beberapa kemungkinanan missing value terjadi pada kolom dyas_employed dan total_income adalah nasabah sudah lama pensiun, tidak pernah bekerja sama sekali, masih sekolah  

In [14]:
# Memeriksa distribusi di seluruh dataset
children_count = data['children'].value_counts()
children_percent = data['children'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : children_percent, "count" : children_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
0,65.73%,14149
1,22.38%,4818
2,9.55%,2055
3,1.53%,330
20,0.35%,76
-1,0.22%,47
4,0.19%,41
5,0.04%,9


berdasarkan sebaran data pada kolom children, dapat ditemukan bahwa 65,73% (14149 orang) dari total baris children merupakan nasabah yang tidak memiliki anak. sedangkan nasabah yang memiliki 20 anak hanya terhitung 0,35% (76 orang) dari total baris dan nasabah yang memiliki anak -1 tercatat sebanyak 47 orang

In [15]:
days_count = data['days_employed'].value_counts()
days_percent = data['days_employed'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : days_percent, "count" : days_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
-327.685916,0.01%,1
-1580.622577,0.01%,1
-4122.460569,0.01%,1
-2828.237691,0.01%,1
-2636.090517,0.01%,1
...,...,...
-7120.517564,0.01%,1
-2146.884040,0.01%,1
-881.454684,0.01%,1
-794.666350,0.01%,1


berdsarakan hasil distribusi data pada kolom days_employed dapat dilihat bahwa nilai yang tercatat sebesar 19351 baris, tidak sebanding dengan total baris yang dimiliki oleh datasets yakni 21525 

In [16]:
dob_count = data['dob_years'].value_counts().sort_index()
dob_percent = data['dob_years'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : dob_percent, "count" : dob_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
0,0.47%,101
19,0.07%,14
20,0.24%,51
21,0.52%,111
22,0.85%,183
23,1.18%,254
24,1.23%,264
25,1.66%,357
26,1.9%,408
27,2.29%,493


berdasarkan hasil distribusi data dob_years dapat ditemukan bahwa lebih dari 2% datasets memiliki nasabah dengan rentang umur 27 - 59 tahun

In [17]:
education_count = data['education'].value_counts()
education_percent = data['education'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : education_percent, "count" : education_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
secondary education,63.88%,13750
bachelor's degree,21.92%,4718
SECONDARY EDUCATION,3.59%,772
Secondary Education,3.3%,711
some college,3.1%,668
BACHELOR'S DEGREE,1.27%,274
Bachelor's Degree,1.25%,268
primary education,1.16%,250
Some College,0.22%,47
SOME COLLEGE,0.13%,29


berdasarkan data persebaran pendidikan ditemukan bahwa mayoritas nasabah memiliki latar belakang pendidikan setara dengan secondary school atau SMA

In [18]:
fam_count = data['family_status'].value_counts()
fam_percent = data['family_status'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : fam_percent, "count" : fam_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
married,57.51%,12380
civil partnership,19.41%,4177
unmarried,13.07%,2813
divorced,5.55%,1195
widow / widower,4.46%,960


berdasarakn distrubsi data family_status dapat disimpulkan bahwa 57% nasabah yang melakukan pinjaman ke bank berstatus menikah

In [19]:
gender_count = data['gender'].value_counts()
gender_percent = data['gender'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : gender_percent, "count" : gender_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
F,66.14%,14236
M,33.86%,7288
XNA,0.0%,1


berdasarkan distribusi gender dapat diketahui lebih dari 60% nasabah yang melakukan peminjaman ke bank adalah perempuan

In [20]:
type_count = data['income_type'].value_counts()
type_percent = data['income_type'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : type_percent, "count" : type_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
employee,51.66%,11119
business,23.62%,5085
retiree,17.91%,3856
civil servant,6.78%,1459
unemployed,0.01%,2
entrepreneur,0.01%,2
paternity / maternity leave,0.0%,1
student,0.0%,1


berdasarkan sebaran data pada kolom tipe pekerjaan yang dimiliki oleh nasabah dapat ditemukan bahwa setengah dari nasabah berstatus emloyee

In [21]:
debt_count = data['debt'].value_counts()
debt_percent = data['debt'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : debt_percent, "count" : debt_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
0,91.91%,19784
1,8.09%,1741


berdasarkan sebaran data debt dapat dilihat bahwa lebih dari 90% dari nasabah yang melakukan peminjaman ke bank memiliki track record yang bagus dalam melakukan tugasnya untuk membayar ke bank

In [22]:
income_count = data['total_income'].value_counts()
income_percent = data['total_income'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : income_percent, "count" : income_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
42413.096,0.01%,2
17312.717,0.01%,2
31791.384,0.01%,2
14427.878,0.01%,1
20837.034,0.01%,1
...,...,...
27715.458,0.01%,1
23834.534,0.01%,1
26124.613,0.01%,1
28692.182,0.01%,1


berdsarakan hasil distribusi data pada kolom total_income dapat dilihat bahwa nilai yang tercatat sebesar 19348 baris, tidak sebanding dengan total baris yang dimiliki oleh datasets yakni 21525 

In [23]:
purpose_count = data['purpose'].value_counts()
purpose_percent = data['purpose'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : purpose_percent, "count" : purpose_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
wedding ceremony,3.7%,797
having a wedding,3.61%,777
to have a wedding,3.6%,774
real estate transactions,3.14%,676
buy commercial real estate,3.08%,664
housing transactions,3.03%,653
buying property for renting out,3.03%,653
transactions with commercial real estate,3.02%,651
purchase of the house,3.01%,647
housing,3.01%,647


berdasarkan sebaran data pada kolom tujuan peminjaman dana oleh nasabah dapat dilihat bahwa tujuan untuk hal rumah atau properti berada pada posisi pertama, diikuti dengan posisi kedua yakni membeli mobil dan posisi terakhir yaitu untuk melanjutkan pendidikan 

**Kesimpulan sementara**

distibusi dalam dataset yang asli mirip dengan distribusi table yang telah di filter, artinya adalah missing value hanya teridentifikasi pada 2 kolom saja yakni days_employed dan total_income

In [24]:
 #Periksa penyebab dan pola lain yang dapat mengakibatkan nilai yang hilang
missing_children_count = missing_data['children'].value_counts()
missing_children_percent = missing_data['children'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : missing_children_percent, "count" : missing_children_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
0,66.19%,1439
1,21.85%,475
2,9.38%,204
3,1.66%,36
20,0.41%,9
4,0.32%,7
-1,0.14%,3
5,0.05%,1


berdasarkan sebaran data dapat ditemukan bahwa missing value pada kolom children 66,19% atau setara dengan 1439 baris merupakan miliki nasabah yang tidak memiliki anak

In [25]:
missing_dob_count = missing_data['dob_years'].value_counts()
missing_dob_percent = missing_data['dob_years'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : missing_dob_percent, "count" : missing_dob_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
34,3.17%,69
40,3.04%,66
31,2.99%,65
42,2.99%,65
35,2.94%,64
36,2.9%,63
47,2.71%,59
41,2.71%,59
30,2.67%,58
28,2.62%,57


berdasarkan sebaran data dapat ditemukan bahwa missing value banyak ditemukan untuk nasabah yang berumur 34,40,31,42,35,36 yang setara dengan lebih dari 60 baris untuk masing-masing umur

In [26]:
missing_education_count = missing_data['education'].value_counts()
missing_education_percent = missing_data['education'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : missing_education_percent, "count" : missing_education_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
secondary education,64.77%,1408
bachelor's degree,22.82%,496
SECONDARY EDUCATION,3.08%,67
Secondary Education,2.99%,65
some college,2.53%,55
Bachelor's Degree,1.15%,25
BACHELOR'S DEGREE,1.06%,23
primary education,0.87%,19
SOME COLLEGE,0.32%,7
Some College,0.32%,7


berdsarkan sebaran data dapat diketahui bawah data missing value banyak ditemukan untuk nasabah yang memiliki latar belakang pendidikan secondary education dan bachelor degree

In [27]:
missing_purpose_count = missing_data['purpose'].value_counts()
missing_purpose_percent = missing_data['purpose'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : missing_purpose_percent, "count" : missing_purpose_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
having a wedding,4.23%,92
to have a wedding,3.73%,81
wedding ceremony,3.5%,76
construction of own property,3.45%,75
housing transactions,3.4%,74
buy real estate,3.31%,72
transactions with my real estate,3.27%,71
purchase of the house for my family,3.27%,71
transactions with commercial real estate,3.22%,70
housing renovation,3.22%,70


berdasarkan sebaran data dapat ditemukan bahwa missing value ditemukan hampir untuk seluruh tujuan peminjaman ke bank dimana lebih banyak ditemukan pada tujuan yang berhubungan dengan rumah jika digabungkan seluruh persentase yang berhubunhan dengan rumah

**Kesimpulan sementara**

In [28]:
no_missing_data = data[data['days_employed'].notnull()]
no_missing_data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.422610,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21521,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21522,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


In [29]:
# Periksa pola lainnya - jelaskan pola tersebut
no_missing_count_children = data['children'].value_counts()
no_missing_percent_children = data['children'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : no_missing_percent_children, "count" : no_missing_count_children}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
0,65.73%,14149
1,22.38%,4818
2,9.55%,2055
3,1.53%,330
20,0.35%,76
-1,0.22%,47
4,0.19%,41
5,0.04%,9


berdsarakan sebaran data pada kolom children dapat diketahui bahwa tidak terdapat missing value pada kolom ini. selain itu berdasarkan data dapat dilihat bahwa nasabah yang melakukan peminjaman kepada bank didominasi oleh nasabah yang tidak memiliki anak yakni sebesar 65,73%

In [30]:
no_missing_count_days = data['days_employed'].value_counts()
no_missing_percent_days = data['days_employed'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : no_missing_percent_days, "count" : no_missing_count_days}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
-327.685916,0.01%,1
-1580.622577,0.01%,1
-4122.460569,0.01%,1
-2828.237691,0.01%,1
-2636.090517,0.01%,1
...,...,...
-7120.517564,0.01%,1
-2146.884040,0.01%,1
-881.454684,0.01%,1
-794.666350,0.01%,1


berdsarkan data distribusi terdapat 19351 baris nilai pada kolom days_employee yang terdapat nilai, yang artinya pada kolom ini terdapat missing value sebanyak 2174 baris

In [31]:
no_missing_count_dob = data['dob_years'].value_counts().sort_index()
no_missing_percent_dob = data['dob_years'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : no_missing_percent_dob, "count" : no_missing_count_dob}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
0,0.47%,101
19,0.07%,14
20,0.24%,51
21,0.52%,111
22,0.85%,183
23,1.18%,254
24,1.23%,264
25,1.66%,357
26,1.9%,408
27,2.29%,493


In [32]:
data['dob_years'].notnull()

0        True
1        True
2        True
3        True
4        True
         ... 
21520    True
21521    True
21522    True
21523    True
21524    True
Name: dob_years, Length: 21525, dtype: bool

pada kolom dob_years dapat diketahui bahwa tidak terdapat missing value pada kolom ini serta berdasarkan sebaran data rentang umur yang mendominasi melakukan pinjaman kepada bank yakni 27 tahun - 59 tahun

In [33]:
no_missing_count_education = data['education'].value_counts()
no_missing_percent_education = data['education'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : no_missing_percent_education, "count" : no_missing_count_education}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
secondary education,63.88%,13750
bachelor's degree,21.92%,4718
SECONDARY EDUCATION,3.59%,772
Secondary Education,3.3%,711
some college,3.1%,668
BACHELOR'S DEGREE,1.27%,274
Bachelor's Degree,1.25%,268
primary education,1.16%,250
Some College,0.22%,47
SOME COLLEGE,0.13%,29


In [34]:
data['education'].notnull()

0        True
1        True
2        True
3        True
4        True
         ... 
21520    True
21521    True
21522    True
21523    True
21524    True
Name: education, Length: 21525, dtype: bool

berdasarkan sebaran data pada kolom education dapat dilihat mayoritas nasabah yang melakukan peminjaman kepada bank adalah nasabah yang memiliki latar belakang pendidikan setara dengan secondary education, serta tidak terdapat indikasi missing value pada kolom ini

In [35]:
no_missing_count_fam = data['family_status'].value_counts()
no_missing_percent_fam = data['family_status'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : no_missing_percent_fam, "count" : no_missing_count_fam}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
married,57.51%,12380
civil partnership,19.41%,4177
unmarried,13.07%,2813
divorced,5.55%,1195
widow / widower,4.46%,960


In [36]:
data['family_status'].notnull()

0        True
1        True
2        True
3        True
4        True
         ... 
21520    True
21521    True
21522    True
21523    True
21524    True
Name: family_status, Length: 21525, dtype: bool

berdasarkan pesebaran data dapat dilihat bahwa lebih dari 57% nasabah yang melakukan peminjaman ke bank merupakan nasabah yang berstatus married, dan bagian terkecil dari nasabah merupakan nasabah yang berstatus widow/widower yakni sekitar 4%. Selain itu dapat pada kolom ini tidak terdapat indikasi missing value

In [37]:
no_missing_count_gender = data['gender'].value_counts()
no_missing_percent_gender = data['gender'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : no_missing_percent_gender, "count" : no_missing_count_gender}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
F,66.14%,14236
M,33.86%,7288
XNA,0.0%,1


In [38]:
data['gender'].notnull()

0        True
1        True
2        True
3        True
4        True
         ... 
21520    True
21521    True
21522    True
21523    True
21524    True
Name: gender, Length: 21525, dtype: bool

berdasarkan sebaran data pada kolom gender dapat dilihat bahwa jumlah nasabah perempuan yang melakukan peminjaman ke bank 2X lebih tinggi dari pada nasabah laki-laki serta terdapat 1 orang yang tidak memvalidasi gender. Selain itu dapat dilihat be

In [39]:
no_missing_count_income_type = data['income_type'].value_counts()
no_missing_percent_income_type = data['income_type'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : no_missing_percent_income_type, "count" : no_missing_count_income_type}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
employee,51.66%,11119
business,23.62%,5085
retiree,17.91%,3856
civil servant,6.78%,1459
unemployed,0.01%,2
entrepreneur,0.01%,2
paternity / maternity leave,0.0%,1
student,0.0%,1


In [40]:
data['income_type'].notnull()

0        True
1        True
2        True
3        True
4        True
         ... 
21520    True
21521    True
21522    True
21523    True
21524    True
Name: income_type, Length: 21525, dtype: bool

berdasarkan sebaran data pada kolom income_type dapat dilihat bahwa terdapat 4 jenis pekerjaan yang populer yaitu employee, business, retire dan civil servant. employee merupakan jenis pekerjaan yang mendominasi lebih dari 50%. selain itu dapat dilihat pada kolom ini tidak terdapat indikasi missing value

In [41]:
no_missing_count_debt = data['debt'].value_counts()
no_missing_percent_debt = data['debt'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : no_missing_percent_debt, "count" : no_missing_count_debt}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
0,91.91%,19784
1,8.09%,1741


In [42]:
data['debt'].notnull()

0        True
1        True
2        True
3        True
4        True
         ... 
21520    True
21521    True
21522    True
21523    True
21524    True
Name: debt, Length: 21525, dtype: bool

berdasarkan sebaran data pada kolom debt dapat dilihat bahwa hampir seluruh nasabah melakukan pembayaran kewajibannya dengan baik yang mana ini setara dengan 92%. sebaliknya 8% merupakan nasabah yang tidak melakukan kewajibannay dengan baik

In [43]:
no_missing_count_total_income = data['total_income'].value_counts()
no_missing_percent_total_income = data['total_income'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : no_missing_percent_total_income, "count" : no_missing_count_total_income}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
42413.096,0.01%,2
17312.717,0.01%,2
31791.384,0.01%,2
14427.878,0.01%,1
20837.034,0.01%,1
...,...,...
27715.458,0.01%,1
23834.534,0.01%,1
26124.613,0.01%,1
28692.182,0.01%,1


berdasarkan persebaran data pada kolom total income dapat diketahui bahwa hanya 19348 baris yang terdeksi memiliki nilai artinya kolom ini memiliki missing value

In [44]:
no_missing_count_purpose = no_missing_data['purpose'].value_counts()
no_missing_percent_purpose = no_missing_data['purpose'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : no_missing_percent_purpose, "count" : no_missing_count_purpose}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
wedding ceremony,3.73%,721
to have a wedding,3.58%,693
having a wedding,3.54%,685
real estate transactions,3.18%,615
buy commercial real estate,3.09%,597
purchase of the house,3.07%,595
buying property for renting out,3.04%,588
housing,3.03%,587
transactions with commercial real estate,3.0%,581
building a real estate,3.0%,580


In [45]:
data['purpose'].notnull()

0        True
1        True
2        True
3        True
4        True
         ... 
21520    True
21521    True
21522    True
21523    True
21524    True
Name: purpose, Length: 21525, dtype: bool

berdasarkan persebaran data dapat dilihat bahwa mayoritas nasabah melakukan pinjaman ke bank adalah dengan tujuan yang berhubungan dengan rumah baik membeli ataupun merenovasi. selain itu dapat dilihat bahwa pada kolom ini tidak terdapat indikasi missing value

**Kesimpulan**

berdasarkan filter data yang telah dilakukan dapat diketahui bahwa missing value tidak memiliki pola atau random serta missing value pada datasets hanya terjadi pada 2 kolom saja yakni kolom days_employed dan total_income
kesimpulan ini dapat diraih setelah melakuakn filter berdasarkan pencarian jumlah baris untuk setiap kolom 

cara yang dilakukan untuk mengatasi missing value adalah dengan mensubtitusi dengan nilai mean atau median dari kolom yang terdapat missing value. 

langkah-langkah yang dilakukan untuk mentransformasi datasets adalah 
- melakukan penyeragaman penulisan kata
- mengisi missing value 
- menghilangkan duplikasi 

## Transformasi data

In [46]:
# Mari kita lihat semua nilai di kolom pendidikan untuk memeriksa ejaan apa yang perlu diperbaiki
data.education.value_counts()

secondary education    13750
bachelor's degree       4718
SECONDARY EDUCATION      772
Secondary Education      711
some college             668
BACHELOR'S DEGREE        274
Bachelor's Degree        268
primary education        250
Some College              47
SOME COLLEGE              29
PRIMARY EDUCATION         17
Primary Education         15
graduate degree            4
GRADUATE DEGREE            1
Graduate Degree            1
Name: education, dtype: int64

In [47]:
data['education'] = data['education'].str.lower()# Perbaiki pencatatan jika diperlukan

In [48]:
data.education.value_counts()# Periksa semua nilai di kolom untuk memastikan bahwa kita telah memperbaikinya dengan tepat

secondary education    15233
bachelor's degree       5260
some college             744
primary education        282
graduate degree            6
Name: education, dtype: int64

In [49]:
# Mari kita lihat distribusi nilai pada kolom `children`
data['children'].value_counts()


 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

terdpat 2 hal aneh yang ditemukan yaitu tidak ada jumlah anak -1 dan sangat jarang yang memiliki anak dengan jumlah fantatis yakni 20
keputusan yang diambil pertama adalah value -1 pada kolom children akan diganti menjadi 0 
keputusan yang diambil kedua adalah value 20 pada kolom children akan disesuaikan dengan nilai median karena nilai 20 merupakan outlier yang signifikan

In [50]:
children_median = data['children'].median()
print(children_median)

0.0


In [51]:
data.loc[data['children'] == -1, 'children'] = 0# [perbaiki data berdasarkan keputusanmu]
data['children'].value_counts()

0     14196
1      4818
2      2055
3       330
20       76
4        41
5         9
Name: children, dtype: int64

In [52]:
data.loc[data['children'] == 20, 'children'] = 0# [perbaiki data berdasarkan keputusanmu]
data['children'].value_counts()

0    14272
1     4818
2     2055
3      330
4       41
5        9
Name: children, dtype: int64

In [53]:
data['children'].value_counts()# Periksa kembali kolom `children` untuk memastikan bahwa semuanya telah diperbaiki



0    14272
1     4818
2     2055
3      330
4       41
5        9
Name: children, dtype: int64

In [54]:
data.days_employed.describe()

count     19351.000000
mean      63046.497661
std      140827.311974
min      -18388.949901
25%       -2747.423625
50%       -1203.369529
75%        -291.095954
max      401755.400475
Name: days_employed, dtype: float64

In [55]:
# Temukan data yang bermasalah di kolom `days_employed` jika memang terdapat masalah dan hitung persentasenya
#data yang bermasalah adalah banyak ditemukan data days_employed yang bernilai negatif

data_negative = data.loc[(data['days_employed']<0)]
print(len(data_negative))

15906


In [56]:
data.shape

(21525, 12)

In [57]:
#besar persentase nilai negative ialah 
persentase_data_negative = 15906 / 21525
f'persentase_data_negative adalah {persentase_data_negative:.1%}'

'persentase_data_negative adalah 73.9%'

In [58]:
# Atasi nilai yang bermasalah, jika ada
data['days_employed'] = data['days_employed'].abs()

In [59]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
data.days_employed.describe()

count     19351.000000
mean      66914.728907
std      139030.880527
min          24.141633
25%         927.009265
50%        2194.220567
75%        5537.882441
max      401755.400475
Name: days_employed, dtype: float64

temuan pada kolom days_employed ialah value yang tertera mayoritas bernilai negatif baik yang memiliki status bekerja dan pensiun
nilai negatif pada kolom days_employed ditemukan sebanyak 15906 baris atau setara dengan 73,9% dari total baris
selain itu berdasarkan hasil temuan dapat diketahui nilai std>mean artinya sebaran data pada kolom ini sangat luas

hal yang dilakukan adalah mengganti nilai negatif menjadi positive 

setelah melakukan perubahan serta mengidentifikasi sebaran data hasil ditemukan nilai std>mean walaupun secara nilai std turun dibandingkan dengan sebelumnya

In [60]:
# Periksa `dob_years` untuk nilai yang mencurigakan dan hitung persentasenya
data['dob_years'].value_counts().sort_index()

0     101
19     14
20     51
21    111
22    183
23    254
24    264
25    357
26    408
27    493
28    503
29    545
30    540
31    560
32    510
33    581
34    603
35    617
36    555
37    537
38    598
39    573
40    609
41    607
42    597
43    513
44    547
45    497
46    475
47    480
48    538
49    508
50    514
51    448
52    484
53    459
54    479
55    443
56    487
57    460
58    461
59    444
60    377
61    355
62    352
63    269
64    265
65    194
66    183
67    167
68     99
69     85
70     65
71     58
72     33
73      8
74      6
75      1
Name: dob_years, dtype: int64

<div class="alert alert-success">
<b>Chamdani's comment v.1</b> <a class="tocSkip"></a>

Hebat, Kerja bagus!

</div>

berdasarkan data nilai yang mencurigakan dari value pada kolom do_years adalah memiliki umur 0 tahun. 
hal yang akan dilakukan adalah mengganti umur 0 dengan median atau mean dob_years

In [61]:
data.loc[(data['dob_years']==0)]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
99,0,346541.618895,0,secondary education,1,married,0,F,retiree,0,11406.644,car
149,0,2664.273168,0,secondary education,1,divorced,3,F,employee,0,11228.230,housing transactions
270,3,1872.663186,0,secondary education,1,married,0,F,employee,0,16346.633,housing renovation
578,0,397856.565013,0,secondary education,1,married,0,F,retiree,0,15619.310,construction of own property
1040,0,1158.029561,0,bachelor's degree,0,divorced,3,F,business,0,48639.062,to own a car
...,...,...,...,...,...,...,...,...,...,...,...,...
19829,0,,0,secondary education,1,married,0,F,employee,0,,housing
20462,0,338734.868540,0,secondary education,1,married,0,F,retiree,0,41471.027,purchase of my own house
20577,0,331741.271455,0,secondary education,1,unmarried,4,F,retiree,0,20766.202,property
21179,2,108.967042,0,bachelor's degree,0,married,0,M,business,0,38512.321,building a real estate


In [62]:
persentase_umur_nol = (101/21525)*100
persentase_umur_nol
#karena persentase umur 0 kurang < 1% maka niali umur 0 akan diganti dengan rata-rata dengan pembulatan ke bawah

0.4692218350754936

In [63]:
data['dob_years'].mean()

43.29337979094077

In [64]:
# Atasi masalah pada kolom `dob_years`, jika terdapat masalah
data['dob_years'] = data['dob_years'].replace(0,43)

In [65]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
data['dob_years'].value_counts().sort_index()

19     14
20     51
21    111
22    183
23    254
24    264
25    357
26    408
27    493
28    503
29    545
30    540
31    560
32    510
33    581
34    603
35    617
36    555
37    537
38    598
39    573
40    609
41    607
42    597
43    614
44    547
45    497
46    475
47    480
48    538
49    508
50    514
51    448
52    484
53    459
54    479
55    443
56    487
57    460
58    461
59    444
60    377
61    355
62    352
63    269
64    265
65    194
66    183
67    167
68     99
69     85
70     65
71     58
72     33
73      8
74      6
75      1
Name: dob_years, dtype: int64

berdasarkan hasil temuan adalah terdapat nasabah yang berumur 0 tahun, hal ini tidak masuk akal secara nasabah dapat melakukan peminjaman kepada bank. 

hal yang dilakukan adalah mengetahui seberapa besar pengaruh nasabah yang berumur 0 tahun, lalu menggantinya dengan nilai rata-rata atau median.

berdasarkan temuan ternyata persentase nasabah yang berumur 0 tahun kecil dari 1% oleh karena itu nilai 0 tahun diganti dengan rata-rata umur nasabah yang tercatat

In [66]:
# Mari kita lihat nilai untuk kolom ini
data['family_status'].value_counts().sort_index()

civil partnership     4177
divorced              1195
married              12380
unmarried             2813
widow / widower        960
Name: family_status, dtype: int64

In [67]:
# Atasi nilai yang bermasalah di `family_status`, jika ada
data['family_status'].isna().sum()

0

family status nasabah bank didominasi oleh married
berdasarkan hasil temuan tidak terdapat missing value pada kolom family status

In [69]:
# Mari kita liat nilai dalam kolom ini
data['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

In [70]:
# Atasi nilai-nilai yang bermasalah, jika ada
data['gender'] = data['gender'].replace('XNA','F')
#alasan gender XNA diganti mejadi F adalah karena dengan menambahkan 1 nilai ke jumlah value di F tidak akan memberikan perubahan yang signifikan.
#walaupun keduanya tidak akan memberikan perubahan yang signifikan akan tetapi perbandingan nilai perubahan antara penambahan 1 angka ke F degan penambahan 1 angka ke M lebih kecil penambahan ke F

In [71]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
data['gender'].value_counts()

F    14237
M     7288
Name: gender, dtype: int64

hasil temuan diperoleh bahwa mayoritas nasabah yang meminjam dana ke bank merupakan perempuan. perbandingan nasabah perempuan dengan laki-laki adalah 2:1 
hal yang menarik adalah terdapat 1 nasabah yang tidak melakukan verifikasi gender 

aksi yang dilakukan untuk 1 nasabah tersebut adalah mensubtitusi gender tersebut kepada gender yang memiliki jumlah terbanyak yaitu perempuan

In [72]:
# Mari kita lihat nilai dalam kolom ini
data['income_type'].value_counts()

employee                       11119
business                        5085
retiree                         3856
civil servant                   1459
unemployed                         2
entrepreneur                       2
paternity / maternity leave        1
student                            1
Name: income_type, dtype: int64

In [73]:
# Atasi nilai yang bermasalah, jika ada
data['income_type'].isna().sum()

0

berdasarkan hasil temuan dapat dilihat bahwa tidak terdapat missing value pada kolom income_type serta pekerjaan sebagai employee mendominasi nasabah yang melakukan peminjaman ke bank

In [75]:
# Periksa duplikat
data.duplicated().sum()

71

In [76]:
# Atasi duplikat, jika ada
data = data.drop_duplicates().reset_index(drop=True)

In [77]:
# Lakukan pemeriksaan terakhir untuk mengecek apakah kita memiliki duplikat
data.duplicated().sum()

0

In [78]:
# Periksa ukuran dataset yang sekarang kamu miliki setelah manipulasi pertama yang kamu lakukan
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21454 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21454 non-null  int64  
 3   education         21454 non-null  object 
 4   education_id      21454 non-null  int64  
 5   family_status     21454 non-null  object 
 6   family_status_id  21454 non-null  int64  
 7   gender            21454 non-null  object 
 8   income_type       21454 non-null  object 
 9   debt              21454 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21454 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


dataset baru terdiri dari 21454 baris. Data yang tersedia sudah bebas dari duplikasi namun masih terdapat kolom yang memiliki missing value sebanyak 2103 values. 

# Bekerja dengan nilai yang hilang

In [79]:
# Temukan dictionary
dict_education = data[['education','education_id']].drop_duplicates().set_index('education_id')['education'].to_dict()
dict_education

{0: "bachelor's degree",
 1: 'secondary education',
 2: 'some college',
 3: 'primary education',
 4: 'graduate degree'}

In [80]:
dict_family = data[['family_status','family_status_id']].drop_duplicates().set_index('family_status_id')['family_status'].to_dict()
dict_family

{0: 'married',
 1: 'civil partnership',
 2: 'widow / widower',
 3: 'divorced',
 4: 'unmarried'}

### Memperbaiki nilai yang hilang di `total_income`

In [81]:
# Mari kita tulis sebuah fungsi untuk menghitung kategori usia 
age_grouped = data.groupby('dob_years').count()
def age_classify (dob_years):
    if dob_years <=25:
        return 'anak muda'
    if dob_years <=65:
        return 'dewasa'
    return 'tua'

In [82]:
# Lakukan pengujian untuk melihat apakah fungsimu bekerja atau tidak
age_classify(59)

'dewasa'

In [83]:
# Buatlah kolom baru berdasarkan fungsi
data['age_grouped']=data['dob_years'].apply(age_classify)
data['age_grouped']

0        dewasa
1        dewasa
2        dewasa
3        dewasa
4        dewasa
          ...  
21449    dewasa
21450       tua
21451    dewasa
21452    dewasa
21453    dewasa
Name: age_grouped, Length: 21454, dtype: object

In [84]:
# Periksa bagaimana nilai di dalam kolom baru
data.tail(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_grouped
21444,1,467.68513,28,secondary education,1,married,0,F,employee,1,17517.812,to become educated,dewasa
21445,0,914.391429,42,bachelor's degree,0,married,0,F,business,0,51649.244,purchase of my own house,dewasa
21446,0,404.679034,42,bachelor's degree,0,civil partnership,1,F,business,0,28489.529,buying my own car,dewasa
21447,0,373995.710838,59,secondary education,1,married,0,F,retiree,0,24618.344,purchase of a car,dewasa
21448,1,2351.431934,37,graduate degree,4,divorced,3,M,employee,0,18551.846,buy commercial real estate,dewasa
21449,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,dewasa
21450,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,tua
21451,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.61,property,dewasa
21452,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,dewasa
21453,2,1984.507589,40,secondary education,1,married,0,F,employee,0,13127.587,to buy a car,dewasa


faktor yang mempengaruhi total_income adalah days_employed dan income_type. 

In [85]:
# Buat tabel tanpa nilai yang hilang dan tampilkan beberapa barisnya untuk memastikan semuanya berjalan dengan baik
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_grouped
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,dewasa
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,dewasa
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,dewasa
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,dewasa
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,dewasa


In [86]:
# Perhatikan nilai median untuk pendapatan berdasarkan faktor yang telah kamu identifikasi
# median pendapatan berdasarkan lama berkerja
data.groupby('days_employed')['total_income'].median()

days_employed
24.141633        26712.386
24.240695        19858.460
30.195337        37033.790
33.520665        20568.944
34.701045        14489.279
                   ...    
401663.850046     7725.831
401674.466633    52063.316
401675.093434    20194.323
401715.811749     9182.441
401755.400475    28204.551
Name: total_income, Length: 19351, dtype: float64

In [87]:
# Perhatikan nilai rata-rata untuk pendapatan berdasarkan faktor yang telah kamu identifikasi
# rata-rata pendapatan berdasarkan lama berkerja
data.groupby('days_employed')['total_income'].mean()

days_employed
24.141633        26712.386
24.240695        19858.460
30.195337        37033.790
33.520665        20568.944
34.701045        14489.279
                   ...    
401663.850046     7725.831
401674.466633    52063.316
401675.093434    20194.323
401715.811749     9182.441
401755.400475    28204.551
Name: total_income, Length: 19351, dtype: float64

In [88]:
# median pendapatan berdasarkan jenis pendapatan
data.groupby('income_type')['total_income'].median()

income_type
business                       27577.2720
civil servant                  24071.6695
employee                       22815.1035
entrepreneur                   79866.1030
paternity / maternity leave     8612.6610
retiree                        18962.3180
student                        15712.2600
unemployed                     21014.3605
Name: total_income, dtype: float64

In [89]:
#rata-rata pendapatan berdasarkan jenis pendapatan
data.groupby('income_type')['total_income'].mean()

income_type
business                       32386.793835
civil servant                  27343.729582
employee                       25820.841683
entrepreneur                   79866.103000
paternity / maternity leave     8612.661000
retiree                        21940.394503
student                        15712.260000
unemployed                     21014.360500
Name: total_income, dtype: float64

In [90]:
data.groupby(['days_employed','income_type'])['total_income'].mean()

days_employed  income_type
24.141633      employee       26712.386
24.240695      employee       19858.460
30.195337      business       37033.790
33.520665      employee       20568.944
34.701045      business       14489.279
                                ...    
401663.850046  retiree         7725.831
401674.466633  retiree        52063.316
401675.093434  retiree        20194.323
401715.811749  retiree         9182.441
401755.400475  retiree        28204.551
Name: total_income, Length: 19351, dtype: float64

In [91]:
data.groupby(['days_employed','income_type'])['total_income'].median()

days_employed  income_type
24.141633      employee       26712.386
24.240695      employee       19858.460
30.195337      business       37033.790
33.520665      employee       20568.944
34.701045      business       14489.279
                                ...    
401663.850046  retiree         7725.831
401674.466633  retiree        52063.316
401675.093434  retiree        20194.323
401715.811749  retiree         9182.441
401755.400475  retiree        28204.551
Name: total_income, Length: 19351, dtype: float64

In [92]:
data.groupby(['dob_years','income_type'])['total_income'].mean()

dob_years  income_type  
19         business         19197.349000
           civil servant    12125.986000
           employee         14882.764600
20         business         20702.363333
           civil servant    25586.456000
                                ...     
73         retiree          16575.455000
74         business         19972.813000
           employee         15831.345000
           retiree          11108.277750
75         civil servant    24525.224000
Name: total_income, Length: 217, dtype: float64

In [93]:
data.groupby(['income_type','dob_years'])['total_income'].mean()

income_type  dob_years
business     19           19197.349000
             20           20702.363333
             21           25391.475071
             22           25256.646690
             23           24360.121661
                              ...     
retiree      73           16575.455000
             74           11108.277750
student      22           15712.260000
unemployed   31            9593.119000
             45           32435.602000
Name: total_income, Length: 217, dtype: float64

In [94]:
len(data)

21454

In [95]:
persentase_missing_value_total_income = data['total_income'].isnull().sum()/(len(data))
(f'Persentase nilai hilang pada total income adalah {persentase_missing_value_total_income:.0%}')

'Persentase nilai hilang pada total income adalah 10%'

karena persentase nilai hilang pada total_income tidak lebih dari 10% maka nilai hilang akan disubtitusi dengan mean total_income berdasarkan jenis pendapatan

In [96]:
#  Tulis fungsi yang akan kita gunakan untuk mengisi nilai yang hilang
income_type_grouped = data.groupby('income_type')['total_income'].mean()
income_type_grouped

income_type
business                       32386.793835
civil servant                  27343.729582
employee                       25820.841683
entrepreneur                   79866.103000
paternity / maternity leave     8612.661000
retiree                        21940.394503
student                        15712.260000
unemployed                     21014.360500
Name: total_income, dtype: float64

In [97]:
income_type_grouped['business']

32386.79383526328

In [98]:
def new_total_income (row):
    type_of_income = row['income_type']
    
    if type_of_income =='business':
        return income_type_grouped['business']
    if type_of_income =='civil servant':
        return income_type_grouped['civil servant']
    if type_of_income =='employee':
        return income_type_grouped['employee']
    if type_of_income =='entrepreneur':
        return income_type_grouped['entrepreneur']
    if type_of_income =='paternity / maternity leave':
        return income_type_grouped['paternity / maternity leave']
    if type_of_income =='retiree':
        return income_type_grouped['retiree']
    if type_of_income =='student':
        return income_type_grouped['student']
    if type_of_income =='unemployed':
        return income_type_grouped['unemployed']
    
data['total_income'] =  data['total_income'].fillna(data.apply(new_total_income, axis = 1))

In [99]:
# Memeriksa bagaimana nilai di dalam kolom baru
#berdasarkan 30 data pertama, nilai NaN ditemukan pada bari 12, 26, 29 pada kolom total_income
#setelah assign fungsi 3 baris tersebut telah diganti dengan rata-rata pendaptan berdasarkan income_type
data.head(30)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_grouped
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,dewasa
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,dewasa
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,dewasa
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,dewasa
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,dewasa
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,dewasa
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,dewasa
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,dewasa
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,dewasa
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,dewasa


In [101]:
# Periksa apakah kita mendapatkan kesalahan
data['total_income'].isna().sum()

0

###  Memperbaiki nilai di `days_employed`

parameter yang diperkirakan memiliki faktor terhadap value di kolom days_employed ialah dob_years dan income_type

In [104]:
# Distribusi median dari `days_employed` berdasarkan parameter yang kamu identifikasi
age_days_median = data.groupby('age_grouped')['days_employed'].median().sort_index()
age_days_median

age_grouped
anak muda       797.591833
dewasa         2275.798576
tua          360948.880425
Name: days_employed, dtype: float64

In [105]:
income_days_median = data.groupby('income_type')['days_employed'].median().sort_index()
income_days_median

income_type
business                         1547.382223
civil servant                    2689.368353
employee                         1574.202821
entrepreneur                      520.848083
paternity / maternity leave      3296.759962
retiree                        365213.306266
student                           578.751554
unemployed                     366413.652744
Name: days_employed, dtype: float64

In [106]:
age_type_days_median = data.groupby(['age_grouped','income_type'])['days_employed'].median().sort_index()
age_type_days_median

age_grouped  income_type                
anak muda    business                          749.175677
             civil servant                    1132.739641
             employee                          799.243629
             retiree                        334764.259831
             student                           578.751554
dewasa       business                         1649.360342
             civil servant                    2834.730866
             employee                         1678.782910
             entrepreneur                      520.848083
             paternity / maternity leave      3296.759962
             retiree                        365025.338867
             unemployed                     366413.652744
tua          business                         2318.709538
             civil servant                    4137.331615
             employee                         2830.361431
             retiree                        365934.432696
Name: days_employed, dtype: flo

In [107]:
age_type_days_median['tua','retiree']

365934.43269566976

In [108]:
# Distribusi rata-rata dari `days_employed` berdasarkan parameter yang kamu identifikasi
age_days_mean = data.groupby('age_grouped')['days_employed'].mean().sort_index()
age_days_mean

age_grouped
anak muda      1224.359778
dewasa        61759.826069
tua          321276.128550
Name: days_employed, dtype: float64

In [109]:
income_days_mean = data.groupby('income_type')['days_employed'].mean().sort_index()
income_days_mean

income_type
business                         2111.524398
civil servant                    3399.896902
employee                         2326.499216
entrepreneur                      520.848083
paternity / maternity leave      3296.759962
retiree                        365003.491245
student                           578.751554
unemployed                     366413.652744
Name: days_employed, dtype: float64

In [110]:
age_income_days_mean = data.groupby(['age_grouped','income_type'])['days_employed'].mean().sort_index()
age_income_days_mean

age_grouped  income_type                
anak muda    business                          864.634985
             civil servant                    1174.478880
             employee                          930.982057
             retiree                        334764.259831
             student                           578.751554
dewasa       business                         2205.185341
             civil servant                    3513.207315
             employee                         2422.814095
             entrepreneur                      520.848083
             paternity / maternity leave      3296.759962
             retiree                        364888.912510
             unemployed                     366413.652744
tua          business                         3725.387000
             civil servant                    4145.742201
             employee                         4092.413329
             retiree                        365640.450983
Name: days_employed, dtype: flo

In [111]:
age_income_days_mean['anak muda','civil servant']

1174.4788802531555

In [112]:
data['days_employed'].isnull().sum()

2103

In [113]:
data['days_employed'].shape

(21454,)

In [114]:
persentase_missing_value_days_employed = 2103 / 21454
f'persentase_missing_value_days_employed adalah {persentase_missing_value_days_employed:.0%}'

'persentase_missing_value_days_employed adalah 10%'

In [115]:
data['days_employed'].describe()

count     19351.000000
mean      66914.728907
std      139030.880527
min          24.141633
25%         927.009265
50%        2194.220567
75%        5537.882441
max      401755.400475
Name: days_employed, dtype: float64

niali missing akan digantikan dengan nilai median dikarenakan nilai std > mean artinya persebran data sangat luas 

In [116]:
# Mari tulis fungsi yang menghitung rata-rata atau median (tergantung keputusanmu) berdasarkan parameter yang kamu identifikasi
def new_total_days_employed (row):
    age = row['age_grouped']
    type_of_income = row['income_type']

    if age == 'anak muda':
        if type_of_income =='business':       
            return age_type_days_median['anak muda']['business']
        elif type_of_income =='civil servant':        
            return age_type_days_median['anak muda']['civil servant']
        elif type_of_income =='employee':        
            return age_type_days_median['anak muda']['employee']
        elif type_of_income =='entrepreneur':       
            return age_type_days_median['anak muda']['entrepreneur']
        elif type_of_income =='paternity / maternity':        
            return age_type_days_median['anak muda']['paternity / maternity']
        elif type_of_income =='retiree':        
            return age_type_days_median['anak muda']['retiree']
        elif type_of_income =='student':        
            return age_type_days_median['anak muda']['student']
        elif type_of_income =='unemployed':        
            return age_type_days_median['anak muda']['unemployed']
        else:
            return 'Umur dan kategori pendapatan tidak tersedia dalam data'

    if age == 'dewasa':
        if type_of_income =='business':       
            return age_type_days_median['dewasa']['business']
        elif type_of_income =='civil servant':        
            return age_type_days_median['dewasa']['civil servant']
        elif type_of_income =='employee':        
            return age_type_days_median['dewasa']['employee']
        elif type_of_income =='entrepreneur':       
            return age_type_days_median['dewasa']['entrepreneur']
        elif type_of_income =='paternity / maternity':        
            return age_type_days_median['dewasa']['paternity / maternity']
        elif type_of_income =='retiree':        
            return age_type_days_median['dewasa']['retiree']
        elif type_of_income =='student':        
            return age_type_days_median['dewasa']['student']
        elif type_of_income =='unemployed':        
            return age_type_days_median['dewasa']['unemployed']
        else:
            return 'Umur dan kategori pendapatan tidak tersedia dalam data'
        
    if age == 'tua':
        if type_of_income =='business':       
            return age_type_days_median['tua']['business']
        elif type_of_income =='civil servant':        
            return age_type_days_median['tua']['civil servant']
        elif type_of_income =='employee':        
            return age_type_days_median['tua']['employee']
        elif type_of_income =='entrepreneur':       
            return age_type_days_median['tua']['entrepreneur']
        elif type_of_income =='paternity / maternity':        
            return age_type_days_median['tua']['paternity / maternity']
        elif type_of_income =='retiree':        
            return age_type_days_median['tua']['retiree']
        elif type_of_income =='student':        
            return age_type_days_median['tua']['student']
        elif type_of_income =='unemployed':        
            return age_type_days_median['tua']['unemployed']
        else:
            return 'Umur dan kategori pendapatan tidak tersedia dalam data'


In [117]:
data['days_employed'] = data['days_employed'].fillna(data.apply(new_total_days_employed, axis = 1))

In [118]:
# Periksa apakah fungsimu bekerja
#missing value pada days_employed di baris 12,26,dan 29 sudah diganti
data.head(30)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_grouped
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,dewasa
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,dewasa
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,dewasa
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,dewasa
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,dewasa
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,dewasa
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,dewasa
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,dewasa
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,dewasa
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,dewasa


## Pengkategorian data

#pertanyaan
#1. Apakah terdapat hubungan antara memiliki anak dan probabilitas seseorang melakukan gagal bayar pinjaman?
#2 Apakah terdapat hubungan antara status perkawinan dan probabilitas seseorang melakukan gagal bayar pinjaman?
#3 Apakah terdapat hubungan antara tingkat pendapatan dan probabilitas seseorang melakukan gagal bayar pinjaman?
#4 Bagaimana perbedaan tujuan pinjaman memengaruhi probabilitas seseorang melakukan gagal bayar pinjaman?

kategori tetap adalah debt, kategori berubah adalah anak, status perkawinan, tingkat pendapatan


In [123]:
# Periksa nilai unik
data['purpose'].unique()

array(['purchase of the house', 'car purchase', 'supplementary education',
       'to have a wedding', 'housing transactions', 'education',
       'having a wedding', 'purchase of the house for my family',
       'buy real estate', 'buy commercial real estate',
       'buy residential real estate', 'construction of own property',
       'property', 'building a property', 'buying a second-hand car',
       'buying my own car', 'transactions with commercial real estate',
       'building a real estate', 'housing',
       'transactions with my real estate', 'cars', 'to become educated',
       'second-hand car purchase', 'getting an education', 'car',
       'wedding ceremony', 'to get a supplementary education',
       'purchase of my own house', 'real estate transactions',
       'getting higher education', 'to own a car', 'purchase of a car',
       'profile education', 'university education',
       'buying property for renting out', 'to buy a car',
       'housing renovation', 'going

In [124]:
# Mari kita tulis sebuah fungsi untuk mengategorikan data berdasarkan topik umum
def general_category_purposes (purpose):
    try:
        if any(keyword in purpose for keyword in ['house','housing','real estate','property']):
            return 'House'
        if any(keyword in purpose for keyword in ['car','cars']):
            return 'Vehicle'
        if any(keyword in purpose for keyword in ['education','educated','university']):
            return 'School'
        if 'wedding' in purpose:
            return 'Wedding'
    except:
        print('Tidak ada dalam kategori')

In [125]:
# Buat kolom yang memuat kategori dan hitung nilainya
data['purpose'] = data['purpose'].apply(general_category_purposes)

In [126]:
# Lihat semua data numerik di kolom yang kamu pilih untuk pengkategorian
data.tail()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_grouped
21449,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,House,dewasa
21450,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,Vehicle,tua
21451,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.61,House,dewasa
21452,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,Vehicle,dewasa
21453,2,1984.507589,40,secondary education,1,married,0,F,employee,0,13127.587,Vehicle,dewasa


In [127]:
# Dapatkan kesimpulan statistik untuk kolomnya
data['purpose'].describe()
#berdasarkan data tujuan mengajukan pinjaman ke bank adalah untuk membeli atau membangun rumah 

count     21454
unique        4
top       House
freq      10811
Name: purpose, dtype: object

In [128]:
# Buat fungsi yang melakukan pengkategorian menjadi kelompok numerik yang berbeda berdasarkan rentang
total_income_grouped = data.groupby('total_income').count()
def income_classify (total_income):
    if total_income <= 17219.817250:
        return 'Low'
    if total_income <= 24302.006000:
        return 'Middle'
    return 'High'

data['total_income_grouped'] = data['total_income'].apply(income_classify)
data['total_income_grouped']

0          High
1        Middle
2        Middle
3          High
4          High
          ...  
21449      High
21450      High
21451       Low
21452      High
21453       Low
Name: total_income_grouped, Length: 21454, dtype: object

In [129]:
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_grouped,total_income_grouped
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,House,dewasa,High
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,Vehicle,dewasa,Middle
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,House,dewasa,Middle
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,School,dewasa,High
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,Wedding,dewasa,High


In [130]:
data['education'].value_counts()

secondary education    15172
bachelor's degree       5250
some college             744
primary education        282
graduate degree            6
Name: education, dtype: int64

In [131]:
# Buat kolom yang memuat kategori
education_grouped = data.groupby('education').count()
def edu_classfiy (education):
    if any(keyword in education for keyword in ['primary','secondary']):
        return 'Low Edu'
    if 'college' in education:
        return 'Middle Edu'
    return 'High Edu'

data['education_grouped'] = data['education'].apply(edu_classfiy)
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_grouped,total_income_grouped,education_grouped
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,House,dewasa,High,High Edu
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,Vehicle,dewasa,Middle,Low Edu
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,House,dewasa,Middle,Low Edu
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,School,dewasa,High,Low Edu
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,Wedding,dewasa,High,Low Edu


In [132]:
# Hitung setiap nilai kategori untuk melihat pendistribusiannya
data['education_grouped'].value_counts()
#Mayoritas nasabah bank yang melakukan peminjaman memiliki latar belakang pendidikan setara dengan SD dan SMA

Low Edu       15454
High Edu       5256
Middle Edu      744
Name: education_grouped, dtype: int64

## Memeriksa hipotesis


In [133]:
#mengganti nilai debt dari int ke str
data['debt']=data['debt'].replace(0,'Tidak Gagal').replace(1,'Gagal Bayar')

In [134]:
# Periksa data anak dan data gagal bayar pinjaman
child_debt = pd.pivot_table(data,
                           index = 'children',
                          columns = 'debt',
                          values = 'income_type',
                          aggfunc = 'count',
                          margins = True).reset_index()

child_debt = child_debt[:-1]
child_debt

debt,children,Gagal Bayar,Tidak Gagal,All
0,0,1072.0,13142.0,14214
1,1,444.0,4364.0,4808
2,2,194.0,1858.0,2052
3,3,27.0,303.0,330
4,4,4.0,37.0,41
5,5,,9.0,9


In [135]:
# Hitung persentase gagal bayar berdasarkan jumlah anak
child_debt['%Gagal Bayar'] = child_debt['Gagal Bayar']/child_debt['All']*100
child_debt

debt,children,Gagal Bayar,Tidak Gagal,All,%Gagal Bayar
0,0,1072.0,13142.0,14214,7.54186
1,1,444.0,4364.0,4808,9.234609
2,2,194.0,1858.0,2052,9.454191
3,3,27.0,303.0,330,8.181818
4,4,4.0,37.0,41,9.756098
5,5,,9.0,9,


berdasarkan data dapat dilihat bahwa nasabah yang memiliki jumlah anak 1 hingga 4 memiliki track record yang buruk dalam menjalankan kewajibannya atau dapat diartikan dengan sering kali gagal dalam melakukan pembayaran. selain dari itu juga dapat dilihat bahwa nasabah yang tidak memiliki anak turut memiliki track record yang buruk. 

9/9 nasabah yang memiliki 5 anak justru lebih taat dalam melakukan pembayaran dibandingkan dengan yang lainnya

In [136]:
# Periksa data status keluarga dan data gagal bayar pinjaman
fam_debt = pd.pivot_table(data,
                           index = 'family_status',
                          columns = 'debt',
                          values = 'income_type',
                          aggfunc = 'count',
                          margins = True).reset_index()

fam_debt = fam_debt[:-1]
fam_debt

debt,family_status,Gagal Bayar,Tidak Gagal,All
0,civil partnership,388,3763,4151
1,divorced,85,1110,1195
2,married,931,11408,12339
3,unmarried,274,2536,2810
4,widow / widower,63,896,959


In [137]:
# Hitung persentase gagal bayar berdasarkan status keluarga
fam_debt['%Gagal Bayar'] = fam_debt['Gagal Bayar']/fam_debt['All']*100
fam_debt

debt,family_status,Gagal Bayar,Tidak Gagal,All,%Gagal Bayar
0,civil partnership,388,3763,4151,9.347145
1,divorced,85,1110,1195,7.112971
2,married,931,11408,12339,7.545182
3,unmarried,274,2536,2810,9.75089
4,widow / widower,63,896,959,6.569343


**Kesimpulan**

nasabah yang berstatus widow/widower memiliki catatan gagal melakukan pembayaran yang terbaik dibandingkan dengan yang lain 
sebaliknya nasabah yang belum menikah memiliki track record yang paling buruk dalam hal gagal membayar pinjaman ke bank

In [138]:
# Periksa data tingkat pendapatan dan data gagal bayar pinjaman
income_debt = pd.pivot_table(data,
                           index = 'total_income_grouped',
                          columns = 'debt',
                          values = 'income_type',
                          aggfunc = 'count',
                          margins = True).reset_index()

income_debt = income_debt[:-1]
income_debt

debt,total_income_grouped,Gagal Bayar,Tidak Gagal,All
0,High,839,9888,10727
1,Low,427,4937,5364
2,Middle,475,4888,5363


In [139]:
# Hitung persentase gagal bayar berdasarkan tingkat pendapatan
income_debt['%Gagal Bayar'] = income_debt['Gagal Bayar']/income_debt['All']*100
income_debt

debt,total_income_grouped,Gagal Bayar,Tidak Gagal,All,%Gagal Bayar
0,High,839,9888,10727,7.821385
1,Low,427,4937,5364,7.960477
2,Middle,475,4888,5363,8.856983


**Kesimpulan**

jumlah penghasilan yang berada di kelas menengah (yang memiliki pendapatan 17219,8 > total_income < 24302 ) memiliki track record yang paling buruk dalam melakukan pembayaran pinjaman dibandingkan dengan yang lainnya

In [140]:
purpose_debt = pd.pivot_table(data,
                           index = 'purpose',
                          columns = 'debt',
                          values = 'income_type',
                          aggfunc = 'count',
                          margins = True).reset_index()

purpose_debt = purpose_debt[:-1]
purpose_debt

debt,purpose,Gagal Bayar,Tidak Gagal,All
0,House,782,10029,10811
1,School,370,3643,4013
2,Vehicle,403,3903,4306
3,Wedding,186,2138,2324


In [141]:
# Periksa persentase tingkat gagal bayar untuk setiap tujuan kredit dan lakukan penganalisisan
purpose_debt['%Gagal Bayar'] = purpose_debt['Gagal Bayar']/purpose_debt['All']*100
purpose_debt

debt,purpose,Gagal Bayar,Tidak Gagal,All,%Gagal Bayar
0,House,782,10029,10811,7.233373
1,School,370,3643,4013,9.220035
2,Vehicle,403,3903,4306,9.359034
3,Wedding,186,2138,2324,8.003442


**Kesimpulan**

berdasarkan data ditemukan bahwa nasabah yang meminjam dana ke bank untuk keperluan rumah baik untuk membeli atau merenovasi memiliki persentase kegagalan membayar tagihan yang paling kecil dibandingkan dnegan yang lain

# Kesimpulan umum 

datasets yang dimiliki memiliki beberapa hal yang perlu dilakukan perbaikan sebelum menggunakan data untuk di analisa yaitu:
    -tulisan yang tidak seragam
    -nilai yang hilang
    -nilai yang negatif
    -outlier yang cukup jauh 
    -duplikat
untuk menyelesaikan permasalahn tersebut hal yang dilakukan adalah:
    -penyeragaman penulisan
    -memperbaiki nilai negatif
    -mengganti data yang hilang 
    -menyesuaikan outlier yang jauh 
    -menghilangkan duplikasi

profiling data hilang berdasarkan temuan awal yakni mayoritas merupakan nasabah perempuan yang sudah menikah tetapi tidak memiliki anak, mempunyai pekerjaan sebagai employee serta track record yang baik, serta tujuan peminjaman ke bank ialah berhubungan dengan rumah  dalam melakukan kewajiban ke bank

data yang hilang dilakukan perbaikan yang mana didasari pada pilihan menggunakan mean atau median. 
pemilihan ini bergantung pada seberapa besar persentase data yang hilang terhadap data. 
jika data yang hilang memiliki persentase maksimal 10% maka data hilang akan diganti dengan nilai mean dari kolom data hilang, sebaliknya jika lebih dari 10% maka data hilang akan digantikan dengan nilai median dari kolom data hilang 
tetapi jika nilai std > mean, walaupun ukuran data hilang tidak melebih 10% maka data nilai hilang akan digantikan dengan media dari data tersebut 

berdasarkan hasil temuan terdapat 2174 missing value pada kolom days_employed dan total_income
berdasarkan hasil ditemukan bahwa missing value pada kolom days_employed diganti dengan median karena std>mean, sedangkan kolom total_income diganti dengan mean karena persentase missing value pada kolom ini 10% 

setalah melakukan analisa lebih lanjut untuk menjawab pertanyaan pada project ini dapat ditemukan bahwa 
-jumlah anak tidak mempengaruhi nasabah dalam melakukan kewajibannya kepada bank, berdasarkan data justru nasabah yang memiliki 5 anak lebih baik dalam melakukan kewajibannya dibandingan dengan yang lainnya
-status keluarga tidak mempengaruhi nasabah dalam meelakukan kewajibannya kepada bank, berdasarkan data justru nasabah yang widow/widower dan divorce lebih baik dalam melakukan kewajibannya dibandingkan dengan yang status keluarga lainnya
-total pendapatan tidak mempengaruhi nasabah dalam meelakukan kewajibannya kepada bank, berdasarkan data justru nasabah yang memiliki pendapatan yang berada di kelas menengah (pendapatan 17219,8 > total_income < 24302 ) memili track record yang paling buruk dalam melakukan kewajibannya
-tujuan pinjaman tidak mempengaruhi nasabah dalam melakukan kewajibannya kepada bank, berdasarkan data justru nasabah yang memiliki tujuan peminjaman rumah lebih baik dalam melakukan kewajibannya dibandingan dengan yang lainnya

Rekomendasi untuk bank 
-berdasarkan status keluaraga: mempermudah peminjaman uang kepada nasabah yang bersatus widow/widower atau divorce karena kemungkinan nasabah dalam kategori ini gagal melakukan pembayaran relatif kecil
-berdasarkan jumlah anak: mempermudah peminajaman unang kepada nasabah yang memiliki 5 orang anak 