<a href="https://colab.research.google.com/github/Tarra-H/Credit-Scoring-for-Bank-Customers/blob/main/P2-Credit%20Scoring%20for%20Bank%20Customers.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Penilaian Kredit untuk Nasabah Bank**

Tujuan project ini adalah menyiapkan laporan untuk divisi kredit suatu bank. Kita akan mencari tahu pengaruh status perkawinan seorang nasabah dan jumlah anak yang dimilikinya terhadap probabilitas gagal bayar dalam pelunasan pinjaman. Pihak bank sudah memiliki beberapa data mengenai kelayakan kredit nasabah.

Laporan ini akan dipertimbangkan pada saat membuat **penilaian kredit** untuk calon nasabah. **Penilaian kredit** digunakan untuk mengevaluasi kemampuan calon peminjam untuk melunasi pinjaman mereka.

# Daftar Isi
- Pendahuluan
- Tujuan
- Tahappan
- Bab 1 Ikhtisar Data
- Bab 2 Pra-Pemrosesan Data
        2.1 Eksplorasi Data
        2.2 Mencari Nilai yang hilang
        2.3 Distribusi data berdasar data yang hilang
        2.4 Memeriksa distribusi terhadap data aslinya
- Bab 3 Trasformasi data
        3.1 Bekerja dengan nilai yang hilang
        3.2 Memperbaiki nilai yang hilang di total_income
        3.3 Memperbaiki nilai di days_employed
- Bab 4 Pengkategorian data
- Bab 5 Memeriksa hipotesis
- Bab 6 Kesimpulan umum
        
#  Pendahuluan
Pada saat melakukan analisis, kita perlu merumuskan beberapa hipotesis yang perlu kita uji lebih terlebih dahulu. Tidak semua hipotesis yang kita kerjakan bisa langsung digunakan, kita harus bisa memilih hipotesis mana yang paling tepat untuk menyelesaikan masalah-masalah yang ada pada data yang kita miliki. Untuk membuat keputusan yang tepat dalam bisnis, kita harus memahami apakah asumsi yang kita buat sudah tepat atau belum.

Dalam proyek/case kali ini, kita akan menyiapkan laporan untuk divisi kredit suatu bank. Kita akan mencari tahu adanya pengaruh status perkawinan seorang nasabah dan jumlah anak yang dimilikinya terhadap probabilitas gagal bayar dalam melunasi pinjaman. Kita sudah mendapatkan data dari pihak bank mengenai kelayakan kredit nasabah.

# Tujuan:

Menguji hipotesis:

- Apakah terdapat hubungan antara memiliki anak dan probabilitas seseorang melakukan gagal bayar pinjaman?

- Apakah terdapat hubungan antara status perkawinan dan probabilitas seseorang melakukan gagal bayar pinjaman?

- Apakah terdapat hubungan antara tingkat pendapatan dan probabilitas seseorang melakukan gagal bayar pinjaman?

Bagaimana perbedaan tujuan pinjaman memengaruhi probabilitas seseorang melakukan gagal bayar pinjaman?


# Tahapan
Data terkait nasabah disimpan dalam file dengan nama credit_scoring_eng.csv. Pada  data ini terdapat masalah seperti duplikat data, dan data yang hilang (memiliki nilai nan), karena itu kita perlu memeriksanya dan memperbaiki data terlebih dahulu sebelum menguji hipotesis.

Pertama-tama, kita akan mengevaluasi kualitas data dan melihat apakah masalahnya signifikan. Kemudian, selama pra-pemrosesan data, kita akan mencoba mengatasi masalah yang paling serius dan memperbaiki datanya.

Proyek ini terdiri dari tiga tahap:

- Tinjauan data
- Pra-pemrosesan data
- Pengujian hipotesis


# Bab 1 Ikhtisar Data

# Buka file data dan pelajari informasi umumnya.
[Hal ini dimulai dengan mengimpor library dan memuat datanya.]


In [None]:
# Muat semua library

import pandas as pd

In [None]:
# Muat datanya

path_data = '/content/drive/MyDrive/TRIPLETEN/Upload Github/P2/dataset/credit_scoring_eng.csv'
data = pd.read_csv(path_data)

# Bab 2 Pra-Pemrosesan Data

# 2.1 Eksplorasi data

**Deskripsi data**
- `children` - jumlah anak dalam keluarga
- `days_employed` - pengalaman kerja nasabah dalam hari
- `dob_years` - usia nasabah dalam tahun
- `education` - tingkat pendidikan nasabah
- `education_id` - pengidentifikasi untuk tingkat pendidikan nasabah
- `family_status` - status perkawinan
- `family_status_id` - pengidentifikasi untuk status perkawinan nasabah
- `gender` - jenis kelamin nasabah
- `income_type` - jenis pekerjaan
- `debt` - apakah nasabah pernah melakukan gagal bayar pinjaman
- `total_income` - pendapatan bulanan
- `purpose` - tujuan mendapatkan pinjaman

[Sekarang, saatnya menjelajahi data kita. Kamu perlu melihat berapa banyak kolom dan baris yang dimiliki oleh data, serta mencermati beberapa baris data untuk memeriksa potensi masalah dengan data.]

In [None]:
# Mari kita lihat berapa banyak baris dan kolom yang dimiliki oleh dataset kita
data.shape

(21525, 12)

In [None]:
# Mari tampilkan N baris pertama
data.head(15)



Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


Dalam tampilan data diatas ditemukan:
1. Nilai days_employed pada hasil yang ditampilkan menggunakan value negatif dan juga terdapat jumlah hari yang terlalu banyak.
2. Penulisan pada kolom education bervariasi antara huruf kapital dan huruf kecilnya.

In [None]:
# Dapatkan informasi data
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Dari informasi data diatas ditemukan:
- Dari hasil menjalankan fungsi info(), saya mendapatkan hasil bahwa terdapat nilai yang hilang (null) di beberapa kolomnya. Nilai yang hilang tersebut ada di kolom days_employed dan total_income, ada sebanyak 2174 nilai yang hilang (null) pada masing-masing kolom tersebut.

# 2.2 Mencari Nilai yang Hilang

In [None]:
# Mari kita lihat tabel yang telah difilter dengan nilai yang hilang di kolom pertama yang mengandung data yang hilang
data_null = data.loc[data['days_employed'].isnull(), :]
data_null

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


# Data yang tidak hilang (data_not_null)

In [None]:
# Mari kita lihat tabel yang telah difilter dengan nilai yang tidak hilang di kolom pertama yang mengandung data yang hilang
data_not_null = data.loc[~(data['days_employed'].isnull())]
data_not_null

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.422610,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21521,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21522,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


[Apakah nilai yang hilang tampak simetris? Apakah kita yakin dengan asumsi ini? Kita mungkin ingin melakukan penyelidikan lebih lanjut dan menghitung nilai yang hilang di semua baris dengan nilai yang hilang untuk memastikan bahwa sampel yang hilang memiliki ukuran yang sama.]
- Nilai yang hilang dan nilai yang tidak hilang pada days_employed dan total_income tampak simetris.

In [None]:
# Mari kita terapkan beberapa kondisi untuk memfilter data dan melihat jumlah baris dalam tabel yang telah difilter.
data[(data['days_employed'].isnull()) & (data['total_income'].isnull())].shape


(2174, 12)

In [None]:
# Periksa jumlah data yang hilang
data.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [None]:
# Periksa jumlah data yang tidak hilang
data_not_null.value_counts().sum()

19351

In [None]:
# Menghitung persentase nilai yang hilang
data_null.isnull().sum().sort_values(ascending=False) / data.shape[0] *100

days_employed       10.099884
total_income        10.099884
children             0.000000
dob_years            0.000000
education            0.000000
education_id         0.000000
family_status        0.000000
family_status_id     0.000000
gender               0.000000
income_type          0.000000
debt                 0.000000
purpose              0.000000
dtype: float64

**Kesimpulan sementara**

[Apakah jumlah baris dalam tabel yang telah difilter sesuai dengan jumlah nilai yang hilang? Kesimpulan apa yang bisa kita buat dari hal ini?]
- Jumlah total baris dengan jumlah nilai yang hilang sesuai.

[Hitung persentase nilai yang hilang jika dibandingkan dengan keseluruhan dataset. Apakah nilai yang hilang merupakan bagian data yang cukup besar? Jika demikian, kita sebaiknya perlu mengisi nilai yang hilang. Untuk melakukannya, pertama-tama kita harus mempertimbangkan apakah data yang hilang bisa jadi disebabkan oleh karakteristik nasabah tertentu, seperti jenis pekerjaan atau yang lainnya. Kita harus memutuskan karakteristik mana yang menurut *kita* mungkin merupakan penyebabnya. Kedua, kita harus memeriksa apakah ada ketergantungan nilai yang hilang pada nilai indikator lain dengan kolom-kolom yang mengidentifikasikan karakteristik tertentu nasabah.]
- Didapatkan persentase dari nilai yang hilang pada kolom days_employed dan total_income sebesar sekitar masing-masing 10%. Nilai persentase ini tidak terlalu besar jika dibandingkan dengan keseluruhan data. Dengan hasil tersebut maka kita harus meneliti lebih lanjut tentang nilai yang hilang ini, kenapa hal ini bisa terjadi.

[Selanjutnya mari kita tentukan langkah selanjutnya dan bagaimana korelasinya dengan kesimpulan yang telah kita buat sejauh ini.]
- Untuk langkah berikutnya saya akan memeriksa penyebab nilai yang hilang tersebut berkaitan dengan data apa saja.


In [None]:
# Mari kita periksa nasabah yang tidak memiliki data tentang karakteristik yang teridentifikasi dan kolom dengan nilai yang hilang
data_null.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,2174.0,0.0,2174.0,2174.0,2174.0,2174.0,0.0
mean,0.552438,,43.632015,0.800828,0.975161,0.078197,
std,1.469356,,12.531481,0.530157,1.41822,0.268543,
min,-1.0,,0.0,0.0,0.0,0.0,
25%,0.0,,34.0,0.25,0.0,0.0,
50%,0.0,,43.0,1.0,0.0,0.0,
75%,1.0,,54.0,1.0,1.0,0.0,
max,20.0,,73.0,3.0,4.0,1.0,


# 2.3 Distribusi data berdasar data yang hilang

In [None]:
# Periksalah distribusinya (dari kolom children)
data_count_children = data_null['children'].value_counts()
data_percent_children = data_null['children'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : data_percent_children, "count" : data_count_children}).rename_axis("unique")


Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
0,66.19%,1439
1,21.85%,475
2,9.38%,204
3,1.66%,36
20,0.41%,9
4,0.32%,7
-1,0.14%,3
5,0.05%,1


In [None]:
# Memeriksa distribusi (dari kolom education)
data_count_education = data_null['education'].value_counts()
data_percent_education = data_null['education'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : data_percent_education, "count" : data_count_education}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
secondary education,64.77%,1408
bachelor's degree,22.82%,496
SECONDARY EDUCATION,3.08%,67
Secondary Education,2.99%,65
some college,2.53%,55
Bachelor's Degree,1.15%,25
BACHELOR'S DEGREE,1.06%,23
primary education,0.87%,19
Some College,0.32%,7
SOME COLLEGE,0.32%,7


In [None]:
# Memeriksa distribusi (dari kolom family_status)
data_count_family_status = data_null['family_status'].value_counts()
data_percent_family_status = data_null['family_status'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : data_percent_family_status, "count" : data_count_family_status}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
married,56.9%,1237
civil partnership,20.33%,442
unmarried,13.25%,288
divorced,5.15%,112
widow / widower,4.37%,95


In [None]:
# Memeriksa distribusi (dari kolom gender)
data_count_gender = data_null['gender'].value_counts()
data_percent_gender = data_null['gender'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : data_percent_gender, "count" : data_count_gender}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
F,68.26%,1484
M,31.74%,690


In [None]:
# Memeriksa distribusi (dari kolom income_type)
data_count_income_type = data_null['income_type'].value_counts()
data_percent_income_type = data_null['income_type'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : data_percent_income_type, "count" : data_count_income_type}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
employee,50.83%,1105
business,23.37%,508
retiree,19.0%,413
civil servant,6.76%,147
entrepreneur,0.05%,1


**Kemungkinan penyebab hilangnya nilai dalam data**

[Apakah dari data diatas kita dapat menyimpulkan nilai hilang tersebut hilang secara acak atau apakah terdapat pola-pola tertentu?]
- Dengan contoh diatas kemungkinan hilangnya nilai masih secara acak karena belum terlihat jelas penyebabnya. Untuk itu mari kita mulai memeriksa apakah benar nilai yang hilang bersifat acak.


# 2.4 Memeriksa distribusi terhadap data aslinya

In [None]:
# Menggunakan data yang dimiliki secara umum/general berdasar children

data_count_gen_children = data['children'].value_counts()
data_percent_gen_children = data['children'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : data_percent_gen_children, "count" : data_count_gen_children}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
0,65.73%,14149
1,22.38%,4818
2,9.55%,2055
3,1.53%,330
20,0.35%,76
-1,0.22%,47
4,0.19%,41
5,0.04%,9


In [None]:
# Menggunakan data yang dimiliki secara umum/general berdasar kolom education)
data_count_gen_education = data['education'].value_counts()
data_percent_gen_education = data['education'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : data_percent_gen_education, "count" : data_count_gen_education}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
secondary education,63.88%,13750
bachelor's degree,21.92%,4718
SECONDARY EDUCATION,3.59%,772
Secondary Education,3.3%,711
some college,3.1%,668
BACHELOR'S DEGREE,1.27%,274
Bachelor's Degree,1.25%,268
primary education,1.16%,250
Some College,0.22%,47
SOME COLLEGE,0.13%,29


In [None]:
# Menggunakan data yang dimiliki secara umum/general berdasar family_status
data_count_gen_family_status = data['family_status'].value_counts()
data_percent_gen_family_status = data['family_status'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : data_percent_gen_family_status, "count" : data_count_gen_family_status}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
married,57.51%,12380
civil partnership,19.41%,4177
unmarried,13.07%,2813
divorced,5.55%,1195
widow / widower,4.46%,960


In [None]:
# Menggunakan data yang dimiliki secara umum / general berdasar gender
data_count_gen_gender = data['gender'].value_counts()
data_percent_gen_gender = data['gender'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : data_percent_gen_gender, "count" : data_count_gen_gender}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
F,66.14%,14236
M,33.86%,7288
XNA,0.0%,1


In [None]:
# Menggunakan data yang dimiliki secara umum / general berdasar income_type
data_count_gen_income_type = data['income_type'].value_counts()
data_percent_gen_income_type = data['income_type'].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : data_percent_gen_income_type, "count" : data_count_gen_income_type}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
employee,51.66%,11119
business,23.62%,5085
retiree,17.91%,3856
civil servant,6.78%,1459
unemployed,0.01%,2
entrepreneur,0.01%,2
student,0.0%,1
paternity / maternity leave,0.0%,1


**Kesimpulan sementara**

[Apakah distribusi dalam dataset yang asli mirip dengan distribusi tabel yang telah difilter? Apa artinya hal tersebut untuk kita?]
- Ya mirip, artinya dari penyecekan diatas bukan penyebab dari missing value.

[Jika kita belum dapat membuat kesimpulan apa pun, mari kita kembali menyelidiki dataset lebih lanjut. Mari pikirkan alasan lain yang dapat menyebabkan data hilang dan periksa apakah kita dapat menemukan pola tertentu yang dapat membuat kita berpikir bahwa hilangnya nilai-nilai tersebut tidak terjadi secara acak.]

**Kesimpulan sementara**

[Apakah pada akhirnya kita dapat memastikan bahwa nilai yang hilang adalah suatu kebetulan? Periksa hal lain yang kita anggap penting.]
- Pada kolom data ditemukan saya mendapatkan hasil bahwa terdapat nilai yang hilang (null) di beberapa kolom days_employed dan total_income. Total semua data adalah 21525.
- Pada pengamatan data pada kolom days_employed, nilai pada hasil yang ditampilkan menggunakan value negatif dan juga terdapat jumlah hari yang terlalu banyak.
- Penulisan pada kolom education juga bervariasi antara huruf kapital dan huruf kecilnya.
- Dilhat pada tabel distribusi data yang hilang dan dataset asli memiliki pola yang sama (dapat dilihat dari persentasenya), sehinggga pengecekan diatas bukan penyebab dari nilai yang hilang karena datanya selaras.


**Kesimpulan**

[Apakah kita menemukan suatu pola? Bagaimana kita mendapatkan kesimpulan ini?]
- Pola yang didapatkan relatif sama hanya selisih sedikit, karena dengan membandingkan pengecekan menggunakan data_null ataupun data_not_null masih mendapatkan pola yang sama.

[Jelaskan bagaimana kita akan mengatasi nilai-nilai yang hilang. Pertimbangkan kategori dengan nilai yang hilang.]
- Jumlah total baris dengan jumlah nilai yang hilang sesuai. Nilai yang tidak hilang pada days_employed dan total_income tampak simetris dengan nilai yang hilang. Untuk mengatasi ini pada next step nya akan mengisi nilai yang hilang tersebut dengan pendekataan mean atau median.

[Rencanakan secara singkat langkah selanjutnya untuk mentransformasi data. Kita mungkin perlu mengatasi berbagai jenis masalah: duplikat, pencatatan yang berbeda, sumber data yang salah, dan nilai yang hilang.]
- Untuk rencana berikutnya untuk membersihkan data, saya akan mencoba menggunakan metode replace, str.lower, drop_duplicates, pendekatan median dan mean (sesuai dengan kebutuhan dari masalah yang di dapat pada pengolahan data).

# Bab 3  Transformasi Data

[Mari kita perhatikan setiap kolom untuk melihat masalah apa yang mungkin dimiliki mereka.]

[Mulailah dengan menghapus duplikat dan memperbaiki data tentang informasi pendidikan jika diperlukan.]

In [None]:
# Mari kita lihat semua nilai di kolom pendidikan untuk memeriksa ejaan apa yang perlu diperbaiki
data['education'].value_counts()

education
secondary education    13750
bachelor's degree       4718
SECONDARY EDUCATION      772
Secondary Education      711
some college             668
BACHELOR'S DEGREE        274
Bachelor's Degree        268
primary education        250
Some College              47
SOME COLLEGE              29
PRIMARY EDUCATION         17
Primary Education         15
graduate degree            4
Graduate Degree            1
GRADUATE DEGREE            1
Name: count, dtype: int64

In [None]:
# Perbaiki pencatatan jika diperlukan
data['education'] = data['education'].str.lower()

In [None]:
# Periksa semua nilai di kolom untuk memastikan bahwa kita telah memperbaikinya dengan tepat
data['education'].value_counts()

education
secondary education    15233
bachelor's degree       5260
some college             744
primary education        282
graduate degree            6
Name: count, dtype: int64

# Penjelasan
- Pada tahap ini, saya menemukan adanya variasi ejaan yang beragam.
- Untuk menyelesaikan masalah ini saya menggunakan metode string lower, sehingga semua ejaannya akan menghasilkan output seragam dengan huruf kecil.
- Setelah menjalankan metode string lower untuk memperbaiki data diatas membuat data yang kita miliki lebih ringkas, misalnya sebelum di perbaiki secondary education memiliki jumlah data 13750, karena ejaan sudah di seragamkan sekarang secondary education memiliki jumlah data 15233.


[Periksa data kolom `children`]

In [None]:
# Mari kita lihat distribusi nilai pada kolom `children`
data['children'].value_counts()

children
 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: count, dtype: int64

[Apakah terdapat hal-hal yang aneh di kolom tersebut? Jika jawabannya iya, seberapa tinggi persentase data yang bermasalah? Bagaimana mereka bisa terjadi? Buat keputusan tentang apa yang akan kamu lakukan dengan data ini dan jelaskan alasannya.]
- Ya, terlihat ada yang janggal yaitu pada angka 20 dan -1, karena misal tidak punya anak artinya menggunakan penulisan 0 jadi ada kemungkinan -1 seharusnya 1 dan 20 seharusnya 2.
- Kenapa bisa terjadi? Ada kemungkinan karena ada kesalahan input data.
- Berdasar hal tersebut, maka saya akan memperbaiki datanya menggunakan replace.

In [None]:
# [perbaiki data berdasarkan keputusanmu]
# mengganti nilai -1 dengan 1
data['children'] = data['children'].replace(-1,1)

# mengganti nilai 20 dengan 2
data['children'] = data['children'].replace(20,2)


In [None]:
# Periksa kembali kolom `children` untuk memastikan bahwa semuanya telah diperbaiki
data['children'].value_counts()

children
0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: count, dtype: int64

[Periksa data dalam kolom `days_employed`.]

In [None]:
# Temukan data yang bermasalah di kolom `days_employed` jika memang terdapat masalah dan hitung persentasenya
data['days_employed'].describe()

count     19351.000000
mean      63046.497661
std      140827.311974
min      -18388.949901
25%       -2747.423625
50%       -1203.369529
75%        -291.095954
max      401755.400475
Name: days_employed, dtype: float64

[Jika jumlah data yang bermasalah tinggi, hal tersebut mungkin disebabkan oleh beberapa masalah teknis. Kita mungkin perlu mengusulkan alasan paling jelas mengapa hal tersebut dapat terjadi dan bagaimana seharusnya data yang benar, mengingat kita tidak dapat menghapus baris yang bermasalah ini.]

In [None]:
data.loc[data['days_employed'] < 0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.170,purchase of the house
...,...,...,...,...,...,...,...,...,...,...,...,...
21519,1,-2351.431934,37,graduate degree,4,divorced,3,M,employee,0,18551.846,buy commercial real estate
21520,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21522,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


In [None]:
# Atasi nilai yang bermasalah, jika ada
# Ditemukan nilai negatif pada days_employed sehingga di perbaiki dengan mengubahnya menjadi positif
data['days_employed'] = data['days_employed'].abs()


In [None]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
data['days_employed'].value_counts()

days_employed
8437.673028      1
3507.818775      1
354500.415854    1
769.717438       1
3963.590317      1
                ..
1099.957609      1
209.984794       1
398099.392433    1
1271.038880      1
1984.507589      1
Name: count, Length: 19351, dtype: int64

In [None]:
# nilai days_employed juga tidak masuk akal
data.loc[data['days_employed'] > 0, 'days_employed'].describe()

count     19351.000000
mean      66914.728907
std      139030.880527
min          24.141633
25%         927.009265
50%        2194.220567
75%        5537.882441
max      401755.400475
Name: days_employed, dtype: float64

In [None]:
# asumsi data nya per jam maka perlu dibagi 24
days_employed = data.loc[data['days_employed'] > 0, 'days_employed'] / 24
data.loc[data['days_employed'] > 0, 'days_employed'] = days_employed

In [None]:
# periksa hasilnya kembali dengan memastikan masalah telah diperbaiki
data['days_employed'].describe()

count    19351.000000
mean      2788.113704
std       5792.953355
min          1.005901
25%         38.625386
50%         91.425857
75%        230.745102
max      16739.808353
Name: days_employed, dtype: float64

# Penjelasan
- Pada tahap transformasi data 'children', pada saat mengolah data terlihat ada yang janggal yaitu pada angka 20 dan -1, karena misal tidak punya anak artinya menggunakan penulisan 0 jadi ada kemungkinan -1 seharusnya 1 dan 20 seharusnya 2.Hal ini bisa terjadi karena adanya kemungkinan karena ada kesalahan input data. Untuk memperbaiki hal tersebut, maka saya perbaiki datanya menggunakan replace.
- Pada tahap transformasi data 'days_employed', ditemukan masalah pada nilai yang menggunakan tanda negatif (secara logika tidak mungkin masa kerja / days_employed bernilai negatif. Selain itu juga terdapat nilai days_employed yang terlalu besar. Sehingga untuk masalah ini saya menggunakan metode 'abs' untuk mengubah nilai negatif tersebut menjadi positif. Sedangkan pada nilai data yang terlalu banyak, saya mengasumsikan nilai tersebut tidak dalam hari melainkan dalam jam. Sehingga untuk memperbaiki data tersebut bisa dibagi dengan 24 jam (karena 1 hari = 24 jam), hal ini membuat nilai data lebih masuk akal.

[Sekarang, mari kita lihat usia nasabah dan mengecek apakah terdapat masalah di sana. Sekali lagi, pikirkan tentang kemungkinan kejanggalan apa yang bisa kita temui dalam kolom ini, misalnya angka usia yang tidak masuk akal.]

In [None]:
# Periksa `dob_years` untuk nilai yang mencurigakan dan hitung persentasenya
data['dob_years'].sort_values().unique()

array([ 0, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
       69, 70, 71, 72, 73, 74, 75])

[Putuskan apa yang akan kamu lakukan dengan nilai yang bermasalah dan jelaskan alasannya.]
- Terdapat value 0 (tidak masuk akal). Memperbaiki dengan menggunakan median atau mean.

In [None]:
# Atasi masalah pada kolom `dob_years`, jika terdapat masalah
# terdapat hasil dob_years  dengan nilai 0. Angka tersebut terlihat tidak masuk akal
data_age_median = int(data['dob_years'].median())

# Mengubah umur 0 menjadi nilai median
data['dob_years'] = data['dob_years'].replace(0, data_age_median)


In [None]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
data['dob_years'].sort_values().unique()

array([19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35,
       36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52,
       53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69,
       70, 71, 72, 73, 74, 75])

# Penjelasan
- Pada tahap transformasi data 'dob_years', pada saat mengolah data terlihat ada yang janggal yaitu terdapat nilai 0 (nilai ini tidak masuk akal karena dipastikan tidak ada nasabah berusia 0 yang bisa negajukan pinjaman). Untuk memperbaiki masalah ini saya menggunakan metode replace dengan mengganti nilai nol tersebut dengan nilai median.


[Sekarang, saatnya memeriksa kolom `family_status`. Periksalah nilai seperti apa yang dimuat di dalam kolom ini dan masalah apa yang mungkin perlu kita atasi.]

In [None]:
# Mari kita lihat nilai untuk kolom ini
data['family_status'].value_counts()


family_status
married              12380
civil partnership     4177
unmarried             2813
divorced              1195
widow / widower        960
Name: count, dtype: int64

In [None]:
# Atasi nilai yang bermasalah di `family_status`, jika ada
#  - tidak ada

In [None]:
# Periksa hasilnya - pastikan nilainya telah diperbaiki
#  - tidak ada

# Penjelasan
- Pada tahap transformasi data 'family_status', tidak ditemukan nilai yang bermasalah.

[Sekarang, saatnya memeriksa kolom `gender`. Periksalah nilai seperti apa yang dimuat di dalam kolom ini dan masalah apa yang mungkin perlu kita atasi]

In [None]:
# Mari kita liat nilai dalam kolom ini
data['gender'].value_counts()


gender
F      14236
M       7288
XNA        1
Name: count, dtype: int64

In [None]:
# Atasi nilai-nilai yang bermasalah, jika ada
data = data[data['gender'] != 'XNA']

In [None]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
data['gender'].value_counts()

gender
F    14236
M     7288
Name: count, dtype: int64

# Penjelasan
- Pada tahap transformasi data 'gender', ditemukan nilai XNA. Nilai ini adalah data anomali, sehingga untuk case ini bisa di drop.

[Sekarang, saatnya memeriksa kolom `income_type`. Periksalah nilai seperti apa yang dimuat di dalam kolom ini dan masalah apa yang mungkin perlu kamu atasi]

In [None]:
# Mari kita lihat nilai dalam kolom ini
data['income_type'].value_counts()


income_type
employee                       11119
business                        5084
retiree                         3856
civil servant                   1459
unemployed                         2
entrepreneur                       2
student                            1
paternity / maternity leave        1
Name: count, dtype: int64

In [None]:
# Atasi nilai yang bermasalah, jika ada
#  - tidak ada

In [None]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
#  - tidak ada

# Penjelasan
- Pada tahap transformasi data 'income_type', tidak ditemukan data yang bermasalah.

[Sekarang, saatnya melihat apakah ada duplikat di dalam data kita. Jika kita menemukannya, kamu harus memutuskan apa yang akan kamu lakukan dengan duplikat tersebut dan menjelaskan alasannya.]

In [None]:
# Periksa duplikat
data[data.duplicated()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
2849,0,,41,secondary education,1,married,0,F,employee,0,,purchase of the house for my family
3290,0,,58,secondary education,1,civil partnership,1,F,retiree,0,,to have a wedding
4182,1,,34,bachelor's degree,0,civil partnership,1,F,employee,0,,wedding ceremony
4851,0,,60,secondary education,1,civil partnership,1,F,retiree,0,,wedding ceremony
5557,0,,58,secondary education,1,civil partnership,1,F,retiree,0,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
20702,0,,64,secondary education,1,married,0,F,retiree,0,,supplementary education
21032,0,,60,secondary education,1,married,0,F,retiree,0,,to become educated
21132,0,,47,secondary education,1,married,0,F,employee,0,,housing renovation
21281,1,,30,bachelor's degree,0,married,0,F,employee,0,,buy commercial real estate


In [None]:
data_duplicate = data.duplicated().sum()
data_duplicate

72

In [None]:
# Atasi duplikat, jika ada
data = data.drop_duplicates().reset_index(drop=True)
data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,351.569709,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,167.700156,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,234.309275,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,171.864467,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,14177.753002,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21447,1,188.721528,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21448,0,14330.725172,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21449,1,88.056120,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21450,3,129.686738,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


In [None]:
# Lakukan pemeriksaan terakhir untuk mengecek apakah kita memiliki duplikat
data.duplicated().sum()


0

In [None]:
# Periksa ukuran dataset yang sekarang kamu miliki setelah manipulasi pertama yang kamu lakukan
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21452 entries, 0 to 21451
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21452 non-null  int64  
 1   days_employed     19350 non-null  float64
 2   dob_years         21452 non-null  int64  
 3   education         21452 non-null  object 
 4   education_id      21452 non-null  int64  
 5   family_status     21452 non-null  object 
 6   family_status_id  21452 non-null  int64  
 7   gender            21452 non-null  object 
 8   income_type       21452 non-null  object 
 9   debt              21452 non-null  int64  
 10  total_income      19350 non-null  float64
 11  purpose           21452 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [None]:
# Periksa ukuran dataset
data.shape

(21452, 12)

[Jelaskan dataset barumu: jelaskan secara singkat apa saja perubahannya dan seberapa besar persentase perubahannya, jika ada.]
- terdapat perubahan pada data set setelah dilakukan pembersihan data duplikat. Misal children setelah dibersihkan duplikatnya menjadi 21453 data sedangkan sebelumnya pada data umum jumlah children 21525

# 3.1 Bekerja dengan nilai yang hilang

[Untuk mempercepat pekerjaan dengan sejumlah data, kamu mungkin ingin menggunakan dictionary untuk beberapa nilai yang memiliki ID.]

In [None]:
# Temukan dictionary
data.loc[:, ['education_id', 'education']].drop_duplicates()

Unnamed: 0,education_id,education
0,0,bachelor's degree
1,1,secondary education
13,2,some college
31,3,primary education
2962,4,graduate degree


In [None]:
dict(zip((data.education_id), (data.education)))


{0: "bachelor's degree",
 1: 'secondary education',
 2: 'some college',
 3: 'primary education',
 4: 'graduate degree'}

In [None]:
data.loc[:, ['family_status_id', 'family_status']].drop_duplicates()

Unnamed: 0,family_status_id,family_status
0,0,married
4,1,civil partnership
18,2,widow / widower
19,3,divorced
24,4,unmarried


In [None]:
dict(zip((data.family_status_id), (data.family_status)))

{0: 'married',
 1: 'civil partnership',
 2: 'widow / widower',
 3: 'divorced',
 4: 'unmarried'}

# 3.2  Memperbaiki nilai yang hilang di `total_income`

[Mulai dengan mengatasi total nilai pendapatan yang hilang. Buat kategori usia untuk nasabah. Buat kolom baru yang memuat kategori usia. Strategi ini dapat membantu untuk menghitung total nilai pendapatan.]


In [None]:
#  persebaran dob_years
data['dob_years'].describe()

count    21452.000000
mean        43.469933
std         12.213723
min         19.000000
25%         33.000000
50%         42.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64

In [None]:
# Mari kita tulis sebuah fungsi untuk menghitung kategori usia
def age_categorizing(age):
    if age <= 25:
        category = '0-25'
    elif age > 25 and age <=50:
        category = '25-50'
    elif age > 50 and age <=75:
        category = '50-75'
    else:
        category = '>75'
    return category

In [None]:
# Lakukan pengujian untuk melihat apakah fungsimu bekerja atau tidak
age_categorizing(age=5)

'0-25'

In [None]:
# Buatlah kolom baru berdasarkan fungsi

data['age_category'] = data['dob_years'].apply(age_categorizing)

In [None]:
# Periksa bagaimana nilai di dalam kolom baru

data.loc[:, ['dob_years', 'age_category']]

Unnamed: 0,dob_years,age_category
0,42,25-50
1,36,25-50
2,33,25-50
3,32,25-50
4,53,50-75
...,...,...
21447,43,25-50
21448,67,50-75
21449,38,25-50
21450,38,25-50


[Pikirkan tentang faktor-faktor yang biasanya bergantung pada pendapatan. Pada akhirnya, kamu akan mengetahui apakah kamu harus menggunakan nilai rata-rata atau median untuk mengganti nilai yang hilang. Untuk membuat keputusan ini, kamu mungkin ingin melihat distribusi faktor-faktor yang kamu identifikasi sebagai dampak dari pendapatan seseorang.]

[Buatlah tabel yang hanya memuat data tanpa nilai yang hilang. Data ini akan digunakan untuk memperbaiki nilai yang hilang.]

In [None]:
# Buat tabel tanpa nilai yang hilang dan tampilkan beberapa barisnya untuk memastikan semuanya berjalan dengan baik
nomiss_data = data.loc[~data['total_income'].isnull()]
nomiss_data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_category
0,1,351.569709,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,25-50
1,1,167.700156,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,25-50
2,0,234.309275,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,25-50
3,3,171.864467,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,25-50
4,0,14177.753002,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,50-75


In [None]:
# Perhatikan nilai rata-rata untuk pendapatan berdasarkan faktor yang telah kamu identifikasi
nomiss_data.groupby('age_category')['total_income'].mean().reset_index()

Unnamed: 0,age_category,total_income
0,0-25,23447.795802
1,25-50,28103.675052
2,50-75,24704.150073


In [None]:
# Perhatikan nilai median untuk pendapatan berdasarkan faktor yang telah kamu identifikasi
nomiss_data.groupby('age_category')['total_income'].median().reset_index()

Unnamed: 0,age_category,total_income
0,0-25,21423.8355
1,25-50,24532.211
2,50-75,21310.9445


[Buat keputusan tentang karakteristik yang paling menentukan pendapatan dan apakah kita akan menggunakan median atau rata-rata.]


In [None]:
#  Buat prosedur function
# isi missing value berdasar median dari total_income di setiap age cartegory
median_total_income = pd.pivot_table(data, columns='age_category', values='total_income', aggfunc='median')
median_total_income

age_category,0-25,25-50,50-75
total_income,21423.8355,24532.211,21310.9445


In [None]:
#  mendapatkan nilai median total_income di kategori umur 20-40
median_total_income['25-50'][0]

24532.211

In [None]:
#  Tulis fungsi yang akan kita gunakan untuk mengisi nilai yang hilang
# Pivot table untuk memperhitungkan median dari total_income
pivot_table_for_total_income = nomiss_data.pivot_table(index=['age_category','income_type'],
                                                       columns='education',
                                                       values='total_income',
                                                       aggfunc='median')

def fill_nan_total_income(age, income_type, education):
    """
    Fungsi ini berguna untuk mengkalkulasi nilai median total_income berdasar pada
    age_group, income_type, dan education.
    """
    try:
        return pivot_table_for_total_income[education][age][income_type]
    except:
        return 'error'



In [None]:
# Masukkan nilai median untuk semua row di kolom baru
data['median_total_income'] = data.apply(lambda row: fill_nan_total_income(row['age_category'],
                                                                          row['income_type'],
                                                                          row['education']), axis=1)

In [None]:
# Tes fungsi
data[data['median_total_income'] == 'error']

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_category,median_total_income
5931,0,,58,bachelor's degree,0,married,0,M,entrepreneur,0,,buy residential real estate,50-75,error


In [None]:
# restoring nilai yang hilang di total_income
data['total_income'] = data['total_income'].fillna(data['median_total_income'])

In [None]:
# Terapkan fungsi tersebut ke setiap baris
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_category,median_total_income
0,1,351.569709,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,25-50,26769.513
1,1,167.700156,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,25-50,21998.6585
2,0,234.309275,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,25-50,21998.6585
3,3,171.864467,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,25-50,21998.6585
4,0,14177.753002,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,50-75,18271.848


In [None]:
# Periksa apakah kita mendapatkan kesalahan
data.isnull().sum()

children                  0
days_employed          2102
dob_years                 0
education                 0
education_id              0
family_status             0
family_status_id          0
gender                    0
income_type               0
debt                      0
total_income              0
purpose                   0
age_category              0
median_total_income       0
dtype: int64

In [None]:
# Ganti nilai yang hilang jika terdapat kesalahan
# tidak ada

In [None]:
# mengubah secara manual total_income ke entreprenur
data.loc[data['total_income'] == 'error', ['total_income']] = 499163

In [None]:
# Mengubah tipe data
data['total_income'] = data['total_income'].astype('int')

[Setelah kita selesai dengan `total_income`, periksa apakah jumlah total nilai di kolom ini sesuai dengan jumlah nilai di kolom lain.]

In [None]:
# Periksa jumlah entri di kolom
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21452 entries, 0 to 21451
Data columns (total 14 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   children             21452 non-null  int64  
 1   days_employed        19350 non-null  float64
 2   dob_years            21452 non-null  int64  
 3   education            21452 non-null  object 
 4   education_id         21452 non-null  int64  
 5   family_status        21452 non-null  object 
 6   family_status_id     21452 non-null  int64  
 7   gender               21452 non-null  object 
 8   income_type          21452 non-null  object 
 9   debt                 21452 non-null  int64  
 10  total_income         21452 non-null  int64  
 11  purpose              21452 non-null  object 
 12  age_category         21452 non-null  object 
 13  median_total_income  21452 non-null  object 
dtypes: float64(1), int64(6), object(7)
memory usage: 2.3+ MB


In [None]:
data.shape

(21452, 14)

# 3.3  Memperbaiki nilai di `days_employed`

In [None]:
# Distribusi median dari `days_employed` berdasarkan parameter yang kamu identifikasi
groupby_income_type_for_days_employed_median = nomiss_data.groupby('income_type')['days_employed'].median().reset_index()
groupby_income_type_for_days_employed_median

Unnamed: 0,income_type,days_employed
0,business,64.430551
1,civil servant,112.057015
2,employee,65.591784
3,entrepreneur,21.702003
4,paternity / maternity leave,137.364998
5,retiree,15217.221094
6,student,24.114648
7,unemployed,15267.235531


In [None]:
# Distribusi rata-rata dari `days_employed` berdasarkan parameter yang kamu identifikasi
groupby_income_type_for_days_employed_mean = nomiss_data.groupby('income_type')['days_employed'].mean().reset_index()
groupby_income_type_for_days_employed_mean

Unnamed: 0,income_type,days_employed
0,business,87.977934
1,civil servant,141.662371
2,employee,96.937467
3,entrepreneur,21.702003
4,paternity / maternity leave,137.364998
5,retiree,15208.478802
6,student,24.114648
7,unemployed,15267.235531


In [None]:
# Mari tulis fungsi yang menghitung rata-rata atau median
groupby_income_type_for_days_employed_median = data.groupby('income_type')['days_employed'].median()

def fill_nan_days_employed(income_type):
    """
    Fungsi ini untuk memperbaiki nilai days_employed.
    Yang berdasar pada nilai median dan distribusi dari income_type'
    """
    try:
        return groupby_income_type_for_days_employed_median[income_type]
    except:
        return 'error'

In [None]:
# Periksa apakah fungsimu bekerja
fill_nan_days_employed('student')

24.11464806409242

In [None]:
# Isi nilai median ke kolom baru
data['median_days_employed'] = data['income_type'].apply(fill_nan_days_employed)

In [None]:
# test bagaimana cara kerja fungsi
data['median_days_employed'].value_counts()

median_days_employed
65.591784       11083
64.430551        5077
15217.221094     3829
112.057015       1457
15267.235531        2
21.702003           2
24.114648           1
137.364998          1
Name: count, dtype: int64

In [None]:
# Terapkan fungsi ke income_type

data['days_employed'] = data['days_employed'].fillna(data['median_days_employed'])


In [None]:
# Periksa apakah fungsimu bekerja
# ya

In [None]:
# Ganti nilai yang hilang

data.isnull().sum()

children                0
days_employed           0
dob_years               0
education               0
education_id            0
family_status           0
family_status_id        0
gender                  0
income_type             0
debt                    0
total_income            0
purpose                 0
age_category            0
median_total_income     0
median_days_employed    0
dtype: int64

[Setelah kamu selesai dengan `total_income`, periksa apakah jumlah total nilai di kolom ini sesuai dengan jumlah nilai di kolom lain.]

In [None]:
# Periksa entri di semua kolom - pastikan kita memperbaiki semua nilai yang hilang
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21452 entries, 0 to 21451
Data columns (total 15 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   children              21452 non-null  int64  
 1   days_employed         21452 non-null  float64
 2   dob_years             21452 non-null  int64  
 3   education             21452 non-null  object 
 4   education_id          21452 non-null  int64  
 5   family_status         21452 non-null  object 
 6   family_status_id      21452 non-null  int64  
 7   gender                21452 non-null  object 
 8   income_type           21452 non-null  object 
 9   debt                  21452 non-null  int64  
 10  total_income          21452 non-null  int64  
 11  purpose               21452 non-null  object 
 12  age_category          21452 non-null  object 
 13  median_total_income   21452 non-null  object 
 14  median_days_employed  21452 non-null  float64
dtypes: float64(2), int6

In [None]:
data.shape

(21452, 15)

# Bab 4 Pengkategorian data

Untuk menjawab pertanyaan dan menguji hipotesis, kita akan bekerja dengan data yang telah dikategorikan. Pikirkan tentang data mana yang perlu dikategorikan untuk menjawab pertanyaan-pertanyaan ini. Proses pertama mencakup data teks; yang kedua membahas data numerik yang perlu dikategorikan.


In [None]:
# Tampilkan nilai data yang kamu pilih untuk pengkategorian
data[['purpose']]

Unnamed: 0,purpose
0,purchase of the house
1,car purchase
2,purchase of the house
3,supplementary education
4,to have a wedding
...,...
21447,housing transactions
21448,purchase of a car
21449,property
21450,buying my own car


[Mari kita periksa nilai unik]

In [None]:
# Periksa nilai unik
data['purpose'].unique()

array(['purchase of the house', 'car purchase', 'supplementary education',
       'to have a wedding', 'housing transactions', 'education',
       'having a wedding', 'purchase of the house for my family',
       'buy real estate', 'buy commercial real estate',
       'buy residential real estate', 'construction of own property',
       'property', 'building a property', 'buying a second-hand car',
       'buying my own car', 'transactions with commercial real estate',
       'building a real estate', 'housing',
       'transactions with my real estate', 'cars', 'to become educated',
       'second-hand car purchase', 'getting an education', 'car',
       'wedding ceremony', 'to get a supplementary education',
       'purchase of my own house', 'real estate transactions',
       'getting higher education', 'to own a car', 'purchase of a car',
       'profile education', 'university education',
       'buying property for renting out', 'to buy a car',
       'housing renovation', 'going

[Kelompok utama apakah yang dapat kamu identifikasi berdasarkan nilai uniknya?]
- Terdapat beberapa kelompok utama dengan penulisan yang beragam, yaitu antara lain house, car, wedding, education.

[Kita akan mengategorikan data kita berdasarkan topik ini.]


In [None]:
# Mari kita tulis sebuah fungsi untuk mengategorikan data berdasarkan topik umum
def category_purpose (tujuan):
    tujuan = tujuan.lower()
    if ('house' in tujuan) or ('property' in tujuan) or ('housing' in tujuan) or ('estate' in tujuan):
        category = 'house'
    elif ('educat' in tujuan) or ('university' in tujuan):
        category = 'education'
    elif ('car' in tujuan) or ('cars' in tujuan) or ('second' in tujuan):
        category = 'car'
    elif ('wedding' in tujuan) or ('ceremony' in tujuan):
        category = 'wedding'
    else:
        category = 'other'

    return category


In [None]:
# Buat kolom yang memuat kategori dan hitung nilainya
data['purpose_group'] = data['purpose'].apply(category_purpose)
data[['purpose', 'purpose_group']]

Unnamed: 0,purpose,purpose_group
0,purchase of the house,house
1,car purchase,car
2,purchase of the house,house
3,supplementary education,education
4,to have a wedding,wedding
...,...,...
21447,housing transactions,house
21448,purchase of a car,car
21449,property,house
21450,buying my own car,car


In [None]:
data[['purpose', 'purpose_group']].value_counts()

purpose                                   purpose_group
wedding ceremony                          wedding          791
having a wedding                          wedding          767
to have a wedding                         wedding          765
real estate transactions                  house            675
buy commercial real estate                house            661
housing transactions                      house            652
buying property for renting out           house            651
transactions with commercial real estate  house            650
purchase of the house                     house            646
housing                                   house            646
purchase of the house for my family       house            638
construction of own property              house            635
property                                  house            633
transactions with my real estate          house            627
building a real estate                    house            624

[Jika kita memutuskan untuk mengategorikan data numerik, kamu juga harus membuat kategori untuk data tersebut.]

In [None]:
# Lihat semua data numerik di kolom yang kamu pilih untuk pengkategorian
data[['total_income']]

Unnamed: 0,total_income
0,40620
1,17932
2,23341
3,42820
4,25378
...,...
21447,35966
21448,24959
21449,14347
21450,39054


In [None]:
# Dapatkan kesimpulan statistik untuk kolomnya

[Tentukan rentang apa yang akan digunakan untuk pengelompokan.]

In [None]:
# Buat fungsi yang melakukan pengkategorian menjadi kelompok numerik yang berbeda berdasarkan rentang
data['total_income'].describe()


count     21452.000000
mean      26500.902154
std       16055.478518
min        3306.000000
25%       17198.750000
50%       22890.500000
75%       31722.250000
max      499163.000000
Name: total_income, dtype: float64

In [None]:
def pendapatan_categorizing(pendapatan):
    if pendapatan <= 50000:
        category = '0-50000'
    elif pendapatan > 50000 and pendapatan <=100000:
        category = '50000-100000'
    elif pendapatan > 100000 and pendapatan <=150000:
        category = '100000-150000'
    elif pendapatan > 150000 and pendapatan <=200000:
        category = '150000-200000'
    elif pendapatan > 200000 and pendapatan <=250000:
        category = '200000-250000'
    elif pendapatan > 250000 and pendapatan <=300000:
        category = '250000-300000'
    elif pendapatan > 300000 and pendapatan <=350000:
        category = '300000-350000'
    elif pendapatan > 350000 and pendapatan <=400000:
        category = '350000-400000'
    else:
        category = '>400000'
    return category


In [None]:
# Lakukan pengujian untuk melihat apakah fungsimu bekerja atau tidak
pendapatan_categorizing(pendapatan=15000)

'0-50000'

In [None]:
# Buat kolom yang memuat kategori
data['pendapatan_category'] = data['total_income'].apply(pendapatan_categorizing)

In [None]:
# Hitung setiap nilai kategori untuk melihat pendistribusiannya
data.loc[:, ['total_income', 'pendapatan_category']]

Unnamed: 0,total_income,pendapatan_category
0,40620,0-50000
1,17932,0-50000
2,23341,0-50000
3,42820,0-50000
4,25378,0-50000
...,...,...
21447,35966,0-50000
21448,24959,0-50000
21449,14347,0-50000
21450,39054,0-50000


In [None]:
data[['total_income', 'pendapatan_category']].value_counts()

total_income  pendapatan_category
21998         0-50000                587
18271         0-50000                296
25965         0-50000                212
26769         0-50000                189
21886         0-50000                146
                                    ... 
20757         0-50000                  1
20759         0-50000                  1
20763         0-50000                  1
20772         0-50000                  1
499163        >400000                  1
Name: count, Length: 15405, dtype: int64

# Bab 5 Memeriksa hipotesis


**Apakah terdapat korelasi antara memiliki anak dengan probabilitas melakukan gagal bayar pinjaman?**

In [None]:
# Periksa data anak dan data gagal bayar pinjaman
child_debt = pd.pivot_table(data,
                            index='children',
                            columns='debt',
                            values='income_type',
                            aggfunc='count',
                            margins=True).reset_index()
child_debt = child_debt[:-1]

# Hitung persentase gagal bayar berdasarkan jumlah anak
child_debt['% Gagal Bayar'] = child_debt[1] / child_debt['All'] * 100
child_debt['% Tidak Gagal'] = child_debt[0] / child_debt['All'] * 100

child_debt


debt,children,0,1,All,% Gagal Bayar,% Tidak Gagal
0,0,13026.0,1063.0,14089,7.544893,92.455107
1,1,4410.0,445.0,4855,9.165808,90.834192
2,2,1926.0,202.0,2128,9.492481,90.507519
3,3,303.0,27.0,330,8.181818,91.818182
4,4,37.0,4.0,41,9.756098,90.243902
5,5,9.0,,9,,100.0


**Kesimpulan**
- Asumsi sementara dari pola diatas semakin banyak anak semakin tinggi kemungkinan gagal bayarnya.


**Apakah terdapat korelasi antara status keluarga dengan probabilitas melakukan gagal bayar pinjaman?**

In [None]:
# Periksa data status keluarga dan data gagal bayar pinjaman
family_status_debt = pd.pivot_table(data,
                            index='family_status',
                            columns='debt',
                            values='income_type',
                            aggfunc='count',
                            margins=True).reset_index()
family_status_debt = family_status_debt[:-1]

# Hitung persentase gagal bayar berdasarkan status keluarga

family_status_debt['% Gagal Bayar'] = family_status_debt[1] / family_status_debt['All'] * 100
family_status_debt['% Tidak Gagal'] = family_status_debt[0] / family_status_debt['All'] * 100

family_status_debt


debt,family_status,0,1,All,% Gagal Bayar,% Tidak Gagal
0,civil partnership,3761,388,4149,9.351651,90.648349
1,divorced,1110,85,1195,7.112971,92.887029
2,married,11408,931,12339,7.545182,92.454818
3,unmarried,2536,274,2810,9.75089,90.24911
4,widow / widower,896,63,959,6.569343,93.430657


**Kesimpulan**
- Asumsi dari pola diatas menunjukkan widow/widower memiliki rate & tidak gagal bayar tertinggi. Kedua setelah itu adalah married dengan sample tertinggi sebanyak 11408 data yang tidak gagal bayar, dimungkinkan karena mereka sudah memiliki pendapatan yang stabil. Berbeda dengan contohnya unmarried yang memiliki %gagal bayar terendah.

**Apakah terdapat korelasi antara tingkat pendapatan dengan probabilitas melakukan gagal bayar pinjaman?**

In [None]:
# Periksa data tingkat pendapatan dan data gagal bayar pinjaman
pendapatan_category_debt = pd.pivot_table(data,
                            index='pendapatan_category',
                            columns='debt',
                            values='income_type',
                            aggfunc='count',
                            margins=True).reset_index()
pendapatan_category_debt = pendapatan_category_debt[:-1]
pendapatan_category_debt

# Hitung persentase gagal bayar berdasarkan tingkat pendapatan
pendapatan_category_debt['% Gagal Bayar'] = pendapatan_category_debt[1] / pendapatan_category_debt['All'] * 100
pendapatan_category_debt['% Tidak Gagal'] = pendapatan_category_debt[0] / pendapatan_category_debt['All'] * 100

pendapatan_category_debt


debt,pendapatan_category,0,1,All,% Gagal Bayar,% Tidak Gagal
0,0-50000,18482.0,1649.0,20131,8.191347,91.808653
1,100000-150000,67.0,4.0,71,5.633803,94.366197
2,150000-200000,16.0,1.0,17,5.882353,94.117647
3,200000-250000,5.0,,5,,100.0
4,250000-300000,4.0,,4,,100.0
5,350000-400000,1.0,1.0,2,50.0,50.0
6,50000-100000,1135.0,86.0,1221,7.043407,92.956593
7,>400000,1.0,,1,,100.0


**Kesimpulan**
- Asumsi dari pola diatas menunjukkan nasabah dengan range penghasilan 350000-400000 memiliki rate 50% gagal bayar, hal ini merupakan rate terendah dibanding yang lainnya.


**Bagaimana tujuan kredit memengaruhi persentase gagal bayar?**

In [None]:
# Periksa persentase tingkat gagal bayar untuk setiap tujuan kredit dan lakukan penganalisisan
purpose_debt = pd.pivot_table(data,
                            index='purpose_group',
                            columns='debt',
                            values='income_type',
                            aggfunc='count',
                            margins=True).reset_index()
purpose_debt = purpose_debt[:-1]
purpose_debt

# Hitung persentase gagal bayar berdasarkan purpose
purpose_debt['% Gagal Bayar'] = purpose_debt[1] / purpose_debt['All'] * 100
purpose_debt['% Tidak Gagal'] = purpose_debt[0] / purpose_debt['All'] * 100

purpose_debt

debt,purpose_group,0,1,All,% Gagal Bayar,% Tidak Gagal
0,car,3903,403,4306,9.359034,90.640966
1,education,3643,370,4013,9.220035,90.779965
2,house,10028,782,10810,7.234043,92.765957
3,wedding,2137,186,2323,8.006888,91.993112


**Kesimpulan**
- Pembiayaan untuk car, education, dan wedding relatif memiliki persantase gagal bayar lebih tinggi dibandingkan dengan persantase pembiayaan rumah.


# Bab 6 Kesimpulan umum


Setiap baris dalam tabel data kita menyimpan data-data terkait nasabah yang kita miliki, antara lain jumlah anak dalam keluarga, berapa lama nasabah telah bekerja, usia, tingkat pendidikan, status perkawinan, jenis kelamin, pendapatan bulanan, alasan dalam pengambilan pinjaman, dan juga informasi apakah nasabah pernah melakukan gagal bayar pinjaman.
Dari data-data tersebut diatas yang telah kita miliki sudah cukup untuk digunakan dalam pengujian hipotesis. Walaupun begitu kita dihadapkan pada masalah adanya nilai-nilai yang hilang, sehingga kita perlu melakukan pra-pemrosesan data terlebih dahulu sebelum bisa melanjutkan analisis.
Dari informasi diatas kita mendapatkan gambaran, sbb:

    1. Dari tahap awal preparation data dengan hasil menjalankan fungsi info(), kita mendapatkan hasil bahwa terdapat nilai yang hilang pada kolom days_employed dan total_income, ada sebanyak 2174 nilai yang hilang (null) pada masing-masing kolom tersebut. Hal ini kita lakukan untuk identifikasi awal pada data yang kita miliki.

    2. Pada data yang kita miliki terlihat ada yang janggal yaitu pada angka 20 dan -1, karena misal tidak punya anak artinya menggunakan penulisan 0 jadi ada kemungkinan -1 seharusnya 1 dan 20 seharusnya 2. Berdasar hal tersebut, maka data telah diperbaiki.
    3. Kita juga telah melakukan pengecekan data duplikat dan pembersihan data duplikat.
    4. Untuk data yang hilang pada kolom total_income dan days_employed sudah kita isi dengan mengambil nilai pendekatan median. Sehingga sekarang data kita sudah lebih baik dan tidak terdapat nilai yang hilang / nan.  

    3. Terdapat pola-pola terkait gagal bayar, misalnya : semakin banyak anak semakin tinggi kemungkinan gagal bayarnya. Selain itu range penghasilan nasabah juga terkait erat dengan gagal bayar, mimsalnya range 350000-400000 memiliki rate 50% gagal bayar, hal ini merupakan rate tingkat penda.
