# Menganalisis Risiko Gagal Bayar Peminjam

Tugas Anda adalah menyiapkan laporan untuk divisi kredit suatu bank. Anda akan mencari tahu pengaruh status perkawinan seorang nasabah dan jumlah anak yang dimilikinya terhadap probabilitas gagal bayar dalam pelunasan pinjaman. Pihak bank sudah memiliki beberapa data mengenai kelayakan kredit nasabah.

Laporan Anda akan dipertimbangkan pada saat membuat **penilaian kredit** untuk calon nasabah. **Penilaian kredit** digunakan untuk mengevaluasi kemampuan calon peminjam untuk melunasi pinjaman mereka.

# Tujuan proyek
1. Mengetahui pengaruh status perkawinan dan jumlah anak nasabah terhadap ketepatan waktu pelunasan pinjaman.
2. Mengetahui pengaruh tingkat pendapatan nasabah terhadap ketepatan waktu pelunasan pinjaman.
3. Mengetahui pengaruh tujuan peminjaman terhadap ketepatan waktu pelunasan pinjaman.

Penemuan dari proyek ini dapat digunakan untuk menentukan *credit scoring* nasabah.

# Hipotesis
1. Status perkawinan dan jumlah anak nasabah berpengaruh kepada ketepatan waktu pelunasan pinjaman.
Keberadaan tanggungan (pasangan dan/atau anak) dalam keluarga nasabah diduga akan meningkatkan kemungkinan terlambatnya pelunasan. Hal ini terjadi karena keberadaan tanggungan dapat meningkatkan kemungkinan pemakaian pinjaman untuk tujuan lain. Tujuan lain yang dimaksud adalah tujuan yang 1) berbeda dari tujuan awal peminjaman, yang 2) disebabkan oleh kebutuhan pasangan dan/atau anak.

2. Tingkat pendapatan nasabah berpengaruh kepada ketepatan waktu pelunasan pinjaman.
Nasabah dengan pendapatan yang tinggi diduga akan lebih mudah melunasi pinjaman. Nasabah berpendapatan tinggi diduga 1) memiliki lebih banyak dana yang bisa disisihkan untuk melunasi pinjaman, 2) dapat menghasilkan dana tsb. dengan lebih cepat dibandingkan dengan nasabah berpendapatan rendah.

3. Tujuan peminjaman berpengaruh kepada ketepatan waktu pelunasan pinjaman.

## Buka *file* data dan baca informasi umumnya.


In [1]:
# Muat semua *library*
import pandas as pd


# Muat datanya
data = pd.read_csv('/datasets/credit_scoring_eng.csv')


## Soal 1. Eksplorasi data

**Deskripsi Data**
- `children` - jumlah anak dalam keluarga
- `days_employed` - pengalaman kerja nasabah dalam hari
- `dob_years` - usia nasabah dalam tahun
- `education` - tingkat pendidikan nasabah
- `education_id` - pengidentifikasi untuk tingkat pendidikan nasabah
- `family_status` - pengidentifikasi untuk status perkawinan nasabah
- `family_status_id` - tanda pengenal status perkawinan
- `gender` - jenis kelamin nasabah
- `income_type` - jenis pekerjaan
- `debt` - apakah nasabah memiliki hutang pembayaran pinjaman
- `total_income` - pendapatan bulanan
- `purpose` - tujuan mendapatkan pinjaman


In [2]:
# Mari kita lihat berapa banyak baris dan kolom yang dimiliki oleh dataset kita
data.shape


(21525, 12)

Jumlah kolom sesuai dengan dokumentasi (12) dalam 21.525 baris.

In [3]:
# Mari tampilkan N baris pertama
data.head(20)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


**Mengecek nilai yang tidak masuk akal dalam data:**

In [4]:
# Kolom yang dicek adalah kolom yang nilainya memiliki tingkat keunikan rendah dan independen (bukan merupakan identifier)

print(data['children'].unique())
print(data[data['dob_years'] < 18]['dob_years'].unique()) 
# Usia 18 menjadi filter karena merupakan usia dewasa secara legal.
# Anak-anak di bawah usia 18 tahun seharusnya tidak akan bisa mendapatkan pinjaman.
print(data['education'].unique())
print(data['family_status'].unique())
print(data['gender'].unique())
print(data['income_type'].unique())

[ 1  0  3  2 -1  4 20  5]
[0]
["bachelor's degree" 'secondary education' 'Secondary Education'
 'SECONDARY EDUCATION' "BACHELOR'S DEGREE" 'some college'
 'primary education' "Bachelor's Degree" 'SOME COLLEGE' 'Some College'
 'PRIMARY EDUCATION' 'Primary Education' 'Graduate Degree'
 'GRADUATE DEGREE' 'graduate degree']
['married' 'civil partnership' 'widow / widower' 'divorced' 'unmarried']
['F' 'M' 'XNA']
['employee' 'retiree' 'business' 'civil servant' 'unemployed'
 'entrepreneur' 'student' 'paternity / maternity leave']


In [5]:
# Menyelidiki data dengan jumlah anak negatif dan meragukan
print(data[data['children'] == -1].shape)
print(data[data['children'] == 20].shape)


(47, 12)
(76, 12)


In [6]:
# Menyelidiki data dengan umur 0
data[data['dob_years'] == 0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
99,0,346541.618895,0,Secondary Education,1,married,0,F,retiree,0,11406.644,car
149,0,-2664.273168,0,secondary education,1,divorced,3,F,employee,0,11228.230,housing transactions
270,3,-1872.663186,0,secondary education,1,married,0,F,employee,0,16346.633,housing renovation
578,0,397856.565013,0,secondary education,1,married,0,F,retiree,0,15619.310,construction of own property
1040,0,-1158.029561,0,bachelor's degree,0,divorced,3,F,business,0,48639.062,to own a car
...,...,...,...,...,...,...,...,...,...,...,...,...
19829,0,,0,secondary education,1,married,0,F,employee,0,,housing
20462,0,338734.868540,0,secondary education,1,married,0,F,retiree,0,41471.027,purchase of my own house
20577,0,331741.271455,0,secondary education,1,unmarried,4,F,retiree,0,20766.202,property
21179,2,-108.967042,0,bachelor's degree,0,married,0,M,business,0,38512.321,building a real estate


In [7]:
# Menyelidiki distribusi jumlah hari kerja
print(data['days_employed'].min())
print(data['days_employed'].max())
print(data['days_employed'].median())


-18388.949900568383
401755.40047533
-1203.369528770489


Beberapa masalah di dalam data `credit_scoring_eng.csv`:
1. 12 baris memiliki nilai jumlah anak negatif (`-1`) di kolom `children`, dan 76 baris memiliki jumlah anak yang diragukan (`20`).
2. Kolom `days_employed` berisi nilai yang tidak mungkin (seperti jumlah hari kerja negatif atau melebihi usia nasabah).
3. 101 baris memiliki nilai umur `0` di `dob_years`.
4. Kapitalisasi data di kolom `education` tidak seragam.
5. 2174 baris memiliki nilai `NaN` di kolom `days_employed` dan `total_income`.
4. Nilai di kolom `purpose` mungkin akan sulit dikategorikan. Cara penyampaian tujuan yang berbeda dari nasabah ke nasabah berpotensi menyulitkan kategorisasi karena meningkatkan jumlah nilai unik.

In [8]:
# Dapatkan informasi data
data.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB



Kolom `days_employed` dan `total_income` jelas memiliki nilai yang hilang. Kolom lain bisa saja memiliki nilai hilang yang bukan tersimpan sebagai `NoneType`.

In [9]:
# Mari kita lihat tabel yang difilter dengan nilai yang hilang di kolom pertama yang mengandung data yang hilang
data_days_employed_no_na = data
data_days_employed_no_na = data_days_employed_no_na[data_days_employed_no_na['days_employed'].notnull()]
data_days_employed_no_na.info(20)

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19351 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          19351 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         19351 non-null  int64  
 3   education         19351 non-null  object 
 4   education_id      19351 non-null  int64  
 5   family_status     19351 non-null  object 
 6   family_status_id  19351 non-null  int64  
 7   gender            19351 non-null  object 
 8   income_type       19351 non-null  object 
 9   debt              19351 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           19351 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 1.9+ MB


In [10]:
# Mari kita terapkan beberapa kondisi untuk memfilter data dan melihat jumlah baris dalam tabel yang telah difilter.
data_no_na = data.dropna()
data_no_na.info()


<class 'pandas.core.frame.DataFrame'>
Int64Index: 19351 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          19351 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         19351 non-null  int64  
 3   education         19351 non-null  object 
 4   education_id      19351 non-null  int64  
 5   family_status     19351 non-null  object 
 6   family_status_id  19351 non-null  int64  
 7   gender            19351 non-null  object 
 8   income_type       19351 non-null  object 
 9   debt              19351 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           19351 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 1.9+ MB


In [11]:
# Memastikan jumlah baris dengan nilai yang hilang vs. jumlah nilai yang hilang

# Jumlah baris dengan nilai yang hilang:
print('Jumlah baris dengan nilai yang hilang: ' + str((data.shape[0]) - (data_no_na.shape[0])))

# Jumlah baris dengan nilai yang hilang di kolom days_employed:
print('Jumlah baris dengan nilai yang hilang di kolom days_employed: ' + str((data.shape[0]) - (data_days_employed_no_na.shape[0])))

# Jumlah baris dengan nilai yang hilang di kolom total_income:
data_total_income_no_na = data
data_total_income_no_na = data_total_income_no_na[data_total_income_no_na['days_employed'].notnull()]
print('Jumlah baris dengan nilai yang hilang di kolom total_income: ' + str((data.shape[0]) - (data_total_income_no_na.shape[0])))

# Jumlah nilai yang hilang di seluruh DataFrame:
print('Jumlah nilai yang hilang di seluruh DataFrame: ' + str(data.isna().sum().sum()))

# Persentase baris yang hilang:
missing_percentage = ((data.shape[0]) - (data_no_na.shape[0])) / (data.shape[0])
print(f'Persentase baris yang hilang: {missing_percentage:.0%}' )


Jumlah baris dengan nilai yang hilang: 2174
Jumlah baris dengan nilai yang hilang di kolom days_employed: 2174
Jumlah baris dengan nilai yang hilang di kolom total_income: 2174
Jumlah nilai yang hilang di seluruh DataFrame: 4348
Persentase baris yang hilang: 10%


**Kesimpulan sementara**

Nilai yang hilang di data tampak simetris. Jumlah baris dengan nilai `NaN` di kolom `days_employed` dan kolom `total_income` sama (2174), dan jumlah nilai yang hilang di seluruh data adalah dua kali jumlah tsb. (2174 * 2 = 4348). Hal ini berarti nilai `NaN` di kolom `days_employed` akan menimbulkan nilai yang sama di kolom `total_income`. Dugaan awal penyebabnya adalah karena nasabah yang tidak bekerja (`days_employed == NaN`) tidak akan memiliki penghasilan (`total_income == NaN`), tetapi kolom `income_type` menunjukkan bahwa justru tidak ada nasabah berstatus `unemployed` yang memiliki `NaN` di kolom `days_employed`.

Baris dengan nilai yang hilang mencakup 10% dari data (2174 / 21.525 * 100%), jumlah yang cukup signifikan.

Hubungan antara nilai yang hilang dan nilai lain di data perlu diselidiki. Ini dapat dilakukan dengan menampilkan data dengan nilai yang hilang *saja*, lalu mencoba mencari hubungannya dengan distribusi nilai lain menggunakan fungsi `value_counts()`.


In [12]:
# Mari kita periksa nasabah yang tidak memiliki data tentang karakteristik yang teridentifikasi dan kolom dengan nilai yang hilang
data_isna = data[data['days_employed'].isna()]
data_isna.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
65,0,,21,secondary education,1,unmarried,4,M,business,0,,transactions with commercial real estate
67,0,,52,bachelor's degree,0,married,0,F,retiree,0,,purchase of the house for my family
72,1,,32,bachelor's degree,0,married,0,M,civil servant,0,,transactions with commercial real estate
82,2,,50,bachelor's degree,0,married,0,F,employee,0,,housing
83,0,,52,secondary education,1,married,0,M,employee,0,,housing


In [13]:
# Periksalah distribusinya

# Membandingkan distribusi nilai beberapa kolom dari data ber-NaN dengan data utuh

data_income_type = pd.DataFrame(data['income_type'].value_counts())
data_education = pd.DataFrame(data['education'].value_counts())
data_family_status = pd.DataFrame(data['family_status'].value_counts())

isna_income_type = pd.DataFrame(data_isna['income_type'].value_counts())
isna_education = pd.DataFrame(data_isna['education'].value_counts())
isna_family_status = pd.DataFrame(data_isna['family_status'].value_counts())

# Membuat tabel untuk perbandingan side-by-side
# Ada 4 kolom di masing-masing tabel:
# Jumlah nilai di data utuh, persentase nilai dari seluruh nilai di kolom di data utuh,
# Jumlah nilai di data dengan NaN, dan persentase nilai dari seluruh nilai di kolom di data dengan NaN
# Hipotesis: jika persentase nilai di data utuh dan data ber-NaN serupa,
# persebaran/distribusi data ber-NaN serupa dengan persebaran "alami" di data utuh
# sehingga nilai NaN dapat dikatakan terekam secara acak.

data_list = [data_income_type, data_education, data_family_status]
column_names = ['income_type', 'education', 'family_status']
isna_list = [isna_income_type, isna_education, isna_family_status]
tables_list = []

# Menggunakan loop untuk membuat 3 buah tabel.
# index = iterasi ke-..., series = series yang tersimpan di data_list
# Fungsi enumerate() me-return nilai index dan series,
# lalu loop akan
# 1. memasukkan series dari data_list sebagai kolom di dataframe baru,
# 2. me-rename kolom sesuai nama di column_names untuk memudahkan iterasi,
# 3. menghitung persentase distribusi nilai dari series tsb. di data utuh,
# 4. memasukkan series dari isna_list sebagai kolom,
# 5. menghitung persentase distribusi nilai dari series tsb. di data ber-NaN. 

for index, series in enumerate(data_list):
        df = series.assign()
        df.set_axis([f'{column_names[index]}'], axis = 'columns', inplace = True)
        df['whole_percentage'] =  ((df[f'{column_names[index]}'] / df[f'{column_names[index]}'].sum()) * 100).round(1).astype(str) + '%'
        df['data_with_na'] = isna_list[index].assign()
        df['missing_percentage'] = ((df['data_with_na'] / df['data_with_na'].sum()) * 100).round(1).astype(str) + '%'
        tables_list.append(df)
        
for df in tables_list:
    print(df)
    print()


                             income_type whole_percentage  data_with_na  \
employee                           11119            51.7%        1105.0   
business                            5085            23.6%         508.0   
retiree                             3856            17.9%         413.0   
civil servant                       1459             6.8%         147.0   
unemployed                             2             0.0%           NaN   
entrepreneur                           2             0.0%           1.0   
student                                1             0.0%           NaN   
paternity / maternity leave            1             0.0%           NaN   

                            missing_percentage  
employee                                 50.8%  
business                                 23.4%  
retiree                                  19.0%  
civil servant                             6.8%  
unemployed                                nan%  
entrepreneur                  

Dapat diamati bahwa distribusi data yang utuh dengan data bernilai `NaN` memiliki persentase yang mirip, terutama untuk nilai-nilai terbanyak dalam satu kolom.

**Kemungkinan penyebab hilangnya nilai dalam data**

Metode `head()` dan `value_counts()` pada data bernilai `NaN` tidak menunjukkan pola kehilangan yang dapat diamati. <br> Hipotesis: jika persentase distribusi nilai di data utuh dan data ber-NaN serupa, persebaran/distribusi data ber-NaN serupa juga dengan persebaran "alami" di data utuh, sehingga ada kemungkinan bahwa nilai `NaN` memang terekam secara acak. <br> Penyebabnya diduga karena kesalahan metode/*software* pengumpulan data yang menyebabkan nilai hilang dan *impossible values* yang tersebar di seluruh data.


**Kesimpulan sementara**

Distribusi serupa. Sesuai hipotesis yang disebutkan di atas, distribusi data utuh dan data bernilai `NaN` serupa, memperkuat dugaan bahwa nilai `NaN` terekam secara acak.


In [15]:
# Periksa penyebab dan pola lain yang dapat mengakibatkan nilai yang hilang

# Pembersihan data (commented-out untuk mencegah kontaminasi data asli, karena sudah tidak terpakai)
#data_cleaned = data
#data_cleaned['education'] = data_cleaned['education'].str.lower()
#data_cleaned = data_cleaned.drop_duplicates()
#data_cleaned = data_cleaned.dropna()

# Mencari tren nilai days_employed berdasarkan nilai di kolom income_type
#income_types = data['income_type'].unique()
#income_types_max = []
#income_types_min = []
#income_types_statistics_columns = {'min': income_types_min, 'max': income_types_max}

#for income_type in income_types:
#    max_value = data_cleaned_sorted[data_cleaned_sorted['income_type'] == income_type]['days_employed'].max()
#    income_types_max.append(max_value)
#    min_value = data_cleaned_sorted[data_cleaned_sorted['income_type'] == income_type]['days_employed'].min()
#    income_types_min.append(min_value)
    
#income_types_statistics = pd.DataFrame(data=income_types_statistics_columns, index=income_types)
#income_types_statistics


**Kesimpulan sementara**

Melihat bahwa nilai di kolom `days_employed` _**hanya**_ berisi *impossible values*, sepertinya asumsi bahwa nilai `NaN` tersebar secara acak/kebetulan juga merupakan asumsi yang cukup masuk akal.

**Kesimpulan**

Tidak ada pola yang jelas dalam hilangnya nilai.

Kolom-kolom yang berisi *missing values* atau *impossible values* adalah:
1. `children`, berupa nilai `-1` dalam 12 baris; dan `20` dalam 76 baris. Nilai `20` akan dianggap sebagai *impossible value* karena terpaut jauh dari jumlah anak tertinggi berikutnya (`5`), dan tersebar dalam banyak baris.
1. `days_employed`, seluruhnya berupa *impossible values* (hari kerja negatif atau melebihi usia nasabah) atau `NaN`.
1. `dob_years`, berupa nilai `0` dalam 101 baris.
1. `total_income`, berupa nilai `NaN` dalam 2174 baris.

<br>

Nilai-nilai tersebut akan ditangani dengan cara berikut:
1. Mengingat bahwa tidak ada *outlier* yang signifikan dalam jumlah anak, nilai `-1` dan `20` di kolom `children` akan diganti dengan rata-rata dari semua nilai `children` yang dibulatkan ke bawah ke satuan terdekat.
1. Seluruh kolom `days_employed` akan dihapus karena _**hanya**_ berisi *impossible values* yang tidak berpengaruh kepada tujuan proyek.
1. Nilai `0` di kolom `dob_years` dianggap sebagai *missing value* karena bukan nilai yang dapat diterima dan merupakan satu-satunya nilai unik yang tidak masuk akal. Nilai ini akan diganti dengan rata-rata usia seluruh nasabah karena tidak ada *outlier* usia yang signifikan.
1. Nilai `NaN` di kolom `total_income` akan diganti dengan median, bukan rata-rata, dari pendapatan per kelompok nasabah karena data mengandung *outlier*.

## Transformasi data

Selain masalah *missing values* dan *impossible values* yang telah dijabarkan di atas, masalah lain di data adalah:
1. Kapitalisasi data di kolom `education` yang tidak seragam.
1. Nilai di kolom `purpose` yang mungkin akan sulit dikategorikan. Cara penyampaian tujuan yang berbeda dari nasabah ke nasabah berpotensi menyulitkan kategorisasi karena meningkatkan jumlah nilai unik.
1. Nilai duplikat.


In [17]:
# Mari kita lihat semua nilai di kolom pendidikan untuk memeriksa ejaan apa yang perlu diperbaiki
data['education'].unique()


array(["bachelor's degree", 'secondary education', 'Secondary Education',
       'SECONDARY EDUCATION', "BACHELOR'S DEGREE", 'some college',
       'primary education', "Bachelor's Degree", 'SOME COLLEGE',
       'Some College', 'PRIMARY EDUCATION', 'Primary Education',
       'Graduate Degree', 'GRADUATE DEGREE', 'graduate degree'],
      dtype=object)

In [18]:
# Perbaiki pencatatan jika diperlukan
data['education'] = data['education'].str.lower()


In [19]:
# Periksa semua nilai di kolom untuk memastikan bahwa kita telah memperbaikinya dengan tepat
data['education'].unique()


array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

In [20]:
# Mari kita lihat distribusi nilai pada kolom `children`
children_values = data['children'].sort_values(ascending=True).unique()
children_count = data['children'].value_counts()
children_percentage =  ((children_count / data['children'].count()) * 100).round(2).astype(str) + '%'

children_distribution_columns = {'children_count': children_count, 'children_percentage': children_percentage}

children_distribution = pd.DataFrame(data=children_distribution_columns, index=children_values)
children_distribution

Unnamed: 0,children_count,children_percentage
-1,47,0.22%
0,14149,65.73%
1,4818,22.38%
2,2055,9.55%
3,330,1.53%
4,41,0.19%
5,9,0.04%
20,76,0.35%


Seperti yang telah dipaparkan sebelumnya, ada *impossible values* `-1` dan `20` di kolom `children`. Nilai `20` akan dianggap sebagai *impossible value* karena terpaut jauh dari jumlah anak tertinggi berikutnya (`5`), dan tersebar dalam banyak baris.

Mengingat bahwa tidak ada *outlier* yang signifikan dalam jumlah anak, nilai `-1` dan `20` di kolom `children` akan diganti dengan rata-rata dari semua nilai `children` yang dibulatkan ke bawah ke satuan terdekat.

In [21]:
# Memfilter data dengan impossible values
children_filtered = data[data['children'] != -1]
children_filtered = children_filtered[children_filtered['children'] != 20]

# Menghitung rata-rata jumlah anak
children_mean = int(children_filtered['children'].mean().round(0))
print('Rata-rata jumlah anak: ' + str(children_mean))

# Mengganti impossible values
children_impossible = [-1, 20]
data['children'].replace(to_replace=children_impossible, value=children_mean, inplace=True)
data['children'] = data['children'].apply(int)


Rata-rata jumlah anak: 0


In [22]:
# Periksa kembali kolom `children` untuk memastikan bahwa semuanya telah diperbaiki
data['children'].sort_values().unique()


array([0, 1, 2, 3, 4, 5])

Seluruh kolom `days_employed` akan dihapus karena _**hanya**_ berisi *impossible values* dan `NaN` yang tidak berpengaruh kepada kalkulasi dan tujuan proyek.

In [23]:
# Temukan data yang bermasalah di `days_employed`, jika memang terdapat masalah, dan hitung persentasenya
# Membuktikan bahwa nilai positif di days_employed merupakan impossible values:
# 1. Mencari nilai positif minimum
# 2. Mengubahnya ke satuan tahun
years_employed = (data[data['days_employed'] > 0]['days_employed'].min()) / 365
print('Durasi kerja positif terkecil di kolom days_employed: ' + str(years_employed.round(0)) + ' tahun')
print()

# Menghitung distribusi data
# Mengelompokkan data ke dalam 3 kategori: negatif, positif, dan NaN
days_employed = data['days_employed']
days_employed_negative_count = 0
days_employed_positive_count = 0
days_employed_nan_count = 0

for value in days_employed:
    if value < 0:
        days_employed_negative_count += 1
    elif value > 0:
        days_employed_positive_count += 1
    else:
        days_employed_nan_count += 1

# Memastikan keutuhan kalkulasi:
# Jika jumlah semua kelompok sama dengan banyaknya baris di data, hasil akan True
# days_employed_negative_count + days_employed_positive_count + days_employed_nan_count == data.shape[0]

# Menampilkan persentase
days_employed_negative_percentage = ((days_employed_negative_count / data['days_employed'].count()) * 100).round(2).astype(str) + '%'
days_employed_positive_percentage = ((days_employed_positive_count / data['days_employed'].count()) * 100).round(2).astype(str) + '%'
days_employed_nan_percentage = ((days_employed_nan_count / data['days_employed'].count()) * 100).round(2).astype(str) + '%'

days_employed_count = [days_employed_negative_count, days_employed_positive_count, days_employed_nan_count]
days_employed_percentage = [days_employed_negative_percentage, days_employed_positive_percentage, days_employed_nan_percentage]

days_employed_distribution_index = ['negative', 'positive', 'nan']
days_employed_distribution_columns = {'count': days_employed_count, 'percentage': days_employed_percentage}

days_employed_distribution = pd.DataFrame(data=days_employed_distribution_columns, index=days_employed_distribution_index)
days_employed_distribution


Durasi kerja positif terkecil di kolom days_employed: 901.0 tahun



Unnamed: 0,count,percentage
negative,15906,82.2%
positive,3445,17.8%
,2174,11.23%


100% nilai di kolom `days_employed` bermasalah, disebabkan oleh kesalahan metode atau *software* pengumpulan data. Seharusnya, data menunjukkan jumlah hari kerja yang masuk akal (0 sampai beberapa tahun di bawah usia nasabah). Data dapat dibiarkan saja atau dihapus.

In [24]:
# Atasi nilai yang bermasalah, jika ada
# Jika perlu, hapus kolom:
# data.drop('days_employed')

In [25]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
# Jika perlu, tampilkan data atau informasinya:
# data
# data.info()


Memeriksa kolom usia nasabah:

In [26]:
# Periksa `dob_years` untuk nilai yang mencurigakan dan hitung persentasenya
print('Usia terendah: ' + str(data['dob_years'].min()))
print('Usia tertinggi: ' + str(data['dob_years'].max()))

# Mengecek apakah ada usia yang tidak masuk akal di atas 0
print('Angka-angka di bawah usia dewasa legal:')
print(data[data['dob_years'] < 18]['dob_years'].unique()) 
# Usia 18 menjadi filter karena merupakan usia dewasa secara legal.
# Anak-anak di bawah usia 18 tahun seharusnya tidak akan bisa mendapatkan pinjaman.



Usia terendah: 0
Usia tertinggi: 75
Angka-angka di bawah usia dewasa legal:
[0]


Seperti yang telah dipaparkan di atas, nilai `0` di kolom `dob_years` dianggap sebagai *missing value* karena bukan nilai yang dapat diterima dan merupakan satu-satunya nilai unik yang tidak masuk akal. Nilai ini akan diganti dengan rata-rata usia seluruh nasabah karena tidak ada *outlier* usia yang signifikan.

In [27]:
# Atasi masalah pada kolom `dob_years`, jika terdapat masalah
# Memfilter data dengan impossible values
dob_years_filtered = data[data['dob_years'] != 0]

# Menghitung rata-rata jumlah anak
dob_years_mean = int(dob_years_filtered['dob_years'].mean().round(0))
print('Rata-rata usia: ' + str(dob_years_mean))

# Mengganti impossible values
data['dob_years'].replace(to_replace=0, value=dob_years_mean, inplace=True)
data['dob_years'] = data['dob_years'].apply(int)


Rata-rata usia: 43


In [28]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
print('Usia terendah: ' + str(data['dob_years'].min()))
print('Usia tertinggi: ' + str(data['dob_years'].max()))
print('Angka-angka di bawah usia dewasa legal:')
print(data[data['dob_years'] < 18]['dob_years'].unique()) 

Usia terendah: 19
Usia tertinggi: 75
Angka-angka di bawah usia dewasa legal:
[]


Memeriksa kolom `family_status`:

In [29]:
# Mari kita lihat nilai untuk kolom ini
data['family_status'].unique()


array(['married', 'civil partnership', 'widow / widower', 'divorced',
       'unmarried'], dtype=object)

In [30]:
# Atasi nilai yang bermasalah di `family_status`, jika ada
# Tidak ada.


Memeriksa kolom `gender`:

In [32]:
# Mari kita liat nilai dalam kolom ini
data['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

In [33]:
# Atasi nilai-nilai yang bermasalah, jika ada

Ada kemungkinan bahwa nasabah disediakan pilihan untuk tidak menyebutkan gendernya, diwakili dengan nilai `'XNA'` (berarti 'prefer not to say', 'non-binary', atau semacamnya). Karena ini, nilai `'XNA'` tidak dianggap sebagai nilai yang hilang.

Memeriksa kolom `income_type`:

In [35]:
# Mari kita lihat nilai dalam kolom ini
print(data['income_type'].value_counts())

# Jika jumlah semua kelompok sama dengan banyaknya baris di data, hasil akan True
# data['income_type'].value_counts().sum() == data.shape[0]

employee                       11119
business                        5085
retiree                         3856
civil servant                   1459
unemployed                         2
entrepreneur                       2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64


In [36]:
# Atasi nilai yang bermasalah, jika ada
# Tidak ada.

Memeriksa duplikat:

In [38]:
# Periksa duplikat
data.duplicated().sum()


71

Ada 71 data duplikat. Dapat diasumsikan bahwa ke-71 data tersebut memang duplikat--bukan entri asli yang secara kebetulan bernilai sama--karena variabel yang ada di dalam data terlalu banyak dan beragam untuk memungkinkan sebuah kebetulan. Data-data ini akan dihapus agar tidak memengaruhi hasil perhitungan.

In [39]:
# Atasi duplikat, jika ada
data = data.drop_duplicates()


In [40]:
# Lakukan pemeriksaan terakhir untuk mengecek apakah kita memiliki duplikat
data.duplicated().sum()


0

In [41]:
# Periksa ukuran dataset yang sekarang Anda miliki setelah manipulasi pertama yang Anda lakukan
data.info()


<class 'pandas.core.frame.DataFrame'>
Int64Index: 21454 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21454 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21454 non-null  int64  
 3   education         21454 non-null  object 
 4   education_id      21454 non-null  int64  
 5   family_status     21454 non-null  object 
 6   family_status_id  21454 non-null  int64  
 7   gender            21454 non-null  object 
 8   income_type       21454 non-null  object 
 9   debt              21454 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21454 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.1+ MB


Data mengalami pengurangan sebanyak 71 baris, sesuai dengan jumlah duplikat yang dihapus. Masih ada nilai NaN di kolom `days_employed` dan `total_income` yang akan ditangani di bagian berikutnya.

# Bekerja dengan nilai yang hilang

Kategorisasi nasabah berdasarkan latar belakang pendidikan (`education`) dan status marital (`family_status`) mungkin akan memudahkan pembuatan keputusan untuk mengisi data yang kosong. Berikut adalah kategorisasi yang ada di dalam data, beserta ID-nya, dalam bentuk dictionary. Dictionary yang digunakan adalah dictionary biasa karena dictionary biasa sejak Python 3.7 mampu menampung *stored values* secara berurutan, sehingga OrderedDict tidak perlu digunakan. 

In [42]:
# Temukan dictionary

In [43]:
# Membuat dictionary `education`
# 1. Mengumpulkan nilai `education_id`
# 2. Membuat dictionary kosong `education_dict`
# 3. Looping: untuk setiap identifier di `education_id`, 
#    `data` difilter agar hanya menampilkan data yang diwakili oleh identifier tersebut,
#    menghasilkan hanya 1 nilai unik dari kolom `education`.
# 4. Nilai dari kolom `education` dipasangkan dengan identifier, lalu ditambahkan ke `education_dict`.

education_id = data['education_id'].unique()
education_dict = {}

for i in education_id:
    i_value = data[data['education_id'] == i]['education'].unique()
    education_dict.update({education_id[i] : i_value[0]})

print(education_dict)

{0: "bachelor's degree", 1: 'secondary education', 2: 'some college', 3: 'primary education', 4: 'graduate degree'}


In [44]:
# Membuat dictionary `family_status`

family_status_id = data['family_status_id'].unique()
family_status_dict = {}

for i in family_status_id:
    i_value = data[data['family_status_id'] == i]['family_status'].unique()
    family_status_dict.update({family_status_id[i] : i_value[0]})

print(family_status_dict)

{0: 'married', 1: 'civil partnership', 2: 'widow / widower', 3: 'divorced', 4: 'unmarried'}


### Memperbaiki nilai yang hilang di `total_income`

Ada dua kolom yang berisi nilai yang hilang: `days_employed` dan `total_income`, masing-masing sebanyak 2174 butir data dalam 2174 baris. 

Nasabah akan dikelompokkan berdasarkan faktor-faktor tertentu, lalu median dari data per kelompok nasabah akan digunakan untuk mengisi nilai yang hilang. Median, bukan rata-rata, dipilih karena jumlah hari kerja dan pendapatan mengandung *outlier*.

In [45]:
# Mari kita tulis sebuah fungsi untuk menghitung kategori usia
def age_group(age):
    """
    The function returns the following age groups for customer's age:
    - 'young' for ages < 22,
    - 'adult' for ages 22 to 64,
    - 'old' for ages > 64.
    Age divisions are based on the median age of entering workforce and retiring in 2020, cited from OECDiLibrary.
    """
    if age < 22:
        return 'young'
    if 22 <= age <= 64:
        return 'adult'
    if age > 64:
        return 'old'


In [46]:
# Lakukan pengujian untuk melihat apakah fungsi Anda bekerja atau tidak
print(age_group(0))
print(age_group(30))
print(age_group(60.01))
print(age_group(10000))
print(age_group(data['dob_years'].min()))
print(age_group(data['dob_years'].max()))

young
adult
adult
old
young
old


In [47]:
# Buatlah kolom baru berdasarkan fungsi
data['age_group'] = data['dob_years'].apply(age_group)


In [48]:
# Periksa bagaimana nilai di dalam kolom baru
print(data['age_group'].value_counts())
data.tail(10)


adult    20383
old        895
young      176
Name: age_group, dtype: int64


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
21515,1,-467.68513,28,secondary education,1,married,0,F,employee,1,17517.812,to become educated,adult
21516,0,-914.391429,42,bachelor's degree,0,married,0,F,business,0,51649.244,purchase of my own house,adult
21517,0,-404.679034,42,bachelor's degree,0,civil partnership,1,F,business,0,28489.529,buying my own car,adult
21518,0,373995.710838,59,secondary education,1,married,0,F,retiree,0,24618.344,purchase of a car,adult
21519,1,-2351.431934,37,graduate degree,4,divorced,3,M,employee,0,18551.846,buy commercial real estate,adult
21520,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,adult
21521,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,old
21522,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.61,property,adult
21523,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,adult
21524,2,-1984.507589,40,secondary education,1,married,0,F,employee,0,13127.587,to buy a car,adult


Faktor dalam data yang mungkin memengaruhi pendapatan adalah:
1. Pendidikan (`education`)
1. Pekerjaan (`income_type`)
1. Gender (`gender`)

Faktor dalam data yang mungkin dipengaruhi oleh pendapatan adalah:
1. Jumlah anak (`children`)
1. Jumlah hari kerja (`days_employed`), tetapi tidak dapat digunakan karena semua nilainya salah/hilang
1. Status pernikahan (`family_status`)
1. Riwayat keterlambatan melunasi utang (`debt`)


In [49]:
# Buat tabel tanpa nilai yang hilang dan tampilkan beberapa barisnya untuk memastikan semuanya berjalan dengan baik
data_no_na = data.dropna()
data_no_na.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,adult
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,adult
2,0,-5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,adult
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,adult
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,adult
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,adult
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,adult
7,0,-152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,adult
8,2,-6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,adult
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,adult


In [50]:
# Perhatikan nilai rata-rata untuk pendapatan berdasarkan faktor yang telah Anda identifikasi
factors_list = ['education', 'income_type', 'children', 'family_status', 'gender', 'debt']

for factor in factors_list:
        print(data_no_na.groupby(factor)['total_income'].mean().reset_index())
        print()


             education  total_income
0    bachelor's degree  33142.802434
1      graduate degree  27960.024667
2    primary education  21144.882211
3  secondary education  24594.503037
4         some college  29045.443644

                   income_type  total_income
0                     business  32386.793835
1                civil servant  27343.729582
2                     employee  25820.841683
3                 entrepreneur  79866.103000
4  paternity / maternity leave   8612.661000
5                      retiree  21940.394503
6                      student  15712.260000
7                   unemployed  21014.360500

   children  total_income
0         0  26419.206510
1         1  27396.494050
2         2  27496.357898
3         3  29322.623993
4         4  27289.829647
5         5  27268.847250

       family_status  total_income
0  civil partnership  26694.428597
1           divorced  27189.354550
2            married  27041.784689
3          unmarried  26934.069805
4    widow / 

In [51]:
# Perhatikan nilai median untuk pendapatan berdasarkan faktor yang telah Anda identifikasi
factors_list = ['education', 'income_type', 'children', 'family_status', 'gender', 'debt']

for factor in factors_list:
        print(data_no_na.groupby(factor)['total_income'].median().reset_index())
        print()


             education  total_income
0    bachelor's degree    28054.5310
1      graduate degree    25161.5835
2    primary education    18741.9760
3  secondary education    21836.5830
4         some college    25618.4640

                   income_type  total_income
0                     business    27577.2720
1                civil servant    24071.6695
2                     employee    22815.1035
3                 entrepreneur    79866.1030
4  paternity / maternity leave     8612.6610
5                      retiree    18962.3180
6                      student    15712.2600
7                   unemployed    21014.3605

   children  total_income
0         0    23032.5720
1         1    23670.8840
2         2    23143.7700
3         3    25155.4480
4         4    24981.6340
5         5    29816.2255

       family_status  total_income
0  civil partnership     23186.534
1           divorced     23515.096
2            married     23389.540
3          unmarried     23149.028
4    widow / 

Berdasarkan data di atas, faktor yang paling menentukan pendapatan nasabah adalah `education` dan `income_type`, terbukti dengan nilai rata-rata/median `total_income` yang berbeda jauh dalam setiap kelompok. Nilai yang akan digunakan untuk mengisi *missing values* adalah median per income_type. Median dipilih karena nilai `total_income` memiliki outlier. `income_type` dipilih karena dianggap memiliki lebih berkaitan langsung dengan pendapatan daripada `education`.


In [52]:
#  Tulis fungsi yang akan kita gunakan untuk mengisi nilai yang hilang

def fill_missing_values(dataframe, agg_column, value_column):
    """
    Fungsi untuk mengisi nilai `value_column` yang hilang di `dataframe`
    dengan mengambil median dari `value_column` 
    untuk setiap kelompok yang ada di bawah kolom `agg_column`.
    """
    grouped_values = dataframe.groupby(agg_column)[value_column].median().reset_index()
    size = len(grouped_values)
    for i in range(size):
        group = grouped_values.loc[i, agg_column]
        value = grouped_values.loc[i, value_column]
        dataframe.loc[(dataframe[agg_column] == group) & (dataframe[value_column].isna()), value_column] = value
    return dataframe


In [53]:
# Terapkan fungsi tersebut ke setiap baris
data = fill_missing_values(data, 'income_type', 'total_income')

In [54]:
# Periksa apakah kita mendapatkan kesalahan
# Karena nilai kosong diisi menggunakan median,
# nilai median di data tanpa NaN dan data yang telah diisi akan sama.
# Jika tidak ada kesalahan, kode di bawah akan bernilai True:
total_income_median_old = data_no_na.groupby('income_type')['total_income'].median().reset_index()
total_income_median_new = data.groupby('income_type')['total_income'].median().reset_index()
total_income_median_old == total_income_median_new


Unnamed: 0,income_type,total_income
0,True,True
1,True,True
2,True,True
3,True,True
4,True,True
5,True,True
6,True,True
7,True,True


In [55]:
# Ganti nilai yang hilang jika terdapat kesalahan
# Tidak ada.

Memeriksa keutuhan jumlah data:

In [56]:
# Periksa jumlah entri di kolom
# Banyaknya nilai di `total_income` sama dengan di kolom lain/seluruh dataframe:
len(data['total_income']) == len(data)


True

###  Memperbaiki nilai di `days_employed`

Faktor dalam data yang mungkin memengaruhi jumlah hari kerja adalah:
1. Pendidikan (`education`)
1. Gender (`gender`)
1. Pekerjaan (`income_type`)

Faktor dalam data yang mungkin dipengaruhi oleh pendapatan adalah:
1. Jumlah anak (`children`)
1. Status pernikahan (`family_status`)
1. Pendapatan per bulan (`total_income`), tetapi tidak dapat digunakan karena awalnya hilang
1. Kelompok usia (`age_group`)

In [57]:
# Distribusi rata-rata dari `days_employed` berdasarkan parameter yang Anda identifikasi
factors_list = ['education', 'income_type', 'children', 'family_status', 'age_group']

for factor in factors_list:
        print(data_no_na.groupby(factor)['days_employed'].mean().reset_index())
        print()


             education  days_employed
0    bachelor's degree   38323.055702
1      graduate degree  116630.048157
2    primary education  127842.088750
3  secondary education   72538.686698
4         some college   17692.508357

                   income_type  days_employed
0                     business   -2111.524398
1                civil servant   -3399.896902
2                     employee   -2326.499216
3                 entrepreneur    -520.848083
4  paternity / maternity leave   -3296.759962
5                      retiree  365003.491245
6                      student    -578.751554
7                   unemployed  366413.652744

   children  days_employed
0         0   88389.307573
1         1   19020.664653
2         2    1274.234500
3         3    5075.166414
4         4    9631.442976
5         5   -1432.348601

       family_status  days_employed
0  civil partnership   54587.019762
1           divorced   64819.140232
2            married   59202.282275
3          unmarried  

In [58]:
# Distribusi median dari `days_employed` berdasarkan parameter yang Anda identifikasi
factors_list = ['education', 'income_type', 'children', 'family_status', 'age_group']

for factor in factors_list:
        print(data_no_na.groupby(factor)['days_employed'].median().reset_index())
        print()


             education  days_employed
0    bachelor's degree   -1342.373432
1      graduate degree   -1380.316041
2    primary education    -551.062561
3  secondary education   -1184.327177
4         some college   -1046.437583

                   income_type  days_employed
0                     business   -1547.382223
1                civil servant   -2689.368353
2                     employee   -1574.202821
3                 entrepreneur    -520.848083
4  paternity / maternity leave   -3296.759962
5                      retiree  365213.306266
6                      student    -578.751554
7                   unemployed  366413.652744

   children  days_employed
0         0   -1036.804889
1         1   -1416.141843
2         2   -1634.342227
3         3   -1681.245021
4         4   -1866.426406
5         5   -1231.571486

       family_status  days_employed
0  civil partnership   -1197.176853
1           divorced   -1146.122484
2            married   -1332.196271
3          unmarried  

Median per kelompok `income_type` akan digunakan untuk menggantikan nilai kosong karena data memiliki *outlier* dan karena `income_type` adalah kelompok yang paling representatif.

In [59]:
# Mari tulis fungsi yang menghitung rata-rata atau median (tergantung keputusan Anda) berdasarkan parameter yang Anda identifikasi
# Sudah didefinisikan di atas.

In [60]:
# Terapkan fungsi ke days_employed
data = fill_missing_values(data, 'income_type', 'days_employed')


In [61]:
# Periksa apakah kita mendapatkan kesalahan
# Karena nilai kosong diisi menggunakan median,
# nilai median di data tanpa NaN dan data yang telah diisi akan sama.
# Jika tidak ada kesalahan, kode di bawah akan bernilai True:
days_employed_median_old = data_no_na.groupby('income_type')['days_employed'].median().reset_index()
days_employed_median_new = data.groupby('income_type')['days_employed'].median().reset_index()
days_employed_median_old == days_employed_median_new


Unnamed: 0,income_type,days_employed
0,True,True
1,True,True
2,True,True
3,True,True
4,True,True
5,True,True
6,True,True
7,True,True


Memeriksa keutuhan jumlah data:

In [62]:
# Banyaknya nilai di `total_income` sama dengan di kolom lain/seluruh dataframe:
len(data['days_employed']) == len(data)


True

In [63]:
# Periksa entri di semua kolom - pastikan kita memperbaiki semua nilai yang hilang
data.info()


<class 'pandas.core.frame.DataFrame'>
Int64Index: 21454 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21454 non-null  int64  
 1   days_employed     21454 non-null  float64
 2   dob_years         21454 non-null  int64  
 3   education         21454 non-null  object 
 4   education_id      21454 non-null  int64  
 5   family_status     21454 non-null  object 
 6   family_status_id  21454 non-null  int64  
 7   gender            21454 non-null  object 
 8   income_type       21454 non-null  object 
 9   debt              21454 non-null  int64  
 10  total_income      21454 non-null  float64
 11  purpose           21454 non-null  object 
 12  age_group         21454 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.3+ MB


## Pengkategorian Data

Untuk memudahkan analisis dan pengambilan keputusan, kolom `purpose` perlu dikategorisasi karena memiliki isi yang disampaikan dengan nilai unik walau makna umumnya sama. 

`total_income` perlu dikategorikan karena mengandung banyak nilai unik.

In [64]:
# Tampilkan nilai data yang Anda pilih untuk pengkategorian
data['purpose']


0          purchase of the house
1                   car purchase
2          purchase of the house
3        supplementary education
4              to have a wedding
                  ...           
21520       housing transactions
21521          purchase of a car
21522                   property
21523          buying my own car
21524               to buy a car
Name: purpose, Length: 21454, dtype: object

Memeriksa nilai unik:

In [65]:
# Periksa nilai unik
# Nilai unik ditampilkan menggunakan value_counts() agar distribusinya terlihat juga
data['purpose'].value_counts()

wedding ceremony                            791
having a wedding                            768
to have a wedding                           765
real estate transactions                    675
buy commercial real estate                  661
housing transactions                        652
buying property for renting out             651
transactions with commercial real estate    650
housing                                     646
purchase of the house                       646
purchase of the house for my family         638
construction of own property                635
property                                    633
transactions with my real estate            627
building a real estate                      624
buy real estate                             621
purchase of my own house                    620
building a property                         619
housing renovation                          607
buy residential real estate                 606
buying my own car                       

Nilai di kolom `purpose` dapat dikelompokkan menjadi beberapa kategori umum berikut:
1. Wedding
1. Real estate
1. Education
1. Car


In [66]:
# Mari kita tulis sebuah fungsi untuk mengategorikan data berdasarkan topik umum
real_estate_keywords = ['real estate', 'hous', 'property']
education_keywords = ['educat', 'university']

def group_purpose(purpose_column):
    """
    Mengelompokkan nilai di `purpose_column` ke kategori
    'wedding', 'education', 'car', 'real estate', atau 'other'
    berdasarkan kata kunci di string nilai `purpose_column`.
    """
    try:
        if 'wedding' in purpose_column:
            return 'wedding'
        if 'car' in purpose_column:
            return 'car'
        for keyword in education_keywords:
            if keyword in purpose_column:
                return 'education'
        for keyword in real_estate_keywords:
            if keyword in purpose_column:
                return 'real estate'
    except:
        return 'other'


In [67]:
# Buat kolom yang memuat kategori dan hitung nilainya
data['purpose_category'] = data['purpose'].apply(group_purpose)
data['purpose_category'].value_counts()


real estate    10811
car             4306
education       4013
wedding         2324
Name: purpose_category, dtype: int64

Mengategorikan pendapatan:

In [68]:
# Lihat semua data numerik di kolom yang Anda pilih untuk pengkategorian
data['total_income']

0        40620.102
1        17932.802
2        23341.752
3        42820.568
4        25378.572
           ...    
21520    35966.698
21521    24959.969
21522    14347.610
21523    39054.888
21524    13127.587
Name: total_income, Length: 21454, dtype: float64

In [69]:
# Dapatkan kesimpulan statistik untuk kolomnya
print(data['total_income'].min())
print(data['total_income'].max())
print(data['total_income'].mean())
print(data['total_income'].median())


3306.762
362496.645
26451.212928894376
22815.103499999997


Nasabah akan dibagi ke dalam 5 kategori pendapatan dengan prinsip *income quintile grouping* yang membagi populasi data menjadi 5 kategori, masing-masing berisi 20% populasi yang memiliki tingkat pendapatan sejenis:
1. Poor: 20% populasi dengan pendapatan terendah
1. Lower middle-class
1. Middle-class
1. Upper middle-class
1. Rich: 20% populasi dengan pendapatan tertinggi

*Income quintile groups* digunakan karena dapat mengelompokkan nasabah ke dalam grup yang objektif dan cukup representatif. Selain itu, *income quintile groups* juga umum digunakan untuk survei pendapatan skala besar di banyak negara.


In [70]:
# Buat fungsi yang melakukan pengkategorian menjadi kelompok numerik yang berbeda berdasarkan rentang
data_income_sorted = data['total_income'].sort_values(ascending=True)
data_income_categories = pd.qcut(data_income_sorted, 5, labels=['poor', 'lower middle-class', 'middle-class', 'upper middle-class', 'rich'])
data_income_categories


14585    poor
13006    poor
16174    poor
1598     poor
14276    poor
         ... 
17178    rich
20809    rich
9169     rich
19606    rich
12412    rich
Name: total_income, Length: 21454, dtype: category
Categories (5, object): ['poor' < 'lower middle-class' < 'middle-class' < 'upper middle-class' < 'rich']

In [71]:
# Buat kolom yang memuat kategori
data['income_category'] = data_income_categories


In [72]:
# Hitung setiap nilai kategori untuk melihat pendistribusiannya
data['income_category'].value_counts()


poor                  4291
lower middle-class    4291
upper middle-class    4291
rich                  4291
middle-class          4290
Name: income_category, dtype: int64

## Memeriksa hipotesis


**Apakah terdapat korelasi antara memiliki anak dengan melakukan pelunasan tepat waktu?**

In [73]:
data_debt = data[data['debt'] == 1]


In [74]:
# Periksa data anak dan data pelunasan tepat waktu
print('Distribusi jumlah anak:')
print(data['children'].value_counts())
print()
print('Distribusi pelunasan pinjaman:')
print(data['debt'].value_counts())

# Hitung gagal bayar berdasarkan jumlah anak
debt_by_children = data[data['debt'] == 1]['children'].value_counts()
debt_by_children_percentage = ((debt_by_children / (data[data['debt'] == 1]['debt'].sum())) * 100).round(2).astype(str) + '%'
debt_by_children_df = pd.DataFrame(data=[debt_by_children, debt_by_children_percentage], index=['debt', 'percentage'])
debt_by_children_df = debt_by_children_df.transpose()
debt_by_children_df


Distribusi jumlah anak:
0    14214
1     4808
2     2052
3      330
4       41
5        9
Name: children, dtype: int64

Distribusi pelunasan pinjaman:
0    19713
1     1741
Name: debt, dtype: int64


Unnamed: 0,debt,percentage
0,1072,61.57%
1,444,25.5%
2,194,11.14%
3,27,1.55%
4,4,0.23%


**Kesimpulan**

Jumlah anak memiliki korelasi negatif terhadap ketepatan waktu pelunasan pinjaman. Hal ini berarti bahwa, berlawanan dengan hipotesis, peningkatan dalam jumlah anak berhubungan dengan menurunnya kemungkinan terlambat melunasi pinjaman. Dugaan penyebabnya adalah nasabah dengan lebih banyak anak lebih mampu mengatur keuangan dibanding nasabah ber-anak lebih sedikit yang dapat lebih leluasa menggunakan uang.

**Apakah terdapat korelasi antara status keluarga dengan pelunasan tepat waktu?**

In [75]:
# Periksa data status keluarga dan pelunasan tepat waktu
print('Distribusi status pernikahan:')
print(data['family_status'].value_counts())
print()
print('Distribusi pelunasan pinjaman:')
print(data['debt'].value_counts())

# Hitung gagal bayar berdasarkan status keluarga
debt_by_family_status = data[data['debt'] == 1]['family_status'].value_counts()
debt_by_family_status_percentage = ((debt_by_family_status / (data[data['debt'] == 1]['debt'].sum())) * 100).round(2).astype(str) + '%'
debt_by_family_status_df = pd.DataFrame(data=[debt_by_family_status, debt_by_family_status_percentage], index=['debt', 'percentage'])
debt_by_family_status_df = debt_by_family_status_df.transpose()
debt_by_family_status_df


Distribusi status pernikahan:
married              12339
civil partnership     4151
unmarried             2810
divorced              1195
widow / widower        959
Name: family_status, dtype: int64

Distribusi pelunasan pinjaman:
0    19713
1     1741
Name: debt, dtype: int64


Unnamed: 0,debt,percentage
married,931,53.48%
civil partnership,388,22.29%
unmarried,274,15.74%
divorced,85,4.88%
widow / widower,63,3.62%


**Kesimpulan**

Ada hubungan antara status pernikahan dengan ketepatan waktu melunasi utang. Dapat diamati bahwa lebih banyak nasabah yang terlambat melunasi pinjaman memiliki pasangan (berstatus `married` atau berada dalam `civil partnership`). Hal ini sesuai dengan hipotesis. Berbeda dengan anak-anak sebagai tanggungan, pasangan mungkin memiliki lebih banyak kebebasan dalam menggunakan uang bersama, memungkinkan terjadinya keterlambatan dalam melunasi pinjaman.


**Apakah terdapat korelasi antara tingkat pendapatan dengan membayar kembali tepat waktu?**

In [76]:
# Periksa data tingkat pendapatan dan pelunasan tepat waktu
print('Distribusi kelompok pendapatan:')
print(data['income_category'].value_counts())
print()
print('Distribusi pelunasan pinjaman:')
print(data['debt'].value_counts())

# Hitung gagal bayar berdasarkan tingkat pendapatan
debt_by_income_category = data[data['debt'] == 1]['income_category'].value_counts()
debt_by_income_category_percentage = ((debt_by_income_category / (data[data['debt'] == 1]['debt'].sum())) * 100).round(2).astype(str) + '%'
debt_by_income_category_df = pd.DataFrame(data=[debt_by_income_category, debt_by_income_category_percentage], index=['debt', 'percentage'])
debt_by_income_category_df = debt_by_income_category_df.transpose()
debt_by_income_category_df


Distribusi kelompok pendapatan:
poor                  4291
lower middle-class    4291
upper middle-class    4291
rich                  4291
middle-class          4290
Name: income_category, dtype: int64

Distribusi pelunasan pinjaman:
0    19713
1     1741
Name: debt, dtype: int64


Unnamed: 0,debt,percentage
middle-class,375,21.54%
lower middle-class,361,20.74%
upper middle-class,361,20.74%
poor,344,19.76%
rich,300,17.23%


**Kesimpulan**

Dapat diamati bahwa ada kaitan di antara tingkat pendapatan nasabah dengan ketepatan waktu pelunasan. Sesuai hipotesis, dari seluruh nasabah di data, nasabah yang berada di *quintile* teratas (`rich`) memiliki kemungkinan lebih kecil untuk terlambat melunasi pinjaman. Persebaran keterlambatan di *quintile* lain tidak terlalu berbeda jauh.

**Bagaimana tujuan kredit memengaruhi tingkat gagal bayar?**

In [77]:
# Periksa persentase tingkat gagal bayar untuk setiap tujuan kredit dan lakukan penganalisisan
debt_by_purpose_category = data[data['debt'] == 1]['purpose_category'].value_counts()
debt_by_purpose_category_percentage = ((debt_by_purpose_category / (data[data['debt'] == 1]['debt'].sum())) * 100).round(2).astype(str) + '%'
debt_by_purpose_category_df = pd.DataFrame(data=[debt_by_purpose_category, debt_by_purpose_category_percentage], index=['debt', 'percentage'])
debt_by_purpose_category_df = debt_by_purpose_category_df.transpose()
debt_by_purpose_category_df


Unnamed: 0,debt,percentage
real estate,782,44.92%
car,403,23.15%
education,370,21.25%
wedding,186,10.68%


**Kesimpulan**

Sesuai dengan hipotesis, tujuan memiliki pengaruh pada ketepatan waktu pelunasan pinjaman. Dari empat kategori tujuan yang ada di data, nasabah yang meminjam untuk tujuan material (properti dan mobil) memiliki tingkat keterlambatan paling tinggi, sementara mereka yang meminjam untuk tujuan nonmaterial (pendidikan dan pernikahan) menduduki peringkat keterlambatan lebih rendah. 


# Kesimpulan umum 

Laporan telah diselesaikan dengan penemuan sbb.:
1. Nasabah yang memiliki banyak anak berisiko lebih rendah untuk terlambat melunasi pinjaman dibanding nasabah yang memiliki sedikit anak.
1. Nasabah yang memiliki pasangan berisiko lebih tinggi untuk terlambat melunasi pinjaman jika dibandingkan dengan nasabah yang tidak memiliki pasangan (karena belum menikah, sudah bercerai, atau pasangannya sudah meninggal).
1. Nasabah dengan penghasilan tinggi berisiko lebih rendah untuk terlambat melunasi pinjaman jika dibandingkan dengan nasabah yang berpenghasilan menengah atau rendah.
1. Nasabah yang meminjam untuk tujuan material/barang berisiko lebih tinggi untuk terlambat melunasi pinjaman jika dibandingkan dengan nasabah yang meminjam untuk tujuan nonmaterial.

Kesimpulan di atas dapat dimanfaatkan sebagai dasar pertimbangan saat menentukan *credit scoring* nasabah.

Untuk mendapatkan kesimpulan tsb., analisis menggunakan data nasabah yang terdiri dari 12 jenis informasi:
- `children` - jumlah anak dalam keluarga
- `days_employed` - pengalaman kerja nasabah dalam hari
- `dob_years` - usia nasabah dalam tahun
- `education` - tingkat pendidikan nasabah
- `education_id` - pengidentifikasi untuk tingkat pendidikan nasabah
- `family_status` - pengidentifikasi untuk status perkawinan nasabah
- `family_status_id` - tanda pengenal status perkawinan
- `gender` - jenis kelamin nasabah
- `income_type` - jenis pekerjaan
- `debt` - apakah nasabah memiliki hutang pembayaran pinjaman
- `total_income` - pendapatan bulanan
- `purpose` - tujuan mendapatkan pinjaman.

Data awal terdiri dari 21.525 baris. Dari 21.525 baris data dalam 12 kolom, terdapat beberapa masalah berupa nilai yang hilang (*missing values*) atau nilai yang tidak mungkin (*impossible values*):
1. 12 baris memiliki nilai jumlah anak negatif (`-1`) di kolom `children`, dan 76 baris memiliki jumlah anak yang diragukan (`20`).
1. Seluruh kolom `days_employed` berisi nilai yang tidak mungkin (seperti jumlah hari kerja negatif atau melebihi usia nasabah), dan 2.174 baris memiliki nilai `NaN` di kolom `days_employed` dan `total_income`.
1. 101 baris memiliki nilai umur `0` di `dob_years`.
1. 71 baris adalah duplikat.

Data dibersihkan dari masalah di atas dengan cara berikut:
1. Mengganti nilai `-1` dan `20` di kolom anak dengan nilai rata-rata jumlah anak seluruh nasabah (`0`).
1. Mengganti nilai yang hilang di kolom `days_employed` dan `total_income` dengan median per kelompok pekerjaan (`income_type`) nasabah.
1. Mengganti nilai `0` di kolom usia dengan rata-rata usia nasabah.
1. Menghapus seluruh nilai duplikat, mengurangi ukuran data menjadi 21.454 baris.

Seluruh masalah dalam data sangat mungkin disebabkan oleh kesalahan dalam pengumpulan atau penyimpanan data. Untuk mencegah terulangnya masalah ini, prosedur pengumpulan data dan kualitas penyimpanan data perlu dipastikan.

Setelah data dibersihkan, analisis dilakukan dengan membagi data menjadi beberapa kategori berdasarkan faktor-faktor dugaan, lalu mengamati persebarannya.
