# Menganalisis Risiko Gagal Bayar Peminjam



# Konten <a id='back_to_content'></a>

* [Pendahuluan](#intro)
* [Tahap 1. Ikhtisar Data](#data_review)
    * [Tahap 1.1 Memahami Data]
    * [Tahap 1.2 Eksplorasi Data Awal]
    * [Tahap 1.3 Kesimpulan](#data_review_conclusion)
* [Tahap 2. Pra-Pemrosesan Data](#data_preprocessing)
    * [Tahap 2.1 Gaya Penulisan Judul](#header_style)
    * [Tahap 2.2 Penanganan Duplikasi](#duplicates)
    * [Tahap 2.3 Penanganan Nilai Yang Hilang](#missing_values)
    * [Tahap 2.4 Kesimpulan](#data_preprocessing_conclusion)
* [Tahap 3. Analisis Data dan Temuan Serta Hipotesis](#hypotheses)
    * [Tahap 3.1 Pengkategorian Data](#income)
    * [Tahap 3.2 Faktor-faktor Yang Berpengaruh Pada Gagal Bayar Pinjaman](#failed_loans)
    * [Tahap 3.3 Analisis Berdasarkan Tujuan Kredit](#purpose)
    * [Tahap 3.4 Kesimpulan Analisis Data]
* [Tahap 4. Kesimpulan](#end)

# Pendahuluan <a id='intro'></a>

Dalam dunia keuangan dan analisis data, pemahaman mendalam tentang profil nasabah menjadi hal yang sangat penting untuk mengambil keputusan yang tepat. Data nasabah yang terstruktur dan terorganisasi dengan baik dapat memberikan wawasan yang berharga tentang perilaku keuangan nasabah, yang pada akhirnya dapat membantu dalam pengambilan keputusan yang lebih tepat dan strategis. Didalam proyek ini, kita akan melakukan analisis terhadap dataset yang mencakup informasi tentang nasabah, termasuk detail keuangan dan karakteristik pribadi nasabah. Tujuan akhir dari proyek ini adalah untuk mengidentifikasi pola-pola yang kemungkinan dapat mempengaruhi seorang nasabah dalam mengalami masalah pembayaran pinjaman.

# Tujuan

Proyek ini bertujuan untuk menganalisis data kelayakan pemberian pinjaman kepada nasabah bank. Tujuan utama dari proyek ini adalah untuk melakukan pemahaman mendalam tentang data yang diberikan, mengeksplorasi potensi masalah seperti nilai-nilai yang hilang, duplikasi, dan kesalahan lainnya, serta melakukan analisis terhadap faktor-faktor yang berpotensi mempengaruhi kelayakan pemberian pinjaman. Beberapa tujuan khusus dari proyek ini antara lain:
1. Pemahaman Data: Melakukan eksplorasi awal terhadap dataset untuk memahami karakteristik, variabel-variabel, serta hubungan antar variabel.
2. Pemrosesan Data: Menangani nilai-nilai yang hilang, duplikasi, dan masalah pemformatan data lainnya agar data siap untuk analisis lebih lanjut.
3. Analisis Faktor-Faktor: Menganalisis faktor-faktor seperti tingkat pendapatan, status keluarga, tujuan pinjaman, dan lainnya untuk mengidentifikasi pola dan hubungan yang berkaitan dengan kelayakan pemberian pinjaman.
4. Pengambilan Keputusan: Berdasarkan analisis, mengambil keputusan strategis terkait kebijakan pemberian pinjaman, termasuk pemahaman tentang risiko-risiko yang mungkin muncul.
5. Kesimpulan dan Rekomendasi: Merangkum hasil analisis dan memberikan rekomendasi berdasarkan temuan yang ditemukan.

# Tahapan

Di sini kita akan melakukan analisa dataset pada `/datasets/credit_scoring_eng.csv`.  
Proyek ini terdiri dari tiga tahap:
 1. Ikhtisar Data
 2. Pra-pemrosesan data
 3. Pengujian hipotesis

[Kembali ke Konten](#back_to_content)

# 1. Ikhtisar Data <a id='data review'></a>


In [1]:
# Muat semua library
import pandas as pd

In [2]:
# Muat datanya
path = '/datasets/credit_scoring_eng.csv'
df = pd.read_csv(path) 

# 1.1 Memahami Data

**Deskripsi data**
- `children` - jumlah anak dalam keluarga
- `days_employed` - pengalaman kerja nasabah dalam hari
- `dob_years` - usia nasabah dalam tahun
- `education` - tingkat pendidikan nasabah
- `education_id` - pengidentifikasi untuk tingkat pendidikan nasabah
- `family_status` - status perkawinan
- `family_status_id` - pengidentifikasi untuk status perkawinan nasabah
- `gender` - jenis kelamin nasabah
- `income_type` - jenis pekerjaan
- `debt` - apakah nasabah pernah melakukan gagal bayar pinjaman
- `total_income` - pendapatan bulanan
- `purpose` - tujuan mendapatkan pinjaman


In [3]:
# Mari kita lihat berapa banyak baris dan kolom yang dimiliki oleh dataset kita
df.shape

(21525, 12)

In [4]:
# Mari tampilkan N baris pertama
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding


# * Temuan dari DataFrame
1. Untuk column days_employed ada data yang nilainya negatif dan data nilai yang sangat tinggi sekali, ini sangat mencurigakan dan tampak tidak wajar. Harus diperiksa apakah ada kesalahan dalam pengumpulan data atau ada masalah dengan cara menghitung lama bekerja.
2. Untuk coulumn education penulisan gelar tidak konsisten seharusnya menggunakan huruf kecil semua, jadi ada yang dikonversi menjadi huruf kecil.
3. Untuk coulumn total_income perlu dicheck apakah ada nilai yang hilang atau tidak valid.


In [5]:
# Dapatkan informasi data
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


# * Temuan
1. Terdapat nilai yang hilang (missing values) di beberapa kolom. Kolom yang memiliki nilai yang hilang adalah 'days_employed' dan 'total_income'. 
2. Jumlah total data pada kolom 'days_employed' adalah 19,351 , sementara pada kolom 'total_income' juga memiliki 19,351 data. 
3. Dimana seharusnya kedua kolom tersebut seharusnya memiliki nilai 21525. Jadi ada sebanyak 2174 yang hilang.


# 1.2 Eksplorasi Data Awal

In [6]:
# Mari kita lihat tabel yang telah difilter dengan nilai yang hilang di kolom pertama yang mengandung data yang hilang
df_with_missing_values = df.loc[df['days_employed'].isnull(), :]
# Menampilkan tabel hasil filter
df_with_missing_values.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding


In [7]:
df.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [8]:
df_with_missing_values.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [9]:
# Mari kita terapkan beberapa kondisi untuk memfilter data dan melihat jumlah baris dalam tabel yang telah difilter.
df_with_missing_values = df.loc[(df['days_employed'].isnull()) & (df['total_income'].isnull()), :]
df_with_missing_values.shape

(2174, 12)

# * Temuan
1. Dari ke dua tabel yang kita tampilkan, terdapat sebanyak 2174 nilai yang hilang.
2. Missing valuenya tampaknya simetris karena setelah difilter dikolom days_employed, jumlah missing values di kolom total_income juga sama.

In [10]:
# Menghitung persentase nilai yang hilang dalam keseluruhan dataset:
df_with_missing_values.isnull().sum() / df.shape[0] * 100

children             0.000000
days_employed       10.099884
dob_years            0.000000
education            0.000000
education_id         0.000000
family_status        0.000000
family_status_id     0.000000
gender               0.000000
income_type          0.000000
debt                 0.000000
total_income        10.099884
purpose              0.000000
dtype: float64

# * Asumsi 

 1. Sebelum mengisi nilai yang hilang, kita harus mempertimbangkan apakah data yang hilang bisa jadi disebabkan oleh karakteristik nasabah tertentu, seperti jenis pekerjaan atau yang lainnya. Hal ini dapat membantu kita mengidentifikasi kemungkinan sumber atau pola yang menyebabkan nilai hilang pada kolom tertentu.
 2. Kita juga perlu memeriksa apakah ada ketergantungan nilai yang hilang pada nilai indikator lain dengan kolom-kolom yang mengidentifikasikan karakteristik tertentu nasabah. Misalnya, apakah ada keterkaitan antara nilai hilang pada kolom 'total_income' dengan jenis pekerjaan atau tujuan pinjaman peminjam.

# 1.3 Kesimpulan sementara

Jumlah baris dalam tabel yang telah difilter sesuai dengan jumlah nilai yang hilang di kolom 'days_employed' dan 'total_income'. Terdapat 2174 baris data yang memiliki nilai yang hilang di kedua kolom tersebut.


Kesimpulannya sebagai berikut:

1. Jumlah baris dalam tabel yang telah difilter sesuai dengan jumlah nilai yang hilang di kolom 'days_employed' dan   'total_income'. Jadi, data telah berhasil difilter dengan benar.

2. Persentase nilai yang hilang cukup besar karena kita memiliki nilai yang hilang di seluruh data yang diberikan.

Mempertimbangkan karakteristik tertentu nasabah yang mungkin menyebabkan data yang hilang. Misalnya, kita dapat mencari apakah jenis pekerjaan tertentu cenderung memiliki nilai yang hilang lebih banyak.

Memeriksa apakah ada ketergantungan nilai yang hilang pada indikator lain, seperti jenis pekerjaan atau status keluarga, yang dapat membantu mengidentifikasi pola atau hubungan terkait nilai yang hilang.


# * Langkah Selanjutnya:

* Melakukan Analisis Lebih Mendalam:
Langkah selanjutnya adalah melakukan analisis yang lebih mendalam pada data yang memiliki nilai hilang, terutama pada kolom days_employed' dan 'total_income' serta melakukan pra-pemrosesan data.


# Tahap 2 Pra-pemrosesan Data
* Di tahap ini kita akan coba menggunakan asumsi DataFrame yang akan kita buat, yaitu df_with_missing dan df. Masing-masing akan diuji untuk pra-pemrosesan data.

In [11]:
# Mari kita periksa nasabah yang tidak memiliki data tentang karakteristik yang teridentifikasi dan kolom dengan nilai yang hilang

# Memeriksa nasabah tanpa data karakteristik teridentifikasi (misalnya, jenis pekerjaan)

df_with_missing_values = df[df.isnull().any(axis=1)]
df_with_missing_values
# deklarasi data tanpa nilai hilang
df_not_null = df.dropna()

In [12]:
# Memeriksa baris dengan nilai hilang pada kolom 'days_employed' dan 'total_income'
df.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [13]:
# Periksalah distribusinya
count_non_null = df_with_missing_values.count()
percentage_non_null = (count_non_null / len(df_with_missing_values)) * 100
distribution_info = pd.DataFrame({
    'Count': count_non_null,
    'Percentage': percentage_non_null.map('{:.2f}%'.format)
})
distribution_info

Unnamed: 0,Count,Percentage
children,2174,100.00%
days_employed,0,0.00%
dob_years,2174,100.00%
education,2174,100.00%
education_id,2174,100.00%
family_status,2174,100.00%
family_status_id,2174,100.00%
gender,2174,100.00%
income_type,2174,100.00%
debt,2174,100.00%


# * Nilai Distribusi Kolom
* Distribusi yang kita dapatkan yaitu berupa persentase yang didapat pada masing-masing DataFrame. Hal ini bertujuan apakah setelah kita lakukan pra-pemrosesan data tetap memiliki dampak atau tidak jika kita memisahkan jenisa DataFrame yang nilainya hilang dan tanpa nilai hilang.

In [14]:
# distribusi df(dataset asli)
data_count = df["income_type"].value_counts()
data_percent = df["income_type"].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : data_percent, "count" : data_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
employee,51.66%,11119
business,23.62%,5085
retiree,17.91%,3856
civil servant,6.78%,1459
entrepreneur,0.01%,2
unemployed,0.01%,2
student,0.0%,1
paternity / maternity leave,0.0%,1


In [15]:
# distribusi dataset yang ada nilai null 
data_count = df_with_missing_values["income_type"].value_counts()
data_percent = df_with_missing_values["income_type"].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : data_percent, "count" : data_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
employee,50.83%,1105
business,23.37%,508
retiree,19.0%,413
civil servant,6.76%,147
entrepreneur,0.05%,1


In [16]:
# distribusi dataset tanpa nilai null
data_count = df_not_null["income_type"].value_counts()
data_percent = df_not_null["income_type"].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : data_percent, "count" : data_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
employee,51.75%,10014
business,23.65%,4577
retiree,17.79%,3443
civil servant,6.78%,1312
unemployed,0.01%,2
paternity / maternity leave,0.01%,1
entrepreneur,0.01%,1
student,0.01%,1


# * Temuan
* Kita bisa lihat ternyata memang tepat, DataFrame memiliki ketergantungan jika kita manipulasi kondisi di dalam DataFrame tersebut.

In [17]:
# Periksalah distribusinya
# Cek distribusi di kolom education_id missing
df_with_missing_values['education_id'].value_counts(normalize=True)


1    0.708372
0    0.250230
2    0.031739
3    0.009660
Name: education_id, dtype: float64

In [18]:
df['education_id'].value_counts(normalize=True)

1    0.707689
0    0.244367
2    0.034564
3    0.013101
4    0.000279
Name: education_id, dtype: float64

# Beberapa hal yang perlu diperhatikan:

1. Standarisasi penggunaan huruf kecil untuk kolom education
    
2. Terdapat nilai negatif pada kolom 'days_employed', yang tidak masuk akal karena hari bekerja tidak bisa negatif. Kemungkinan terdapat kesalahan dalam pengisian atau representasi data ini.
3. Terdapat nilai yang ekstrem (outlier) pada kedua kolom, yaitu nilai maksimum yang sangat tinggi, yang perlu diperiksa lebih lanjut apakah data tersebut valid atau ada kesalahan dalam pengisian.

Penting untuk melakukan pemeriksaan lebih lanjut pada data untuk menangani nilai-nilai aneh, dan melakukan pra-pemrosesan data seperti pengisian data yang hilang, penanganan outlier, dan lain-lain.


In [19]:
# Memeriksa distribusi di seluruh dataset
# Cek distribusi di kolom family_status_id missing
df_with_missing_values['family_status_id'].value_counts(normalize=True)

0    0.568997
1    0.203312
4    0.132475
3    0.051518
2    0.043698
Name: family_status_id, dtype: float64

In [20]:
# Cek distribusi di kolom income_type missing
df_with_missing_values['income_type'].value_counts(normalize=True)

employee         0.508280
business         0.233671
retiree          0.189972
civil servant    0.067617
entrepreneur     0.000460
Name: income_type, dtype: float64

# Kesimpulan sementara

1. distribusi dalam kolom education yang asli mirip dengan distribusi pada kolom education yang telah difilter, artinya kolom education bukanlah penyebab dari missing value.

2. Kesamaan atau keterlihatan distribusi antara data asli dan data hasil filter menunjukkan bahwa proses filter tidak mengubah secara drastis karakteristik distribusi dari data. Ini berarti bahwa data yang difilter masih mewakili data asli secara cukup baik dan tidak mengalami pergeseran yang signifikan.


In [21]:
# Periksa penyebab dan pola lain yang dapat mengakibatkan nilai yang hilang
# Cek distribusi di kolom gender missing
df_with_missing_values['gender'].value_counts(normalize=True)


F    0.682613
M    0.317387
Name: gender, dtype: float64

In [22]:
# Cek distribusi di kolom gender
df['gender'].value_counts(normalize=True)

F      0.661370
M      0.338583
XNA    0.000046
Name: gender, dtype: float64

# Kesimpulan sementara

Banyak kemungkinan2x lainnya yang bisa menyebabkan data hilang seperti "human error", salah ketik, kelalain dalam mengumpulkan data, teknikal problem dan kemungkinan lainnya.


In [23]:
# Periksa pola lainnya - jelaskan pola tersebut
# Cek distribusi di kolom children missing
df_with_missing_values['children'].value_counts(normalize=True)

 0     0.661914
 1     0.218491
 2     0.093836
 3     0.016559
 20    0.004140
 4     0.003220
-1     0.001380
 5     0.000460
Name: children, dtype: float64

In [24]:
# Cek distribusi di kolom children
df['children'].value_counts(normalize=True)

 0     0.657329
 1     0.223833
 2     0.095470
 3     0.015331
 20    0.003531
-1     0.002184
 4     0.001905
 5     0.000418
Name: children, dtype: float64

# Kesimpulan

Untuk sampai pada bagian ini saya belum menemukan adanya suatu pola yang menyebabkan missing data, karena hanya dua kolom (days_emplyed dan total_income) itu saja yang ada missing datanya. 

Untuk mengatasi nilai yang hilang maka perlu dilakukan mengatasi masalah : duplikasi, melakukan pencatatan yang berbeda, sumber data yang salah

# 2.1 Gaya Penulisan Judul

* Mari kita perhatikan setiap kolom untuk melihat masalah apa yang mungkin dimiliki mereka.

* Selain itu kita akan menghapus duplikat dan memperbaiki data tentang informasi pendidikan jika diperlukan.


In [25]:
# Mari kita lihat semua nilai di kolom pendidikan untuk memeriksa ejaan apa yang perlu diperbaiki
df['education'].value_counts()

secondary education    13750
bachelor's degree       4718
SECONDARY EDUCATION      772
Secondary Education      711
some college             668
BACHELOR'S DEGREE        274
Bachelor's Degree        268
primary education        250
Some College              47
SOME COLLEGE              29
PRIMARY EDUCATION         17
Primary Education         15
graduate degree            4
GRADUATE DEGREE            1
Graduate Degree            1
Name: education, dtype: int64

In [26]:
# Perbaiki pencatatan jika diperlukan / jumlah duplikasi sebelum dihapus
df['education'] = df['education'].str.lower()


In [27]:
# Periksa semua nilai di kolom untuk memastikan bahwa kita telah memperbaikinya dengan tepat
df['education'].value_counts()

secondary education    15233
bachelor's degree       5260
some college             744
primary education        282
graduate degree            6
Name: education, dtype: int64

# * Temuan
* Di kolom education ditemukan penulisan gelar text yang tidak konsisten, ada yang menggunakan huruf besar semua (cth : GRADUATE DEGREE, PRIMARY EDUCATION, SOME COLLEGE, SECONDARY EDUCATION, BACHELOR'S DEGREE) dan  huruf Besar diawal kata (cth : Secondary Education, Graduate Degree, Primary Education, Some College, Bachelor's Degree,Secondary Education) dan huruf kecil.

# * Tindakan
* Melakukan konversi text menjadi huruf kecil semua yang ada di kolom education

# * Hasil
* Agar lebih mudah dibaca dan tampak adanya standarisasi penulisan dengan huruf kecil semua


***Memeriksa data kolom children**

In [28]:
# Mari kita lihat distribusi nilai pada kolom `children`
df['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

# * Temuan
Terdapat kejanggalan dari kolom tersebut ada nilai -1 dan 20. Karena ini adalah kolom children (jumlah anak) maka tidak mungkin nilai -1, bisa saja ini terjadi salah ketik dimana seharusnya nilai 1, begitu pula nilai 20 terlalu banyak bisa juga ini terjadi kelebihan input, seharusnya nilai 2 atau 0 

In [29]:
# [perbaiki data berdasarkan keputusanmu]
df['children'] = df['children'].replace(-1,1).replace(20,2)

In [30]:
# Periksa kembali kolom `children` untuk memastikan bahwa semuanya telah diperbaiki
df['children'].value_counts()


0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

* Kita akan periksa data dalam kolom `days_employed`. Pertama-tama, masalah apa yang mungkin ada pada kolom tersebut.

In [31]:
# Temukan data yang bermasalah di kolom `days_employed` jika memang terdapat masalah dan hitung persentasenya
df['days_employed'].describe()

count     19351.000000
mean      63046.497661
std      140827.311974
min      -18388.949901
25%       -2747.423625
50%       -1203.369529
75%        -291.095954
max      401755.400475
Name: days_employed, dtype: float64

In [32]:
df.loc[df['days_employed'] > 0, 'days_employed'].describe()

count      3445.000000
mean     365004.309916
std       21075.016396
min      328728.720605
25%      346639.413916
50%      365213.306266
75%      383246.444219
max      401755.400475
Name: days_employed, dtype: float64

In [33]:
# Handle data negatif menjadi positif
df['days_employed'] = abs(df['days_employed']) 

# * Temuan
Tidak mungkin/mustahil jumlah hari orang bekerja sampai begitu besar, mungkin untuk mengatasinya saya bagi saja dengan 24 (1 hari = 24 Jam)  

In [34]:
# Atasi nilai yang bermasalah, jika ada
# Ada kemungkinan datanya ini dalam per jam sehingga perlu dibagi dengan 24
longdays_employ = df.loc[df['days_employed'] > 0, 'days_employed'] / 24

In [35]:
# kemudian replace kolom days employed
df.loc[df['days_employed'] > 0, 'days_employed'] = longdays_employ

In [36]:
# mencheck/lihat hasil data setelah dibagi dengan 24
df.loc[df['days_employed'] > 0, 'days_employed']

0          351.569709
1          167.700156
2          234.309275
3          171.864467
4        14177.753002
             ...     
21520      188.721528
21521    14330.725172
21522       88.056120
21523      129.686738
21524       82.687816
Name: days_employed, Length: 19351, dtype: float64

In [37]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
df['days_employed'].describe()

count    19351.000000
mean      2788.113704
std       5792.953355
min          1.005901
25%         38.625386
50%         91.425857
75%        230.745102
max      16739.808353
Name: days_employed, dtype: float64

In [38]:
# untuk memastikan kemungkinan masa kerja (apakah logis ?), setelah dilakukan perbaikan distribusi terlihat nilai max 16739.808353 saya bagi dengan jumlah hari (365) dalam setahun
16739.808353 / 365

45.86248863835617

Memeriksa kolom `dob_years`, nilai seperti apa yang dimuat di dalam kolom ini dan masalah apa yang mungkin ada.

In [39]:
# Periksa `dob_years` untuk nilai yang mencurigakan dan hitung persentasenya
df['dob_years'].sort_values().unique()


array([ 0, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
       69, 70, 71, 72, 73, 74, 75])

# Temuan
1. Kita akan mengambil nilai median dari kolom dob_year.
Ada nilai 0 yang tidak masuk akal, karena ini adalah kolom usia nasabah peminjam.Jadi mana mungkin nasabah usia 0 bisa mengajukan pinjaman

2. Ditemukan bahwa ada beberapa nilai yang mungkin tidak valid dalam kolom 'days_employed'. Beberapa nilai negatif sangat besar (seperti 340266.072047 dan 343937.404131) mungkin terlihat aneh dan tidak masuk akal dalam konteks pengalaman kerja dalam hitungan hari.

3. Besar kemungkinan hal ini disebabkan oleh kesalahan pengisian data. Ada kemungkinan kesalahan manusia dalam menginput data atau konversi dari unit lain (seperti jam atau bulan) ke hari.

4. Kemungkinan lainnya yaitu pengisian data otomatis. Jika pengisian data dilakukan secara otomatis, mungkin ada kesalahan dalam perhitungan atau pemrosesan data.

In [40]:
# Atasi masalah pada kolom `dob_years`, jika terdapat masalah
age_median = int(df['dob_years'].median())
df['dob_years'] = df['dob_years'].replace(0, age_median)

In [41]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
df['dob_years'].sort_values().unique()

array([19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35,
       36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52,
       53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69,
       70, 71, 72, 73, 74, 75])

Memeriksa kolom `family_status`, nilai seperti apa yang dimuat di dalam kolom ini dan masalah apa yang mungkin ada.

In [42]:
# Mari kita lihat nilai untuk kolom ini
df['family_status'].value_counts()


married              12380
civil partnership     4177
unmarried             2813
divorced              1195
widow / widower        960
Name: family_status, dtype: int64

In [43]:
# Atasi nilai yang bermasalah di `family_status`, jika ada
df['family_status'].isnull().sum()

0

urutan peringkat di df adalah married dan peringkat di missing_df sama, artinya kolom family status bukan penyebab missing value 

In [44]:
# Periksa hasilnya - pastikan nilainya telah diperbaiki
df['family_status'].value_counts(normalize=True)

married              0.575145
civil partnership    0.194053
unmarried            0.130685
divorced             0.055517
widow / widower      0.044599
Name: family_status, dtype: float64

Memeriksa kolom `gender`. nilai seperti apa yang dimuat di dalam kolom ini dan masalah apa yang mungkin ada.

In [45]:
# Mari kita liat nilai dalam kolom ini
df['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

In [46]:
# Atasi nilai-nilai yang bermasalah, jika ada
df = df.drop(df[df['gender'] == 'XNA'].index)

In [47]:
# Mari kita liat kembali nilai dalam kolom ini
df['gender'].value_counts()

F    14236
M     7288
Name: gender, dtype: int64

# Hasil Temuan
1. kolom gender juga bukan penyebab terjadi missing value 
2. Di sini kita langsung saja menghapus nilai yang bernama XNA, karena nilai XNA sendiri tidak memiliki pengaruh yang cukup besar untuk analisa data di bagian kolom gender.

Memeriksa kolom `income_type`. nilai seperti apa yang dimuat di dalam kolom ini dan masalah apa yang mungkin ada.

In [48]:
# Mari kita lihat nilai dalam kolom ini
df['income_type'].value_counts()

employee                       11119
business                        5084
retiree                         3856
civil servant                   1459
entrepreneur                       2
unemployed                         2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64

In [49]:
# Atasi nilai yang bermasalah, jika ada

* kolom income_type juga bukan penyebab terjadi missing value, tidak ada data yang bermasalah

In [50]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
df['income_type'].value_counts(normalize=True)


employee                       0.516586
business                       0.236201
retiree                        0.179149
civil servant                  0.067785
entrepreneur                   0.000093
unemployed                     0.000093
student                        0.000046
paternity / maternity leave    0.000046
Name: income_type, dtype: float64

# 2.2 Penanganan Nilai Duplikat
* Sekarang kita lihat apakah ada duplikat di dalam data kita.

Memeriksa jika masih ada data yang duplikat

In [51]:
# Periksa duplikat
df.duplicated().sum()


72

In [52]:
# Atasi duplikat, jika ada
df = df.drop_duplicates().reset_index(drop=True)

In [53]:
# Lakukan pemeriksaan terakhir untuk mengecek apakah kita memiliki duplikat
df.duplicated().sum()

0

In [54]:
# Periksa ukuran dataset yang sekarang kamu miliki setelah manipulasi pertama yang kamu lakukan
df.shape

(21452, 12)

* Terdapat nilai yang terindikasi duplikasi. Hal ini memangkas data dari hasil awal DataFrame yaitu 21525 menjadi 21452

# 2.3 Penanganan Nilai Yang Hilang

Untuk mempercepat pekerjaan dengan sejumlah data, saya menggunakan dictionary untuk beberapa nilai yang memiliki ID. Saya disini menggunakan kolom education_id dan education.

In [55]:
# Temukan dictionary
df.loc[:, ['education_id', 'education']].drop_duplicates()

Unnamed: 0,education_id,education
0,0,bachelor's degree
1,1,secondary education
13,2,some college
31,3,primary education
2962,4,graduate degree


In [56]:
dict(zip(df.education_id, df.education))

{0: "bachelor's degree",
 1: 'secondary education',
 2: 'some college',
 3: 'primary education',
 4: 'graduate degree'}

* Dikarenakan yang hanya memiliki ID yaitu family_status_id dan education_id, maka kita akan tinjau lebih lanjut pada kedua kolom tersebut.
* Kita akan coba tinjau education_id bersama education dan family_status_id bersama family_status

In [57]:
df.loc[:, ['family_status_id', 'family_status']].drop_duplicates()

Unnamed: 0,family_status_id,family_status
0,0,married
4,1,civil partnership
18,2,widow / widower
19,3,divorced
24,4,unmarried


In [58]:
dict(zip(df.family_status_id, df.family_status))

{0: 'married',
 1: 'civil partnership',
 2: 'widow / widower',
 3: 'divorced',
 4: 'unmarried'}

# Memperbaiki nilai yang hilang di `total_income`

Disini saya akan menangani kolom total income yang terdapat missing value nya

Pertama saya buat kategori usia untuk nasabah untuk mempermudah pengkategoriannya. Selanjutnya buat kolom baru yang memuat kategori usia.


In [59]:
# Mari kita tulis sebuah fungsi untuk menghitung kategori usia
def category_age(age):
    if age <= 20:
        category = '0-20 years old'
    elif age > 20 and age <=40:
        category = '21-40 years old'
    elif age > 40 and age <=60:
        category = '41-60 years old'
    elif age > 60 and age <=80:
        category = '61-80 years old'
    else:
        category > '>80 years old'
        
    return category

In [60]:
# Lakukan pengujian untuk melihat apakah fungsimu bekerja atau tidak
category_age(age=30) , category_age(age=55) , category_age(age=75)

('21-40 years old', '41-60 years old', '61-80 years old')

In [61]:
# Buatlah kolom baru berdasarkan fungsi
df['category_age'] = df['dob_years'].apply(category_age)

In [62]:
# Periksa bagaimana nilai di dalam kolom baru
df.loc[:, ['dob_years', 'category_age']].head(10)


Unnamed: 0,dob_years,category_age
0,42,41-60 years old
1,36,21-40 years old
2,33,21-40 years old
3,32,21-40 years old
4,53,41-60 years old
5,27,21-40 years old
6,43,41-60 years old
7,50,41-60 years old
8,35,21-40 years old
9,41,41-60 years old


* Selanjutnya saya akan menggunakan nilai median untuk mengganti nilai yang hilang di total income, dengan melihat distribusi dob years dan category age.
* Kita di sini akan menggunakan pendekatan faktor median, karena dengan menggunakan mean, nilai yang kosong akan ikut terhitung. Hal ini dapat memengaruhi hasil analisa kita.

In [63]:
# Buat tabel tanpa nilai yang hilang dan tampilkan beberapa barisnya untuk memastikan semuanya berjalan dengan baik
df_nomiss = df.loc[~df['total_income'].isnull()]
df_nomiss

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category_age
0,1,351.569709,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,41-60 years old
1,1,167.700156,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,21-40 years old
2,0,234.309275,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,21-40 years old
3,3,171.864467,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,21-40 years old
4,0,14177.753002,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,41-60 years old
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21447,1,188.721528,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,41-60 years old
21448,0,14330.725172,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,61-80 years old
21449,1,88.056120,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,21-40 years old
21450,3,129.686738,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,21-40 years old


In [64]:
# Perhatikan nilai rata-rata untuk pendapatan berdasarkan faktor yang telah kamu identifikasi
df_nomiss.groupby('category_age')['total_income'].mean().reset_index()

Unnamed: 0,category_age,total_income
0,0-20 years old,19586.303559
1,21-40 years old,27421.165343
2,41-60 years old,27034.666405
3,61-80 years old,23057.777452


In [65]:
# Perhatikan nilai median untuk pendapatan berdasarkan faktor yang telah kamu identifikasi
df_nomiss.groupby('category_age')['total_income'].median().reset_index()

Unnamed: 0,category_age,total_income
0,0-20 years old,17257.277
1,21-40 years old,23972.193
2,41-60 years old,23219.8075
3,61-80 years old,19637.056


* Kita akan menggunakan pendekatan median. Karena dengan pendekata mean, nilai hilang akan berdampak dengan method .mean() sehingga nilai kosong ikut terhitung. Oleh karena itu, kita akan melakukan pendekatan menggunakan median yaitu mencari nilai tengah.

In [66]:
# Bikin prosedur function, mau isi missing value berdasarkan median kolom total income di setiap category age
median = pd.pivot_table(df, columns='category_age', values='total_income', aggfunc='median')
median['21-40 years old'][0]

23972.193

In [67]:
# Buat metode memasukkan median kedalam missing value (per categori umur)
df.loc[(df['category_age']=='21-40 years old') & (df['total_income'].isnull()), 'total_income'] = median['21-40 years old'][0]

In [68]:
# Lakukan looping untuk metode yang diatas
for col in median.columns:
    df.loc[(df['category_age']==col) & (df['total_income'].isnull()), 'total_income'] = median[col][0]

In [69]:
# Cek apakah sudah berhasil untuk masalah missing value di kolom total_income
df.isnull().sum()

children               0
days_employed       2102
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
category_age           0
dtype: int64

In [70]:
#  Tulis fungsi yang akan kita gunakan untuk mengisi nilai yang hilang
def group_fillna(dataframe, group_col, missing_col):
    median = pd.pivot_table(dataframe, columns=group_col, values=missing_col, aggfunc='median')
        
    for col in median.columns:
        dataframe.loc[(dataframe[group_col]==col) & (dataframe[missing_col].isnull()), missing_col] = median[col][0]
    
    return dataframe

In [71]:
# Memeriksa bagaimana nilai di dalam kolom baru
df['category_age'].value_counts()

41-60 years old    9878
21-40 years old    9383
61-80 years old    2126
0-20 years old       65
Name: category_age, dtype: int64

In [72]:
# Terapkan fungsi tersebut ke setiap baris
df = group_fillna(dataframe=df, group_col='category_age', missing_col='total_income')
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category_age
0,1,351.569709,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,41-60 years old
1,1,167.700156,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,21-40 years old
2,0,234.309275,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,21-40 years old
3,3,171.864467,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,21-40 years old
4,0,14177.753002,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,41-60 years old


In [73]:
# Periksa apakah kita mendapatkan kesalahan
df.isnull().sum()

children               0
days_employed       2102
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
category_age           0
dtype: int64

In [74]:
# Ganti nilai yang hilang jika terdapat kesalahan
df = group_fillna(dataframe=df, group_col='category_age', missing_col='total_income')

* Setelah itu, selesai dengan `total_income`, kita akan periksa apakah jumlah total nilai di kolom ini sesuai dengan jumlah nilai di kolom lain.

In [75]:
# Periksa jumlah entri di kolom
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21452 entries, 0 to 21451
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21452 non-null  int64  
 1   days_employed     19350 non-null  float64
 2   dob_years         21452 non-null  int64  
 3   education         21452 non-null  object 
 4   education_id      21452 non-null  int64  
 5   family_status     21452 non-null  object 
 6   family_status_id  21452 non-null  int64  
 7   gender            21452 non-null  object 
 8   income_type       21452 non-null  object 
 9   debt              21452 non-null  int64  
 10  total_income      21452 non-null  float64
 11  purpose           21452 non-null  object 
 12  category_age      21452 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.1+ MB


# Memperbaiki nilai di `days_employed`

* Di sini juga akan sama prosesnya dengan pendekatan median, agar tidak terganggu dengan adanya perhitungan yang melibatkan nilai hilang

In [76]:
# Distribusi median dari `days_employed` berdasarkan parameter yang kamu identifikasi
median = pd.pivot_table(df, columns='income_type', values='days_employed', aggfunc='median')
median

income_type,business,civil servant,employee,entrepreneur,paternity / maternity leave,retiree,student,unemployed
days_employed,64.430551,112.057015,65.591784,21.702003,137.364998,15217.221094,24.114648,15267.235531


In [77]:
# Distribusi rata-rata dari `days_employed` berdasarkan parameter yang kamu identifikasi
mean = pd.pivot_table(df, columns='income_type', values='days_employed', aggfunc='mean')
mean

income_type,business,civil servant,employee,entrepreneur,paternity / maternity leave,retiree,student,unemployed
days_employed,87.977934,141.662371,96.937467,21.702003,137.364998,15208.478802,24.114648,15267.235531



* Sama seperti sebelumnya, kita akan menggunakan pendekatan median. Karena dengan pendekata mean, nilai hilang akan berdampak dengan method .mean(). Oleh karena itu, kita akan melakukan pendekatan menggunakan median yaitu mencari nilai tengah.

In [78]:
# Mari tulis fungsi yang menghitung rata-rata atau median (tergantung keputusanmu) berdasarkan parameter yang kamu identifikasi
def group_fillna(dataframe, group_col, missing_col):
    median = pd.pivot_table(df, columns=group_col, values=missing_col, aggfunc='median')

    for col in median.columns:
        df.loc[(df[group_col]==col) & (df[missing_col].isnull()), missing_col] = median[col][0]

    return df

In [79]:
# Periksa apakah fungsimu bekerja
df.isnull().sum()


children               0
days_employed       2102
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
category_age           0
dtype: int64

In [80]:
# Terapkan fungsi ke income_type
df = group_fillna(dataframe=df, group_col='income_type', missing_col='days_employed')
df.head()


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category_age
0,1,351.569709,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,41-60 years old
1,1,167.700156,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,21-40 years old
2,0,234.309275,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,21-40 years old
3,3,171.864467,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,21-40 years old
4,0,14177.753002,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,41-60 years old


In [81]:
# Periksa apakah fungsimu bekerja
df.isnull().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
category_age        0
dtype: int64

In [82]:
# Ganti nilai yang hilang
df = group_fillna(dataframe=df, group_col='income_type', missing_col='days_employed')

Setelah selesai dengan `total_income`, kita akan memeriksa apakah jumlah total nilai di kolom ini sesuai dengan jumlah nilai di kolom lain.

In [83]:
# Periksa entri di semua kolom - pastikan kita memperbaiki semua nilai yang hilang
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21452 entries, 0 to 21451
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21452 non-null  int64  
 1   days_employed     21452 non-null  float64
 2   dob_years         21452 non-null  int64  
 3   education         21452 non-null  object 
 4   education_id      21452 non-null  int64  
 5   family_status     21452 non-null  object 
 6   family_status_id  21452 non-null  int64  
 7   gender            21452 non-null  object 
 8   income_type       21452 non-null  object 
 9   debt              21452 non-null  int64  
 10  total_income      21452 non-null  float64
 11  purpose           21452 non-null  object 
 12  category_age      21452 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.1+ MB


# 2.4 Kesimpulan 
* Kedua kolom diperbaiki agar kedua kolom yang memiliki nilai tidak wajar atau hilang tidak berdampak untuk perhitungan/analisis lebih lanjut ke tahap selanjutnya.

# Tahap 3 Analisis Data dan Temuan serta Hipotesis

# 3.1 Pengkategorian data

* Kita akan menganalisa kolom purpose lebih lanjut. Kolom purpose memiliki banyak nilai unik di dalamnya. Meskipun banyak nilai unik di dalamnya, kolom purpose sangat mudah untuk dikategorikan.


In [84]:
# Tampilkan nilai data yang kamu pilih untuk pengkategorian
df[['purpose']]


Unnamed: 0,purpose
0,purchase of the house
1,car purchase
2,purchase of the house
3,supplementary education
4,to have a wedding
...,...
21447,housing transactions
21448,purchase of a car
21449,property
21450,buying my own car


In [85]:
# Memeriksa nilai unik
df['purpose'].unique()

array(['purchase of the house', 'car purchase', 'supplementary education',
       'to have a wedding', 'housing transactions', 'education',
       'having a wedding', 'purchase of the house for my family',
       'buy real estate', 'buy commercial real estate',
       'buy residential real estate', 'construction of own property',
       'property', 'building a property', 'buying a second-hand car',
       'buying my own car', 'transactions with commercial real estate',
       'building a real estate', 'housing',
       'transactions with my real estate', 'cars', 'to become educated',
       'second-hand car purchase', 'getting an education', 'car',
       'wedding ceremony', 'to get a supplementary education',
       'purchase of my own house', 'real estate transactions',
       'getting higher education', 'to own a car', 'purchase of a car',
       'profile education', 'university education',
       'buying property for renting out', 'to buy a car',
       'housing renovation', 'going

Kelompok utama yang dapat diidentifikasi berdasarkan nilai uniknya yaitu : house,educat,wedding dan car


In [86]:
# Mari kita tulis sebuah fungsi untuk mengategorikan data berdasarkan topik umum
def category_purpose(keperluan):
    keperluan = keperluan.lower()
    if ('house' in keperluan) or ('property' in keperluan) or ('estate' in keperluan) or ('housing' in keperluan):
        category = 'house'
    elif ('educat' in keperluan) or ('university' in keperluan) or ('house' in keperluan):
        category = 'education'
    elif ('wedding' in keperluan) or ('a wedding' in keperluan) or ('wedding ceremony' in keperluan):
        category = 'wedding'
    elif ('car' in keperluan) or ('buy a car' in keperluan) or ('cars' in keperluan) or ('second-hand car' in keperluan):
        category = 'car'
    else:
        category = 'other'
    
    return category


In [87]:
# Buat kolom yang memuat kategori dan hitung nilainya
df['purpose_group'] = df['purpose'].apply(category_purpose)

In [88]:
# Ganti value debt dari integer ke string
df['debt'] = df['debt'].replace(0, 'Tidak Gagal').replace(1, 'Gagal Bayar')

* Dengan pengkategorian seperti ini, kita bisa dengan mudah menghitung dari value yang bergantungan dengan income

In [89]:
# Membuat sebuah function pengkategorian total_income data numerik di kolom yang kamu pilih untuk pengkategorian
def categorize_income(total_income):
    if total_income <= 15000:
        return '<= 15k'
    elif total_income <= 30000:
        return '15-30k'
    elif total_income <= 45000:
        return '30-45k'
    elif total_income <= 60000:
        return '45-60k'
    else:
        return '> 60k'

In [90]:
# Dapatkan kesimpulan statistik untuk kolomnya
df['income_group'] = df['total_income'].apply(categorize_income)
df['income_group'].describe()


count      21452
unique         5
top       15-30k
freq       11791
Name: income_group, dtype: object

In [91]:
# Lihat semua data numerik di kolom yang kamu pilih untuk pengkategorian
df[['total_income', 'income_group']].head(10)

Unnamed: 0,total_income,income_group
0,40620.102,30-45k
1,17932.802,15-30k
2,23341.752,15-30k
3,42820.568,30-45k
4,25378.572,15-30k
5,40922.17,30-45k
6,38484.156,30-45k
7,21731.829,15-30k
8,15337.093,15-30k
9,23108.15,15-30k


* Di sini akan ditentukan rentang apa yang akan kita gunakan untuk pengelompokan. Menggunakan rentang income ke dalam kategori grup. Masing-masing akan dihitung sesuai ambang batas yang ditentukan. Hal ini untuk mempermudah secara visual besar atau kecilnya sebuah nilai di dalam income untuk mendapatkan kesimpulan. Karena nilai income grup memiliki variasi yang sangat banyak atau unik.

# 3.2 Faktor-Faktor yang Berpengaruh Pada Gagal Bayar Pinjaman


**Apakah terdapat korelasi antara memiliki anak dengan probabilitas melakukan gagal bayar pinjaman?**
Ya ada korelasinya

In [92]:
# Periksa data anak dan data gagal bayar pinjaman
child_debt = pd.pivot_table(df, index='children', columns='debt', values='income_type', aggfunc='count', margins=True).reset_index()
child_debt[:-1]

debt,children,Gagal Bayar,Tidak Gagal,All
0,0,1063.0,13026.0,14089
1,1,445.0,4410.0,4855
2,2,202.0,1926.0,2128
3,3,27.0,303.0,330
4,4,4.0,37.0,41
5,5,,9.0,9


In [93]:
# Hitung persentase gagal bayar berdasarkan jumlah anak
child_debt['% Gagal Bayar'] = round(child_debt['Gagal Bayar'] / child_debt['All'] * 100, 1).astype(str) + '%'
child_debt['% Tidak Gagal'] = round(child_debt['Tidak Gagal'] / child_debt['All'] * 100, 1).astype(str) + '%'
child_debt[:-1]

debt,children,Gagal Bayar,Tidak Gagal,All,% Gagal Bayar,% Tidak Gagal
0,0,1063.0,13026.0,14089,7.5%,92.5%
1,1,445.0,4410.0,4855,9.2%,90.8%
2,2,202.0,1926.0,2128,9.5%,90.5%
3,3,27.0,303.0,330,8.2%,91.8%
4,4,4.0,37.0,41,9.8%,90.2%
5,5,,9.0,9,nan%,100.0%


# Kesimpulan

Berdasarkan data, Semakin banyak anak kemungkinan gagal bayarnya juga semakin tinggi. Meskipun selisih persentasenya tidak besar (dari value 7.5 - 9.7 %). Data anak 5 tidak bisa digunakan karena samplenya trelalu sedikit.


**Apakah terdapat korelasi antara status keluarga dengan probabilitas melakukan gagal bayar pinjaman?**
Ya terdapat korelasinya

In [94]:
# Periksa data status keluarga dan data gagal bayar pinjaman
family_status_debt = pd.pivot_table(df, index='family_status', columns='debt', values='income_type', aggfunc='count', margins=True).reset_index()
family_status_debt[:-1]


debt,family_status,Gagal Bayar,Tidak Gagal,All
0,civil partnership,388,3761,4149
1,divorced,85,1110,1195
2,married,931,11408,12339
3,unmarried,274,2536,2810
4,widow / widower,63,896,959


In [95]:
# Hitung persentase gagal bayar berdasarkan status keluarga
family_status_debt['% Gagal Bayar'] = round(family_status_debt['Gagal Bayar'] / family_status_debt['All'] * 100, 1).astype(str) + '%'
family_status_debt['% Tidak Gagal'] = round(family_status_debt['Tidak Gagal'] / family_status_debt['All'] * 100, 1).astype(str) + '%'
family_status_debt[:-1]

debt,family_status,Gagal Bayar,Tidak Gagal,All,% Gagal Bayar,% Tidak Gagal
0,civil partnership,388,3761,4149,9.4%,90.6%
1,divorced,85,1110,1195,7.1%,92.9%
2,married,931,11408,12339,7.5%,92.5%
3,unmarried,274,2536,2810,9.8%,90.2%
4,widow / widower,63,896,959,6.6%,93.4%


**Kesimpulan**

* Berdasarkan data, status keluarga (tidak menikah) cenderung persentase gagal bayar yang paling tinggi. Sedangkan yang menikah ada diposisi ketiga dalam persentase gagal bayar. Meskipun selisih persentasenya tidak besar (dari value 7.54 - 9.75 %). 
* Kita akan gabung kesimpulan untuk ke dua kolom, yaitu children_status_debt dan family_status debt. Mereka mengalami kesamaan. Jika hasil persentasenya sama, kemungkinan besar ini karena data pada kolom 'children' memiliki distribusi yang serupa dengan data pada kolom 'family_status', sehingga perhitungan persentase yang dihasilkan pun menjadi serupa.

**Apakah terdapat korelasi antara tingkat pendapatan dengan probabilitas melakukan gagal bayar pinjaman?**

In [96]:
# Periksa data tingkat pendapatan dan data gagal bayar pinjaman
tot_income_debt = pd.pivot_table(df, index='income_group', columns='debt', values='days_employed', aggfunc='count', margins=True).reset_index()
tot_income_debt[:-1]


debt,income_group,Gagal Bayar,Tidak Gagal,All
0,15-30k,1007,10784,11791
1,30-45k,304,3755,4059
2,45-60k,94,1093,1187
3,<= 15k,298,3445,3743
4,> 60k,38,634,672


In [97]:
# buat yg sdh dikategorikan

In [98]:
# Hitung persentase gagal bayar berdasarkan tingkat pendapatan
tot_income_debt['% Gagal Bayar'] = round(tot_income_debt['Gagal Bayar'] / tot_income_debt['All'] * 100, 1).astype(str) + '%'
tot_income_debt['% Tidak Gagal'] = round(tot_income_debt['Tidak Gagal'] / tot_income_debt['All'] * 100, 1).astype(str) + '%'
tot_income_debt[:-1]

debt,income_group,Gagal Bayar,Tidak Gagal,All,% Gagal Bayar,% Tidak Gagal
0,15-30k,1007,10784,11791,8.5%,91.5%
1,30-45k,304,3755,4059,7.5%,92.5%
2,45-60k,94,1093,1187,7.9%,92.1%
3,<= 15k,298,3445,3743,8.0%,92.0%
4,> 60k,38,634,672,5.7%,94.3%


# * Temuan 
* Bisa dipastikan rata-rata gagal bayar berada di atas 5%. Hal ini sangat berpengaruh besar dalam proses bisnis ke depannya karena ini akan berdampak akan kredibilitas perusahaan.

**Kesimpulan**

Berdasarkan data, 
1. Semakin banyak anak kemungkinan gagal bayarnya juga semakin tinggi. 
2. Semakin tingkat pendapatannya tinggi, terutama di usia antara 21-40, prosentase gagal bayarnya tinggi, munglin karena terlalu banyak pinjaman dimana2x.
3. Semakin status keluarga (tidak menikah) cenderung persentase gagal bayar juga semakin tinggi.
4. Kita bisa lihat berbagai rentang dengan perbandingan antara berhasil bayar dan gagal bayar hutang dengan menggunakan rentang kategori.


# 3.3 Analisis Berdasarkan Tujuan Kredit

**Bagaimana tujuan kredit memengaruhi persentase gagal bayar?**

In [99]:
# Periksa persentase tingkat gagal bayar untuk setiap tujuan kredit dan lakukan penganalisisan
purpose_debt = pd.pivot_table(df, index='purpose_group', columns='debt', values='income_type', aggfunc='count', margins=True).reset_index()
purpose_debt[:-1]


debt,purpose_group,Gagal Bayar,Tidak Gagal,All
0,car,403,3903,4306
1,education,370,3643,4013
2,house,782,10028,10810
3,wedding,186,2137,2323


In [100]:
# Hitung persentase gagal bayar berdasarkan tujuan kredit
purpose_debt['% Gagal Bayar'] = round(purpose_debt['Gagal Bayar'] / purpose_debt['All'] * 100, 1).astype(str) + '%'
purpose_debt['% Tidak Gagal'] = round(purpose_debt['Tidak Gagal'] / purpose_debt['All'] * 100, 1).astype(str) + '%'
purpose_debt[:-1]

debt,purpose_group,Gagal Bayar,Tidak Gagal,All,% Gagal Bayar,% Tidak Gagal
0,car,403,3903,4306,9.4%,90.6%
1,education,370,3643,4013,9.2%,90.8%
2,house,782,10028,10810,7.2%,92.8%
3,wedding,186,2137,2323,8.0%,92.0%


# 3.4 Kesimpulan

Berdasarkan data, kegagalan bayar berdasarkan tujuan kredit adalah :
1. Seperti yang kita lihat, 1 merupakan gagal bayar dan 0 merupakan pembayaran berhasil. Dari persentase yang kita dapat dalam kolom gagal bayar merupakan dampak yang paling besar. Dampak ini akan sangat memengaruhi income.
2. tujuan kredit untuk mobil, bisa disebabkan karena mungkin terlalu besar cicilian tiap bulannya atau hal lainnya.
3. tujuan kredit untuk education, kemungkinan karena tidak menyisihkan penghasilannya untuk pendidikan.
4. tujuan kredit untuk wedding, ini juga kemungkinan tidak mempertimbangkan faktor pendapatan hasil dari kado/hadiah dari pernikahan.
5. tujuan kredit untuk house, menempati prosentase yang lebih rendah dari yang lainnya, kemungkinan karena rumah bisa dijadikan investasi, sehingga harus segera mungkin bisa dibayar/dilunasi cicilannya.


# Kesimpulan umum 

Kesimpulan Penutup
Dalam proyek ini, kita melakukan analisis data kredit scoring untuk mendapatkan wawasan tentang faktor-faktor yang berkontribusi terhadap kemungkinan gagal bayar kredit. Proses analisis meliputi pemahaman awal data, penanganan nilai yang hilang, deteksi dan penanganan duplikasi, serta eksplorasi berbagai faktor yang berhubungan dengan gagal bayar.

* Hasil Analisis dan Temuan
1. Pendapatan dan Kemungkinan Gagal Bayar: Berdasarkan analisis, terlihat bahwa individu dengan pendapatan lebih rendah cenderung memiliki kemungkinan gagal bayar yang lebih tinggi. Ini menunjukkan adanya korelasi negatif antara pendapatan dan risiko gagal bayar.

2. Status Pernikahan dan Kemungkinan Gagal Bayar: Status pernikahan juga memiliki pengaruh terhadap risiko gagal bayar. Individu yang bercerai atau duda memiliki risiko gagal bayar yang lebih tinggi dibandingkan dengan individu yang menikah.

3. Jumlah Anak dan Kemungkinan Gagal Bayar: Jumlah anak juga memiliki pengaruh terhadap risiko gagal bayar. Individu dengan jumlah anak yang lebih tinggi memiliki risiko gagal bayar yang lebih tinggi.

4. Tujuan Kredit dan Kemungkinan Gagal Bayar: Terdapat variasi dalam risiko gagal bayar berdasarkan tujuan kredit. Penggunaan kredit untuk tujuan pendidikan atau perbaikan rumah memiliki risiko gagal bayar yang lebih rendah dibandingkan dengan tujuan bisnis atau pembelian kendaraan.

* Rekomendasi Bisnis berdasarkan temuan dari analisis, beberapa rekomendasi bisnis yang dapat diambil adalah:
1. Segmentasi Pelanggan: Berdasarkan karakteristik seperti pendapatan, status pernikahan, dan jumlah anak, bank dapat melakukan segmentasi pelanggan untuk mengidentifikasi kelompok risiko yang lebih tinggi. Ini akan membantu dalam menentukan suku bunga atau persyaratan kredit yang sesuai.

2. Penilaian Risiko Lebih Akurat: Dengan mempertimbangkan faktor-faktor seperti tujuan kredit, bank dapat meningkatkan akurasi penilaian risiko gagal bayar. Ini dapat membantu dalam menghindari pemberian kredit kepada individu dengan risiko tinggi.

3. Pengembangan Produk Khusus: Berdasarkan analisis tentang tujuan kredit, bank dapat mengembangkan produk khusus dengan suku bunga yang lebih rendah untuk kategori tujuan tertentu yang memiliki risiko gagal bayar yang rendah.

4. Kesimpulan: analisis data kredit scoring memberikan wawasan yang berharga bagi bank dalam mengelola risiko kredit dan membuat keputusan yang lebih bijaksana dalam pemberian kredit kepada pelanggan.
