# Menganalisis Resiko Gagal Bayar Peminjam


# Konten <a id='back'></a>

* [Pendahuluan](#intro)
* [Tahap 1. Ikhtisar Data](#data_review)
    * [Tahap 1.1 Memahami Data]
    * [Tahap 1.2 Eksplorasi Data Awal]
    * [Tahap 1.3 Kesimpulan](#data_review_conclusions)
* [Tahap 2. Pra-pemrosesan data](#data_preprocessing)
    * [Tahap 2.1 Gaya Penulisan Judul](#header_style)
    * [Tahap 2.2 Penanganan Duplikat](#duplicates)
    * [Tahap 2.3 Penanganan Nilai yang Hilang](#missing_values)
    * [Tahap 2.4 Kesimpulan](#data_preprocessing_conclusions)
* [Tahap 3. Analisis Data dan Temuan serta Hipotesis](#hypotheses)
    * [Tahap 3.1 Pengkategorian Data](#income)
    * [Tahap 3.2 Faktor-Faktor yang Berpengaruh pada Gagal Bayar Pinjaman](#failedloans)
    * [Tahap 3.3 Analisis Berdasarkan Tujuan Kredit](#purpose)
    * [Tahap 3.4 Kesimpulan Analisis Data]
* [Tahap 4. Kesimpulan](#end)

## Pendahuluan <a id='intro'></a>
Dalam dunia keuangan dan analisis data, pemahaman mendalam tentang profil nasabah menjadi hal krusial untuk mengambil keputusan yang tepat. Data nasabah yang terstruktur dan terorganisasi dengan baik dapat memberikan wawasan yang berharga tentang perilaku keuangan mereka, yang pada gilirannya dapat membantu dalam pengambilan keputusan yang lebih cerdas dan strategis. Dalam proyek ini, kita akan melakukan analisis terhadap dataset yang mencakup informasi tentang nasabah, termasuk detail keuangan dan karakteristik pribadi mereka. Tujuan akhir dari proyek ini adalah untuk mengidentifikasi pola-pola yang dapat mempengaruhi kemungkinan seorang nasabah untuk mengalami masalah pembayaran pinjaman.

### Tujuan: 
Proyek ini bertujuan untuk menganalisis data kelayakan pemberian pinjaman kepada nasabah bank. Tujuan utama dari proyek ini adalah untuk melakukan pemahaman mendalam tentang data yang diberikan, mengeksplorasi potensi masalah seperti nilai-nilai yang hilang, duplikasi, dan kesalahan lainnya, serta melakukan analisis terhadap faktor-faktor yang berpotensi mempengaruhi kelayakan pemberian pinjaman. Beberapa tujuan khusus dari proyek ini antara lain:
1. Pemahaman Data: Melakukan eksplorasi awal terhadap dataset untuk memahami karakteristik, variabel-variabel, serta hubungan antar variabel.
2. Pemrosesan Data: Menangani nilai-nilai yang hilang, duplikasi, dan masalah pemformatan data lainnya agar data siap untuk analisis lebih lanjut.
3. Analisis Faktor-Faktor: Menganalisis faktor-faktor seperti tingkat pendapatan, status keluarga, tujuan pinjaman, dan lainnya untuk mengidentifikasi pola dan hubungan yang berkaitan dengan kelayakan pemberian pinjaman.
4. Pengambilan Keputusan: Berdasarkan analisis, mengambil keputusan strategis terkait kebijakan pemberian pinjaman, termasuk pemahaman tentang risiko-risiko yang mungkin muncul.
5. Kesimpulan dan Rekomendasi: Merangkum hasil analisis dan memberikan rekomendasi berdasarkan temuan yang ditemukan.

### Tahapan
Di sini kita akan melakukan analisa dataset pada `/datasets/credit_scoring_eng.csv`.  
Proyek ini terdiri dari tiga tahap:
 1. Ikhtisar Data
 2. Pra-pemrosesan data
 3. Pengujian hipotesis


# 1. Ikhtisar Data



In [26]:
# Muat semua library
import pandas as pd


In [25]:
# Muat datanya
df_scoring = pd.read_csv('/datasets/credit_scoring_eng.csv')

# 1.1 Memahami Data

**Deskripsi data**
- `children` - jumlah anak dalam keluarga
- `days_employed` - pengalaman kerja nasabah dalam hari
- `dob_years` - usia nasabah dalam tahun
- `education` - tingkat pendidikan nasabah
- `education_id` - pengidentifikasi untuk tingkat pendidikan nasabah
- `family_status` - status perkawinan
- `family_status_id` - pengidentifikasi untuk status perkawinan nasabah
- `gender` - jenis kelamin nasabah
- `income_type` - jenis pekerjaan
- `debt` - apakah nasabah pernah melakukan gagal bayar pinjaman
- `total_income` - pendapatan bulanan
- `purpose` - tujuan mendapatkan pinjaman



* Sekarang, saatnya menjelajahi data kita. kita perlu melihat berapa banyak kolom dan baris yang dimiliki oleh data, serta mencermati beberapa baris data untuk memeriksa potensi masalah dengan data.

In [27]:
# Mari kita lihat berapa banyak baris dan kolom yang dimiliki oleh dataset kita
df_scoring.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [28]:
df_scoring.shape

(21525, 12)

# * Temuan

 1. Terdapat temuan. Dilihat dari DataFrame tersebut. Maksimal data yang ditampung ialah 21525.
 2. Kita asumsikan tidak memakai sistem indexing. Baris nomor 1 terdapat hanya 19351 dan bersama baris nomor 10 memiliki nilai yang sama yaitu 19351. Hal ini memungkinkan ada nilai yang hilang pada baris tersebut
 3. Dugaan: Ini memungkinkan adanya Dtype yang kurang sesuai untuk setiap barisnya.


In [29]:
# Mari tampilkan N baris pertama
df_scoring.head(50)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family



# * Temuan dari DataFrame

 1. Di sini kita gunakan pemeriksaan DataFrame baris pertama sepanjang 50
 2. Terdapat nilai yang ber nilai 'NaN' pada kolom days_employed dan total_income
 3. Terdapat juga duplikasi implisit yang ada di kolom education. Terdapat beberapa nilai data object yang memilki kata segmentasi uppercase atau full uppercase. Hal ini dapat berpengaruh dalam efektifitas penelusuran DataFrame untuk eksplorasi lebih lanjut.


# * Temuan
Sejauh ini nilai-nilai yang bermasalah berada di 3 kolom, yaitu days_employed, total_income dan, education.



* Setelah itu kita tindak lagi untuk pemfilteran lebih lanjut

# 1.2 Eksplorasi Data Awal

In [33]:
# Mari kita lihat tabel yang telah difilter dengan nilai yang hilang di kolom pertama yang mengandung data yang hilang
missing_data_sample = df_scoring[df_scoring['days_employed'].isnull()]
missing_data_sample

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


In [35]:
# Mari kita terapkan beberapa kondisi untuk memfilter data dan melihat jumlah baris dalam tabel yang telah difilter.
filtered_data = df_scoring[(df_scoring['days_employed'].isnull()) & (df_scoring['total_income'].isnull())]
filtered_data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


# * Temuan
* Dari ke dua tabel yang kita tampilkan, terdapat sebanyak 2174 nilai yang hilang.

* Mari kita lakukan perhitungan untuk dugaan sementara.

In [14]:
# dugaan sementara
total_rows = len(df_scoring)
missing_days_employed = df_scoring['days_employed'].isnull().sum()
missing_total_income = df_scoring['total_income'].isnull().sum()

percentage_missing_days_employed = (missing_days_employed / total_rows) * 100
percentage_missing_total_income = (missing_total_income / total_rows) * 100


In [17]:
# Missing values
missing_days_employed = df_scoring['days_employed'].value_counts()
missing_total_income = df_scoring['total_income'].value_counts()


In [14]:
missing_days_employed

19351

In [36]:
missing_total_income

19351

In [15]:
# dugaan sementara
print('Percentage missing days_employed : %', percentage_missing_days_employed)
print('Percentage missing total_income : %', percentage_missing_total_income)

Percentage missing days_employed : % 10.099883855981417
Percentage missing total_income : % 10.099883855981417




# * Asumsi 

 1. Sebelum mengisi nilai yang hilang, kita harus mempertimbangkan apakah data yang hilang bisa jadi disebabkan oleh karakteristik nasabah tertentu, seperti jenis pekerjaan atau yang lainnya. Hal ini dapat membantu kita mengidentifikasi kemungkinan sumber atau pola yang menyebabkan nilai hilang pada kolom tertentu.
 2. Kita juga perlu memeriksa apakah ada ketergantungan nilai yang hilang pada nilai indikator lain dengan kolom-kolom yang mengidentifikasikan karakteristik tertentu nasabah. Misalnya, apakah ada keterkaitan antara nilai hilang pada kolom 'total_income' dengan jenis pekerjaan atau tujuan pinjaman peminjam.


# 1.3 Kesimpulan (Sementara)

 1. Berdasarkan hasil function, jumlah baris dalam tabel yang telah difilter berbeda untuk setiap kolom. Kolom 'days_employed' dan 'total_income' memiliki jumlah baris yang lebih rendah daripada total jumlah entri dalam dataset, sementara kolom 'education' memiliki jumlah baris yang sama dengan total jumlah entri. Kolom education hanya dikarenakan memiliki nilai implisit bukan nilai yang hilang.

 2. Persentase nilai hilang untuk kolom days_employed dan total_income mencapai 10.0998%. Keduanya sama karena dari 2 kolom tersebut memiliki jumlah hilang yang sama.

# * Langkah Selanjutnya:

* Melakukan Analisis Lebih Mendalam:
Langkah selanjutnya adalah melakukan analisis yang lebih mendalam pada data yang memiliki nilai hilang, terutama pada kolom days_employed' dan 'total_income' serta melakukan pra-pemrosesan data.


# Tahap 2 Pra-pemrosesan Data
* Di tahap ini kita akan coba menggunakan asumsi DataFrame yang akan kita buat, yaitu df_null dan df_not_null. Masing-masing akan diuji untuk pra-pemrosesan data.

In [73]:
# Mari kita periksa nasabah yang tidak memiliki data tentang karakteristik yang teridentifikasi dan kolom dengan nilai yang hilang

# Memeriksa nasabah tanpa data karakteristik teridentifikasi (misalnya, jenis pekerjaan)

df_null = df_scoring[df_scoring.isnull().any(axis=1)]
df_null
# deklarasi data tanpa nilai hilang
df_not_null = df_scoring.dropna()

In [17]:
# Memeriksa baris dengan nilai hilang pada kolom 'days_employed' dan 'total_income'
df_scoring.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [72]:
# Periksalah distribusinya
count_non_null = df_null.count()
percentage_non_null = (count_non_null / len(df_null)) * 100
distribution_info = pd.DataFrame({
    'Count': count_non_null,
    'Percentage': percentage_non_null.map('{:.2f}%'.format)
})
distribution_info


Unnamed: 0,Count,Percentage
children,2103,100.00%
days_employed,0,0.00%
dob_years,2103,100.00%
education,2103,100.00%
education_id,2103,100.00%
family_status,2103,100.00%
family_status_id,2103,100.00%
gender,2103,100.00%
income_type,2103,100.00%
debt,2103,100.00%


# * Nilai Distribusi Kolom I
* Distribusi yang kita dapatkan yaitu berupa persentase yang didapat pada masing-masing DataFrame. Hal ini bertujuan apakah setelah kita lakukan pra-pemrosesan data tetap memiliki dampak atau tidak jika kita memisahkan jenisa DataFrame yang nilainya hilang dan tanpa nilai hilang.

In [19]:
# distribusi df_scoring (dataset asli)
data_count = df_scoring["income_type"].value_counts()
data_percent = df_scoring["income_type"].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : data_percent, "count" : data_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
employee,51.66%,11119
business,23.62%,5085
retiree,17.91%,3856
civil servant,6.78%,1459
entrepreneur,0.01%,2
unemployed,0.01%,2
student,0.0%,1
paternity / maternity leave,0.0%,1


In [74]:
# distribusi dataset yang ada nilai null 
data_count = df_null["income_type"].value_counts()
data_percent = df_null["income_type"].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : data_percent, "count" : data_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
employee,50.88%,1070
business,23.82%,501
retiree,18.35%,386
civil servant,6.89%,145
entrepreneur,0.05%,1


In [75]:
# distribusi dataset tanpa nilai null
data_count = df_not_null["income_type"].value_counts()
data_percent = df_not_null["income_type"].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : data_percent, "count" : data_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
employee,51.75%,10014
business,23.65%,4577
retiree,17.79%,3443
civil servant,6.78%,1312
unemployed,0.01%,2
student,0.01%,1
paternity / maternity leave,0.01%,1
entrepreneur,0.01%,1


# * Temuan
* Kita bisa lihat ternyata memang tepat, DataFrame memiliki ketergantungan jika kita manipulasi kondisi di dalam DataFrame tersebut.

# 2.1 Gaya Penulisan Judul

* Mari kita perhatikan setiap kolom untuk melihat masalah apa yang mungkin dimiliki mereka.

* Selain itu kita akan menghapus duplikat dan memperbaiki data tentang informasi pendidikan jika diperlukan.

In [25]:
# Mari kita lihat semua nilai di kolom pendidikan untuk memeriksa ejaan apa yang perlu diperbaiki
df_scoring['education'].unique()

array(["bachelor's degree", 'secondary education', 'Secondary Education',
       'SECONDARY EDUCATION', "BACHELOR'S DEGREE", 'some college',
       'primary education', "Bachelor's Degree", 'SOME COLLEGE',
       'Some College', 'PRIMARY EDUCATION', 'Primary Education',
       'Graduate Degree', 'GRADUATE DEGREE', 'graduate degree'],
      dtype=object)

In [49]:
# Perbaiki pencatatan jika diperlukan
df_scoring['education']=df_scoring['education'].str.lower()

In [50]:
# Periksa semua nilai di kolom untuk memastikan bahwa kita telah memperbaikinya dengan tepat
df_scoring['education'].unique()


array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

[Periksa data kolom `children`]

In [52]:
# Mari kita lihat distribusi nilai pada kolom `children`
df_scoring['children'].value_counts()


 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

* Terdapat nilai yang harus diperiksa pada kolom children, yaitu 20 dan -1. Besar kemungkinan ini terjadi dari kesalahan input.


In [29]:
# [perbaiki data berdasarkan keputusanmu]
df_scoring['children'] = df_scoring['children'].replace(-1, 1)
df_scoring['children'] = df_scoring['children'].replace(20, 2)

In [30]:
# Periksa kembali kolom `children` untuk memastikan bahwa semuanya telah diperbaiki
df_scoring['children'].value_counts()


0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

* Kita akan periksa data dalam kolom `days_employed`. Pertama-tama, masalah apa yang mungkin ada pada kolom tersebut.

In [31]:
# Temukan data yang bermasalah di kolom `days_employed` jika memang terdapat masalah dan hitung persentasenya
problematic_data = df_scoring[df_scoring['days_employed'] < 0]
percentage_data = (len(problematic_data) / len(df_scoring)) * 100


print('Jumlah data yang bermasalah:',len(problematic_data))
print('Jumlah persentase data bermasalah:{:.2f}%'.format(percentage_data))

Jumlah data yang bermasalah: 15906
Jumlah persentase data bermasalah:73.90%


In [32]:
df_scoring['days_employed']

0         -8437.673028
1         -4024.803754
2         -5623.422610
3         -4124.747207
4        340266.072047
             ...      
21520     -4529.316663
21521    343937.404131
21522     -2113.346888
21523     -3112.481705
21524     -1984.507589
Name: days_employed, Length: 21525, dtype: float64

# * Temuan

 1. Ditemukan bahwa ada beberapa nilai yang mungkin tidak valid dalam kolom 'days_employed'. Beberapa nilai negatif sangat besar (seperti 340266.072047 dan 343937.404131) mungkin terlihat aneh dan tidak masuk akal dalam konteks pengalaman kerja dalam hitungan hari.

 2. Besar kemungkinan hal ini disebabkan oleh kesalahan pengisian data. Ada kemungkinan kesalahan manusia dalam menginput data atau konversi dari unit lain (seperti jam atau bulan) ke hari.

 3. Kemungkinan lainnya yaitu pengisian data otomatis. Jika pengisian data dilakukan secara otomatis, mungkin ada kesalahan dalam perhitungan atau pemrosesan data.

 4. Persentase data yang bermasalah adalah 73.90% hal ini sangat besar.



In [33]:
# Atasi nilai yang bermasalah, jika ada
df_scoring['days_employed'] = df_scoring['days_employed'].apply(abs)


* Kita coba untuk menghilangkan nilai negatif pada DataFrame

In [53]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
df_scoring['days_employed'].describe()

count     19351.000000
mean      63046.497661
std      140827.311974
min      -18388.949901
25%       -2747.423625
50%       -1203.369529
75%        -291.095954
max      401755.400475
Name: days_employed, dtype: float64

* Selanjutnya, mari kita lihat usia nasabah dan memeriksa apakah terdapat masalah di sana

In [121]:
# Periksa `dob_years` untuk nilai yang mencurigakan dan hitung persentasenya
df_scoring['dob_years'].value_counts()


35    616
40    607
41    605
34    601
38    597
42    596
33    581
39    572
31    559
36    554
44    545
29    544
30    537
37    536
48    536
50    513
43    512
32    509
49    508
28    503
45    496
27    493
52    484
56    483
47    477
54    476
46    472
53    459
57    456
58    454
51    446
59    443
55    443
26    408
60    374
25    357
61    354
62    348
63    269
24    263
64    260
23    252
65    193
22    183
66    182
67    167
21    111
0     101
68     99
69     85
70     65
71     56
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

In [122]:
# Mari kita hitung persentasenya
count_age_0 = df_scoring[df_scoring['dob_years'] == 0]['dob_years'].count()
total_data = len(df_scoring)
percentage_age_0 = (count_age_0 / total_data) * 100

print("Jumlah data bermasalah (usia 0):", count_age_0)
print("Persentase data bermasalah (usia 0): {:.2f}%".format(percentage_age_0))


Jumlah data bermasalah (usia 0): 101
Persentase data bermasalah (usia 0): 0.47%


# * Temuan

* Tidak mungkin ada manusia yang berumur 0. Terdapat umur 0 berjumlah 101. Maka kita harus memperbaiki nilai tersebut.


In [123]:
# Atasi masalah pada kolom `dob_years`, jika terdapat masalah
average_age_by_gender = df_scoring.groupby('gender')['dob_years'].mean()

def impute_age(row):
    if row['dob_years'] == 0:
        return average_age_by_gender[row['gender']]
    else:
        return row['dob_years']

df_scoring['dob_years'] = df_scoring.apply(impute_age, axis=1)
df_scoring['dob_years'] = df_scoring['dob_years'].astype(int)

In [124]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
df_scoring['dob_years'].value_counts()

40    636
44    617
35    616
41    605
34    601
38    597
42    596
33    581
39    572
31    559
36    554
29    544
30    537
48    536
37    536
50    513
43    512
32    509
49    508
28    503
45    496
27    493
52    484
56    483
47    477
54    476
46    472
53    459
57    456
58    454
51    446
55    443
59    443
26    408
60    374
25    357
61    354
62    348
63    269
24    263
64    260
23    252
65    193
22    183
66    182
67    167
21    111
68     99
69     85
70     65
71     56
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

* Di sini saya tidak menghapus umur yang bernilai 0, karena kolom dob_years memiliki pengaruh ke beberapa kolom. Maka dari itu saya melakukan pendekatan berupa isi nilai secara random dengan method mean() untuk kolom dob_years yang bernilai 0.



* Mari kita coba memeriksa kolom `family_status`.

In [125]:
# Mari kita lihat nilai untuk kolom ini
df_scoring['family_status'].value_counts()


married              12339
civil partnership     4150
unmarried             2810
divorced              1195
widow / widower        959
Name: family_status, dtype: int64

* Tidak ada nilai bermasalah di familiy_status

In [126]:
# Periksa hasilnya - pastikan nilainya telah diperbaiki
df_scoring['family_status']

0                  married
1                  married
2                  married
3                  married
4        civil partnership
               ...        
21449    civil partnership
21450              married
21451    civil partnership
21452              married
21453              married
Name: family_status, Length: 21453, dtype: object

[Sekarang, saatnya memeriksa kolom `gender`. Periksalah nilai seperti apa yang dimuat di dalam kolom ini dan masalah apa yang mungkin perlu kamu atasi]

In [127]:
# Mari kita liat nilai dalam kolom ini
df_scoring['gender'].value_counts()

F    14174
M     7279
Name: gender, dtype: int64

In [128]:
# Atasi nilai-nilai yang bermasalah, jika ada
df_scoring = df_scoring.drop(df_scoring[df_scoring['gender'] == 'XNA'].index)




* Di sini kita langsung saja menghapus nilai yang bernama XNA, karena nilai XNA sendiri tidak memiliki pengaruh yang cukup besar untuk analisa data di bagian kolom gender.

* Sekarang, saatnya memeriksa kolom `income_type`. Kita akan periksa nilai seperti apa yang dimuat di dalam kolom ini. 

In [129]:
# Mari kita lihat nilai dalam kolom ini
df_scoring['income_type'].value_counts()

employee                       11084
business                        5077
retiree                         3829
civil servant                   1457
unemployed                         2
entrepreneur                       2
paternity / maternity leave        1
student                            1
Name: income_type, dtype: int64

* Tidak ada data yang bermasalah

In [130]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
df_scoring['income_type']

0        employee
1        employee
2        employee
3        employee
4         retiree
           ...   
21449    business
21450     retiree
21451    employee
21452    employee
21453    employee
Name: income_type, Length: 21453, dtype: object

# 2.2 Penanganan Nilai Duplikat
* Sekarang kita lihat apakah ada duplikat di dalam data kita.

In [131]:
# Periksa duplikat
duplicate_count = df_scoring.duplicated().sum()

duplicate_count

0

In [132]:
# Atasi duplikat, jika ada
df_scoring = df_scoring.drop_duplicates().reset_index(drop=True)

In [133]:
# Lakukan pemeriksaan terakhir untuk memeriksa apakah kita memiliki duplikat
total_duplicate_count = df_scoring.duplicated().sum()
total_duplicate_count

0

In [134]:
# Periksa ukuran dataset yang sekarang kamu miliki setelah manipulasi pertama yang kamu lakukan
df_scoring.shape


(21453, 14)

* Terdapat nilai yang terindikasi duplikasi. Hal ini memangkas data dari hasil awal DataFrame yaitu 21525 menjadi 21453

# 2.3 Penanganan Nilai yang Hilang

* Untuk mempercepat pekerjaan dengan sejumlah data, kita mungkin menggunakan dictionary untuk beberapa nilai yang memiliki ID. di sini kita akan menggunakan kolom education_id dan education

In [135]:
# Temukan dictionary
# untuk education_id
education_dict = dict(zip(df_scoring['education_id'], df_scoring['education']))


In [136]:
# Temukan dictionary
# untuk family_status_id
education_dict = dict(zip(df_scoring['family_status_id'], df_scoring['family_status']))

* Dikarenakan yang hanya memiliki ID yaitu family_status_id dan education_id, maka kita akan tinjau lebih lanjut pada kedua kolom tersebut.
* Kita akan coba tinjau education_id bersama education dan family_status_id bersama family_status

In [137]:
# ini hanya preview
df_scoring.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category,income_group
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,Property,30-45k
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,Transportation,15-30k
2,0,-5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,Property,15-30k
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,Education,30-45k
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,Wedding,15-30k


### Memperbaiki nilai yang hilang di `total_income`


* Kita akan melakukan pendekatan pada kolom dob_years, dimana kita akan membuat sebuah kolom baru untuk menghitung kategori usia.


In [138]:
# Mari kita tulis sebuah fungsi untuk menghitung kategori usia
def age_grouping(age):
    if age <= 25:
        value = '0-25 years old'
    elif age > 25 and age <= 50:
        value = '26-50 years old'
    else:
        value = '> 50 years old'
    return value
    

In [139]:
# Lakukan pengujian untuk melihat apakah fungsimu bekerja atau tidak
age_grouping(20)

'0-25 years old'

In [140]:
# Buatlah kolom baru berdasarkan fungsi
df_scoring['age_group'] = df_scoring['dob_years'].apply(age_grouping)
df_scoring.head()


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category,income_group,age_group
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,Property,30-45k,26-50 years old
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,Transportation,15-30k,26-50 years old
2,0,-5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,Property,15-30k,26-50 years old
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,Education,30-45k,26-50 years old
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,Wedding,15-30k,> 50 years old


In [141]:
# Periksa bagaimana nilai di dalam kolom baru
df_scoring['age_group'].value_counts()


26-50 years old    13578
> 50 years old      6644
0-25 years old      1231
Name: age_group, dtype: int64

* Kita di sini akan menggunakan pendekatan faktor median, karena dengan menggunakan mean, nilai yang kosong akan ikut terhitung. Hal ini dapat memengaruhi hasil analisa kita.

Berikut tabel yang memuat data tanpa nilai yang hilang:

In [142]:
# Buat tabel tanpa nilai yang hilang dan tampilkan beberapa barisnya untuk memastikan semuanya berjalan dengan baik
df_cleaned = df_scoring.dropna()
df_cleaned.head(50)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category,income_group,age_group
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,Property,30-45k,26-50 years old
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,Transportation,15-30k,26-50 years old
2,0,-5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,Property,15-30k,26-50 years old
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,Education,30-45k,26-50 years old
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,Wedding,15-30k,> 50 years old
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,Property,30-45k,26-50 years old
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,Property,30-45k,26-50 years old
7,0,-152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,Education,15-30k,26-50 years old
8,2,-6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,Wedding,15-30k,26-50 years old
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,Property,15-30k,26-50 years old


In [143]:
# Perhatikan nilai rata-rata untuk pendapatan berdasarkan faktor yang telah kamu identifikasi
pd.pivot_table(df_cleaned, columns = 'age_group', values = 'total_income', aggfunc= 'mean')

age_group,0-25 years old,26-50 years old,> 50 years old
total_income,23447.795802,28103.675052,24704.150073


In [144]:
# Perhatikan nilai median untuk pendapatan berdasarkan faktor yang telah kamu identifikasi
pd.pivot_table(df_cleaned, columns = 'age_group', values = 'total_income', aggfunc= 'median')

age_group,0-25 years old,26-50 years old,> 50 years old
total_income,21423.8355,24532.211,21310.9445


* Kita akan menggunakan pendekatan median. Karena dengan pendekata mean, nilai hilang akan berdampak dengan method .mean() sehingga nilai kosong ikut terhitung. Oleh karena itu, kita akan melakukan pendekatan menggunakan median yaitu mencari nilai tengah.


In [145]:
#  Tulis fungsi yang akan kita gunakan untuk mengisi nilai yang hilang
def fillna_from_median_group (dataframe, col_missing, col_group):
    median = pd.pivot_table(dataframe, columns=col_group, values=col_missing, aggfunc='median')

    for column in median.columns:
        dataframe.loc[(df_scoring[col_group]==column) & (dataframe[col_missing].isnull()), col_missing] = median[column][0]

    return dataframe
        

In [146]:
# Memeriksa bagaimana nilai di dalam kolom baru
df_scoring['age_group'].value_counts()

26-50 years old    13578
> 50 years old      6644
0-25 years old      1231
Name: age_group, dtype: int64

In [147]:
# Terapkan fungsi tersebut ke setiap baris
fillna_from_median_group(df_scoring, col_missing='total_income', col_group='age_group')

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category,income_group,age_group
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,Property,30-45k,26-50 years old
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,Transportation,15-30k,26-50 years old
2,0,-5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,Property,15-30k,26-50 years old
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,Education,30-45k,26-50 years old
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,Wedding,15-30k,> 50 years old
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21448,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,Property,30-45k,26-50 years old
21449,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,Transportation,15-30k,> 50 years old
21450,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,Property,<= 15k,26-50 years old
21451,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,Transportation,30-45k,26-50 years old


In [148]:
# Periksa apakah kita mendapatkan kesalahan
df_scoring.head(50)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category,income_group,age_group
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,Property,30-45k,26-50 years old
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,Transportation,15-30k,26-50 years old
2,0,-5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,Property,15-30k,26-50 years old
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,Education,30-45k,26-50 years old
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,Wedding,15-30k,> 50 years old
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,Property,30-45k,26-50 years old
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,Property,30-45k,26-50 years old
7,0,-152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,Education,15-30k,26-50 years old
8,2,-6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,Wedding,15-30k,26-50 years old
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,Property,15-30k,26-50 years old


In [149]:
# Ganti nilai yang hilang jika terdapat kesalahan
df_scoring = fillna_from_median_group(df_scoring, col_missing='total_income', col_group='age_group')

* Setelah itu, selesai dengan `total_income`, kita akan periksa apakah jumlah total nilai di kolom ini sesuai dengan jumlah nilai di kolom lain.

In [150]:
# Periksa jumlah entri di kolom
df_scoring.isnull().sum()

children               0
days_employed       2103
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
purpose_category       0
income_group           0
age_group              0
dtype: int64

###  Memperbaiki nilai di `days_employed`

* Di sini juga akan sama prosesnya dengan pendekatan median, agar tidak terganggu dengan adanya perhitungan yang melibatkan nilai hilang

In [151]:
# Distribusi median dari `days_employed` berdasarkan parameter yang kamu identifikasi
pd.pivot_table(df_scoring, columns='income_type', values='days_employed', aggfunc='median')



income_type,business,civil servant,employee,entrepreneur,paternity / maternity leave,retiree,student,unemployed
days_employed,-1546.333214,-2689.368353,-1574.202821,-520.848083,-3296.759962,365213.306266,-578.751554,366413.652744


In [152]:
# Distribusi rata-rata dari `days_employed` berdasarkan parameter yang kamu identifikasi
pd.pivot_table(df_scoring, columns='income_type', values='days_employed', aggfunc='mean')

income_type,business,civil servant,employee,entrepreneur,paternity / maternity leave,retiree,student,unemployed
days_employed,-2111.470404,-3399.896902,-2326.499216,-520.848083,-3296.759962,365003.491245,-578.751554,366413.652744



* Sama seperti sebelumnya, kita akan menggunakan pendekatan median. Karena dengan pendekata mean, nilai hilang akan berdampak dengan method .mean(). Oleh karena itu, kita akan melakukan pendekatan menggunakan median yaitu mencari nilai tengah.

In [153]:
# Mari tulis fungsi yang menghitung rata-rata atau median (tergantung keputusanmu) berdasarkan parameter yang kamu identifikasi
def fillna_from_median_group (dataframe, col_missing, col_group):
    median = pd.pivot_table(dataframe, columns=col_group, values=col_missing, aggfunc='median')

    for column in median.columns:
        dataframe.loc[(df_scoring[col_group]==column) & (dataframe[col_missing].isnull()), col_missing] = median[column][0]

    return dataframe

In [154]:
# Periksa apakah fungsimu bekerja
fillna_from_median_group(df_scoring, col_missing = 'days_employed', col_group = 'income_type')


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category,income_group,age_group
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,Property,30-45k,26-50 years old
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,Transportation,15-30k,26-50 years old
2,0,-5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,Property,15-30k,26-50 years old
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,Education,30-45k,26-50 years old
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,Wedding,15-30k,> 50 years old
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21448,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,Property,30-45k,26-50 years old
21449,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,Transportation,15-30k,> 50 years old
21450,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,Property,<= 15k,26-50 years old
21451,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,Transportation,30-45k,26-50 years old


In [155]:
# Terapkan fungsi ke income_type
fillna_from_median_group(df_scoring, col_missing = 'total_income', col_group = 'income_type')

        

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category,income_group,age_group
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,Property,30-45k,26-50 years old
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,Transportation,15-30k,26-50 years old
2,0,-5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,Property,15-30k,26-50 years old
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,Education,30-45k,26-50 years old
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,Wedding,15-30k,> 50 years old
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21448,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,Property,30-45k,26-50 years old
21449,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,Transportation,15-30k,> 50 years old
21450,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,Property,<= 15k,26-50 years old
21451,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,Transportation,30-45k,26-50 years old


In [156]:
# Periksa apakah fungsimu bekerja
df_scoring.head(50)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category,income_group,age_group
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,Property,30-45k,26-50 years old
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,Transportation,15-30k,26-50 years old
2,0,-5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,Property,15-30k,26-50 years old
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,Education,30-45k,26-50 years old
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,Wedding,15-30k,> 50 years old
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,Property,30-45k,26-50 years old
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,Property,30-45k,26-50 years old
7,0,-152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,Education,15-30k,26-50 years old
8,2,-6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,Wedding,15-30k,26-50 years old
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,Property,15-30k,26-50 years old


In [157]:
# Ganti nilai yang hilang

df_scoring = fillna_from_median_group(df_scoring, col_missing='days_employed', col_group='income_type')

Setelah selesai dengan `total_income`, kita akan memeriksa apakah jumlah total nilai di kolom ini sesuai dengan jumlah nilai di kolom lain.

In [158]:
# Periksa entri di semua kolom - pastikan kita memperbaiki semua nilai yang hilang
df_scoring.isnull().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
purpose_category    0
income_group        0
age_group           0
dtype: int64

# 2.4 Kesimpulan 
* Kedua kolom diperbaiki agar kedua kolom yang memiliki nilai tidak wajar atau hilang tidak berdampak untuk perhitungan/analisis lebih lanjut ke tahap selanjutnya.

# Tahap 3 Analisis Data dan Temuan serta Hipotesis

# 3.1 Pengkategorian data

* Kita akan menganalisa kolom purpose lebih lanjut. Kolom purpose memiliki banyak nilai unik di dalamnya. Meskipun banyak nilai unik di dalamnya, kolom purpose sangat mudah untuk dikategorikan.

In [62]:
# Tampilkan nilai data yang kamu pilih untuk pengkategorian
df_scoring['purpose'].describe()

count                21454
unique                  38
top       wedding ceremony
freq                   791
Name: purpose, dtype: object

* Mari kita periksa nilai unik

In [79]:
# Periksa nilai unik
df_scoring['purpose'].unique()


array(['purchase of the house', 'car purchase', 'supplementary education',
       'to have a wedding', 'housing transactions', 'education',
       'having a wedding', 'purchase of the house for my family',
       'buy real estate', 'buy commercial real estate',
       'buy residential real estate', 'construction of own property',
       'property', 'building a property', 'buying a second-hand car',
       'buying my own car', 'transactions with commercial real estate',
       'building a real estate', 'housing',
       'transactions with my real estate', 'cars', 'to become educated',
       'second-hand car purchase', 'getting an education', 'car',
       'wedding ceremony', 'to get a supplementary education',
       'purchase of my own house', 'real estate transactions',
       'getting higher education', 'to own a car', 'purchase of a car',
       'profile education', 'university education',
       'buying property for renting out', 'to buy a car',
       'housing renovation', 'going

In [160]:
# Mari kita tulis sebuah fungsi untuk mengategorikan data berdasarkan topik umum
def categorize_purpose(purpose):
    purpose_category_mapping = {
        'purchase of the house': 'Property',
        'car purchase': 'Transportation',
        'supplementary education': 'Education',
        'to have a wedding': 'Wedding',
        'housing transactions': 'Property',
        'education': 'Education',
        'having a wedding': 'Wedding',
        'purchase of the house for my family': 'Property',
        'buy real estate': 'Property',
        'buy commercial real estate': 'Property',
        'buy residential real estate': 'Property',
        'construction of own property': 'Property',
        'property': 'Property',
        'building a property': 'Property',
        'buying a second-hand car': 'Transportation',
        'buying my own car': 'Transportation',
        'transactions with commercial real estate': 'Property',
        'building a real estate': 'Property',
        'housing': 'Property',
        'transactions with my real estate': 'Property',
        'cars': 'Transportation',
        'to become educated': 'Education',
        'second-hand car purchase': 'Transportation',
        'getting an education': 'Education',
        'car': 'Transportation',
        'wedding ceremony': 'Wedding',
        'to get a supplementary education': 'Pendidikan',
        'purchase of my own house': 'Property',
        'real estate transactions': 'Property',
        'getting higher education': 'Education',
        'to own a car': 'Transportaion',
        'purchase of a car': 'Transportation',
        'profile education': 'Education',
        'university education': 'Education',
        'buying property for renting out': 'Property',
        'to buy a car': 'Transportation',
    }
    return purpose_category_mapping.get(purpose, 'Other')


df_scoring[['purpose', 'purpose_category']].head()



Unnamed: 0,purpose,purpose_category
0,purchase of the house,Property
1,car purchase,Transportation
2,purchase of the house,Property
3,supplementary education,Education
4,to have a wedding,Wedding


In [108]:
df_scoring['purpose'].describe()

count                21453
unique                  38
top       wedding ceremony
freq                   791
Name: purpose, dtype: object

In [161]:
# Buat kolom yang memuat kategori dan hitung nilainya
df_scoring['purpose_category'] = df_scoring['purpose'].apply(categorize_purpose)
df_scoring[['purpose', 'purpose_category']].value_counts()

purpose                                   purpose_category
wedding ceremony                          Wedding             791
having a wedding                          Wedding             768
to have a wedding                         Wedding             765
real estate transactions                  Property            675
buy commercial real estate                Property            661
housing transactions                      Property            652
buying property for renting out           Property            651
transactions with commercial real estate  Property            650
purchase of the house                     Property            646
housing                                   Property            646
purchase of the house for my family       Property            638
construction of own property              Property            635
property                                  Property            633
transactions with my real estate          Property            627
building a real e

* Dengan pengkategorian seperti ini, kita bisa dengan mudah menghitung dari value yang bergantungan dengan income

In [162]:
# Lihat semua data numerik di kolom yang kamu pilih untuk pengkategorian
def categorize_income(total_income):
    if total_income <= 15000:
        return '<= 15k'
    elif total_income <= 30000:
        return '15-30k'
    elif total_income <= 45000:
        return '30-45k'
    elif total_income <= 60000:
        return '45-60k'
    else:
        return '> 60k'

df_scoring[['total_income', 'income_group']].head(50)

Unnamed: 0,total_income,income_group
0,40620.102,30-45k
1,17932.802,15-30k
2,23341.752,15-30k
3,42820.568,30-45k
4,25378.572,15-30k
5,40922.17,30-45k
6,38484.156,30-45k
7,21731.829,15-30k
8,15337.093,15-30k
9,23108.15,15-30k


In [163]:
# Dapatkan kesimpulan statistik untuk kolomnya
df_scoring['income_group'] = df_scoring['total_income'].apply(categorize_income)
df_scoring['income_group'].describe()

count      21453
unique         5
top       15-30k
freq       11792
Name: income_group, dtype: object

* Di sini akan ditentukan rentang apa yang akan kita gunakan untuk pengelompokan. Menggunakan rentang income ke dalam kategori grup. Masing-masing akan dihitung sesuai ambang batas yang ditentukan. Hal ini untuk mempermudah secara visual besar atau kecilnya sebuah nilai di dalam income untuk mendapatkan kesimpulan. Karena nilai income grup memiliki variasi yang sangat banyak atau unik.

# 3.2 Faktor-Faktor yang Berpengaruh pada Gagal Bayar Pinjaman


**Apakah terdapat korelasi antara memiliki anak dengan probabilitas melakukan gagal bayar pinjaman?**

In [164]:
# Periksa data anak dan data gagal bayar pinjaman
children_debt = pd.pivot_table(df_scoring, index='children', columns='debt', values='education', aggfunc='count').fillna(0).reset_index()
children_debt





debt,children,0,1
0,-1,46.0,1.0
1,0,13027.0,1063.0
2,1,4364.0,444.0
3,2,1858.0,194.0
4,3,303.0,27.0
5,4,37.0,4.0
6,5,9.0,0.0
7,20,68.0,8.0


In [165]:
# Hitung persentase gagal bayar berdasarkan jumlah anak
children_debt['total'] = children_debt[0] + children_debt[1]
children_debt['percent 0'] = round(children_debt[0] / children_debt['total'] * 100, 1).astype(str) + '%'
children_debt['percent 1'] = round(children_debt[1] / children_debt['total'] * 100, 1).astype(str) + '%'
children_debt.sort_values('percent 1', ascending=False)

debt,children,0,1,total,percent 0,percent 1
5,4,37.0,4.0,41.0,90.2%,9.8%
3,2,1858.0,194.0,2052.0,90.5%,9.5%
2,1,4364.0,444.0,4808.0,90.8%,9.2%
4,3,303.0,27.0,330.0,91.8%,8.2%
1,0,13027.0,1063.0,14090.0,92.5%,7.5%
0,-1,46.0,1.0,47.0,97.9%,2.1%
7,20,68.0,8.0,76.0,89.5%,10.5%
6,5,9.0,0.0,9.0,100.0%,0.0%


**Apakah terdapat korelasi antara status keluarga dengan probabilitas melakukan gagal bayar pinjaman?**

In [166]:
# Periksa data status keluarga dan data gagal bayar pinjaman
family_status_debt = pd.pivot_table(df_scoring, index='family_status', columns='debt', values='education', aggfunc='count').fillna(0).reset_index()
family_status_debt






debt,family_status,0,1
0,civil partnership,3762,388
1,divorced,1110,85
2,married,11408,931
3,unmarried,2536,274
4,widow / widower,896,63


In [167]:
# Hitung persentase gagal bayar berdasarkan status keluarga
family_status_debt['total'] = family_status_debt[0] + family_status_debt[1]
family_status_debt['percent 0'] = round(family_status_debt[0] / family_status_debt['total'] * 100, 1).astype(str) + '%'
family_status_debt['percent 1'] = round(family_status_debt[1] / family_status_debt['total'] * 100, 1).astype(str) + '%'


family_status_debt.sort_values('percent 1', ascending=False)

debt,family_status,0,1,total,percent 0,percent 1
3,unmarried,2536,274,2810,90.2%,9.8%
0,civil partnership,3762,388,4150,90.7%,9.3%
2,married,11408,931,12339,92.5%,7.5%
1,divorced,1110,85,1195,92.9%,7.1%
4,widow / widower,896,63,959,93.4%,6.6%


# * Kesimpulan (disatukan dengan yang di atas)

* Kita akan gabung kesimpulan untuk ke dua kolom, yaitu children_status_debt dan family_status debt. Mereka mengalami kesamaan. Jika hasil persentasenya sama, kemungkinan besar ini karena data pada kolom 'children' memiliki distribusi yang serupa dengan data pada kolom 'family_status', sehingga perhitungan persentase yang dihasilkan pun menjadi serupa.

**Apakah terdapat korelasi antara tingkat pendapatan dengan probabilitas melakukan gagal bayar pinjaman?**

Pada bagian ini kita akan menggunakan kolom tambahan yang kita buat yaitu income_group

In [169]:
# Periksa data tingkat pendapatan dan data gagal bayar pinjaman
income_debt = pd.pivot_table(df_scoring, index='income_group', columns='debt', values='education', aggfunc='count').fillna(0).reset_index()
income_debt




debt,income_group,0,1
0,15-30k,10785,1007
1,30-45k,3755,304
2,45-60k,1093,94
3,<= 15k,3445,298
4,> 60k,634,38


In [170]:
# Hitung persentase gagal bayar berdasarkan tingkat pendapatan
income_debt = pd.pivot_table(df_scoring, index='income_group', columns='debt', values='education', aggfunc='count').fillna(0).reset_index()
income_debt['total'] = income_debt[0] + income_debt[1]
income_debt['percent 0'] = round(income_debt[0] / income_debt['total'] * 100, 1).astype(str) + '%'
income_debt['percent 1'] = round(income_debt[1] / income_debt['total'] * 100, 1).astype(str) + '%'

income_debt.sort_values('percent 1', ascending=False)


debt,income_group,0,1,total,percent 0,percent 1
0,15-30k,10785,1007,11792,91.5%,8.5%
3,<= 15k,3445,298,3743,92.0%,8.0%
2,45-60k,1093,94,1187,92.1%,7.9%
1,30-45k,3755,304,4059,92.5%,7.5%
4,> 60k,634,38,672,94.3%,5.7%


# * Temuan 
* Bisa dipastikan rata-rata gagal bayar berada di atas 5%. Hal ini sangat berpengaruh besar dalam proses bisnis ke depannya karena ini akan berdampak akan kredibilitas perusahaan.

# * Kesimpulan
* Kita bisa lihat berbagai rentang dengan perbandingan antara berhasil bayar dan gagal bayar hutang dengan menggunakan rentang kategori.


# 3.3 Analisis Berdasarkan Tujuan Kredit

**Bagaimana tujuan kredit memengaruhi persentase gagal bayar?**

In [171]:
# Periksa persentase tingkat gagal bayar untuk setiap tujuan kredit dan lakukan penganalisisan
purpose_debt = pd.pivot_table(df_scoring, index='purpose_category', columns='debt', values='education', aggfunc='count').fillna(0).reset_index()
purpose_debt['total'] = purpose_debt[0] + purpose_debt[1]
purpose_debt['percent 0'] = round(purpose_debt[0] / purpose_debt['total'] * 100, 1).astype(str) + '%'
purpose_debt['percent 1'] = round(purpose_debt[1] / purpose_debt['total'] * 100, 1).astype(str) + '%'
purpose_debt.sort_values('percent 1', ascending=False)


debt,purpose_category,0,1,total,percent 0,percent 1
5,Transportation,3473,355,3828,90.7%,9.3%
0,Education,2795,276,3071,91.0%,9.0%
6,Wedding,2138,186,2324,92.0%,8.0%
3,Property,9456,747,10203,92.7%,7.3%
1,Other,1025,78,1103,92.9%,7.1%
2,Pendidikan,395,51,446,88.6%,11.4%
4,Transportaion,430,48,478,90.0%,10.0%


# * Nilai Distribusi Kolom II

In [172]:
# Nilai Distribusi Columns
data_count = df_scoring["purpose_category"].value_counts()
data_percent = df_scoring["purpose_category"].value_counts(normalize=True).mul(100).round(2).astype(str)+"%"
pd.DataFrame(data={"percent%" : data_percent, "count" : data_count}).rename_axis("unique")

Unnamed: 0_level_0,percent%,count
unique,Unnamed: 1_level_1,Unnamed: 2_level_1
Property,47.56%,10203
Transportation,17.84%,3828
Education,14.32%,3071
Wedding,10.83%,2324
Other,5.14%,1103
Transportaion,2.23%,478
Pendidikan,2.08%,446


# 3.4 Kesimpulan

* Seperti yang kita lihat, 1 merupakan gagal bayar dan 0 merupakan pembayaran berhasil. Dari persentase yang kita dapat dalam kolom gagal bayar merupakan dampak yang paling besar. Dampak ini akan sangat memengaruhi income. 


# * Kesimpulan Umum 

1. Dari dataset yang kita kerjakan. Kita perlu memeriksa terlebih dahulu atau menginisiasi data cleansing untuk mencari temuan. Temuan tersebut akan menjadi insight untuk kita kedepannya. 

2. Terdapat nilai hilang pada kolom total_income dan days_employed. Ada juga kolom yang memiliki nilai tidak masuk akal yaitu kolom 'children' dan 'dob_years'. Terdapat juga uppercase dan lowercase yang tidak perlu di dalam kolom 'education'.

3. Terdapat duplikat dan juga kita telah menghapus duplikasi data

 



# Kesimpulan Penutup
 Dalam proyek ini, kita melakukan analisis data kredit scoring untuk mendapatkan wawasan tentang faktor-faktor yang berkontribusi terhadap kemungkinan gagal bayar kredit. Proses analisis meliputi pemahaman awal data, penanganan nilai yang hilang, deteksi dan penanganan duplikasi, serta eksplorasi berbagai faktor yang berhubungan dengan gagal bayar.

* Hasil Analisis dan Temuan
1. Pendapatan dan Kemungkinan Gagal Bayar: Berdasarkan analisis, terlihat bahwa individu dengan pendapatan lebih rendah cenderung memiliki kemungkinan gagal bayar yang lebih tinggi. Ini menunjukkan adanya korelasi negatif antara pendapatan dan risiko gagal bayar.

2. Status Pernikahan dan Kemungkinan Gagal Bayar: Status pernikahan juga memiliki pengaruh terhadap risiko gagal bayar. Individu yang bercerai atau duda memiliki risiko gagal bayar yang lebih tinggi dibandingkan dengan individu yang menikah.

3. Jumlah Anak dan Kemungkinan Gagal Bayar: Jumlah anak juga memiliki pengaruh terhadap risiko gagal bayar. Individu dengan jumlah anak yang lebih tinggi memiliki risiko gagal bayar yang lebih tinggi.

4. Tujuan Kredit dan Kemungkinan Gagal Bayar: Terdapat variasi dalam risiko gagal bayar berdasarkan tujuan kredit. Penggunaan kredit untuk tujuan pendidikan atau perbaikan rumah memiliki risiko gagal bayar yang lebih rendah dibandingkan dengan tujuan bisnis atau pembelian kendaraan.

* Rekomendasi Bisnis berdasarkan temuan dari analisis, beberapa rekomendasi bisnis yang dapat diambil adalah:

1. Segmentasi Pelanggan: Berdasarkan karakteristik seperti pendapatan, status pernikahan, dan jumlah anak, bank dapat melakukan segmentasi pelanggan untuk mengidentifikasi kelompok risiko yang lebih tinggi. Ini akan membantu dalam menentukan suku bunga atau persyaratan kredit yang sesuai.

2. Penilaian Risiko Lebih Akurat: Dengan mempertimbangkan faktor-faktor seperti tujuan kredit, bank dapat meningkatkan akurasi penilaian risiko gagal bayar. Ini dapat membantu dalam menghindari pemberian kredit kepada individu dengan risiko tinggi.

3. Pengembangan Produk Khusus: Berdasarkan analisis tentang tujuan kredit, bank dapat mengembangkan produk khusus dengan suku bunga yang lebih rendah untuk kategori tujuan tertentu yang memiliki risiko gagal bayar yang rendah.

4. Kesimpulan: analisis data kredit scoring memberikan wawasan yang berharga bagi bank dalam mengelola risiko kredit dan membuat keputusan yang lebih bijaksana dalam pemberian kredit kepada pelanggan.