# Pendahuluan <a id='intro'></a>

Kemampuan nasabah merupakan informasi yang penting bagi pihak bank dalam mengambil keputusan bisnis.Dalam mendapatkan informasi kemampuan nasabah, seringkali pihak bank perlu menganalisa berbagai indikator yang berpotensi memberikan gambaran bagaimana kemampuan nasabah dalam melunasi pembayaran kredit. Oleh karena itu, semakin berkembangnya teknologi dan informasi juga turut menambah faktor-faktor yang perlu diuji untuk bisa memberikan informasi agar pihak bank terhindar dari potensi gagal bayar.

Dalam proyek ini, analisis dilakukan untuk mencari tahu, bagaimana pengaruh karakteristik nasabah terhadap kemampuan nasabah dalam melunasi kredit. Bagaimana status nasabah dalam perkawinan dan jumlah keluarga mereka yang dalam hal ini adalah jumlah anak, bisa menjadi sebuah uji coba yang menarik bagaimana pengaruhnya dengan kemampuan nasabah dalam pelunasan kredit.

### Tujuan

Menguji hipotesis berikut:
1. Apakah terdapat hubungan antara memiliki anak dan probabilitas seseorang melakukan gagal bayar pinjaman?
2. Apakah terdapat hubungan antara status perkawinan dan probabilitas seseorang melakukan gagal bayar pinjaman?
3. Apakah terdapat hubungan antara tingkat pendapatan dan probabilitas seseorang melakukan gagal bayar pinjaman?
4. Bagaimana perbedaan tujuan pinjaman memengaruhi probabilitas seseorang melakukan gagal bayar pinjaman?

### Tahapan

Data mengenai informasi nasabah dalam mengajukan kredit disimpan dalam /datasets/credit_scoring_eng.csv. Tidak ada informasi terkait kualitas data tersebut, jadi  perlu memeriksanya terlebih dahulu sebelum menguji hipotesis lebih lanjut.

Pertama, untuk  mengevaluasi kualitas data dan melihat apakah masalahnya signifikan. Kemudian, selama pra-pemrosesan data, akan mencoba mengatasi masalah yang paling serius.
 
Proyek ini akan terdiri dari tiga tahap:
 1. Eksplorasi Data
 2. Tranformasi Data
 3. Pengujian hipotesis

 


## Eksplorasi data

In [1]:
# Muat semua *library*
import pandas as pd



In [2]:
# Muat datanya
try:
    df = pd.read_csv('D:\Belajar_Python\credit_scoring_eng.csv')
except:
    df = pd.read_csv('/datasets/credit_scoring_eng.csv')


**Deskripsi Data**
- `children` - jumlah anak dalam keluarga
- `days_employed` - pengalaman kerja nasabah dalam hari
- `dob_years` - usia nasabah dalam tahun
- `education` - tingkat pendidikan nasabah
- `education_id` - pengidentifikasi untuk tingkat pendidikan nasabah
- `family_status` - pengidentifikasi untuk status perkawinan nasabah
- `family_status_id` - tanda pengenal status perkawinan
- `gender` - jenis kelamin nasabah
- `income_type` - jenis pekerjaan
- `debt` - apakah nasabah pernah melakukan gagal bayar pinjaman
- `total_income` - pendapatan bulanan
- `purpose` - tujuan mendapatkan pinjaman



In [238]:
# Mari kita lihat berapa banyak baris dan kolom yang dimiliki oleh dataset kita
df.shape

(21525, 12)

In [239]:
# Mari tampilkan N baris pertama
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


Hasil sampel data ini merupakan karakteristik yang dimiliki oleh nasabah. Ada tiga jenis type data pada dataset yaitu numerik (children,days_employed,dob_years,total_income), text (education,family_status,income_type dan purpose) dan kategori(family_status_id,education_id,gender dan debt).

Dari pengamatan sampel memiliki beberapa poin yang perlu diperhatikan yaitu sebagai berikut:
1. Pada kolom days_employed memiliki anomali data dimana beberapa baris memiliki nilai minus. days_employed merupakan ukuran pengalaman nasabah yang dihitung dengan hari. Hal ini tentu menimbulkan masalah, bagaimana hitungan hari memiliki nilai minus.
2. Pada kolom dob_years memiliki informasi yang begitu rinci dimana hampir tidak mungkin untuk menghasilkan kesimpulan yang relevan secara statistik. Oleh karena itu, pada kolom berikut perlu dilakukan pengkategorian data sehingga sehingga bisa menarik kesimpulan yang lebih bermakna
3. Pada kolom education_id, family_status_id, dan debt memiliki data yang unik sehingga perlu memiliki referensi tabel setiap kolomnya untuk membantu memberikan informasi yg relevan.
4. Pada kolom education memiliki format data text yang tidak konsisten.

In [240]:
# Dapatkan informasi data
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Dengan melakukan eksplorasi data lebih lanjut, memungkinkan kita untuk menemukan beberapa informasi tambahan yang membantu dalam memeriksa kualitas data. Berdasarkan tabel infor bahwa dataset ini memiliki total 21525 baris dan total 12 kolom. Setelah dicermati lebih lanjut terdapat nilai baris yang berbeda dari informasi sebelumnya. Nilai baris berbeda tersebut terdapat pada dua kolom dataset yaitu pada baris kolom days_employed dan total_income. Kedua kolom tersebut hanya memiliki 19351 baris kolom sedangkan total ada 21525 baris kolom dalam dataset ini.


In [241]:
# Mari kita lihat tabel yang telah difilter dengan nilai yang hilang di kolom pertama yang mengandung data yang hilang
df[df['days_employed'].isna()].shape


(2174, 12)

Dataset dengan nilai yang hilang berdasarkan pada kolom days_employed terdiri dari 2174 baris. Dari informasi sebelumnya, terdapat satu kolom lagi yang memiliki nilai yang hilang yaitu pada total_income. Untuk mengetahui bagaimana distribusi nilai data yang hilang untuk kedua kolom berikut apakah memiliki ukuran yang sama, perlu memastikan dengan menghitung nilai yang hilang di semua baris.

In [242]:
# Mari kita terapkan beberapa kondisi untuk memfilter data dan melihat jumlah baris dalam tabel yang telah difilter.

df[(df['days_employed'].isnull()) & (df['total_income'].isnull())].shape

(2174, 12)

**Kesimpulan sementara**

Dari hasil filter pada semua kolom yang memiliki nilai yang hilang memiliki jumlah baris yang sama yaitu 2174 baris. Oleh karena itu, distribusi nilai data yang hilang pada setiap dataset memiliki ukuran yang sama. 

Total baris yang dimiliki oleh data adalah 21525 baris. Untuk total baris yang memiliki nilai yang hilang adalah 2174 baris. Berarti persentase nilai data yang hilang kurang lebih 10%. 

Dalam proses melengkapi data yang hilang perlu mempertimbangkan situasi dan kondisi ketika membuat keputusan. Untuk langkah selanjutnya adalah mencari tahu bagaimana hubungan nilai data hilang dengan variabel lainnya. 

In [4]:
# Mari kita periksa nasabah yang tidak memiliki data tentang karakteristik yang teridentifikasi dan kolom dengan nilai yang hilang
df_filter = df[(df['days_employed'].isna()) & (df['total_income'].isna())]
df_filter 


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


In [244]:
# Periksalah distribusinya

df_filter['income_type'].value_counts(normalize=True).map('{:.2%}'.format)

employee         50.83%
business         23.37%
retiree          19.00%
civil servant     6.76%
entrepreneur      0.05%
Name: income_type, dtype: object

In [42]:
a = df_filter['income_type'].value_counts(normalize = True).reset_index().rename(columns = {'income_type':'percentage'})
a['percentage'] = a['percentage'].apply('{:,.2%}'.format)
b = df_filter['income_type'].value_counts().reset_index().rename(columns = {'income_type': 'count'})
c =pd.concat([a,b[['count']]], axis =1)
c



Unnamed: 0,index,percentage,count
0,employee,50.83%,1105
1,business,23.37%,508
2,retiree,19.00%,413
3,civil servant,6.76%,147
4,entrepreneur,0.05%,1


Total income merupakan pendapatan yang dimiliki nasabah selama enam bulan. Besarnya pendapatan tergantung dari sumber pendapatan tersebut. Tabel diatas menunjukan bahwa bagaimana distribusi nilai yang hilang berdasarkan tipe pekerjaan. Hasilnya menunjukan sebagian besar nilai yang hilang berasal dari tipe pekerjaan sebagai pegawai.
**Kemungkinan penyebab hilangnya nilai dalam data**

Hilangnya nilai-nilai dari data bisa terjadi secara random maupun memiliki pola yang bisa ditelusuri. Dalam kasus ini, berdasarkan hasil pengamatan distribusi data yang hilang berdasarkan tipe pekerjaan tidak ditemukan pola yang mengarah pada hilangnya baris data pada beberapa kolom.

Untuk mengambil kesimpulan bahwa nilai yang hilang terjadi secara acak perlu membandingkan dengan keseluruhan data. Hal ini dilakukan untuk melihat bagaimana distribusi data berdasarkan tipe pekerjaan.

In [245]:
# Memeriksa distribusi di seluruh *dataset*

df['income_type'].value_counts(normalize=True).map('{:.2%}'.format)

employee                       51.66%
business                       23.62%
retiree                        17.91%
civil servant                   6.78%
unemployed                      0.01%
entrepreneur                    0.01%
student                         0.00%
paternity / maternity leave     0.00%
Name: income_type, dtype: object

**Kesimpulan sementara**

Berdasarkan tabel diatas menunjukan bahwa sebagian besar nasabah bekerja sebagai pegawai. Tipe pendapatan sebagai pelajar dan penerima cuti hampir tidak memiliki catatan mengenai pengajuan kredit. 

Jika dibandingkan, kedua tabel diatas menunjukan Hasil relatif sama. Oleh karena itu, kemungkinan bahwa missing value bisa terjadi secara acak atau tanpa memiliki pola tertentu. Namun untuk lebih jelasnya, bisa dipertimbangkan alasan lain untuk mencari penyebab hilangnya data.

Pendapatan memiliki keterkaitan dengan produktivitas seseorang. Sedangkan produktivitas seseorang bisa tergantung dari umur seseorang tersebut. Setelah melakukan analisis terhadap tipe pekerjaan, selanjutnya bisa dengan mengamati bagaimana distribusi umur sesorang terhadap data yang hilang pada kolom total_income

In [247]:
# Periksa penyebab dan pola lain yang dapat mengakibatkan nilai yang hilang
df_filter.pivot_table(
    index = 'dob_years', 
    columns= 'income_type', 
    values = 'debt', 
    aggfunc= 'count', 
    margins= True
).sort_values(
    by = 'All',
    ascending=False).head()

income_type,business,civil servant,employee,entrepreneur,retiree,All
dob_years,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
All,508.0,147.0,1105.0,1.0,413.0,2174
34,22.0,4.0,43.0,,,69
40,26.0,9.0,30.0,,1.0,66
42,20.0,1.0,40.0,,4.0,65
31,28.0,7.0,29.0,,1.0,65


**Kesimpulan sementara**

Hasil tersebut menunjukan lima peringkat teratas distribusi data yang hilang berdasarkan umur nasabah. Semua umur tersebut secara garis besar merupakan umur yang produktif sehingga opini dari data yang hilang karena umur yang tidak produktif bisa bilang tidak relevan dalam data ini. Untuk melihat bagaimana distribusi seluruh data berdasarkan umur nasabah bisa dilakukan dibawah berikut.

In [248]:
# Periksa pola lainnya - jelaskan pola tersebut
df_filter.pivot_table(
    index = 'dob_years', 
    columns= 'income_type', 
    values = 'debt', 
    aggfunc= 'count', 
    margins= True
).sort_values(
    by ='All',
    ascending = False).head()

income_type,business,civil servant,employee,entrepreneur,retiree,All
dob_years,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
All,508.0,147.0,1105.0,1.0,413.0,2174
34,22.0,4.0,43.0,,,69
40,26.0,9.0,30.0,,1.0,66
42,20.0,1.0,40.0,,4.0,65
31,28.0,7.0,29.0,,1.0,65


**Kesimpulan**

Berdasarkan distribusi nilai hilang dari umur nasabah tidak ditemukan pola tertentu. Distribusi umur pada data yang hilang dengan seluruh data relatif meiliki informasi yang sama.

Mengatasi data yang hilang bisa dilakukan dengan dua pendekatan. Pertama dengan cara menghapus data yang memiliki nilai data yang hilang dan melakukan imputasi terhadap nilai yang hilang 

Dari ekplorasi data yang dilakukan membantu dalam memahami kendala yang dimiliki oleh data. Mulai dari adanya anomali nilai data, ketidakkonsistennya format data dan adanya data yang hilang menunjukan bahwa perlu adanya tranformasi data.

## Transformasi data

In [249]:
# Mari kita lihat semua nilai di kolom pendidikan untuk memeriksa ejaan apa yang perlu diperbaiki
df['education'].unique()

array(["bachelor's degree", 'secondary education', 'Secondary Education',
       'SECONDARY EDUCATION', "BACHELOR'S DEGREE", 'some college',
       'primary education', "Bachelor's Degree", 'SOME COLLEGE',
       'Some College', 'PRIMARY EDUCATION', 'Primary Education',
       'Graduate Degree', 'GRADUATE DEGREE', 'graduate degree'],
      dtype=object)

In [75]:
# Perbaiki pencatatan jika diperlukan
df['education'] = df['education'].str.lower()


In [76]:
# Periksa semua nilai di kolom untuk memastikan bahwa kita telah memperbaikinya dengan tepat
df['education'].unique()


array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

In [77]:
# Mari kita lihat distribusi nilai pada kolom `children`
df['children'].value_counts(normalize= True).map('{:.2%}'.format)


 0     65.73%
 1     22.38%
 2      9.55%
 3      1.53%
 20     0.35%
-1      0.22%
 4      0.19%
 5      0.04%
Name: children, dtype: object

Tabel diatas menunjukan distribusi data dari kolom children. Ada dua hal yang perlu diperhatikan untuk tabel berikut yaitu 76 nasabah mmemiliki data jumlah anak 20 dan 47 nasabah memiliki data anak minus -1. 

Beberapa hal bisa menjadi penyebab hilangnya data pada kasus ini. Salah satunya akibat dari kesalahan dalam input data karena kesalahan manusia. Jumlah anak sebanyak 20 mungkin tidak terlalu realistis untuk jumlah anak dalam satu keluarga hal ini juga berlaku pada jumlah anak minus 1 dimana jumlah sebenarnya perlu diperbaiki.

Ada dua metode untuk memperbaiki data yaitu dengan imputasi maupun dengan menghapus data tersebut. Hasil dari tabel menunjukan distribusi data yang bermasalah tidak lebih dari satu persen. Ini memberikan gambaran bahwa data yang bermasalah jumlahnya tidak terlalu signifikan sehingga bisa dilakukan penghapusan terhadap data yang bermasalah.



In [250]:
# [perbaiki data berdasarkan keputusan Anda]
df = df.drop(df[df['children'] == -1].index)
df = df.drop(df[df['children'] == 20].index)

In [251]:
# Periksa kembali kolom `children` untuk memastikan bahwa semuanya telah diperbaiki

df['children'].unique()


array([1, 0, 3, 2, 4, 5], dtype=int64)

Dari sampel sebelumnya bahwa ditemukan anomali pada nilai kolom days_employed perlu untuk diselidiki. Berbagai hal yang bisa mempengaruhi data salah satunya adalah kesalahan dalam mengelola sehingga data yang sudah tersimpan menjadi rusak atau berubah. Bentuk permasalahan dalam kasus ini adalah nilai baris dari suatu kolom adalah minus sehingga perlu dirubah ke nilai normal dengan tanpa merubah data yang sudah benar.

In [252]:
# Temukan data yang bermasalah di kolom `days_employed` jika memang terdapat masalah, dan hitung persentasenya
df['days_employed'].describe()


count     19240.000000
mean      63159.820777
std      140928.943329
min      -18388.949901
25%       -2747.235601
50%       -1203.934202
75%        -289.740178
max      401755.400475
Name: days_employed, dtype: float64

In [253]:
df[df['days_employed'] < 0].shape

(15809, 12)

Dari tabel berikut jumlah data yang tidak normal adalah 15906 baris. Jumlah data tersebut tergolong tinggi sehingga perlu melakukan pengkajian lebih lanjut. Nilai data tersebut merupakan data yang menunjukan periode dari nasabah dalam bekerja dengan satuan hari sehingga tidak relevan semisal nilai tersebut memiliki nilai minus. Oleh karena itu perlu melakukan perubahan dengan menggunakan metode untuk merubah semua data yang bermasalah untuk kembali menjadi normal.

In [254]:
# Atasi nilai yang bermasalah, jika ada

df['days_employed'] = df['days_employed'].abs()

In [259]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
df['days_employed'].describe()


count     19240.000000
mean      67027.691459
std      139130.846446
min          24.141633
25%         927.984311
50%        2195.251592
75%        5556.372075
max      401755.400475
Name: days_employed, dtype: float64

Dob_years merupakan kolom yang memberikan informasi berupa data umur dari nasabah. Dari pengamatan yang dilakukan ditemukan bahwa minimun nilai data dari kolom adalah 0. Seharus umur tidak memiliki nilai 0 sehingga dapat dipastikan bahwa ada kesalahan terhadap data berikut. 

In [260]:
# Periksa `dob_years` untuk nilai yang mencurigakan dan hitung persentasenya
df['dob_years'].describe()

count    21402.000000
mean        43.300206
std         12.579055
min          0.000000
25%         33.000000
50%         42.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64

In [261]:
df['dob_years'].value_counts()

35    614
40    603
41    603
34    597
38    595
42    592
33    577
39    572
31    556
36    553
44    543
29    543
30    536
48    536
37    531
43    510
50    509
32    506
49    505
28    501
45    494
27    490
52    483
56    482
47    480
54    476
46    469
58    461
57    457
53    457
51    446
59    441
55    441
26    406
60    376
25    356
61    353
62    351
63    268
64    263
24    263
23    252
65    194
22    183
66    183
67    167
21    110
0     100
68     99
69     83
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

In [258]:
df.loc[df['dob_years']== 0].shape

(100, 12)


Hasil pemeriksaan menunjukan bahwa terdapat 100 baris kolom memiliki nilai 0. Mengingat jumlahnya tidak terlalu besar dari total keseluruhan data maka akan dilakukan penghapusan data.

In [262]:
# Atasi masalah pada kolom `dob_years`, jika terdapat masalah
df = df.drop(df[df['dob_years'] == 0].index)

In [263]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
df['dob_years'].describe()

count    21302.000000
mean        43.503474
std         12.252843
min         19.000000
25%         33.000000
50%         43.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64

Untuk kolom family_status secara menyeluruh tidak ada masalah yang terlalu signifikan sehingga tidak memerlukan perubahan pada data berikut.

In [264]:
# Mari kita lihat nilai untuk kolom ini
df['family_status'].unique()


array(['married', 'civil partnership', 'widow / widower', 'divorced',
       'unmarried'], dtype=object)

Pada kolom gender ditemukan nilai yang tidak wajar namun mengingat  jumlahnya hanya satu maka pada baris ini bisa dihilangkan dari dataset.

In [265]:
# Mari kita liat nilai dalam kolom ini
df['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

In [266]:
df.loc[df['gender'] == 'XNA']

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10701,0,2358.600502,24,some college,2,civil partnership,1,XNA,business,0,32624.825,buy real estate


In [267]:
# Atasi nilai-nilai yang bermasalah, jika ada
df = df.drop(df[df['gender'] == 'XNA'].index)

In [268]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
df['gender'].unique()


array(['F', 'M'], dtype=object)

Pada kolom income_type setelah dilakukan pengamatan secara menyuluruh menunjukan bahwa tidak ditemukan kesalahan penulisan maupun nilai data yang tidak wajar.

In [269]:
# Mari kita lihat nilai dalam kolom ini
df['income_type'].value_counts()

employee                       10996
business                        5033
retiree                         3819
civil servant                   1447
unemployed                         2
entrepreneur                       2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64

Adanya duplikat data dalam sebuah dataset seringkali terjadi saat proses analisis. Tentu dengan ada duplikat akan mempengaruhi kualitas data sehingga perlu dihapus agar tidak adanya double entry untuk data yang sama dalam sebuah dataset.

In [270]:
# Periksa duplikat
df.duplicated().sum()


54

In [271]:
# Atasi duplikat, jika ada
df = df.drop_duplicates().reset_index(drop = True)

In [272]:
# Lakukan pemeriksaan terakhir untuk mengecek apakah kita memiliki duplikat
df.duplicated().sum()


0

In [273]:
# Periksa ukuran dataset yang sekarang Anda miliki setelah manipulasi pertama yang Anda lakukan
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21247 entries, 0 to 21246
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21247 non-null  int64  
 1   days_employed     19149 non-null  float64
 2   dob_years         21247 non-null  int64  
 3   education         21247 non-null  object 
 4   education_id      21247 non-null  int64  
 5   family_status     21247 non-null  object 
 6   family_status_id  21247 non-null  int64  
 7   gender            21247 non-null  object 
 8   income_type       21247 non-null  object 
 9   debt              21247 non-null  int64  
 10  total_income      19149 non-null  float64
 11  purpose           21247 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 1.9+ MB


Pada tahap tranformasi data telah ditemukan beberapa hal yang tidak wajar sehingga perlu dikoreksi. Dari tampilan tabel diatas menunjukan adanya pengurangan baris data yangmana berasal dari data duplikat. Untuk proses selanjutnya, data harus mendapatkan imputasi nilai data yang hilang agar ukuran seluruh data menjadi sama.


# Bekerja dengan nilai yang hilang

In [274]:
# Temukan dictionary
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding


### Memperbaiki nilai yang hilang di `total_income`

Pertama adalah dengan melihat kolom total_income. Kolom ini memiliki beberapa nilai data yang hilang. Untuk melengkapi kolom ini bisa dengan mengisi nilai rata-rata atau median dari total_income. Keputusan untuk menggunakan salah satu metode tersebut sesuai dengan referensi karakteristik dari nilai data.


In [275]:
# Mari kita tulis sebuah fungsi untuk menghitung kategori usia
def age_group(age):
    
    try:
        if age <= 30:
            return '<30'
        if 31 <= age <= 40:
            return '31-40'
        if 41 <= age <=50:
            return '41-50'
        if 51 <= age <= 60:
            return '51-60'
        if 61 <= age <= 70:
            return '61-70'
        else:
            return '>70'
    except:
        return 0




In [276]:
# Lakukan pengujian untuk melihat apakah fungsi Anda bekerja atau tidak
age_group(30)


'<30'

In [277]:
# Buatlah kolom baru berdasarkan fungsi

df['age_group'] = df['dob_years'].apply(age_group)

In [278]:
# Periksa bagaimana nilai di dalam kolom baru
df[['age_group']].head()


Unnamed: 0,age_group
0,41-50
1,31-40
2,31-40
3,31-40
4,51-60


Dari pemeriksaan pola sebelumnya menunjukan bahwa umur nasabah tidak memperlihatkan distribusi yang signifikan terhadap nilai data yang hilang. Namun dalam dunia nyata, umur harusnya memiliki pengaruh terhadap pendapatan seseorang. Semakin produktif umur seseorang akan mampu memberikan pendapatan yang maksimal. Oleh karena itu, dasar pemikiran ini bisa digunakan sebagai pendekatan untuk imputasi dari nilai yang hilang pada kolom total_income.


In [279]:
# Buat tabel tanpa nilai yang hilang dan tampilkan beberapa barisnya untuk memastikan semuanya berjalan dengan baik
df_without_nan = df[df['days_employed'].notna()]
df_without_nan.shape

(19149, 13)

In [280]:
# Perhatikan nilai rata-rata untuk pendapatan berdasarkan faktor yang telah Anda identifikasi
data_income_as_mean = df_without_nan.pivot_table(index= 'age_group', values='total_income',aggfunc='mean')
data_income_as_mean

Unnamed: 0_level_0,total_income
age_group,Unnamed: 1_level_1
31-40,28391.459775
41-50,28402.209709
51-60,25479.278587
61-70,23238.686225
<30,25822.367296
>70,19575.454327


In [281]:
# Perhatikan nilai median untuk pendapatan berdasarkan faktor yang telah Anda identifikasi
data_income_as_median = df_without_nan.pivot_table(index= 'age_group', values='total_income',aggfunc='median')
data_income_as_median

Unnamed: 0_level_0,total_income
age_group,Unnamed: 1_level_1
31-40,24850.092
41-50,24572.255
51-60,22050.9965
61-70,19700.256
<30,22957.185
>70,18611.5935


Hasil diatas menunjukan perbandingan dari nilai rata_rata dan median dari total income berdasarkan umur nasabah. Pendapatan merupakan nilai yang memiliki outlier yang tinggi dimana setiap orang memiliki karakteristik tertentu dapat memiliki total pendapatan lebih tinggi begitu juga sebaliknya. Oleh karena itu, menggunakan rata-rata tidak bisa menjadi nilai yang merepresentasikan dari total pendapatan sehingga menggunakan median adalah opsi yang terbaik.


In [282]:
#  Tulis fungsi yang akan kita gunakan untuk mengisi nilai yang hilang
def get_median_income(age_group):
    try:
        return data_income_as_median['total_income'][age_group]
    except:
        return 'error'
        
        

In [283]:
# Memeriksa bagaimana nilai di dalam kolom baru
get_median_income('<30')

22957.184999999998

In [284]:
# Terapkan fungsi tersebut ke setiap baris
df['median_income'] = df['age_group'].apply(get_median_income)

In [285]:
# Periksa apakah kita mendapatkan kesalahan
df[df['median_income']=='error']

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,median_income


In [286]:
# Ganti nilai yang hilang dengan median
df['total_income']= df['total_income'].fillna(df['median_income'])

In [287]:
# Periksa jumlah entri di kolom
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21247 entries, 0 to 21246
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21247 non-null  int64  
 1   days_employed     19149 non-null  float64
 2   dob_years         21247 non-null  int64  
 3   education         21247 non-null  object 
 4   education_id      21247 non-null  int64  
 5   family_status     21247 non-null  object 
 6   family_status_id  21247 non-null  int64  
 7   gender            21247 non-null  object 
 8   income_type       21247 non-null  object 
 9   debt              21247 non-null  int64  
 10  total_income      21247 non-null  float64
 11  purpose           21247 non-null  object 
 12  age_group         21247 non-null  object 
 13  median_income     21247 non-null  float64
dtypes: float64(3), int64(5), object(6)
memory usage: 2.3+ MB


###  Memperbaiki nilai di `days_employed`

Tipe pekerjaan seseorang bisa memberikan gambaran mengenai berapa lama waktu yang mereka habiskan untuk bekerja. Oleh karena itu, untuk melakukan imputasi pada kolom days_employed bisa dikelompokan berdasarkan tipe pekerjaan. 

In [289]:
# Distribusi median dari `days_employed` berdasarkan parameter yang Anda identifikasi

data1 = df.pivot_table(index= 'income_type', values='days_employed',aggfunc='median')
data1

Unnamed: 0_level_0,days_employed
income_type,Unnamed: 1_level_1
business,1555.993659
civil servant,2672.903939
employee,1573.791064
entrepreneur,520.848083
paternity / maternity leave,3296.759962
retiree,365269.100414
student,578.751554
unemployed,366413.652744


In [290]:
# Distribusi rata-rata dari `days_employed` berdasarkan parameter yang Anda identifikasi
df.pivot_table(index= 'income_type', values='days_employed',aggfunc='mean')

Unnamed: 0_level_0,days_employed
income_type,Unnamed: 1_level_1
business,2119.512866
civil servant,3392.119263
employee,2325.740892
entrepreneur,520.848083
paternity / maternity leave,3296.759962
retiree,365037.486121
student,578.751554
unemployed,366413.652744


Dari perbandingan kedua tabel diatas menunjukan perubahan yang terjadi ketikan menggunakan metode median dan mean. Lamanya orang bekerja memiliki nilai outlier yang cuku tinggi. Selanjutnya, sesuai dengan pernyataan sebelumnya, lamanya waktu orang bekerja sangat tergantung dari karakteristik pekerjaan tersebut. Oleh karena itu, pendekatan yang bisa merepresentasikan waktu bekerja adalah dengan menggunankan median.


In [291]:
# Mari tulis fungsi yang menghitung rata-rata atau median (tergantung keputusan Anda) berdasarkan parameter yang Anda identifikasi
def get_median_days_employed(income_type):
    try:
        return data1['days_employed'][income_type]
    except:
        return 'error'

In [292]:
# Periksa apakah fungsi Anda dapat bekerja

get_median_days_employed('business')

1555.993659260394

In [293]:
# Terapkan fungsi ke days_employed

df['median_days_employed'] = df['income_type'].apply(get_median_days_employed)

In [294]:
# Periksa apakah fungsi Anda bekerja

df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,median_income,median_days_employed
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,41-50,24572.255,1573.791064
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,31-40,24850.092,1573.791064
2,0,5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house,31-40,24850.092,1573.791064
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,31-40,24850.092,1573.791064
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,51-60,22050.9965,365269.100414


In [295]:
# Ganti nilai yang hilang
df['days_employed']= df['days_employed'].fillna(df['median_days_employed'])


In [296]:
# Periksa entri di semua kolom - pastikan kita memperbaiki semua nilai yang hilang
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21247 entries, 0 to 21246
Data columns (total 15 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   children              21247 non-null  int64  
 1   days_employed         21247 non-null  float64
 2   dob_years             21247 non-null  int64  
 3   education             21247 non-null  object 
 4   education_id          21247 non-null  int64  
 5   family_status         21247 non-null  object 
 6   family_status_id      21247 non-null  int64  
 7   gender                21247 non-null  object 
 8   income_type           21247 non-null  object 
 9   debt                  21247 non-null  int64  
 10  total_income          21247 non-null  float64
 11  purpose               21247 non-null  object 
 12  age_group             21247 non-null  object 
 13  median_income         21247 non-null  float64
 14  median_days_employed  21247 non-null  float64
dtypes: float64(4), int6

## Pengkategorian Data



In [173]:
# Tampilkan nilai data yang Anda pilih untuk pengkategorian
df['purpose']

0          purchase of the house
1                   car purchase
2          purchase of the house
3        supplementary education
4              to have a wedding
                  ...           
21520       housing transactions
21521          purchase of a car
21522                   property
21523          buying my own car
21524               to buy a car
Name: purpose, Length: 21525, dtype: object

In [172]:
# Periksa nilai unik
a = df['purpose'].unique()


array(['purchase of the house', 'car purchase', 'supplementary education',
       'to have a wedding', 'housing transactions', 'education',
       'having a wedding', 'purchase of the house for my family',
       'buy real estate', 'buy commercial real estate',
       'buy residential real estate', 'construction of own property',
       'property', 'building a property', 'buying a second-hand car',
       'buying my own car', 'transactions with commercial real estate',
       'building a real estate', 'housing',
       'transactions with my real estate', 'cars', 'to become educated',
       'second-hand car purchase', 'getting an education', 'car',
       'wedding ceremony', 'to get a supplementary education',
       'purchase of my own house', 'real estate transactions',
       'getting higher education', 'to own a car', 'purchase of a car',
       'profile education', 'university education',
       'buying property for renting out', 'to buy a car',
       'housing renovation', 'going

kolom purpose memberikan informasi mengenai tujuan dari peminjaman dana. Tampilan mengenai nilai unik dari kolom purpose bahwa semua deskripsi tersebut bisa dikategorikan. Pengkategorian ini mempermudah dalam melakukan analisis pada tahap selanjutnya.



In [190]:
# Mari kita tulis sebuah fungsi untuk mengategorikan data berdasarkan topik umum
sample = {'purchase of the house':'house',
'car purchase': 'car', 
'supplementary education':'education',
'to have a wedding':'wedding', 
'housing transactions':'house', 
'education':'education',
'having a wedding':'wedding', 
'purchase of the house for my family':'house',
'buy real estate':'property', 
'buy commercial real estate':'property',
'buy residential real estate':'house', 
'construction of own property': 'house',
'property':'property', 
'building a property':'property', 
'buying a second-hand car':'car',
'buying my own car':'car', 
'transactions with commercial real estate':'property',
'building a real estate':'property', 
'housing':'house',
'transactions with my real estate':'property', 
'cars':'car', 
'to become educated':'education',
'second-hand car purchase':'car',
'getting an education': 'education', 
'car':'car',
'wedding ceremony':'wedding', 
'to get a supplementary education':'education',
'purchase of my own house':'house',
'real estate transactions':'property',
'getting higher education':'education', 
'to own a car':'car', 
'purchase of a car':'car',
'profile education':'education',
'university education':'education',
'buying property for renting out':'property', 
'to buy a car':'car',
'housing renovation':'house', 
'going to university':'education'
}

In [297]:
# Buat kolom yang memuat kategori dan hitung nilainya
df['category_purpose'] = df['purpose'].replace(sample)


In [207]:
# Lihat semua data numerik di kolom yang Anda pilih untuk pengkategorian
df[['days_employed','dob_years','total_income']].head()

Unnamed: 0,days_employed,dob_years,total_income
0,8437.673028,42,40620.102
1,4024.803754,36,17932.802
2,5623.42261,33,23341.752
3,4124.747207,32,42820.568
4,340266.072047,53,25378.572


In [208]:
# Dapatkan kesimpulan statistik untuk kolomnya
df[['days_employed','dob_years','total_income']].describe()


Unnamed: 0,days_employed,dob_years,total_income
count,21525.0,21525.0,21525.0
mean,67299.486032,43.29338,26435.025218
std,139401.804684,12.574584,15665.430417
min,24.141633,0.0,3306.762
25%,1025.549623,33.0,17247.708
50%,1993.522017,42.0,23216.754
75%,5347.024506,53.0,31286.979
max,401755.400475,75.0,362496.645


[Tentukan rentang apa yang akan Anda gunakan untuk pengelompokan dan jelaskan alasannya.]

Beberapa kolom yang perlu dibuat kategori ada dua yaitu dob_years dan total_income. Untuk dob_years menggunakan rentangan berdasarkan kategori umur dan total income akan menggunakan tingkatan berupal low, middle dan hight

In [298]:
# Buat fungsi yang melakukan pengkategorian menjadi kelompok numerik yang berbeda berdasarkan rentang

def income_group(income):
    
    try:
        if (income > 0) and (income <10000):
            return 'low'
        if (income > 10000) and (income < 30000):
            return 'middle'
        else:
            return 'hight'
    except:
        return 0


In [299]:
# Buat kolom yang memuat kategori
df['income_group'] = df['total_income'].apply(income_group)

In [300]:
# Hitung setiap nilai kategori untuk melihat pendistribusiannya
df['income_group'].value_counts()

middle    14472
hight      5859
low         916
Name: income_group, dtype: int64

## Memeriksa hipotesis


**Apakah terdapat korelasi antara memiliki anak dengan probabilitas melakukan gagal bayar pinjaman?**

In [301]:
# # Periksa data anak dan data gagal bayar pinjaman
pivot_table_children = df.pivot_table(
    index='children',
    columns='debt',
    values= 'dob_years',
     aggfunc='count')
     
# # Hitung persentase gagal bayar berdasarkan jumlah anak
total = pivot_table_children[1]+pivot_table_children[0]
pivot_table_children['percentage_unpaid'] = pivot_table_children[1]/total *100
pivot_table_children


debt,0,1,percentage_unpaid
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,12979.0,1058.0,7.537223
1,4352.0,441.0,9.200918
2,1845.0,194.0,9.514468
3,301.0,27.0,8.231707
4,37.0,4.0,9.756098
5,9.0,,


**Kesimpulan**

Berdasarkan tabel ini menunjukan bahwa persentase tertinggi gagal bayar terjadi pada keluarga yang memiliki empat anak. Untuk selanjutnya, persentase terendah untuk gagal bayar terjadi pada keluarga yang memiliki lima anak. Dari tabel tersebut juga menunjukan bahwa semakin bertambanya anak relatif ada peningkatan kemungkinan untuk gagal bayar 



**Apakah terdapat korelasi antara status keluarga dengan probabilitas melakukan gagal bayar pinjaman?**

In [303]:
# Periksa data status keluarga dan data gagal bayar pinjaman
pivot_table_family_status = df.pivot_table(
    index='family_status',
    columns='debt',
    values= 'dob_years', 
    aggfunc='count')


# Hitung persentase gagal bayar berdasarkan status keluarga
total = pivot_table_family_status[1]+pivot_table_family_status[0]
pivot_table_family_status['percentage_unpaid'] = pivot_table_family_status[1]/total *100
pivot_table_family_status


debt,0,1,percentage_unpaid
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
civil partnership,3741,383,9.2871
divorced,1095,84,7.124682
married,11295,923,7.554428
unmarried,2508,272,9.784173
widow / widower,884,62,6.553911


**Kesimpulan**

Dari tabel berikut menunjukan bahwa persentase tertinggi terhadap gagal bayar terjadi pada keluarga atau nasabah yang tidak menikah atau belum menikah. Selanjutnya tingkat terendah terjadi pada nasabah yang telah berpisah atau bercerai.


**Apakah terdapat korelasi antara tingkat pendapatan dengan probabilitas melakukan gagal bayar pinjaman?**

In [304]:
# Periksa data tingkat pendapatan dan data gagal bayar pinjaman
pivot_table_total_income = df.pivot_table(
    index='income_group',
    columns='debt',
    values= 'dob_years',
    aggfunc='count')

# Hitung persentase gagal bayar berdasarkan tingkat pendapatan
total = pivot_table_total_income[1]+pivot_table_total_income[0]
pivot_table_total_income['percentage_unpaid'] = pivot_table_total_income[1]/total *100
pivot_table_total_income


debt,0,1,percentage_unpaid
income_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
hight,5426,433,7.39034
low,858,58,6.331878
middle,13239,1233,8.5199


**Kesimpulan**

Dari tabel berikut menunjukan bahwa kasus nasabah gagal bayar terjadi pada nasabah yang memiliki pendapatan tergolong menengah. Sedangkan untuk nasabah yang memiliki tingkat pendapatan rendah memiliki persentase gagal bayar yang rendah.

**Bagaimana tujuan kredit memengaruhi persentase gagal bayar?**

In [305]:
# Periksa persentase tingkat gagal bayar untuk setiap tujuan kredit dan lakukan penganalisisan
pivot_table_purpose = df.pivot_table(
    index='category_purpose',
    columns='debt',
    values= 'dob_years', 
    aggfunc='count')

total = pivot_table_purpose[1]+pivot_table_purpose[0]
pivot_table_purpose['percentage_unpaid'] = pivot_table_purpose[1]/total *100
pivot_table_purpose


debt,0,1,percentage_unpaid
category_purpose,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
car,3863,397,9.319249
education,3602,369,9.29237
house,4655,336,6.732118
property,5274,441,7.716535
wedding,2129,181,7.835498


**Kesimpulan**

Dari tabel berikut menunjukan bahwa tujuan nasabah untuk membeli mobil memiliki persentase gagal bayar yang tertinggi. Tujuan untuk pendidikan menempati momor urut kedua untuk persentase gagal bayr tertinggi. Bisnis properti dan biaya menikah memiliki persentase yang relatif sama. Hunian atau rumah merupakan tujuan nasabah yang memiliki potensi gagal bayar yang rendah.


# Kesimpulan umum 

[Tuliskan kesimpulan Anda di bagian akhir ini. Pastikan Anda memasukkan semua kesimpulan penting yang telah Anda buat berkaitan dengan cara Anda memproses dan menganalisis data. Kesimpulan tersebut harus membahas nilai yang hilang, duplikat, dan kemungkinan alasan serta solusi untuk data bermasalah yang harus Anda tangani.]

Dari hasil analisis yang dilakukan mengenai ekplorasi data menunjukan bahwa sebagian besar nasabah yang mengajukan pinjaman sebagian besar bekerja sebagai pegawai dengan status pendidikan sekolah menengah atas. Namu hal ini bukan menjadi jaminah bahwa data ini tidak memiliki masalah, mengigat bahwa dalam proses analisis ditemukan beberapa data yang tidak terisi lengkap yang merupakan  akibat dari pengisian secara acak atau tidak terpola. Hal ini juga ditambah dengan adanya imputasi ganda yang dilakukan oleh nasabah atau sistem sehingga menghasilkan data duplikat yang bisa menggannggu kualitas data.

Hasil analisis untuk pertanyaan yang terdapat dalam hipotesis menunjukan bahwa sebagai berikut:
1. Adanya pengaruh jumlah anak dengan potensi gagal bayar terhadap kredit yang telah diajukan. Ini menunjukan bahwa nasabah yang memiliki anak secara otomatis akan memiliki pengeluaran yang lebih besar. Pengeluaran yang lebih tinggi membuat keuangan nasabah lebih sulit untuk membayar pinjaman kredit tepat waktu
2. Adanya pengaruh status dalam keluarga memiliki pengaruh terhadap gagal bayar. Orang yang tidak menikah cenderung memiliki kebebasan dalam hal pengeluaran, namun tak jarang orang tidak menikah tidak memiliki prioritas keuangan sehingga bisa mengakibatkan pengeluarannya terganggu dan cenderung konsumtif.
3. Adanya korelasi antara total pendapatan dengan gagalnya seorang membayar kredit. Dalam analisis ini, nasabah yang tergolong memiliki golongan menengah memiliki potensi gagal bayar yang tinggi. Hal ini bisa diakibat dari kebutuhan yang mungkin tidak sama dengan golongan nasabah yang memiliki pendapatan rendah sehingga mereka yang berada pada golongan menengah harus mampu meningkatkan taraf hidupnya ke lebih tinggi. Hal ini memberikan peluang terjadi pengeluaran yang lebih besar sehingga potensi untuk mampu membayar kredit yang mereka ajukan semakin kecil.
4. Adanya pengaruh dari tujuan atau alasan pengajuan kredit terhadap potensi gagal bayar. Dalam analisis ini menunjukan bahwa orang yang memiliki keinginan untuk membeli mobil memiliki peluang tertinggi untuk gagal dalam membayar kredit. Hal ini bisa terjadi karena mobil bukan merupakan aset yang bisa memberikan penghasilan jika tidak dikelola dengan baik. Besarnya biaya pemeliharaan mobil juga turut berperan dalam memberikan pengeluaran tambahan terhadap para nasabah sehingga dapat mengaanggu kesehatan keuangan mereka.
