# Pendahuluan
Setiap bank memiliki nasabah dengan latar belakang yang beragam. Bank sering kali meminjamkan uang kepada nasabah yang dapat dipercaya oleh bank tersebut. Dengan latar belakang yang beragam dari setiap bank. Bank tersebut harus dapat menganalisa mana nasabah yang dapat dipercaya dan mana yang kurang dapat dipercaya untuk mengajukan kredit. Laporan ini disiapkan untuk divisi kredit suatu bank dengan tujuan untuk dianalisi oleh divisi tersebut. Laporan ini akan dapat digunakan sebagai pertimbangan pada saat membuat penilaian credit untuk para calon nasabah dari Bank tersebut.  
# Tujuan
Laporan ini bertujuan untuk mencari tahu pengaruh status perkawinan seorang nasabah dan jumlah anak yang dimilikinya terhadap probabilitas gagal bayar dalam pelunasan pinjaman. Penilaian kredit digunakan untuk mengevaluasi kemampuan calon peminjam untuk melunasi pinjaman mereka. Laporan ini akan menjadi pertimbangkan pada saat membuat penilaian kredit untuk calon nasabah. Penilaian kredit digunakan untuk mengevaluasi kemampuan calon peminjam untuk melunasi pinjaman mereka.

# Tahapan 
Ada beberapa tahapan yang akan dilakukan, diantaranya Memuat data, Eksplorasi data, Pra-pemrosesan data, Pengategorian data, hingga melakukan hipotesis hipotesis mengenasi korelasi tertentu terhadap latar belakang dari calon peminjam dari sebuah bank tersebut. 

# Memuat Library dan Dataset
Mari kita memuat dataset kita dan mengimport library yang kita butuhkan, untuk saat ini kita membutuhkan library Pandas untuk membantu kita mengatasi permasalah yang ada di dataset kita.

In [1]:
# Memuat semua library
import pandas as pd


In [2]:
# Memuat datanya
path = '/datasets/credit_scoring_eng.csv'
df = pd.read_csv(path)

## Eksplorasi data

**Deskripsi data**
- `children` - jumlah anak dalam keluarga
- `days_employed` - pengalaman kerja nasabah dalam hari
- `dob_years` - usia nasabah dalam tahun
- `education` - tingkat pendidikan nasabah
- `education_id` - pengidentifikasi untuk tingkat pendidikan nasabah
- `family_status` - status perkawinan
- `family_status_id` - pengidentifikasi untuk status perkawinan nasabah
- `gender` - jenis kelamin nasabah
- `income_type` - jenis pekerjaan
- `debt` - apakah nasabah pernah melakukan gagal bayar pinjaman
- `total_income` - pendapatan bulanan
- `purpose` - tujuan mendapatkan pinjaman


Kita perlu melihat berapa banyak kolom dan baris yang dimiliki oleh data, serta mencermati beberapa baris data untuk memeriksa potensi masalah dengan data.

In [3]:
# Menampilkan banyak baris dan kolom yang dimiliki oleh dataset kita
df.shape

(21525, 12)

Terlihat bahwa terdapat 21525 baris dan 12 kolom pada dataset yang kita miliki.

In [4]:
# Menampilkan 10 data sample baris pertama
df.sample(10)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
16408,0,-1531.872783,50,secondary education,1,married,0,M,employee,1,33948.212,buying my own car
17756,0,-793.038935,58,secondary education,1,civil partnership,1,F,employee,0,23011.715,having a wedding
9116,0,-2129.404463,57,secondary education,1,married,0,M,business,0,35817.211,buying property for renting out
15166,2,-597.178077,35,secondary education,1,married,0,M,employee,0,13884.884,second-hand car purchase
13595,1,-1280.447177,35,bachelor's degree,0,married,0,F,business,0,28597.17,university education
10583,0,-542.165913,29,secondary education,1,unmarried,4,F,business,0,10495.973,purchase of a car
7747,1,-1586.41028,33,secondary education,1,civil partnership,1,F,civil servant,0,25169.68,getting an education
18277,0,-943.560849,20,some college,2,civil partnership,1,F,employee,0,21228.041,purchase of a car
6950,0,-2308.532389,49,secondary education,1,married,0,F,employee,1,52054.03,to buy a car
6172,0,-1160.354226,25,some college,2,married,0,M,employee,0,28083.62,second-hand car purchase


Dari sample data yang ditampilkan, terdapat beberapa problem didalamnya, diantaranya:
1. Terdapat nilai mines di kolom `days_employed`.
2. Terdapat nilai yang tidak masuk akal pada kolom `days_employed`.
3. Terdapat nilai category yang tidak seragam pada kolom `education`.
4. Terdapat nilai nilai yang sama namun memiliki kalimat yang berbeda beda pada kolom `purpose`.

In [5]:
# Mendapatkan informasi data
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Dari data info yang ditampilkan, terdapat beberapa informasi yang bisa kita lihat, diantaranya:
1. Terdapat 21525 data yang entries.
2. Terdapat 12 kolom pada dataset.
3. Terdapat nilai yang hilang di kolom `days_employed` dan `total_income`.


In [6]:
# Memuat tabel yang telah difilter dengan nilai yang hilang di kolom pertama yang mengandung data yang hilang
missing_df = df.loc[df['days_employed'].isna()]
missing_df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
65,0,,21,secondary education,1,unmarried,4,M,business,0,,transactions with commercial real estate
67,0,,52,bachelor's degree,0,married,0,F,retiree,0,,purchase of the house for my family
72,1,,32,bachelor's degree,0,married,0,M,civil servant,0,,transactions with commercial real estate
82,2,,50,bachelor's degree,0,married,0,F,employee,0,,housing
83,0,,52,secondary education,1,married,0,M,employee,0,,housing


Terlihat pada tabel missing_df di 10 data pertama yang ditampilkan, data pada kolom `days_employed` dan `total_income` terdapat nilai yang hilang. Mari kita coba pastikan apakah data pada kolom `days_employed` dan `total_income` memiliki data yang simetris, kita coba panggil dengan code berikut:

In [7]:
missing_df.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Terlihat pada data yang ditampilkan, data pada kolom `days_employed` dan `total_income` tampak simetris satu sama lain.

In [8]:
# Menerapkan beberapa kondisi untuk memfilter data dan melihat jumlah baris dalam tabel yang telah difilter.
missing_df = df.loc[(df['days_employed'].isna()) & (df['total_income'].isna())]
missing_df.shape

(2174, 12)

**Kesimpulan Sementara**

Kesimpulan sementara yang bisa kita ambil dari data yang telah ditampilkan yaitu terdapat nilai yang hilang pada data yang telah kita filter. Didalam data yang telah kita filter, nilai yang hilang terdapat pada kolom `days_employed` dan `total_income` dengan jumlah 2174 baris. Nilai yang hilang pada kolom tersebut tampak simetris satu sama lain.


Mari kita hitung persentase nilai yang hilang pada tabel yang telah kita filter dan bandingkan dengan keseluruhan dataset kita, apakah nilai yang ditampilkan tampak sama atau berbeda.

In [9]:
missing_df.isna().sum() / len(df) * 100


children             0.000000
days_employed       10.099884
dob_years            0.000000
education            0.000000
education_id         0.000000
family_status        0.000000
family_status_id     0.000000
gender               0.000000
income_type          0.000000
debt                 0.000000
total_income        10.099884
purpose              0.000000
dtype: float64

In [10]:
df.isna().sum() / len(df) * 100

children             0.000000
days_employed       10.099884
dob_years            0.000000
education            0.000000
education_id         0.000000
family_status        0.000000
family_status_id     0.000000
gender               0.000000
income_type          0.000000
debt                 0.000000
total_income        10.099884
purpose              0.000000
dtype: float64

Kesimpulan yang kita bisa ambil adalah persentase dari data yang telah kita filter kedalam missing_df memiliki nilai yang mirip dengan seluruh dataset, itu berarti data yang hilang atau missing value terletak pada kolom `days_employed` dan `total_income` saja. Untuk itu kita perlu mencari tahu menyebab dari nilai yang hilang tersebut karena terdapat kesamaan satu sama lain pada kolom `days_employed` dan `total_income`.

Langkah selanjutnya yang akan kita ambil yaitu dengan mencari tahu penyebab nilai yang hilang tersebut dengan memeriksa nasabah yang tidak memiliki data tentang karakteristik yang kita identifikasi, mari kita coba dengan mengecek kolom-kolom kategorikal. 

In [11]:
missing_df['gender'].value_counts(normalize=True)


F    0.682613
M    0.317387
Name: gender, dtype: float64

In [12]:
df['gender'].value_counts(normalize=True)


F      0.661370
M      0.338583
XNA    0.000046
Name: gender, dtype: float64

Pengecekan pertama yaitu pada kolom gender. Setelah kita coba tambilkan nilai missing value nya, terlihat bahwa pada tabel yang telah kita filter nilai pada kolom gender terlihat mirip dengan keseluruhan dataset kita, artinya kolom gender bukan penyebab dari terjadinya missing value. Mari kita coba cek kolom kolom kategorikal lainnya.   

In [13]:
missing_df['education_id'].value_counts(normalize=True)

1    0.708372
0    0.250230
2    0.031739
3    0.009660
Name: education_id, dtype: float64

In [14]:
missing_df['family_status_id'].value_counts(normalize=True)

0    0.568997
1    0.203312
4    0.132475
3    0.051518
2    0.043698
Name: family_status_id, dtype: float64

In [15]:
missing_df['income_type'].value_counts(normalize=True)

employee         0.508280
business         0.233671
retiree          0.189972
civil servant    0.067617
entrepreneur     0.000460
Name: income_type, dtype: float64

Terlihat bahwa kita telah menyoba mengecek kolom kolom yang kita indikasikan sebagai penyebab dari terjadinya missing value pada tabel yang telah kita filter. Mari kita lihat distribusinya pada keseluruhan dataset kita.

In [16]:
# Memeriksa distribusi di seluruh dataset
df['education_id'].value_counts(normalize=True)

1    0.707689
0    0.244367
2    0.034564
3    0.013101
4    0.000279
Name: education_id, dtype: float64

In [17]:
df['family_status_id'].value_counts(normalize=True)

0    0.575145
1    0.194053
4    0.130685
3    0.055517
2    0.044599
Name: family_status_id, dtype: float64

In [18]:
df['income_type'].value_counts(normalize=True)

employee                       0.516562
business                       0.236237
retiree                        0.179141
civil servant                  0.067782
entrepreneur                   0.000093
unemployed                     0.000093
student                        0.000046
paternity / maternity leave    0.000046
Name: income_type, dtype: float64

**Kesimpulan sementara**

Dari distribusi yang telah kita tampilkan, nilai pada tabel yang telah kita filter dengan keseluruhan dataset memiliki nilai yang mirip, itu berarti kolom kolom yang kita indikasikan sebagai penyebab terjadinya missing value bukanlah penyebab dari terjadinya missing value.
Mari kita coba beberapa kolom lagi untuk memastikannya.

In [19]:
missing_df['children'].value_counts(normalize=True)


 0     0.661914
 1     0.218491
 2     0.093836
 3     0.016559
 20    0.004140
 4     0.003220
-1     0.001380
 5     0.000460
Name: children, dtype: float64

In [20]:
df['children'].value_counts(normalize=True)

 0     0.657329
 1     0.223833
 2     0.095470
 3     0.015331
 20    0.003531
-1     0.002184
 4     0.001905
 5     0.000418
Name: children, dtype: float64

# Kesimpulan

Dari percobaan yang telah kita lakukan, kita belum bisa menentukan penyebab dari missing value karena nilai dari tabel yang telah kita filter dengan keseluruhan dataset memiliki nilai yang mirip. 
Kesimpulan yang bisa kita ambil adalah mengasumsikan missing tersebut ke beberapa faktor, diantaranya:
1. Teknikal problem.
2. Human Error.
3. Kolom tersebut sengaja dikosongkan, dsb.

Untuk mengisi missing value pada kolom `days_employed` dan `total_income`, mungkin kita bisa menggunakan pendekatan dari segi pengkategorian usai dari setiap nasabah.
Sebelum itu, mari kita atasi terlebih dahulu masalah lain seperti duplikasi, pencatatan yang tidak seragam dll.


## Transformasi data

Mari kita perhatikan setiap kolom untuk melihat masalah apa yang mungkin dimiliki mereka. Mari kita mulai dari kolom `education`.

In [21]:
# Menampilkan semua nilai di kolom education untuk memeriksa ejaan apa yang perlu diperbaiki
df['education'].value_counts()

secondary education    13750
bachelor's degree       4718
SECONDARY EDUCATION      772
Secondary Education      711
some college             668
BACHELOR'S DEGREE        274
Bachelor's Degree        268
primary education        250
Some College              47
SOME COLLEGE              29
PRIMARY EDUCATION         17
Primary Education         15
graduate degree            4
GRADUATE DEGREE            1
Graduate Degree            1
Name: education, dtype: int64

Terdapat penulisan yang tidak seragam. Untuk mengatasinya, mari kita seragamkan penulisanya.

In [22]:
# Memperbaiki masalah 
df['education'] = df['education'].str.lower()

In [23]:
# Memeriksa semua nilai di kolom untuk memastikan bahwa kita telah memperbaikinya dengan tepat
df['education'].value_counts()

secondary education    15233
bachelor's degree       5260
some college             744
primary education        282
graduate degree            6
Name: education, dtype: int64

Dari data yang ditampilkan, nilai pada kolom `education` sekarang sudah memiliki nilai yang seragam.

Selanjutnya, Mari kita periksa data kolom `children`.

In [24]:
# Menampilkan distribusi nilai pada kolom `children`
df['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Terlihat bahwa pada kolom `children` terdapat nilai -1 dan dan nilai 20. Nilai -1 menujunkan nilai yang tidak masuk akal, karena tidak ada yang memiliki anak dengan jumlah -1. Untuk nilai yang 20 secara logika mungkin bisa masuk namun dizaman sekarang kemungkinan memiliki anak dengan jumlah 20 itu kurang masuk akal. 
Oleh karena itu kita asumsikan bahwa nilai -1 dan nilai 20 itu terjadi kesalahan penginputan. Mari kita rubah nilai -1 menjadi 1 dan nilai 20 menjadi 2.

In [25]:
# Memperbaiki data berdasarkan keputusan yang diambil
df['children'] = df['children'].replace(-1, 1).replace(20, 2)

In [26]:
# Memeriksa kembali kolom `children` untuk memastikan bahwa semuanya telah diperbaiki
df['children'].value_counts()


0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

Sekarang kolom `children` sudah memiliki nilai yang sesuai.

Mari kita masuk ke kolom `days_employed`. Sebelum kita mengatasi nilai yang hilang pada kolom`days_employed`. Pertama-tama, mari kita periksa data dalam kolom `days_employed`. Apa yang kita bisa dapatkan dari kolom `days_employed`. Mari kita coba tampilkan describe() 

In [27]:
# Menemukan data yang bermasalah di kolom `days_employed` 
df['days_employed'].describe()

count     19351.000000
mean      63046.497661
std      140827.311974
min      -18388.949901
25%       -2747.423625
50%       -1203.369529
75%        -291.095954
max      401755.400475
Name: days_employed, dtype: float64

Terlihat bahwa pada tabel decribe, terdapat beberapa masalah yang kita lihat, diantaranya:
1. Terdapat nilai mines pada kolom `days_employed` yang menurut kita itu tidak masuk akal. Untuk sementara ini kita asumsikan bahwa ini mungkin terjadi karena kesalahan teknis, maka dari itu mari kita rubah nilai mines(-) tersebut menjadi nilai positif(+).
2. Terdapat nilai maximum yang tidak masuk akal, karena jika kita bagi nilai max tersebut dengan jumlah hari dalam setahun, hasilnya adalah sekitar lebih dari 900 tahun. Oleh karena itu nilai tersebut tidak masuk akal karena dizaman sekarang manusia dengan umur 900 tahun itu tidak mungkin. Untuk mengatasinya mari kita ganti nilai tersebut dengan median dari kolom `days_employed`.

In [28]:
# Mengatasi nilai yang bermasalah
df['days_employed'] = df['days_employed'].abs()


In [29]:
median_days = df['days_employed'].median()  

In [30]:
df.loc[df['days_employed']>100000, 'days_employed'] = median_days

In [31]:
# Memeriksa kembali hasilnya 
df['days_employed'].describe()


count    19351.000000
mean      2324.746073
std       2089.961651
min         24.141633
25%        927.009265
50%       2194.220567
75%       2747.423625
max      18388.949901
Name: days_employed, dtype: float64

Sekarang kolom `days_employed` sudah memiliki nilai yang sesuai dan masuk akal.
Mari kita coba periksa kolom `dob_years`, apakah terdapat nilai yang bermasalah.

In [32]:
# Memeriksa kolom `dob_years` untuk nilai yang mencurigakan 
df['dob_years'].sort_values().unique()

array([ 0, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
       69, 70, 71, 72, 73, 74, 75])

Dengan menggunakan metode unique, kita bisa melihat keseluhuran nilai yang ada pada kolom `dob_years`.
Terlihat bahwa pada kolom `dob_years` terdapat nilai 0, dan itu tidak bisa kita gunakan karena tidak ada umur yang memiliki nilai 0.
Oleh karena itu mari kita rumah nilai tersebut dengan median di kolom `dob_years`.

In [33]:
# Mengatasi masalah pada kolom `dob_years`
median_age = int(df['dob_years'].median())
df['dob_years'] = df['dob_years'].replace(0, median_age)

In [34]:
# Memeriksa hasilnya 
df['dob_years'].sort_values().unique()

array([19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35,
       36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52,
       53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69,
       70, 71, 72, 73, 74, 75])

Sekarang kolom `dob_years` sudah tidak memiliki nilai yang bermasalah lagi.

Sekarang mari kita periksa kolom `family_status`, apakah di kolom ini terdapat nilai yang bermasalah atau tidak.

In [35]:
# Menampilkan nilai untuk kolom ini
df['family_status'].value_counts()


married              12380
civil partnership     4177
unmarried             2813
divorced              1195
widow / widower        960
Name: family_status, dtype: int64

Di kolom `family_status` tidak terdapat nilai yang bermasalah. Mari kita lanjut ke kolom selanjunya.

Sekarang mari kita periksa kolom `gender`, apakah di kolom ini terdapat nilai yang bermasalah?

In [36]:
# Menampilkan nilai untuk kolom ini
df['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

Dikolom ini ternyata ada kategori gender dengan nilai XNA dengan jumalah value nya 1. Itu sangat membingungkan karena hanya ada 2 gender. Mari kita masukan saja Nilai XNA tersebut ke kategori gender yang paling tinggi yaitu F(female).

In [37]:
# Mengatasi nilai-nilai yang bermasalah
df['gender'] = df['gender'].replace('XNA', 'F')

In [38]:
# Memeriksa hasilnya
df['gender'].value_counts()


F    14237
M     7288
Name: gender, dtype: int64

Sekarang mari kita periksa kolom `income_type`, apakah di kolom ini terdapat nilai yang bermasalah atau tidak.

In [39]:
# Menampilkan nilai untuk kolom ini
df['income_type'].value_counts()

employee                       11119
business                        5085
retiree                         3856
civil servant                   1459
entrepreneur                       2
unemployed                         2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64

Dikolom ini tidak terdapat nilai yang bermasalah, itu berarti kita bisa melanjutkan langkah kita ke pemeriksaan berikutnya.


Sekarang saatnya kita melihat apakah ada duplikat di dalam data kita. 

In [40]:
# Memeriksa duplikat
df.duplicated().sum()


72

Terdapat 72 duplikat didalam dataset kita. Mari kita drop saja duplikat tersebut dan mengatur kembali indexnya.

In [41]:
# Mengatasi duplikat
df = df.drop_duplicates().reset_index(drop=True)

In [42]:
# Memeriksa kembali hasil duplikat
df.duplicated().sum()

0

In [43]:
# Memeriksa ukuran dataset yang sekarang kita miliki 
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21453 entries, 0 to 21452
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21453 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21453 non-null  int64  
 3   education         21453 non-null  object 
 4   education_id      21453 non-null  int64  
 5   family_status     21453 non-null  object 
 6   family_status_id  21453 non-null  int64  
 7   gender            21453 non-null  object 
 8   income_type       21453 non-null  object 
 9   debt              21453 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21453 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


# Kesimpulan 
Dari langkah-langkah yang telah kita lakukan diatas, ada beberapa hal yang telah kita perbaiki di dalam dataset yang kita miliki, antara lain:
1. Mencari penyebab dari missing value, dan hasil dari pencarian tersebut kita tidak bisa menyimpulkan penyebab dari missing value pada dataset kita, namun kita bisa mengasumsikan penyebab terjadinya missing value tersebut yaitu dari faktor luar.
2. Terdapat nilai yang tidak seragam pada kolo `education`. Nilai tersebut kita seragamkan dengan menggunakan str.lower().
3. Pada kolom `childred` terdapat nilai -1 dan 20 yang tidak masuk akal. Nilai tersebut kita atasi dengan menggati nilai tersebut dengan median pada kolom `children`.
4. Pada kolom `days_employed` terdapat nilai mines dan nilai maximum yang tidak masuk akal. Kita atasi nilai tersebut dengan menggati nilai yang bermasalah tersebut dengan median dari kolom `days_employed`.
5. Pada Kolom `dob_years` terdapat nilai 0 dan itu tidak masuk akal. Mengatasi nilai tersebut dengan menggunakan median sebagai penggantinya.
6. Pada kolom `gender` terdapat kategori gender yang bermasalah, namun kita bisa atasi nilai tersebut dengan menggunakan kategori gender yang paling banyak.
7. Pada kolom `family_status` dan kolom `income_type` tidak terdapat nilai yang bermasalah.
8. Terdapat duplikat pada dataset kita dengan jumlah duplikat yaitu 72. Langkah yang kita ambil untuk mengatasi nilai duplikat tersebut dengan mengahapus nilai duplikat tersebut dan mereset indexnya.

Itulah beberapa poin yang sudah kita atasi permasalahanya. Mari kita masuk ke missing value dan mengatasi missing value tersebut. 

## Pra-pemprosesan Data

Membuat dictionary dengan kategori ID yang ada pada kolom `education` dan `family_status`.

In [44]:
# Memuat dictionary
education_dict = dict(zip(df['education_id'], df['education']))
education_dict

{0: "bachelor's degree",
 1: 'secondary education',
 2: 'some college',
 3: 'primary education',
 4: 'graduate degree'}

In [45]:
family_dict = dict(zip(df['family_status_id'], df['family_status']))
family_dict

{0: 'married',
 1: 'civil partnership',
 2: 'widow / widower',
 3: 'divorced',
 4: 'unmarried'}

### Memperbaiki nilai yang hilang di `total_income`

Seperti yang kita tahu, terdapat nilai yang hilang pada kolom `days_employed` dan `income_type`. Mari kita coba untuk mengatasi nilai yang hilang pada kolom `income_type` terlebih dahulu.
Tapi sebelumnya mari kita kelompokan data age kedalam kategori age, ini akan memudahkan kita untuk mengatasi nilai yang hilang pada kolom `total_income`.

In [46]:
df['dob_years'].describe()

count    21453.000000
mean        43.469025
std         12.214162
min         19.000000
25%         33.000000
50%         42.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64

Untuk mempermudah kita mengatasi nilai yang hilang pada kolom ini, mari kita buat terlebih dahulu kolom kategori umur karena kolom yang akan kita gunakan sebagai parameter kita untuk mencari nilai yang hilang yaitu `dob_years`.

In [47]:
# Membuat fungsi untuk menghitung kategori usia
def age_categorizing(age):
    if age <= 20:
        category = '0-20'
    elif age > 20 and age <= 40:
        category = '20-40'
    elif age > 40 and age <= 60:
        category = '40-60'
    elif age > 60 and age <= 80:
        category = '60-80'
    else:
        category = '80+'
    
    return category
        
    

In [48]:
# Pengujian untuk melihat apakah fungsi bekerja atau tidak
print(age_categorizing(25))
print(age_categorizing(48))
print(age_categorizing(67))

20-40
40-60
60-80


In [49]:
# Membuat kolom baru berdasarkan fungsi
df['age_category'] = df['dob_years'].apply(age_categorizing)


In [50]:
# Memeriksa bagaimana nilai di dalam kolom baru
df.loc[:,['age_category', 'dob_years']].head(10)


Unnamed: 0,age_category,dob_years
0,40-60,42
1,20-40,36
2,20-40,33
3,20-40,32
4,40-60,53
5,20-40,27
6,40-60,43
7,40-60,50
8,20-40,35
9,40-60,41


Kita sudah membuat kolom baru dengan nama kolom `age_category`. Dengan kolom ini kita bisa menggunakannya sebagai parameter kita untuk mecari nilai yang hilang pada kolom `income_type`. 

Pertama-tama mari kita buat tabel yang hanya memuat data tanpa nilai yang hilang. Data ini akan digunakan untuk memperbaiki nilai yang hilang.

In [51]:
# Membuat tabel tanpa nilai yang hilang
nomiss_df = df.loc[~df['total_income'].isna()]

In [52]:
# Menampilkan rata-rata 
nomiss_df.groupby('age_category')['total_income'].mean().reset_index()

Unnamed: 0,age_category,total_income
0,0-20,19586.303559
1,20-40,27421.779199
2,40-60,27034.666405
3,60-80,23057.777452


In [53]:
# Menampilkan median
nomiss_df.groupby('age_category')['total_income'].median().reset_index()

Unnamed: 0,age_category,total_income
0,0-20,17257.277
1,20-40,23972.959
2,40-60,23219.8075
3,60-80,19637.056


Setelah kita mendapatkan tabel `age_category` dan `total_income`. Mari kita coba tentukan nilai yang hilang tersebut dengan kategory-kategory yang telah kita buat. Sepeti yang kita tahu bahwa untuk menentukan nilai yang hilang pada kolom `income_type`, kita akan menggunakan median atau mean sebagai parameternya.
Untuk kasus ini mari kita gunakan median sebagai alat kita untuk mengisi nilai yang hilang. Mengapa median?, karena median mungkin cara yang paling aman untuk mengisi nilai yang hilang, terlebih untuk mengihidari kita apabila terdapat outlier didalan data kita.
Mari kita bekerja dengan nilai yang hilang.

In [54]:
# Mengisi missing value berdasarkan median kolom total income disetiap age_category
median = pd.pivot_table(data=df, columns='age_category', values='total_income', aggfunc='median')
median

age_category,0-20,20-40,40-60,60-80
total_income,17257.277,23972.959,23219.8075,19637.056


In [55]:
median['20-40'][0]

23972.959

In [56]:
# Membuat metode untuk memasukan median ke dalam missing value
df.loc[(df['age_category']=='20-40') & (df['total_income'].isna()), 'total_income'] = median['20-40'][0]

In [57]:
# lopping metode untuk semua category
for column in median.columns:
    df.loc[(df['age_category']==column) & (df['total_income'].isna()), 'total_income'] = median[column][0]
    

In [58]:
#  Membuat sebuah fungsi yang digunakan untuk mengisi nilai yang hilang
def group_fillna(dataframe, column_group, miss_column):
    median = pd.pivot_table(dataframe, columns=column_group, values=miss_column, aggfunc='median')
    
    for column in median.columns:
        dataframe.loc[(dataframe[column_group]==column) & (dataframe[miss_column].isna()), miss_column] = median[column][0]
    
    return dataframe
    

In [59]:
# Memeriksa bagaimana nilai di dalam kolom baru
df = group_fillna(dataframe=df, column_group='age_category', miss_column='total_income')

In [60]:
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_category
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40-60
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,20-40
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,20-40
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,20-40
4,0,2194.220567,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,40-60
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,20-40
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,40-60
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,40-60
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,20-40
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,40-60


Terlihat dari 10 data pertama yang kita tampilkan. Kolom `income_type` sudah terisi walaupun kita tidak bisa melihat keseluruhan datanya, namuan kita bisa mengecek kembali apakah di kolom `'income_type` masih terdapat nilai yang hilang. Mari kita coba periksa.

In [61]:
# Memeriksa kembali
df.isna().sum()

children               0
days_employed       2102
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
age_category           0
dtype: int64

Dari data yang kita tamplikan, nilai yang hilang pada kolom `income_type` sudah bernilai 0, itu berarti code yang kita jalankan sudah mengisi nilai yang hilang pada kolom `income_type`.


Setelah kita selesai dengan nilai yang hilang pada `total_income`, mari kita periksa apakah jumlah total nilai di kolom ini sesuai dengan jumlah nilai di kolom lain.

In [62]:
# Memeriksa jumlah entri di semua kolom
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21453 entries, 0 to 21452
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21453 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21453 non-null  int64  
 3   education         21453 non-null  object 
 4   education_id      21453 non-null  int64  
 5   family_status     21453 non-null  object 
 6   family_status_id  21453 non-null  int64  
 7   gender            21453 non-null  object 
 8   income_type       21453 non-null  object 
 9   debt              21453 non-null  int64  
 10  total_income      21453 non-null  float64
 11  purpose           21453 non-null  object 
 12  age_category      21453 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.1+ MB


Kolom `income_type` sudah sesuai dengan kolom yang lain, itu berarti kita sudah berhasil mengisi nilai yang hilang pada kolom ini. Mari kita lanjut untuk mengisi nilai yang hilang pada kolom yang lain.

###  Memperbaiki nilai di `days_employed`

Pada kolom ini kita akan mencoba untuk mengisi nilai yang hilang. Untuk memulainya mari kita tampilkan data yang hilang pada kolom `day_employed`.

In [63]:
df.loc[df['days_employed'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_category
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,19637.0560,to have a wedding,60-80
26,0,,41,secondary education,1,married,0,M,civil servant,0,23219.8075,education,40-60
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,19637.0560,building a real estate,60-80
41,0,,50,secondary education,1,married,0,F,civil servant,0,23219.8075,second-hand car purchase,40-60
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,23219.8075,to have a wedding,40-60
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21417,2,,47,secondary education,1,married,0,M,business,0,23219.8075,purchase of a car,40-60
21423,1,,50,secondary education,1,civil partnership,1,F,employee,0,23219.8075,wedding ceremony,40-60
21425,0,,48,bachelor's degree,0,married,0,F,business,0,23219.8075,building a property,40-60
21430,1,,42,secondary education,1,married,0,F,employee,0,23219.8075,building a real estate,40-60


Terdapat 2102 rows yang memiliki missing value. Untuk mengisi missing value di kolom ini mari kita coba menggunakan kolom `income_type` sebagai parameter untuk mengisi missing value.
Kolom `income_type` mungkin lebih bisa kita pakai sebagai parameter karena di kolom tersebut kita akan sesuaikan jenis pekerjaan dari nasabah dengan jumlah hari bekerja masing-masing nasabah, karena dari jenis pekerjaan nya kita bisa tahu berapa lama nasabah tersbeut bekerja.

In [64]:
# Distribusi median dari `days_employed` 
df.groupby('income_type')['days_employed'].median().reset_index()


Unnamed: 0,income_type,days_employed
0,business,1547.382223
1,civil servant,2689.368353
2,employee,1574.202821
3,entrepreneur,520.848083
4,paternity / maternity leave,3296.759962
5,retiree,2194.220567
6,student,578.751554
7,unemployed,2194.220567


In [65]:
# Distribusi rata-rata dari `days_employed` 
df.groupby('income_type')['days_employed'].mean().reset_index()

Unnamed: 0,income_type,days_employed
0,business,2111.524398
1,civil servant,3399.896902
2,employee,2326.499216
3,entrepreneur,520.848083
4,paternity / maternity leave,3296.759962
5,retiree,2194.220567
6,student,578.751554
7,unemployed,2194.220567


Dari data median dan mean yang sudah kita tampilkan, kita bisa tentukan untuk mengisi missing value tersebut dengan value yang mana. Untuk itu kita akan menggunakan pendekatan yang sama yaitu kita akan menggunakan nilai median sebagai parameter kita mengisi missing value. Dengan alasan yang sama pula kita menggunakan median yaitu untuk menghindari nilai outlier yang mungkin kita miliki di dalam dataset kita. 

In [66]:
med_days_employed = pd.pivot_table(data=df, columns='income_type', values='days_employed', aggfunc='median')
med_days_employed['business'][0]

1547.3822226779334

In [67]:
df.loc[(df['income_type']== 'business') & (df['days_employed'].isna()), 'days_employed'] = med_days_employed['business'][0]


In [68]:
for col in med_days_employed.columns:
     df.loc[(df['income_type']==col) & (df['days_employed'].isna()), 'days_employed'] = med_days_employed[col][0]
    

In [69]:
# Mari tulis fungsi yang menghitung rata-rata atau median (tergantung keputusanmu) berdasarkan parameter yang kamu identifikasi
def group_fillna(dataframe, column_group, miss_column):
    med_days_employed = pd.pivot_table(data=dataframe, columns=column_group, values=miss_column, aggfunc='median')
    
    for col in med_days_employed.columns:
        dataframe.loc[(dataframe[column_group]==col) & (dataframe[miss_column].isna()), miss_column] = med_days_employed[col][0]
    
    return dataframe

In [70]:
# Memeriksa fungsi
df['days_employed'].isna().sum()

0

Seperti yang kita lihat, pada kolom `days_employed` sudah menghasilkan nilai 0. Itu berarti nilai yang hilang sudah terisi. Mari kita periksa kembali data kita di setia kolom. 

In [71]:
# Memeriksa kembali fungsinya
df.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
age_category        0
dtype: int64

Setiap kolom sudah mengahasilkan nilai 0, itu berarti nilai yang hilang sudah terisi dan tidak ada lagi nilai yang hilang pada setiap kolom. Mari kita periksa kembali apakah jumlah total nilai di kolom ini sesuai dengan jumlah nilai di kolom lain.

In [72]:
# Memeriksa entri di semua kolom 
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21453 entries, 0 to 21452
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21453 non-null  int64  
 1   days_employed     21453 non-null  float64
 2   dob_years         21453 non-null  int64  
 3   education         21453 non-null  object 
 4   education_id      21453 non-null  int64  
 5   family_status     21453 non-null  object 
 6   family_status_id  21453 non-null  int64  
 7   gender            21453 non-null  object 
 8   income_type       21453 non-null  object 
 9   debt              21453 non-null  int64  
 10  total_income      21453 non-null  float64
 11  purpose           21453 non-null  object 
 12  age_category      21453 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.1+ MB


Semua data sudah memiliki nilai yang sama yaitu 21453. Itu berarti kolom-kolom yang tadi memiliki nilai yang hilang sekarang sudah sesuai dengan jumlah entries dataset kita dan kolom kolom lain juga sudah memiliki nilai yang sama. Artinya kita sudah mengatasi missing value dan menggatinya dengan nilai yang kita inginkan. 

## Pengkategorian data

Ditahap ini kita akan mencoba mengkategorikan data berdasarkan asumsi kita tentang dataset yang kita miliki. Untuk memudahkan kita menganalisis setiap nasabah terhadap kemungkinan nasabah untuk gagal bayar, kita perlu mengetahui nasabah mana yang memiliki potensi untuk gagal bayar atau tidak. Perlu diketahui bahwa nasabah meminjam uang ke bank pasti ada yang dibutuhkan atau nasabah tersebut menginginkan sesuatu dimasa yang akan datang. 

Oleh karena itu, mari kita coba categorikan nasabah dengan parameter tujuan dari nasabah tersebut dan total income yang dimiliki oleh nasabah tesebut.

### Pengkategorian data di kolom `purpose`

In [73]:
# Menampilkan nilai di kolom `purpose`
df[['purpose']]


Unnamed: 0,purpose
0,purchase of the house
1,car purchase
2,purchase of the house
3,supplementary education
4,to have a wedding
...,...
21448,housing transactions
21449,purchase of a car
21450,property
21451,buying my own car


Dari data yang ditampilkan, terdapat banyak sekali tujuan dari nasabah. Tapi bila kita teliti sedikit ada beberapa tujuan yang memiliki arti yang kurang lebih sama. Mari kita coba menampilkan nilai uniqeu di kolom ini.

In [74]:
# Memeriksa nilai uniqeu
df['purpose'].unique()

array(['purchase of the house', 'car purchase', 'supplementary education',
       'to have a wedding', 'housing transactions', 'education',
       'having a wedding', 'purchase of the house for my family',
       'buy real estate', 'buy commercial real estate',
       'buy residential real estate', 'construction of own property',
       'property', 'building a property', 'buying a second-hand car',
       'buying my own car', 'transactions with commercial real estate',
       'building a real estate', 'housing',
       'transactions with my real estate', 'cars', 'to become educated',
       'second-hand car purchase', 'getting an education', 'car',
       'wedding ceremony', 'to get a supplementary education',
       'purchase of my own house', 'real estate transactions',
       'getting higher education', 'to own a car', 'purchase of a car',
       'profile education', 'university education',
       'buying property for renting out', 'to buy a car',
       'housing renovation', 'going

Sesuai dengan asumsi kita, terdapat nilai nilai yang hampir mirip secara pemaknaan namun ditulis dengan kalimat yang beragam. Dengan kata lain kita bisa mengelompokan nilai nilai tersebut kedalam beberapa kategori.

Mari kita buat beberapa kategori, diantaranya:
1. Yang bermakna untuk memiliki rumah atau membeli rumah = house.
2. Yang bermakna untuk pendidikan = education.
3. Yang bermakna untuk memiliki mobil atau membeli mobil = car.
4. Yang bermakna untuk pernikahan = wedding.

In [75]:
# Membuat fungsi untuk pengkategorian
def category_purpose(purpose):
    if ('hous' in purpose) or ('property' in purpose)  or ('estate' in purpose):
        category = 'house'
    elif ('educat' in purpose) or ('univer' in purpose):
        category = 'education'
    elif ('car' in purpose):
        category = 'car'
    elif ('wedding' in purpose):
        category = 'wedding'
    return category

In [76]:
# Memasukan kolom kategori tersebut ke dataset dan menampilkan nilainya
df['category_purpose'] = df['purpose'].apply(category_purpose)

In [77]:
df['category_purpose'].value_counts()

house        10811
car           4306
education     4013
wedding       2323
Name: category_purpose, dtype: int64

### Pengkategorian data di kolom `total_income`

Selanjutnya mari kita kategorikan kolom `total_income`. 

In [78]:
# Menampilkan nilai di kolom `total_income`
df[['total_income']]

Unnamed: 0,total_income
0,40620.102
1,17932.802
2,23341.752
3,42820.568
4,25378.572
...,...
21448,35966.698
21449,24959.969
21450,14347.610
21451,39054.888


In [79]:
# Dapatkan kesimpulan statistik untuk kolomnya
df['total_income'].describe()

count     21453.000000
mean      26433.263821
std       15689.407478
min        3306.762000
25%       17219.352000
50%       23219.807500
75%       31331.009000
max      362496.645000
Name: total_income, dtype: float64

Untuk pengelompokan data dikolom ini, kita akan mencoba mengelompokan data berdasarkan total income dari setiap nasabah dengan kategorisasi sebagai berikut:
1. Total income dengan jumlah kurang dari 10000, maka kita categorikan sebagari low income.
2. Total income dengan jumlah 10000 sampai dengan 20000, maka kita categorikan sebagari medium income.
3. Total income dengan jumlah 20000 sampai dengan 30000, maka kita categorikan sebagari high income.
4. Total income dengan jumlah lebih dari 30000, maka kita categorikan sebagari very high income.

Tujuan dari pengkategorian ini adalah untuk memudahkan kita melihat income dari nasabah dan mengambil keputusan dari kategori yang kita berikan terhadap nasabah tersebut.

In [80]:
# Membuat fungsi untuk pengkategorian
def group_of_income(income):
    if income <= 10000:
        category = 'low income'
    elif income > 10000 and income <= 20000:
        category = 'medium income'
    elif income > 20000 and income <= 30000:
        category = 'high income'
    elif income > 30000:
        category = 'very high income'
    
    return category


In [81]:
# Memuat kolom baru tersbeut dan memasukan ke dataset
df['category_of_income'] = df['total_income'].apply(group_of_income)

In [82]:
# Menampilkan nilai dari kategori tersebut
df['category_of_income'].value_counts()

high income         7950
medium income       6658
very high income    5919
low income           926
Name: category_of_income, dtype: int64

## Memeriksa hipotesis


### Memeriksa hipotesis pertama

**Apakah terdapat korelasi antara memiliki anak dengan probabilitas melakukan gagal bayar pinjaman?**

Pertanyaan diatas memerlukan langkah lebih lanjut untuk menjawabnya. Untuk itu mari kita lakukan langkah hipotesis pertama ini untuk menjawab soal diatas dengan membuat sebuah tabel yang berisi nilai dari kolom `children` dan kolom `debt` lalu kita isi value nya dengan total income dari nasabah.

In [83]:
# Memeriksa data dikolom `children` dan kolom `debt`
child_debt = pd.pivot_table(df, index='children', columns= 'debt', values='total_income', aggfunc='count', margins=True).reset_index()
child_debt = child_debt[:-1]
child_debt

debt,children,0,1,All
0,0,13027.0,1063.0,14090
1,1,4410.0,445.0,4855
2,2,1926.0,202.0,2128
3,3,303.0,27.0,330
4,4,37.0,4.0,41
5,5,9.0,,9


**Catatan kolom:
0 = tidak gagal, 
1 = gagal bayar**

Untuk memudahkan kita menganalisa hasil korelasi antara memiliki anak dan gagal bayar, mari kita persentasekan nilai nya. 

In [84]:
# MEnghitung persentase gagal bayar berdasarkan jumlah anak
child_debt['% default_debt'] = child_debt[1] / child_debt['All'] * 100
child_debt['% success_debt'] = child_debt[0] / child_debt['All'] * 100

child_debt

debt,children,0,1,All,% default_debt,% success_debt
0,0,13027.0,1063.0,14090,7.544358,92.455642
1,1,4410.0,445.0,4855,9.165808,90.834192
2,2,1926.0,202.0,2128,9.492481,90.507519
3,3,303.0,27.0,330,8.181818,91.818182
4,4,37.0,4.0,41,9.756098,90.243902
5,5,9.0,,9,,100.0


**Catatan kolom:
0 = tidak gagal, 
1 = gagal bayar**

**Kesimpulan**

**Apakah terdapat korelasi antara memiliki anak dengan probabilitas melakukan gagal bayar pinjaman?**

Kesimpulan yang bisa kita ambil untuk menjawab pertanyaan diatas adalah Ya, terdapat korelasi antara memiliki anak dengan gagal bayar.
semakin banyak nasabah memiliki anak, semakin tinggi pula kemungkinan gagal bayar, meskipun selisih persentasenya tidak terlalu besar yaitu 7.5% - 9.7%.
Nilai NaN yang ada pada baris terakhir adalah nilai yang tidak bisa di hasilkan persentasenya karena memilki sampel yang sangat sedikit.

### Memeriksa hipotesis kedua

**Apakah terdapat korelasi antara status keluarga dengan probabilitas melakukan gagal bayar pinjaman?**

Pertanyaan yang sama diajukan namum kali ini kita akan membuat sebuah tabel yang berisi nilai dari kolom `family_status` dan kolom `debt` lalu kita isi value nya dengan total income dari nasabah.

In [85]:
# Memeriksa data status keluarga dan data gagal bayar pinjaman
family_debt = pd.pivot_table(df, index='family_status', columns= 'debt', values='total_income', aggfunc='count', margins=True).reset_index()
family_debt = family_debt[:-1]
family_debt


debt,family_status,0,1,All
0,civil partnership,3762,388,4150
1,divorced,1110,85,1195
2,married,11408,931,12339
3,unmarried,2536,274,2810
4,widow / widower,896,63,959


In [86]:
# Hitung persentase gagal bayar berdasarkan status keluarga
family_debt['% default_debt'] = family_debt[1] / family_debt['All'] * 100
family_debt['% success_debt'] = family_debt[0] / family_debt['All'] * 100

family_debt

debt,family_status,0,1,All,% default_debt,% success_debt
0,civil partnership,3762,388,4150,9.349398,90.650602
1,divorced,1110,85,1195,7.112971,92.887029
2,married,11408,931,12339,7.545182,92.454818
3,unmarried,2536,274,2810,9.75089,90.24911
4,widow / widower,896,63,959,6.569343,93.430657


**Kesimpulan**

Untuk korelasi antara status family terhadap gagal bayar memiliki variasi yang unik. Berikut penjabarannya:
1. Status family yang bercerai dan menikah memiliki persentase yang tidak jauh berbeda yaitu 7.11% untuk yang bercerai dan 7.54% untuk yang menikah.
2. Nilai persentase yang paling besar berada di status family yang tidak menikah dengan persentase 9.75%. Lalu di ikuti dengan civil partnership dengan nilai 7.34%.
3. Nilai yang paling kecil ditunjukan di status family widow/widower dengan persentase 6.56%.

### Memeriksa hipotesis ketiga

**Apakah terdapat korelasi antara tingkat pendapatan dengan probabilitas melakukan gagal bayar pinjaman?**

Pertanyaan yang sama diajukan namum kali ini kita akan membuat sebuah tabel yang berisi nilai dari kolom "category_of_income dan kolom `debt` lalu kita isi value nya dengan total income dari nasabah.

In [87]:
# Memeriksa data tingkat pendapatan dan data gagal bayar pinjaman
income_debt = pd.pivot_table(df, index='category_of_income', columns= 'debt', values='total_income', aggfunc='count', margins=True).reset_index()
income_debt = income_debt[:-1]
income_debt


debt,category_of_income,0,1,All
0,high income,7265,685,7950
1,low income,868,58,926
2,medium income,6096,562,6658
3,very high income,5483,436,5919


In [88]:
# Menghitung persentase gagal bayar berdasarkan tingkat pendapatan
income_debt['% default_debt'] = income_debt[1] / income_debt['All'] * 100
income_debt['% success_debt'] = income_debt[0] / income_debt['All'] * 100

income_debt

debt,category_of_income,0,1,All,% default_debt,% success_debt
0,high income,7265,685,7950,8.616352,91.383648
1,low income,868,58,926,6.263499,93.736501
2,medium income,6096,562,6658,8.440973,91.559027
3,very high income,5483,436,5919,7.366109,92.633891


**Kesimpulan**

Korelasi antara Pendapatan dan gagal bayar cukup unik, berikut penjabarannya:
1. Nilai persentase yang paling tinggi berada di kategori high income dengan 8.61% lalu diikuti dengan kategori medium income dengan 8.44%.
2. Kategori low income memiliki nilai yang paling rendah yaitu 6.26%.
3. Kategori very high income berada di tengah tengah persentase dengan 7.36%.

### Memeriksa hipotesis keempat

**Bagaimana tujuan kredit memengaruhi persentase gagal bayar?**

Lalu bagaimana dengan pertanyaan diatas. Mari kita buat tabel yang berisi nilai dari kolom `category_purpose` dan kolom `debt` lalu kita isi value nya dengan total income dari nasabah.

In [89]:
# Memeriksa persentase tingkat gagal bayar untuk setiap tujuan kredit 
purpose_debt = pd.pivot_table(df, index='category_purpose', columns= 'debt', values='total_income', aggfunc='count', margins=True).reset_index()
purpose_debt = purpose_debt[:-1]
purpose_debt['% default_debt'] = purpose_debt[1] / purpose_debt['All'] * 100
purpose_debt['% success_debt'] = purpose_debt[0] / purpose_debt['All'] * 100

purpose_debt


debt,category_purpose,0,1,All,% default_debt,% success_debt
0,car,3903,403,4306,9.359034,90.640966
1,education,3643,370,4013,9.220035,90.779965
2,house,10029,782,10811,7.233373,92.766627
3,wedding,2137,186,2323,8.006888,91.993112


**Kesimpulan**

Dihipotesis terakhir ini, persentase gagal bayar memiliki tingat yang beragam. Nasabah dengan kategori tujuan car memiliki nilai yang paling tinggi dengan 9.35%, diikuti dengan kategori tujuan education dengan 9.22%. Kategori tujuan wedding beradap di urutan ketiga dengan 8.00% dan yang paling rendah adalah kategori tujuan house dengan 7.23%.

# Kesimpulan umum 

Kesimpulan dari langkah langkah yang telah dilakukan diatas memiliki beberapa poin, diantaranya:
1. Kita tidak bisa menemukan penyebab dari missing value namun kita bisa mengasumsikan bahwa missing value terjadi karena beberapa kondisi, contohnya Human error, Teknikal problem atau juga data tersebut sengaja dikosongkan.
2. Terdapat beberapa problem yang sudah diatasi terkait penulisan yang tidak seragam dan juga ada beberapa nilai yang tidak masuk akal. Namun problem itu bisa diatasi dengan mengasumsikan bahwa nilai yang tidak masuk akal tersebut adalah kesalahan penginputan atau juga kesalahan teknis lainnya.
3. Beberapa data miliki duplikat, walaupun nilai duplikat tersebut cukup kecil yaitu 72 data, namun nilai tersebut akan menggangu proses analisis. Oleh karena itu, problem dari duplikat diatasi dengan mendrop duplikat tersebut dan mereset index nya kembali.
4. Missing value terdapat pada kolom `days_employed` dan kolom `total_income` yang simetris satu sama lain. Jumlahnya pun cukup besar dan akan menganggu proses analisis. Maka dari itu missing value diatasi dengan mengisi menggati nilai nilai yang hilang tersebut dengan median pada kolom kolom tersebut. Nilai median dipilih untuk mengisi missing value karena nilai tersebut lebih cocok dan untuk menghindari outlier yang ada pada kolom kolom tersebut.  

Mengenai Hipotesis yang telah dilakukan, korelasi yang paling menojol adalah korelasi antara nasabah yang memiliki anak dengan kemungkinan gagal bayar. Persentasenya cukup menonjol yaitu semakin banyak nasabah memiliki anak, semakin tinggi pula kemungkinan nasabah untuk gagal bayar, walupun selisih persentasenya tidak terlalu besar. Untuk hipotesis lainya hasil yang ditampilkan tidak menonjol, namun persentasenya memiliki nilai yang cukup beragam sesuai dengan kategori yang di wakilinya.
