# Menganalisis risiko gagal bayar peminjam

Tugasmu adalah menyiapkan laporan untuk divisi kredit suatu bank. Kamu akan mencari tahu pengaruh status perkawinan seorang nasabah dan jumlah anak yang dimilikinya terhadap probabilitas gagal bayar dalam pelunasan pinjaman. Pihak bank sudah memiliki beberapa data mengenai kelayakan kredit nasabah.

Laporanmu akan dipertimbangkan pada saat membuat **penilaian kredit** untuk calon nasabah. **Penilaian kredit** digunakan untuk mengevaluasi kemampuan calon peminjam untuk melunasi pinjaman mereka.

Dalam notebook ini, kamu dapat menemukan petunjuk dan instruksi singkat serta arahan untuk berpikir. Jangan abaikan petunjuk tersebut karena mereka dirancang untuk membekalimu dengan struktur pengerjaan proyek dan akan membantumu melakukan analisis secara lebih mendalam. Sebelum menyerahkan proyekmu, pastikan kamu menghapus semua petunjuk dan deskripsi yang diberikan kepadamu. Sebaliknya, buat laporan ini terlihat seolah-olah dikirimkan oleh kamu kepada rekan kerja untuk menunjukkan temuanmu - mereka tidak perlu tahu bahwa kaebaru mendapatkan bantuan eksternal dari kami! Untuk membantumu, kami menempatkan semua petunjuk yang harus kamu hapus dalam tanda kurung siku.

Sebelum kamu masuk ke dalam proses analisis datamu, jelaskan tujuan proyek dan hipotesis yang akan kamu uji.

Ans : Tujuan dan hipotesis terhadap proyek ini ialah mencari tahu pengaruh satus perkawinan nasabah, dan juga jumlah anak yang dimiliki terhadap probilitas gagal bayar dalam pelunasan pinajaman. Apakah faktor - faktor tersebut sangat mempengaruhi gagal bayar dalam pelunasan pinjaman atau terdapat faktor lain selain dua faktor tersebut yang dapat mempengaruhi gagal bayar dalam pelunasan pinjaman. Dan projek ini akan menjadi suatu perimbangan dalam penilaian kredit untuk calon nasabah kedepannya dan menghevaluasi kemampuan calon peminjam untuk melunasi pinjaman mereka. 

## Buka file data dan baca informasi umumnya.

Mulailah dengan mengimpor library dan memuat datanya. Kamu mungkin akan menyadari bahwa kamu memerlukan library tambahan saat kamu mengerjakan proyek ini dan itu merupakan hal yang normal. Hanya saja, pastikan untuk memperbarui bagian ini jika dibutuhkan.

In [1]:
# Muat semua library
import pandas as pd

# Muat datanya
df = pd.read_csv('/datasets/credit_scoring_eng.csv')

df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding


## Soal 1. Eksplorasi data

**Deskripsi data**
- `children` - jumlah anak dalam keluarga
- `days_employed` - pengalaman kerja nasabah dalam hari
- `dob_years` - usia nasabah dalam tahun
- `education` - tingkat pendidikan nasabah
- `education_id` - pengidentifikasi untuk tingkat pendidikan nasabah
- `family_status` - status perkawinan
- `family_status_id` - pengidentifikasi untuk status perkawinan nasabah
- `gender` - jenis kelamin nasabah
- `income_type` - jenis pekerjaan
- `debt` - apakah nasabah pernah melakukan gagal bayar pinjaman
- `total_income` - pendapatan bulanan
- `purpose` - tujuan mendapatkan pinjaman

Sekarang, saatnya menjelajahi data kita. Kamu perlu melihat berapa banyak kolom dan baris yang dimiliki oleh data, serta mencermati beberapa baris data untuk memeriksa potensi masalah dengan data.

In [2]:
# Mari kita lihat berapa banyak baris dan kolom yang dimiliki oleh dataset kita
df.shape

(21525, 12)

In [3]:
# Mari tampilkan N baris pertama

df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding


Jelaskan apa yang kamu lihat dan perhatikan dalam sampel data yang kamu tampilkan. Apakah terdapat masalah yang mungkin memerlukan penyelidikan dan perubahan lebih lanjut?

Ans : Terlihat ada masalah pada nilai di kolom "days_employed" dikarenakan terdapat nilai minus

In [4]:
# Dapatkan informasi data
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Apakah terdapat nilai yang hilang di semua kolom atau hanya di beberapa kolom? Jelaskan secara singkat apa yang kamu lihat dalam 1-2 kalimat.

Ans : Terdapat nilai yang hilang pada kolom : days_employed, dan total_income

In [5]:
# Mari kita lihat tabel yang telah difilter dengan nilai yang hilang di kolom pertama yang mengandung data yang hilang
df_null = df.loc[df['days_employed'].isnull()]
df_null


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


Apakah nilai yang hilang tampak simetris? Apakah kita yakin dengan asumsi ini? Jelaskan pendapatmu secara singkat di bagian ini. Kamu mungkin ingin melakukan penyelidikan lebih lanjut dan menghitung nilai yang hilang di semua baris dengan nilai yang hilang untuk memastikan bahwa sampel yang hilang memiliki ukuran yang sama.

Ans : Terlihat pada data tabel diatas nilai yang hilang pada kolom "days_employed", dengan "total_income"terlihat simetris, bahwa sampel yang hilang memiliki ukuran yang sama.


In [6]:
# Mari kita terapkan beberapa kondisi untuk memfilter data dan melihat jumlah baris dalam tabel yang telah difilter.

missing_df = df.loc[(df['days_employed'].isnull()) & (df['total_income'].isnull()), :]
missing_df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding


**Kesimpulan sementara**

Apakah jumlah baris dalam tabel yang telah difilter sesuai dengan jumlah nilai yang hilang? Kesimpulan apa yang bisa kita buat dari hal ini?

Ans : Setelah data diatas di filter jumlah baris telah sesuai dengan jumlah nilai yang hilang. Sehingga perlu ditelaah lebih lanjut mengenai nilai hilang tersebut dan apakah terdapat pola tertentu dari nilai hilang tersebut.

Hitung persentase nilai yang hilang jika dibandingkan dengan keseluruhan dataset. Apakah nilai yang hilang merupakan bagian data yang cukup besar? Jika demikian, kamu sebaiknya perlu mengisi nilai yang hilang. Untuk melakukannya, pertama-tama kita harus mempertimbangkan apakah data yang hilang bisa jadi disebabkan oleh karakteristik nasabah tertentu, seperti jenis pekerjaan atau yang lainnya. Kamu harus memutuskan karakteristik mana yang menurut *kamu* mungkin merupakan penyebabnya. Kedua, kita harus memeriksa apakah ada ketergantungan nilai yang hilang pada nilai indikator lain dengan kolom-kolom yang mengidentifikasikan karakteristik tertentu nasabah.

Ans : Untuk presentase nilai yang hilang ialah sebanyak 10%, dari keseluruhan data yang kita miliki 2152 dan data yang hilang adalah 2174 data.


Jelaskan langkahmu selanjutnya dan bagaimana korelasinya dengan kesimpulan yang kamu buat sejauh ini.
Ans : Langkah selanjutnya ialah melakukan distribusi data untuk melihat faktor apa saja yang memungkinkan menjadi suatu pengaruh dari data yang hilang.

In [7]:
# Mari kita periksa nasabah yang tidak memiliki data tentang karakteristik yang teridentifikasi dan kolom dengan nilai yang hilang

missing_df.isnull().sum() / df.shape[0]*100

children             0.000000
days_employed       10.099884
dob_years            0.000000
education            0.000000
education_id         0.000000
family_status        0.000000
family_status_id     0.000000
gender               0.000000
income_type          0.000000
debt                 0.000000
total_income        10.099884
purpose              0.000000
dtype: float64

In [8]:
# Periksalah distribusinya
missing_df['education_id'].value_counts()


1    1540
0     544
2      69
3      21
Name: education_id, dtype: int64

Deksripsikan temuanmu di sini.
Ans : Dari data diatas dapat di deskripsikan di ID 1 terdapat 1540 missing value, untuk ID 0 terdapat 544 missing value, ID 2 terdapat 69 missing value, dan di ID 3 terdapat 21 missing value.

**Kemungkinan penyebab hilangnya nilai dalam data**

Ajukan gagasanmu mengenai kemungkinan alasan hilangnya nilai-nilai tersebut. Apakah menurutmu mereka hilang secara acak atau apakah terdapat pola-pola tertentu?
Ans : Bisa jadi penyebab terbesar nya yang membuat value nya missing adalah ID 1 dan 0, mereka hilang secara acak.

Mari kita mulai memeriksa apakah nilai yang hilang bersifat acak.

In [9]:
# Memeriksa distribusi di seluruh dataset

missing_df['education_id'].value_counts(normalize=True)

1    0.708372
0    0.250230
2    0.031739
3    0.009660
Name: education_id, dtype: float64

**Kesimpulan sementara**

Apakah distribusi dalam dataset yang asli mirip dengan distribusi tabel yang telah difilter? Apa artinya hal tersebut untuk kita?
Ans : Setelah di filter terlihat bahwawasannya distribusi di kolom "education_id" mirip. Artinya kolom education bukanlah penyebab dari missing value.

Jika menurutmu kita belum dapat membuat kesimpulan apa pun, mari kita kembali menyelidiki dataset lebih lanjut. Mari pikirkan alasan lain yang dapat menyebabkan data hilang dan periksa apakah kita dapat menemukan pola tertentu yang dapat membuat kita berpikir bahwa hilangnya nilai-nilai tersebut tidak terjadi secara acak. Karena ini merupakan tugasmu maka bagian ini adalah opsional.

In [10]:
# Periksa penyebab dan pola lain yang dapat mengakibatkan nilai yang hilang

missing_df['gender'].value_counts(normalize=True)

F    0.682613
M    0.317387
Name: gender, dtype: float64

**Kesimpulan sementara**

Apakah pada akhirnya kita dapat memastikan bahwa nilai yang hilang adalah suatu kebetulan? Periksa hal lain yang menurutmu penting di sini.
Ans : Bisa dapat dipastikan bahwasannya nilai yang hilang adalah suatu kebetulan.

In [11]:
# Periksa pola lainnya - jelaskan pola tersebut
# Periksa penyebab dan pola lain yang dapat mengakibatkan nilai yang hilang

missing_df['children'].value_counts(normalize=True)

 0     0.661914
 1     0.218491
 2     0.093836
 3     0.016559
 20    0.004140
 4     0.003220
-1     0.001380
 5     0.000460
Name: children, dtype: float64

**Kesimpulan**

Apakah kamu menemukan suatu pola? Bagaimana kamu mendapatkan kesimpulan ini?
Ans : Sampai saat ini saya belum menemukan pola yang dapat saya simpulkan

Jelaskan bagaimana kamu akan mengatasi nilai-nilai yang hilang. Pertimbangkan kategori dengan nilai yang hilang.
Ans : Ada kemungkinan missing value ini disebabkan oleh human error/technical problem atau memang data tersebut di kosongkan.

Rencanakan secara singkat langkahmu selanjutnya untuk mentransformasi data. Kamu mungkin perlu mengatasi berbagai jenis masalah: duplikat, pencatatan yang berbeda, sumber data yang salah, dan nilai yang hilang.

## Transformasi data

Mari kita perhatikan setiap kolom untuk melihat masalah apa yang mungkin dimiliki mereka.

Mulailah dengan menghapus duplikat dan memperbaiki data tentang informasi pendidikan jika diperlukan.

In [12]:
# Mari kita lihat semua nilai di kolom pendidikan untuk memeriksa ejaan apa yang perlu diperbaiki
df['education'].value_counts()

secondary education    13750
bachelor's degree       4718
SECONDARY EDUCATION      772
Secondary Education      711
some college             668
BACHELOR'S DEGREE        274
Bachelor's Degree        268
primary education        250
Some College              47
SOME COLLEGE              29
PRIMARY EDUCATION         17
Primary Education         15
graduate degree            4
GRADUATE DEGREE            1
Graduate Degree            1
Name: education, dtype: int64

In [13]:
# Perbaiki pencatatan jika diperlukan
df['education'] = df['education'].str.lower()

In [14]:
# Periksa semua nilai di kolom untuk memastikan bahwa kita telah memperbaikinya dengan tepat

df['education']

0          bachelor's degree
1        secondary education
2        secondary education
3        secondary education
4        secondary education
                ...         
21520    secondary education
21521    secondary education
21522    secondary education
21523    secondary education
21524    secondary education
Name: education, Length: 21525, dtype: object

Periksa data kolom `children`

In [15]:
# Mari kita lihat distribusi nilai pada kolom `children`
df['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Apakah terdapat hal-hal yang aneh di kolom tersebut? Jika jawabannya iya, seberapa tinggi persentase data yang bermasalah? Bagaimana mereka bisa terjadi? Buat keputusan tentang apa yang akan kamu lakukan dengan data ini dan jelaskan alasannya.

Ans : Dari data diatas terlihat bahwasannya ada jumlah anak dengan 20 dan juga -1 secara logika pada zaman sekarang untuk memiliki anak dengan 20 anak kurang masuk akal dan cukup tidak memungkinkan begitu juga dengan nilai -1. Jika tidak memiliki anak mungkin dapat di input dengan angka"0" Bukan dengan -1, tidak dapat terdefinisikan juga jika mempunyai anak"-1". Oleh karena itu akan di perbaiki data nya dengan nilai 20 diganti dengan 2 sedangkan -1 diganti dengan 0 mungkin saat penginputan data terdapat human error.

In [16]:
# [perbaiki data berdasarkan keputusanmu]
df['children'] = df['children'].replace(20, 2).replace(-1, 0)

In [17]:
# Periksa kembali kolom `children` untuk memastikan bahwa semuanya telah diperbaiki

df['children']

0        1
1        1
2        0
3        3
4        0
        ..
21520    1
21521    0
21522    1
21523    3
21524    2
Name: children, Length: 21525, dtype: int64

[Periksa data dalam kolom `days_employed`. Pertama-tama, pikirkan tentang masalah apa yang mungkin ada pada kolom tersebut, serta pikirkan juga apa yang mungkin ingin kamu periksa dan bagaimana kamu akan melakukannya.]

In [18]:
# Temukan data yang bermasalah di kolom `days_employed` jika memang terdapat masalah dan hitung persentasenya
df['days_employed']

0         -8437.673028
1         -4024.803754
2         -5623.422610
3         -4124.747207
4        340266.072047
             ...      
21520     -4529.316663
21521    343937.404131
21522     -2113.346888
21523     -3112.481705
21524     -1984.507589
Name: days_employed, Length: 21525, dtype: float64

Jika jumlah data yang bermasalah tinggi, hal tersebut mungkin disebabkan oleh beberapa masalah teknis. Kita mungkin perlu mengusulkan alasan paling jelas mengapa hal tersebut dapat terjadi dan bagaimana seharusnya data yang benar, mengingat kita tidak dapat menghapus baris yang bermasalah ini.

Ans : Menurut saya data yang benar ialah dibagi perjam, yaitu 24 jam 

In [19]:
# Atasi nilai yang bermasalah, jika ada

days_emplyd = df.loc[df['days_employed'] > 0, 'days_employed'] / 24
df.loc[df['days_employed'] > 0, 'days_employed'] = days_emplyd
df['days_employed'] = abs(df['days_employed'])

In [20]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
df['days_employed'].describe()

count    19351.000000
mean      4641.641176
std       5355.964289
min         24.141633
25%        927.009265
50%       2194.220567
75%       5537.882441
max      18388.949901
Name: days_employed, dtype: float64

Sekarang, mari kita lihat usia nasabah dan mengecek apakah terdapat masalah di sana. Sekali lagi, pikirkan tentang kemungkinan kejanggalan apa yang bisa kita temui dalam kolom ini, misalnya angka usia yang tidak masuk akal.

In [21]:
# Periksa `dob_years` untuk nilai yang mencurigakan dan hitung persentasenya

df['dob_years'].sort_values().unique()

array([ 0, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
       69, 70, 71, 72, 73, 74, 75])

Putuskan apa yang akan kamu lakukan dengan nilai yang bermasalah dan jelaskan alasannya.
Ans : Terdapat nilai"0" cukup tidak masuk akal untuk umur 0 tahun untuk melakukan peminjaman uang. Untuk memperbaiki data diatas akan saya ambil dengan nilai median dari nilai data diatas.

In [22]:
# Atasi masalah pada kolom `dob_years`, jika terdapat masalah
median_age = int(df['dob_years'].median())
df['dob_years'] = df['dob_years'].replace(0, median_age)

In [23]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
df['dob_years'].sort_values().unique()

array([19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35,
       36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52,
       53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69,
       70, 71, 72, 73, 74, 75])

Sekarang, saatnya memeriksa kolom `family_status`. Periksalah nilai seperti apa yang dimuat di dalam kolom ini dan masalah apa yang mungkin perlu kamu atasi.

Ans : Terlihat data pada "family_status" am

In [24]:
# Mari kita lihat nilai untuk kolom ini

df['family_status'].value_counts()

married              12380
civil partnership     4177
unmarried             2813
divorced              1195
widow / widower        960
Name: family_status, dtype: int64

In [25]:
# Atasi nilai yang bermasalah di `family_status`, jika ada



In [26]:
# Periksa hasilnya - pastikan nilainya telah diperbaiki


Sekarang, saatnya memeriksa kolom `gender`. Periksalah nilai seperti apa yang dimuat di dalam kolom ini dan masalah apa yang mungkin perlu kamu atasi

Ans : Data pada kolom"gender" terdapat nilai XNA = 1 ,kemungkinan nilai tersebut adalah salah penulisan. Dengan hal tersebut data XNA = 1 di delete.

In [27]:
# Mari kita liat nilai dalam kolom ini

df['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

In [28]:
# Atasi nilai-nilai yang bermasalah, jika ada

df = df[df['gender'] != 'XNA']

In [29]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki

df['gender'].value_counts()

F    14236
M     7288
Name: gender, dtype: int64

Sekarang, saatnya memeriksa kolom `income_type`. Periksalah nilai seperti apa yang dimuat di dalam kolom ini dan masalah apa yang mungkin perlu kamu atasi

In [30]:
# Mari kita lihat nilai dalam kolom ini

df['income_type'].value_counts()

employee                       11119
business                        5084
retiree                         3856
civil servant                   1459
unemployed                         2
entrepreneur                       2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64

In [31]:
# Atasi nilai yang bermasalah, jika ada

In [32]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki



Sekarang, saatnya melihat apakah ada duplikat di dalam data kita. Jika kita menemukannya, kamu harus memutuskan apa yang akan kamu lakukan dengan duplikat tersebut dan menjelaskan alasannya.

In [33]:
# Periksa duplikat

df[df.duplicated()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
2849,0,,41,secondary education,1,married,0,F,employee,0,,purchase of the house for my family
3290,0,,58,secondary education,1,civil partnership,1,F,retiree,0,,to have a wedding
4182,1,,34,bachelor's degree,0,civil partnership,1,F,employee,0,,wedding ceremony
4851,0,,60,secondary education,1,civil partnership,1,F,retiree,0,,wedding ceremony
5557,0,,58,secondary education,1,civil partnership,1,F,retiree,0,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
20702,0,,64,secondary education,1,married,0,F,retiree,0,,supplementary education
21032,0,,60,secondary education,1,married,0,F,retiree,0,,to become educated
21132,0,,47,secondary education,1,married,0,F,employee,0,,housing renovation
21281,1,,30,bachelor's degree,0,married,0,F,employee,0,,buy commercial real estate


In [34]:
# Atasi duplikat, jika ada
df_cleaned = df.drop_duplicates().reset_index(drop=True)

In [35]:
# Lakukan pemeriksaan terakhir untuk mengecek apakah kita memiliki duplikat
df[df.duplicated()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
2849,0,,41,secondary education,1,married,0,F,employee,0,,purchase of the house for my family
3290,0,,58,secondary education,1,civil partnership,1,F,retiree,0,,to have a wedding
4182,1,,34,bachelor's degree,0,civil partnership,1,F,employee,0,,wedding ceremony
4851,0,,60,secondary education,1,civil partnership,1,F,retiree,0,,wedding ceremony
5557,0,,58,secondary education,1,civil partnership,1,F,retiree,0,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
20702,0,,64,secondary education,1,married,0,F,retiree,0,,supplementary education
21032,0,,60,secondary education,1,married,0,F,retiree,0,,to become educated
21132,0,,47,secondary education,1,married,0,F,employee,0,,housing renovation
21281,1,,30,bachelor's degree,0,married,0,F,employee,0,,buy commercial real estate


In [36]:
# Periksa ukuran dataset yang sekarang kamu miliki setelah manipulasi pertama yang kamu lakukan
(df.shape[0] - df_cleaned.shape[0])/df.shape[0]*100

0.3345103140680171

Jelaskan dataset barumu: jelaskan secara singkat apa saja perubahannya dan seberapa besar persentase perubahannya, jika ada.

Ans: Terlihat perbedaan pada ukuran data set yang dimiliki sekarang, pada data set sebelumnya sebelum duplicate di delete ukuran data set adalah 21525, sedangkan setelah data duplicate di delete ukuran data set nya ialah 21452. Untuk persentase perubahannya 0,3%

# Bekerja dengan nilai yang hilang

Untuk mempercepat pekerjaan dengan sejumlah data, kamu mungkin ingin menggunakan dictionary untuk beberapa nilai yang memiliki ID. Jelaskan mengapa dan dictionary manakah yang akan kamu gunakan.

Ans : Saya akan menggunakan kolom "education_id" dan "family_status_id" untuk menemukan dictionary, dikarenakan kolom tersebut memiliki ID

In [37]:
# Temukan dictionary
education_dic = {
    0 : "bachelor's degree",
    1 : 'secondary education',
    2 : 'some collage',
    3 : 'primary education',
    4 : 'graduate degree'
}

family_id = {
    0 : 'married',
    1 : 'civil partnership',
    2 : 'widow/widoer',
    3 : 'divorced',
    4 : 'unmarried',
    
}

<div class="alert alert-success">
<b>Code Reviewers's comment v.1</b> <a class="tocSkip"></a>

Bagus, semua berjalan lancar.

</div>

### Memperbaiki nilai yang hilang di `total_income`

Jelaskan secara singkat kolom dengan nilai yang hilang manakah yang perlu kamu tangani. Jelaskan bagaimana kamu akan memperbaikinya.
Ans: Mungkin kolom dengan nilai hilang yang perlu ditangani ialah total_income dikarenakan mungkin dengan menangani kolom total_income dapat menunjang kita untuk mengambil suatu kesimpulan pada data gagal bayar peminjaman ini.


Mulai dengan mengatasi total nilai pendapatan yang hilang. Buat kategori usia untuk nasabah. Buat kolom baru yang memuat kategori usia. Strategi ini dapat membantu untuk menghitung total nilai pendapatan.


In [38]:
# Mari kita tulis sebuah fungsi untuk menghitung kategori usia

def age_categorizing(age):
    if age <= 17:
        category = '0-17'
    elif age > 17 and age <= 25:
        category = '17-25'
    elif age > 25 and age <= 35:
        category = '25-35'
    elif age > 35 and age <= 75:
        category = '35-75'
    else:
        category = '>75'

    return category

In [39]:
# Lakukan pengujian untuk melihat apakah fungsimu bekerja atau tidak
age_categorizing(age=90)

'>75'

In [40]:
# Buatlah kolom baru berdasarkan fungsi

df['age_category'] = df['dob_years'].apply(age_categorizing)

In [41]:
# Periksa bagaimana nilai di dalam kolom baru

df['age_category']

0        35-75
1        35-75
2        25-35
3        25-35
4        35-75
         ...  
21520    35-75
21521    35-75
21522    35-75
21523    35-75
21524    35-75
Name: age_category, Length: 21524, dtype: object

Pikirkan tentang faktor-faktor yang biasanya bergantung pada pendapatan. Pada akhirnya, kamu akan mengetahui apakah kamu harus menggunakan nilai rata-rata atau median untuk mengganti nilai yang hilang. Untuk membuat keputusan ini, kamu mungkin ingin melihat distribusi faktor-faktor yang kamu identifikasi sebagai dampak dari pendapatan seseorang.

Buatlah tabel yang hanya memuat data tanpa nilai yang hilang. Data ini akan digunakan untuk memperbaiki nilai yang hilang.

In [42]:
# Buat tabel tanpa nilai yang hilang dan tampilkan beberapa barisnya untuk memastikan semuanya berjalan dengan baik
no_miss_df = df.loc[~df['total_income'].isnull()]

In [43]:
# Perhatikan nilai rata-rata untuk pendapatan berdasarkan faktor yang telah kamu identifikasi
no_miss_df.groupby('age_category')['total_income'].mean().reset_index()

Unnamed: 0,age_category,total_income
0,17-25,23447.795802
1,25-35,27613.702541
2,35-75,26766.012581


In [44]:
# Perhatikan nilai median untuk pendapatan berdasarkan faktor yang telah kamu identifikasi
no_miss_df.groupby('age_category')['total_income'].median().reset_index()

Unnamed: 0,age_category,total_income
0,17-25,21423.8355
1,25-35,24193.5905
2,35-75,23027.943


Ulangi perbandingan tersebut untuk beberapa faktor. Pastikan kamu mempertimbangkan berbagai aspek dan menjelaskan proses berpikirmu.



Buat keputusan tentang karakteristik yang paling menentukan pendapatan dan apakah kamu akan menggunakan median atau rata-rata. Jelaskan mengapa kamu membuat keputusan ini.
Ans : Saya menggunakan median dikarenakan dengan menggunakan median untuk mengisi nilai yang hilang dikarenakan median tidak terpengaruh oleh nilai-nilai ekstrem atau outliers dalam data.


In [45]:
#  Tulis fungsi yang akan kita gunakan untuk mengisi nilai yang hilang
def group_fillna(dataframe, group_clm, missing_clm):
    median = pd.pivot_table(dataframe, columns=group_clm, values=missing_clm, aggfunc='median')

    for clm in median.columns:
        dataframe.loc[(dataframe[group_clm]==clm) & (dataframe[missing_clm].isnull()), missing_clm] = median[clm][0]

    return dataframe

In [46]:
# Memeriksa bagaimana nilai di dalam kolom baru
df = group_fillna(dataframe=df, group_clm='age_category', missing_clm='total_income')
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_category
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,35-75
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,35-75
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,25-35
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,25-35
4,0,14177.753002,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,35-75


In [47]:
# Terapkan fungsi tersebut ke setiap baris
df = group_fillna(dataframe=df, group_clm='age_category', missing_clm='total_income')
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_category
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,35-75
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,35-75
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,25-35
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,25-35
4,0,14177.753002,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,35-75


In [48]:
# Periksa apakah kita mendapatkan kesalahan
df.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
age_category           0
dtype: int64

Jika kamu menemukan kesalahan dalam menyiapkan nilai untuk data yang hilang, kemungkinan ada sesuatu yang istimewa tentang data untuk kategori tersebut. Coba pikirkan - kamu mungkin ingin memperbaiki beberapa hal secara manual, jika terdapat cukup data untuk menemukan median/rata-rata.


In [49]:
# Ganti nilai yang hilang jika terdapat kesalahan
df.loc[df['total_income'].isnull()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_category


Setelah kamu selesai dengan `total_income`, periksa apakah jumlah total nilai di kolom ini sesuai dengan jumlah nilai di kolom lain.

In [50]:
# Periksa jumlah entri di kolom

df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21524 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21524 non-null  int64  
 1   days_employed     19350 non-null  float64
 2   dob_years         21524 non-null  int64  
 3   education         21524 non-null  object 
 4   education_id      21524 non-null  int64  
 5   family_status     21524 non-null  object 
 6   family_status_id  21524 non-null  int64  
 7   gender            21524 non-null  object 
 8   income_type       21524 non-null  object 
 9   debt              21524 non-null  int64  
 10  total_income      21524 non-null  float64
 11  purpose           21524 non-null  object 
 12  age_category      21524 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.3+ MB


###  Memperbaiki nilai di `days_employed`

Pikirkan tentang parameter yang dapat membantumu memperbaiki nilai yang hilang di kolom ini. Pada akhirnya, kamu akan mengetahui apakah kamu harus menggunakan nilai rata-rata atau median untuk mengganti nilai yang hilang. Kamu mungkin perlu melakukan penelitian yang sama dengan yang kamu lakukan saat memperbaiki data di kolom sebelumnya.

In [51]:
# Distribusi median dari `days_employed` berdasarkan parameter yang kamu identifikasi


median = pd.pivot_table(df, columns='age_category', values='days_employed', aggfunc='median')
median

age_category,17-25,25-35,35-75
days_employed,797.287735,1350.9953,3189.507333


In [52]:
# Distribusi rata-rata dari `days_employed` berdasarkan parameter yang kamu identifikasi
mean = pd.pivot_table(df, columns='age_category',values='days_employed', aggfunc='mean')
mean

age_category,17-25,25-35,35-75
days_employed,934.836406,1725.573196,6002.252134


Tentukan apa yang akan kamu gunakan: rata-rata atau median. Jelaskan mengapa.

Ans : Saya akan menggunakan median untuk memperbaiki nilai yang hilang pada kolom "days_employed" dikarenakan dengan menggunakan distribusi median data statistik lebih representatif 

In [53]:
# Mari tulis fungsi yang menghitung rata-rata atau median (tergantung keputusanmu) berdasarkan parameter yang kamu identifikasi
def group_fillna(dataframe, group_clm, missing_clm):
    median = pd.pivot_table(dataframe, columns=group_clm, values=missing_clm, aggfunc='median')

    for clm in median.columns:
        dataframe.loc[(dataframe[group_clm]==clm) & (dataframe[missing_clm].isnull()), missing_clm] = median[clm][0]

    return dataframe

In [54]:
# Periksa apakah fungsimu bekerja

df = group_fillna(dataframe=df, group_clm='age_category', missing_clm='days_employed')
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_category
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,35-75
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,35-75
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,25-35
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,25-35
4,0,14177.753002,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,35-75


In [55]:
# Terapkan fungsi ke income_type


In [56]:
# Periksa apakah fungsimu bekerja
df.isnull().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
age_category        0
dtype: int64

In [57]:
# Ganti nilai yang hilang

df.loc[df['days_employed'].isnull()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_category


Setelah kamu selesai dengan `total_income`, periksa apakah jumlah total nilai di kolom ini sesuai dengan jumlah nilai di kolom lain.

In [58]:
# Periksa entri di semua kolom - pastikan kita memperbaiki semua nilai yang hilang

df.isnull().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
age_category        0
dtype: int64

## Pengkategorian data

Untuk menjawab pertanyaan dan menguji hipotesis, kamu akan bekerja dengan data yang telah dikategorikan. Lihat pertanyaan-pertanyaan yang diajukan kepadamu dan yang harus kamu jawab. Pikirkan tentang data mana yang perlu dikategorikan untuk menjawab pertanyaan-pertanyaan ini. Di bawah ini, kamu akan menemukan templat yang bisa kamu gunakan untuk mengkategorikan data. Proses pertama mencakup data teks; yang kedua membahas data numerik yang perlu dikategorikan. Kamu dapat menggunakan kedua petunjuk yang disarankan atau tidak sama sekali - semuanya terserahmu.

Terlepas dari keputusanmu untuk mengatasi pengkategorian, pastikan bahwa kamu secara lugas memberikan penjelasan tentang mengapa kamu membuat keputusan tersebut. Ingat: ini adalah pekerjaanmu dan hanya kamu yang berhak membuat segala keputusan.


In [59]:
# Tampilkan nilai data yang kamu pilih untuk pengkategorian

df[['purpose']]

Unnamed: 0,purpose
0,purchase of the house
1,car purchase
2,purchase of the house
3,supplementary education
4,to have a wedding
...,...
21520,housing transactions
21521,purchase of a car
21522,property
21523,buying my own car


[Mari kita periksa nilai unik]

In [60]:
# Periksa nilai unik
df['purpose'].unique()

array(['purchase of the house', 'car purchase', 'supplementary education',
       'to have a wedding', 'housing transactions', 'education',
       'having a wedding', 'purchase of the house for my family',
       'buy real estate', 'buy commercial real estate',
       'buy residential real estate', 'construction of own property',
       'property', 'building a property', 'buying a second-hand car',
       'buying my own car', 'transactions with commercial real estate',
       'building a real estate', 'housing',
       'transactions with my real estate', 'cars', 'to become educated',
       'second-hand car purchase', 'getting an education', 'car',
       'wedding ceremony', 'to get a supplementary education',
       'purchase of my own house', 'real estate transactions',
       'getting higher education', 'to own a car', 'purchase of a car',
       'profile education', 'university education',
       'buying property for renting out', 'to buy a car',
       'housing renovation', 'going

Kelompok utama apakah yang dapat kamu identifikasi berdasarkan nilai uniknya?
Ans : Dapat kita kelompokkan data purpose diatas berdasarkan house, education, wedding, dan car dikarenakan kata - kata tersebut mewakili unique value yang terdapat pada data diatas.

Kita akan mengategorikan data kita berdasarkan topik ini.


In [61]:
# Mari kita tulis sebuah fungsi untuk mengategorikan data berdasarkan topik umum
def category_purpose (purpose):
    purpose = purpose.lower()
    if any (keyword in purpose for keyword in ['house', 'property', 'estate',]):
            return 'house'
    if any (keyword in purpose for keyword in ['educat','university','education' ]):
            return 'education'
    if any (keyword in purpose for keyword in ['wedding']):
            return 'wedding'
    if any (keyword in purpose for keyword in ['car']):
            return 'car'
    return'car'
    purpose ='wedding'
    

In [62]:
# Buat kolom yang memuat kategori dan hitung nilainya
df['purpose_group'] = df['purpose'].apply(category_purpose)

df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_category,purpose_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,35-75,house
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,35-75,car
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,25-35,house
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,25-35,education
4,0,14177.753002,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,35-75,wedding


Jika kamu memutuskan untuk mengategorikan data numerik, kamu juga harus membuat kategori untuk data tersebut.

In [63]:
# Lihat semua data numerik di kolom yang kamu pilih untuk pengkategorian
df['total_income'].sort_values()

14585      3306.762
13006      3392.845
16174      3418.824
1598       3471.216
14276      3503.298
            ...    
17178    273809.483
20809    274402.943
9169     276204.162
19606    352136.354
12412    362496.645
Name: total_income, Length: 21524, dtype: float64

In [64]:
# Dapatkan kesimpulan statistik untuk kolomnya

df['total_income'].describe()

count     21524.000000
mean      26426.813300
std       15659.949439
min        3306.762000
25%       17247.356500
50%       23027.943000
75%       31286.192250
max      362496.645000
Name: total_income, dtype: float64

Tentukan rentang apa yang akan kamu gunakan untuk pengelompokan dan jelaskan alasannya.
Ans : Saya menggunakan rentang beradasarkan nilai median, dimana dapat mengkategorikan data pendapatan ke dalam beberapa kategori seperti "rendah", "sedang", dan "tinggi" dan dapat mepermudah untuk membaca data Resiko Gagal Bayar Peminjam. 

In [65]:
# Buat fungsi yang melakukan pengkategorian menjadi kelompok numerik yang berbeda berdasarkan rentang

def categorize_income (income):
    if income <= 10000:
        return 'Very Low'
    if income <=25000:
        return 'Low'
    if income <= 50000:
        return 'Medium'
    if income <= 75000:
        return 'High'
    else :
        return 'Very High'

In [66]:
# Buat kolom yang memuat kategori
df['categorize_income'] = df['total_income'].apply(categorize_income)

In [67]:
# Hitung setiap nilai kategori untuk melihat pendistribusiannya
df['categorize_income'].value_counts()

Low          11996
Medium        7282
High          1032
Very Low       926
Very High      288
Name: categorize_income, dtype: int64

## Memeriksa hipotesis


**Apakah terdapat korelasi antara memiliki anak dengan probabilitas melakukan gagal bayar pinjaman?**

In [68]:
# Periksa data anak dan data gagal bayar pinjaman
df['debt'] = df['debt'].replace(0, 'Not Defaulted').replace(1, 'Default')

child_debt = pd.pivot_table(df, 
                            index='children', 
                            columns='debt', 
                            values='income_type', 
                            aggfunc='count', 
                            margins=True).reset_index()
child_debt = child_debt[:-1]

# Hitung persentase gagal bayar berdasarkan jumlah anak
# Default = Gagal Bayar | Not Defaulted = Tidak Gagal Bayar
child_debt['% Default'] = child_debt['Default'] / child_debt['All']*100
child_debt['% Not Defaulted'] = child_debt['Not Defaulted'] / child_debt['All']*100
child_debt

debt,children,Default,Not Defaulted,All,% Default,% Not Defaulted
0,0,1064.0,13131.0,14195,7.495597,92.504403
1,1,444.0,4374.0,4818,9.215442,90.784558
2,2,202.0,1929.0,2131,9.479118,90.520882
3,3,27.0,303.0,330,8.181818,91.818182
4,4,4.0,37.0,41,9.756098,90.243902
5,5,,9.0,9,,100.0


Mohon maaf kak sebelumnya ini sebelum saya kumpulkan saya sudah run all, lalu setelah di click shift+enter baru muncul outputnya.

**Kesimpulan**

Tulis kesimpulanmu berdasarkan manipulasi dan pengamatan yang kamu lakukan.

Ans : Dapat kita ambil kesimpulan bahwasannya dari data diatas bahwasannya semakin memiliki banyak anak semakin tinggi pula kemungkinan gagal bayar, meskipun selisih presentase nya tidak besar dari value 7,45% hingga 9,75%. Untuk data anak 5 tidak dapat digunakan dikarenakan sample nya terlalu sedikit.


**Apakah terdapat korelasi antara status keluarga dengan probabilitas melakukan gagal bayar pinjaman?**

In [69]:
# Periksa data status keluarga dan data gagal bayar pinjaman
familystat_debt = pd.pivot_table(df, 
                                 index='family_status', 
                                 columns='debt', 
                                 values='income_type',
                                 aggfunc='count',
                                 margins=True).reset_index()
familystat_debt = familystat_debt[:-1]
# Hitung persentase gagal bayar berdasarkan status keluarga
familystat_debt['% Default'] = familystat_debt['Default'] / familystat_debt['All'] * 100
familystat_debt['% Not Defaulted'] = familystat_debt['Not Defaulted'] / familystat_debt['All'] * 100
familystat_debt


debt,family_status,Default,Not Defaulted,All,% Default,% Not Defaulted
0,civil partnership,388,3788,4176,9.291188,90.708812
1,divorced,85,1110,1195,7.112971,92.887029
2,married,931,11449,12380,7.520194,92.479806
3,unmarried,274,2539,2813,9.740491,90.259509
4,widow / widower,63,897,960,6.5625,93.4375


**Kesimpulan**

Tulis kesimpulanmu berdasarkan manipulasi dan pengamatanmu.
Ans : Dapat diambil kesimpulan dari data diatas bahwasannya dengan family status yang belum menikah presentase gagal nya lebih besar yaitu 9,74% lalu disusul dengan presentase tertinggi kedua gagal bayar yaitu family_status nya ialah civil partneship. Dan presentase terendah gagal bayar yaitu family status dari widow/widower.


**Apakah terdapat korelasi antara tingkat pendapatan dengan probabilitas melakukan gagal bayar pinjaman?**

In [70]:
# Periksa data tingkat pendapatan dan data gagal bayar pinjaman
total_income_debt = pd.pivot_table(df,index='categorize_income',columns='debt', values='income_type',aggfunc='count',margins=True).reset_index()
total_income_debt = total_income_debt[:-1]

# Hitung persentase gagal bayar berdasarkan tingkat pendapatan
total_income_debt['% Default'] = total_income_debt['Default'] / total_income_debt['All'] * 100
total_income_debt['% Not Defaulted'] = total_income_debt['Not Defaulted'] / total_income_debt['All'] * 100
total_income_debt

debt,categorize_income,Default,Not Defaulted,All,% Default,% Not Defaulted
0,High,76,956,1032,7.364341,92.635659
1,Low,1008,10988,11996,8.402801,91.597199
2,Medium,583,6699,7282,8.006042,91.993958
3,Very High,16,272,288,5.555556,94.444444
4,Very Low,58,868,926,6.263499,93.736501


**Kesimpulan**

Tulis kesimpulanmu berdasarkan manipulasi dan pengamatanmu.
Ans = Berdasarkan data diatas, dapat di tarik kesimpulan bahwasannya presentase gagal bayar pinjaman yang terbesar yaitu 8,4% dimana presentase tersebut terdapat pada kategori pendapatan rendah/low sedangkan presentase gagal bayar yang rendah terdapat pada kategori income sangat rendah atau very low yaitu dengan presentase 6,26%

**Bagaimana tujuan kredit memengaruhi persentase gagal bayar?**

In [71]:
# Periksa persentase tingkat gagal bayar untuk setiap tujuan kredit dan lakukan penganalisisan
purpose_group_debt = pd.pivot_table(df,index='purpose_group',columns='debt', values='income_type',aggfunc='count',margins=True).reset_index()
purpose_group_debt = purpose_group_debt[:-1]
purpose_group_debt['% Default'] = purpose_group_debt['Default'] / purpose_group_debt['All'] * 100
purpose_group_debt['% Not Defaulted'] = purpose_group_debt['Not Defaulted'] / purpose_group_debt['All'] * 100
purpose_group_debt


debt,purpose_group,Default,Not Defaulted,All,% Default,% Not Defaulted
0,car,532,5695,6227,8.54344,91.45656
1,education,370,3652,4022,9.199403,90.800597
2,house,653,8274,8927,7.314887,92.685113
3,wedding,186,2162,2348,7.921635,92.078365


**Kesimpulan**

Tulis kesimpulanmu berdasarkan manipulasi dan pengamatan yang kamu lakukan.

Ans : Dari data diatas dapat ditarik kesimpulan bahwasannya presentase terbesar gagal bayar terdapat pada purpose group car atau mobil dimana nilai presentase tersebut adalah 8,54% dimana masyarakat yang menggunakan pinjamannya untuk pembelian mobil lebih banyak gagal bayar peminjaman tersebut. Sedangkan presentase gagal bayar terendah terdapat pada purpose group house atau ruman dimana nilai presentase tersebut adalah 7,31% dimana masyarakat yang menggunakan pinjamannya untuk pembelian rumah lebih sedikit terdapat gagal bayarnya.


# Kesimpulan umum 

Tuliskan kesimpulanmu di bagian akhir ini. Pastikan kamu memasukkan semua kesimpulan penting yang telah kamu buat berkaitan dengan caramu memproses dan menganalisis data. Kesimpulan tersebut harus membahas nilai yang hilang, duplikat, dan kemungkinan alasan, serta solusi untuk data bermasalah yang harus kamu tangani.

Tuliskan juga kesimpulanmu mengenai pertanyaan-pertanyaan yang diajukan di sini.

Ans: Setelah memproses dan menganalisis data dari data Gagal Bayar Peminjam ini dapat kita ambil sebuah kesimpulan, bahwasannya pada sebelum data di proses terdapat beberapa nilai hilang pada kolom - kolom "days_employed", dan "total_income" nilia yang hilang tersebut perlu kita tangani sebelum kita melakukan analisis data dikarenakan data yang hilang dapat mengganggu kualitas analisis statistik dan model prediksi. Jika sebagian besar data hilang, analisis tersebut mungkin menjadi tidak akurat atau tidak dapat diandalkan. Dan untuk data yang hilang pada data Gagal Bayar Peminjam ini presentase nilai yang hilang ialah sebanyak 10%, dari keseluruhan data yang kita miliki 2152 dan data yang hilang adalah 2174 data.

Setelah saya memeriksa distribusi pada kolom "education_id" sebuah kemungkinan  jadi penyebab terbesar nya yang membuat value nya missing adalah ID 1 dan 0 dari kolom tersebut dan mereka hilang secara acak. Tetapi setelah dibandinkan dengan pemeriksaan distribusi data set seceara menyeluruh terlihat bahwawasannya distribusi di kolom "education_id" mirip. Artinya kolom education bukanlah penyebab dari missing value. Dan setelah saya mencoba untuk mencari penyebab dan pola lain yang dapat mengakibatkan nilai yang hilang yaitu dari kolom "gender" ternyata tetap hasil nya sama dengan pemeriksaan distribusi di kolom"education_id" Bisa dapat dipastikan bahwasannya nilai yang hilang pada data Gagal Bayar Peminjam ini adalah suatu kebetulan. Dan asumsi saya ialah ada kemungkinan besar bahwasannya missing value ini disebabkan oleh human error/technical problem atau memang data tersebut di kosongkan.

Selain itu saya melakukan transformasi data untuk dapat melanjutkan analisis data dengan menghapus nilai - nilai duplikat dan memperbaiki data - data yang terdapat pada data  Gagal Bayar Peminjam ini, seperti memperbaiki penulisan kata - kata pada kolom "education" dikarenakan kata - kata pada kolom tersebut tidak seragam. Selain itu memperbaiki nilai pada kolom 'children' yang terlihat bahwasannya pada data tersebut terlihat jumlah anak dengan 20 dan juga -1 secara logika pada zaman sekarang untuk memiliki anak dengan 20 anak kurang masuk akal dan cukup tidak memungkinkan begitu juga dengan nilai -1. Jika tidak memiliki anak mungkin dapat di input dengan angka"0" Bukan dengan -1, tidak dapat terdefinisikan juga jika mempunyai anak"-1". Oleh karena itu akan di perbaiki data nya dengan nilai 20 diganti dengan 2 sedangkan -1 diganti dengan 0 mungkin saat penginputan data terdapat human error. Dan juga memperbaiki nilai - nilai yang terdapat pada kolom"days_employed" ya nilai tersebut terdapat nilai yang terlalu ekstrem dan juga negatif.

Terdapat juga hal yang ganjal pada kolom 'dob_years' dimana ditemukan nilai bahwsannya anak berumur 0 tahun telah melakukan peminjaman, secara logika hal tersebut tidak mungkin terjadi oleh karena itu saya melakukan perbaikan nilai tersebut. Dan kolom terakhir yang bermasalah ialah kolom"gender" terdapat nilai XNA = 1 ,kemungkinan nilai tersebut adalah salah penulisan. Dengan hal tersebut data XNA = 1 saya ambil keputusan untuk di delete. 

Untuk proses data berikut nya ialah memperbaiki nilai yang hilang pada kolom'total_income', dan 'days_employed' dimana ada kemungkinan besar untuk memperbaiki nilai yang hilang pada kolom - kolom tersebut akan menunjang kita untuk mendapatkan suatu kesimpulan dari data Gagal Peminjam ini. Setelah memperbaiki nilai yang hilang langkah selanjutnya ialah membuat pengkatergorian data guna mendapatkan suatu hipotesis atas data Gagal Bayar Peminjam yaitu membuat pengkatergorian pada tujuan peminjaman uang, dan juga pengkategorian pendapatan nasabah. 

Setelah memproses keseluruhan data, kita dapat ambil sebuah hipotesis seperti apakah terdapat suatu kolerasi antara nasabah yang memiliki anak dengan probabilitas melakukan gagal bayar pinjaman setelah diolah data tersebut dapat  diambil kesimpulan bahwasannya dari data tersebut bahwsannya semakin memiliki banyak anak semakin tinggi pula kemungkinan gagal bayar, meskipun selisih presentase nya tidak besar dari value 7,45% hingga 9,75%. Lalu saya memeriksa data status keluarga dengan data gagal bayar peminjam dapat diambil kesimpulan dari data tersebut bahwasannya dengan family status yang belum menikah presentase gagal membayar nya lebih besar yaitu 9,74% lalu disusul dengan presentase tertinggi kedua gagal bayar yaitu family status nya ialah civil partneship. Dan untuk presentase terendah gagal bayar yaitu family status dari widow/widower. Dan untuk melakukan penganalisaan lebih lanjut memeriksa data tingkat pendapatan dengan data gagal bayar pinjam dapat di tarik kesimpulan bahwasannya presentase gagal bayar pinjaman yang terbesar yaitu 8,4% dimana presentase tersebut terdapat pada kategori pendapatan rendah/low sedangkan presentase gagal bayar yang rendah terdapat pada kategori income sangat rendah atau very low yaitu dengan presentase 6,26% Dan yang terakhir saya memeriksa apakah tujuan kredit dapat mempengaruhi presentase gagal bayar ? Dari data diatas dapat ditarik kesimpulan bahwasannya presentase terbesar gagal bayar terdapat pada tujuan kredit pembelian mobil dimana nilai presentase tersebut adalah 8,54% dimana masyarakat yang menggunakan pinjamannya untuk pembelian mobil lebih banyak gagal bayar atas peminjaman tersebut. Sedangkan presentase gagal bayar terendah terdapat pada  tujuan kredit  yaitu house atau rumah dimana nilai presentase tersebut adalah 7,31% dimana masyarakat yang menggunakan pinjamannya untuk pembelian rumah lebih sedikit terdapat gagal bayarnya. Dari data tersebut dapat disimpulkan untuk solusi kedepannya dapat kita tekankan untuk pengembalian pinjaman kredit berdasarkan faktor - faktor diatas yang memiliki presentase gagal bayar lebih besar seperti nasabah yang memiliki banyak anak, lalu status keluarga nya ialah belum menikah, nasabah yang memiliki pendapatan rendah, lalu nasabah yang memiliki tujuan peminjaman untuk keperluan pembelian mobil. Atau dengan solusi lain ialah menyaring kembali dengan ketat untuk memberikan pinjaman kredit kepada nasabah - nasabah tersebut yang memiliki faktor - faktor tersebut. 

Lalu untuk mengenai pengaruh status perkawinan seorang nasabah dan jumlah anak yang dimiliki nasabah memiliki suatu probabilitas gagal bayar dalam penulasan peminjaman kredit. 