# Menganalisis Risiko Gagal Bayar Peminjam

Tugas Anda adalah menyiapkan laporan untuk divisi kredit suatu bank. Anda akan mencari tahu pengaruh status perkawinan seorang nasabah dan jumlah anak yang dimilikinya terhadap probabilitas gagal bayar dalam pelunasan pinjaman. Pihak bank sudah memiliki beberapa data mengenai kelayakan kredit nasabah.

Laporan Anda akan dipertimbangkan pada saat membuat **penilaian kredit** untuk calon nasabah. **Penilaian kredit** digunakan untuk mengevaluasi kemampuan calon peminjam untuk melunasi pinjaman mereka.

[Dalam *notebook* ini, Anda dapat menemukan petunjuk dan instruksi singkat serta arahan untuk berfikir. Jangan abaikan petunjuk tersebut karena mereka dirancang untuk membekali Anda dengan struktur pengerjaan proyek dan akan membantu Anda melakukan analisis secara lebih mendalam. Sebaliknya, buatlah agar laporan ini terlihat seolah-olah dikirimkan oleh Anda kepada rekan satu tim Anda untuk menunjukkan temuan Anda - mereka tidak perlu tahu bahwa Anda mendapatkan bantuan eksternal dari kami! Untuk membantu Anda, kami menempatkan semua petunjuk yang harus Anda hapus dalam tanda kurung siku.]

[Sebelum Anda masuk ke dalam proses analisis data Anda, jelaskan tujuan proyek dan hipotesis yang akan Anda uji.]

## Buka *file* data dan baca informasi umumnya.

[Mulailah dengan mengimpor *library* dan memuat datanya. Anda mungkin akan menyadari bahwa Anda memerlukan *library* tambahan saat Anda telah mengerjakan proyek ini, dan itu merupakan hal yang normal. Hanya saja, pastikan untuk memperbarui bagian ini jika dibutuhkan.]

In [2]:
# Muat semua *library*
import pandas as pd

# Muat datanya
data= pd.read_csv('/datasets/credit_scoring_eng.csv')


## Soal 1. Eksplorasi data

**Deskripsi Data**
- `children` - jumlah anak dalam keluarga
- `days_employed` - pengalaman kerja nasabah dalam hari
- `dob_years` - usia nasabah dalam tahun
- `education` - tingkat pendidikan nasabah
- `education_id` - pengidentifikasi untuk tingkat pendidikan nasabah
- `family_status` - pengidentifikasi untuk status perkawinan nasabah
- `family_status_id` - tanda pengenal status perkawinan
- `gender` - jenis kelamin nasabah
- `income_type` - jenis pekerjaan
- `debt` - apakah nasabah pernah melakukan gagal bayar pinjaman
- `total_income` - pendapatan bulanan
- `purpose` - tujuan mendapatkan pinjaman

[Sekarang saatnya menjelajahi data kita. Anda perlu melihat berapa banyak kolom dan baris yang dimiliki oleh data, serta mencermati beberapa baris data untuk memeriksa potensi masalah dengan data.]

In [3]:
# Mari kita lihat berapa banyak baris dan kolom yang dimiliki oleh dataset kita
data.shape

(21525, 12)

In [4]:
# Mari tampilkan N baris pertama
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


[Jelaskan apa yang Anda lihat dan perhatikan dalam sampel data yang Anda tampilkan. Apakah terdapat masalah yang mungkin memerlukan penyelidikan dan perubahan lebih lanjut?]

**Pada kolom education terdapat data yang berisi tulisan dengan huruf kapital, pada kolom days_employed data menunjukan nilai negaif tetapi ada juga yang nilainya positif. Hal ini dapat menjadi masalah pada saat pemrosesan data nanti**

In [5]:
# Dapatkan informasi data
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


[Apakah terdapat nilai yang hilang di semua kolom atau hanya di beberapa kolom? Jelaskan secara singkat apa yang Anda amati dalam 1-2 kalimat.]


**Terdapat NaN di kolom days_employed dan total_income**

In [6]:
# Mari kita lihat tabel yang telah difilter dengan nilai yang hilang di kolom pertama yang mengandung data yang hilang
data[data['days_employed'].isna()]


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


[Apakah nilai yang hilang tampak simetris? Apakah kita yakin dengan asumsi ini? Jelaskan pendapat Anda secara singkat di bagian ini. Anda mungkin ingin melakukan penyelidikan lebih lanjut, dan menghitung nilai yang hilang di semua baris dengan nilai yang hilang untuk memastikan bahwa sampel yang hilang memiliki ukuran yang sama.]

**data yang hilang antara kolom days_employed dan total_incom memiliki NaN yang sama dan simetris mungkin adanya NaN pada kedua kolom tersebut menandakan adanya keterikatan yang mengakibatkan munculnya NaN yg simetris.**

In [7]:
# Mari kita terapkan beberapa kondisi untuk memfilter data dan melihat jumlah baris dalam tabel yang telah difilter.
data[(data['days_employed'].isna()) & (data['total_income'].isna())].shape

(2174, 12)

**Kesimpulan sementara**

[Apakah jumlah baris dalam tabel yang telah difilter sesuai dengan jumlah nilai yang hilang? Kesimpulan apa yang bisa kita buat dari hal ini?]

[Hitung persentase nilai yang hilang jika dibandingkan dengan keseluruhan *dataset*. Apakah nilai yang hilang merupakan bagian data yang cukup besar? Jika demikian, Anda sebaiknya perlu mengisi nilai yang hilang. Untuk melakukannya, pertama-tama kita harus mempertimbangkan apakah data yang hilang bisa jadi disebabkan oleh karakteristik nasabah tertentu, seperti jenis pekerjaan atau yang lainnya. Anda harus memutuskan karakteristik mana yang menurut *Anda* mungkin merupakan penyebabnya. Kedua, kita harus memeriksa apakah ada ketergantungan nilai yang hilang pada nilai indikator lain dengan kolom-kolom yang mengidentifikasikan karakteristik tertentu nasabah.]

[Jelaskan langkah Anda selanjutnya dan bagaimana hubungannya dengan kesimpulan yang Anda buat sejauh ini.]

**Jumlah dari nilai yang hilang pada kedua kolom memiliki jumlah nilai yang sama yaitu 2174 baris. Hal ini terjadi mungkin dikarenakan nasabah tidak mengisi data pada days_employed dan total_income, sehingga terdapat nilai yang hilang pada ke2 kolom tersebut.**

**nilai yang hilang cukup besar sekitar 10%**

**langkah selanjutnya yaitu kita harus mencari penyebab munculnya nilai yang hilang disebabkan karna nasabah tersebut tidak bekerja atau diakibatkan oleh karakteristik lain seperti jenis pekerjaan dari nasabah.**

In [8]:
# Mari kita periksa nasabah yang tidak memiliki data tentang karakteristik yang teridentifikasi dan kolom dengan nilai yang hilang

df_null = data[(data['days_employed'].isnull()) & (data['total_income'].isnull())]
df_null

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


In [9]:
# Periksalah distribusinya
a = df_null['income_type'].value_counts(normalize=True).reset_index().rename(columns={"income_type":"percentage"})
a['percentage'] = a['percentage'].apply("{:,.2%}".format)
b = df_null['income_type'].value_counts().reset_index().rename(columns={"income_type":"count"})
c = pd.concat([a , b[['count']]], axis=1)
c


Unnamed: 0,index,percentage,count
0,employee,50.83%,1105
1,business,23.37%,508
2,retiree,19.00%,413
3,civil servant,6.76%,147
4,entrepreneur,0.05%,1


[Deksripsikan temuan Anda di sini.]

[Kemukakan gagasan Anda mengenai kemungkinan alasan hilangnya nilai-nilai tersebut. Apakah menurut Anda mereka hilang secara acak atau apakah terdapat pola-pola tertentu?]

[Mari kita mulai memeriksa apakah nilai yang hilang bersifat acak.]

**kemungkinan niai yang hilang ternyata bukan dari nasabah yang tidak bekerja, karena setelah dilihat dari distribusinya ternyata data atau nilai yang hilang berasal dari karekteristik jenis pekerjaan setiap nasabah, banyak kemungkinan yang dapat menyebabkan hal ini terjadi, oleh karena itu kita perlu mencari tahu lagi penyebabnya.**

In [10]:
# Memeriksa distribusi di seluruh *dataset*

data['income_type'].value_counts(normalize=True)

employee                       0.516562
business                       0.236237
retiree                        0.179141
civil servant                  0.067782
entrepreneur                   0.000093
unemployed                     0.000093
paternity / maternity leave    0.000046
student                        0.000046
Name: income_type, dtype: float64

**Kesimpulan sementara**

[Apakah distribusi dalam *dataset* yang asli mirip dengan distribusi tabel yang telah difilter? Apa artinya hal tersebut untuk kita?]

[Jika menurut Anda kita belum dapat membuat kesimpulan apa pun, mari kita kembali menyelidiki *dataset* lebih lanjut. Mari pikirkan alasan lain yang dapat menyebabkan data hilang dan periksa apakah kita dapat menemukan pola tertentu yang dapat membuat kita berpikir bahwa hilangnya nilai-nilai tersebut tidak terjadi secara acak. Karena ini merupakan tugas Anda, maka bagian ini adalah opsional.]

**jika dibandingkan dari data yang telah difilter dengan data keseluruhan, jumlah persentase dari setiap karakteristik pekerjaan hampir sama yang berarti nilai yang hilang hampir ada pada setiap karakteristik tersebut yang menandakan nilai yag hilang tidak bergantung pada karakteristik pekerjaan, tetapi random terhadap data yang kita miliki.**

In [11]:
# Periksa penyebab dan pola lain yang dapat mengakibatkan nilai yang hilang

data['total_income'].describe()

count     19351.000000
mean      26787.568355
std       16475.450632
min        3306.762000
25%       16488.504500
50%       23202.870000
75%       32549.611000
max      362496.645000
Name: total_income, dtype: float64

**Kesimpulan sementara**

[Apakah pada akhirnya kita dapat memastikan bahwa nilai yang hilang adalah suatu kebetulan? Periksa hal lain yang menurut Anda penting di sini.]

In [12]:
# Periksa pola lainnya - jelaskan pola tersebut

df_nan_pivot = df_null.pivot_table(index='dob_years', columns='income_type', values='debt', aggfunc='count', margins=True)
df_nan_pivot

income_type,business,civil servant,employee,entrepreneur,retiree,All
dob_years,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,2.0,,5.0,,3.0,10
19,,,1.0,,,1
20,1.0,,4.0,,,5
21,7.0,1.0,10.0,,,18
22,6.0,,11.0,,,17
23,5.0,1.0,30.0,,,36
24,9.0,1.0,10.0,,1.0,21
25,4.0,4.0,15.0,,,23
26,9.0,2.0,24.0,,,35
27,6.0,3.0,27.0,,,36


In [13]:
df_nan_pivot.sort_values(by='employee', ascending=False)

income_type,business,civil servant,employee,entrepreneur,retiree,All
dob_years,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
All,508.0,147.0,1105.0,1.0,413.0,2174
30,10.0,4.0,44.0,,,58
34,22.0,4.0,43.0,,,69
41,14.0,2.0,42.0,,1.0,59
42,20.0,1.0,40.0,,4.0,65
47,16.0,5.0,38.0,,,59
35,25.0,2.0,37.0,,,64
49,9.0,3.0,36.0,,2.0,50
36,16.0,9.0,36.0,,2.0,63
37,16.0,2.0,35.0,,,53


**Kesimpulan**

[Apakah Anda menemukan suatu pola? Bagaimana Anda mendapatkan kesimpulan ini?]

[Jelaskan bagaimana Anda akan mengatasi nilai-nilai yang hilang. Pertimbangkan kategori dengan nilai yang hilang.]

[Rencanakan secara singkat langkah Anda selanjutnya untuk mentransformasi data. Anda mungkin perlu mengatasi berbagai jenis masalah: duplikat, pencatatan yang berbeda, sumber data yang salah, dan nilai yang hilang.]

**ternyata hubungan antara income_type dan dob_years menjukan nilai yag random atau acak yang menunjukan tidak adanya suatu pola yang unik terhadap data yang hilang, yang berati nilai yang hilang mayoritas tejadi karena kebetulan atau random yang dapat terjadi di semua umur dan semua jenis pekerjaan.
untuk mengatasi nilai yang hilang kita perlu mencari rata-rata atau median dari setiap kolom yang hilang
langkah-langkah untuk cleaning data yaitu pertama mengatasi ejaan yang kurang tepat dan mengatasi masalah-masalah yang terjadi pada setiap kolom jika ada yang perlu diperbaiki, kemudian mencari dan mengataasi nilai duplikat pada data, setelah itu mengisi nilai yang hilang.**

## Transformasi data

[Mari kita perhatikan setiap kolom untuk melihat masalah apa yang mungkin dimiliki mereka.]

[Mulailah dengan menghapus duplikat dan memperbaiki data tentang informasi pendidikan jika diperlukan.]

In [14]:
# Mari kita lihat semua nilai di kolom pendidikan untuk memeriksa ejaan apa yang perlu diperbaiki
data['education'].unique()

array(["bachelor's degree", 'secondary education', 'Secondary Education',
       'SECONDARY EDUCATION', "BACHELOR'S DEGREE", 'some college',
       'primary education', "Bachelor's Degree", 'SOME COLLEGE',
       'Some College', 'PRIMARY EDUCATION', 'Primary Education',
       'Graduate Degree', 'GRADUATE DEGREE', 'graduate degree'],
      dtype=object)

In [15]:
# Perbaiki pencatatan jika diperlukan
data['education'] =data['education'].str.lower()


In [16]:
# Periksa semua nilai di kolom untuk memastikan bahwa kita telah memperbaikinya dengan tepat
data['education'].unique()

array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

[Periksa data kolom `children`]

In [17]:
# Mari kita lihat distribusi nilai pada kolom `children`
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

In [18]:
data['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

[Apakah terdapat hal-hal yang aneh di kolom tersebut? Bagaimana mereka bisa terjadi? Buat keputusan tentang apa yang akan Anda lakukan dengan data ini dan jelaskan alasannya.]

**Terdapat nilai yang aneh yaitu -1 dan 20, kemungkinan karena typo atau hal lain. karena pada -1 dan 20 value_count-nya sedikit atau kecil kita akan mengabaikan data tersebut dari data kita karena nilainya yang kecil hal ini tidak akan berpengaruh banyak pada analisi yang akan kita kerjakan nanti.**

In [19]:
# [perbaiki data berdasarkan keputusan Anda]
data = data.drop(data[data['children'] == -1].index)
data = data.drop(data[data['children'] == 20].index)

In [20]:
# Periksa kembali kolom `children` untuk memastikan bahwa semuanya telah diperbaiki
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

[Periksa data dalam kolom the `days_employed`. Pertama-tama pikirkan tentang masalah apa yang mungkin ada pada kolom tersebut, serta pikirkan juga apa yang mungkin ingin Anda periksa dan bagaimana Anda akan melakukannya.]

In [21]:
# Temukan data yang bermasalah di kolom `days_employed` jika memang terdapat masalah, dan hitung persentasenya
data['days_employed'].describe()

count     19240.000000
mean      63159.820777
std      140928.943329
min      -18388.949901
25%       -2747.235601
50%       -1203.934202
75%        -289.740178
max      401755.400475
Name: days_employed, dtype: float64

[Jika jumlah data yang bermasalah tinggi, hal tersebut mungkin disebabkan oleh beberapa masalah teknis. Kita mungkin perlu mengusulkan alasan paling jelas mengapa hal tersebut dapat terjadi dan bagaimana seharusnya data yang benar, mengingat kita tidak dapat menghapus baris yang bermasalah ini.]

In [22]:
data[data['days_employed'] < 0].shape

(15809, 12)

In [23]:
# Atasi nilai yang bermasalah, jika ada
data['days_employed'] = data['days_employed'].abs()

In [24]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
data['days_employed'].describe()

count     19240.000000
mean      67027.691459
std      139130.846446
min          24.141633
25%         927.984311
50%        2195.251592
75%        5556.372075
max      401755.400475
Name: days_employed, dtype: float64

In [25]:
data['days_employed'] / 365


0         23.116912
1         11.026860
2         15.406637
3         11.300677
4        932.235814
            ...    
21520     12.409087
21521    942.294258
21522      5.789991
21523      8.527347
21524      5.437007
Name: days_employed, Length: 21402, dtype: float64

In [26]:
data.loc[(data['income_type'] == 'retiree'), 'days_employed'] = 0

In [27]:
data.loc[(data['income_type'] == 'unemployed'), 'days_employed'] = 0

In [28]:
data['days_employed'] / 365

0        23.116912
1        11.026860
2        15.406637
3        11.300677
4         0.000000
           ...    
21520    12.409087
21521     0.000000
21522     5.789991
21523     8.527347
21524     5.437007
Name: days_employed, Length: 21402, dtype: float64

[Sekarang mari kita lihat usia nasabah dan mengecek apakah terdapat masalah di sana. Sekali lagi, pikirkan tentang kemungkinan kejanggalan apa yang bisa kita temui dalam kolom ini, misalnya angka usia yang tidak masuk akal.]

In [29]:
# Periksa `dob_years` untuk nilai yang mencurigakan dan hitung persentasenya

data['dob_years'].describe()

count    21402.000000
mean        43.300206
std         12.579055
min          0.000000
25%         33.000000
50%         42.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64

In [30]:
data.loc[data['dob_years'] == 0].shape

(100, 12)

[Putuskan apa yang akan Anda lakukan dengan nilai yang bermasalah dan jelaskan alasannya.]

**terdapat nilai 0 pada dob_years, yang berarti ada nasabah yang berumur 0 hal ini tidak mungkin terjadi untuk nasabah yang ingin melakukan pinjaman dan tidak mungkin pula umur 0 tahun dapat membuat sebuah rekening. oleh karena itu kita akan mengabaikan nilai tersebut karena datanya sedikit yaitu hanya 100.**

In [31]:
# Atasi masalah pada kolom `dob_years`, jika terdapat masalah
data = data.drop(data[data['dob_years'] == 0].index)

In [32]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
data['dob_years'].describe()

count    21302.000000
mean        43.503474
std         12.252843
min         19.000000
25%         33.000000
50%         43.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64

[Sekarang saatnya memeriksa kolom `family_status`. Periksalah nilai seperti apa yang dimuat di dalam kolom ini dan masalah apa yang mungkin perlu Anda atasi.]

In [33]:
# Mari kita lihat nilai untuk kolom ini
data['family_status'].value_counts()

married              12254
civil partnership     4139
unmarried             2783
divorced              1179
widow / widower        947
Name: family_status, dtype: int64

In [34]:
# Atasi nilai yang bermasalah di `family_status`, jika ada

# tidak ada nilai yang bermasalah*

In [35]:
# Periksa hasilnya - pastikan nilainya telah diperbaiki


[Sekarang saatnya memeriksa kolom `gender`. Periksalah nilai seperti apa yang dimuat di dalam kolom ini dan masalah apa yang mungkin perlu Anda atasi]

In [36]:
# Mari kita liat nilai dalam kolom ini
data['gender'].value_counts()

F      14083
M       7218
XNA        1
Name: gender, dtype: int64

In [37]:
# Atasi nilai-nilai yang bermasalah, jika ada
data = data.drop(data[data['gender'] == 'XNA'].index)

In [38]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
data['gender'].value_counts()


F    14083
M     7218
Name: gender, dtype: int64

[Sekarang saatnya memeriksa kolom `income_type`. Periksalah nilai seperti apa yang dimuat di dalam kolom ini dan masalah apa yang mungkin perlu Anda atasi]

In [39]:
# Mari kita lihat nilai dalam kolom ini
data['income_type'].value_counts()

employee                       10996
business                        5033
retiree                         3819
civil servant                   1447
entrepreneur                       2
unemployed                         2
paternity / maternity leave        1
student                            1
Name: income_type, dtype: int64

In [40]:
# Atasi nilai yang bermasalah, jika ada

# tidak ada nilai yang bermasalah*

In [41]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki



[Sekarang saatnya melihat apakah ada duplikat di dalam data kita. Jika kita menemukannya, Anda harus memutuskan apa yang akan Anda lakukan dengan duplikat tersebut dan menjelaskan alasannya.]

**terdapat 71 baris data duplikat. saya akan melakukan drop.duplicates pada data tersebut, karena dari semua data duplikat yang ada kita dapat lihat bahwa tidak terdapat data yang begitu berarti untuk dianalisi kembali dan mengingat jumlah duplikat yang hanya ada 71 baris kita dapat mengabaikan data tersebut.**

In [42]:
# Periksa duplikat
data.duplicated().sum()
data[data.duplicated()].sort_values(by=list(data.columns))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21415,0,0.0,54,secondary education,1,married,0,F,retiree,0,,housing transactions
16204,0,0.0,56,secondary education,1,married,0,F,retiree,0,,to buy a car
9627,0,0.0,56,secondary education,1,married,0,F,retiree,0,,transactions with my real estate
7808,0,0.0,57,secondary education,1,civil partnership,1,F,retiree,0,,having a wedding
15273,0,0.0,57,secondary education,1,civil partnership,1,F,retiree,0,,wedding ceremony
...,...,...,...,...,...,...,...,...,...,...,...,...
17755,1,,43,secondary education,1,married,0,M,employee,0,,to become educated
13025,1,,44,secondary education,1,married,0,F,employee,0,,second-hand car purchase
9238,2,,34,secondary education,1,married,0,F,employee,0,,buying property for renting out
14432,2,,36,bachelor's degree,0,married,0,F,civil servant,0,,getting an education


In [43]:
# Atasi duplikat, jika ada
data=data.drop_duplicates()

In [44]:
# Lakukan pemeriksaan terakhir untuk mengecek apakah kita memiliki duplikat
data.duplicated().sum()

0

In [45]:
# Periksa ukuran dataset yang sekarang Anda miliki setelah manipulasi pertama yang Anda lakukan
data.shape

(21230, 12)

[Jelaskan *dataset* baru Anda: jelaskan secara singkat apa saja perubahannya dan seberapa besar persentase perubahannya, jika ada.]


**dataset telah di cleaning dari jumlah baris awalnya yaitu 21525 menjadi 21230, persentase perubahannya yaitu sekitar 1.4%** 

# Bekerja dengan nilai yang hilang

[Untuk mempercepat pekerjaan dengan sejumlah data, Anda mungkin ingin menggunakan *dictionary* untuk beberapa nilai yang memiliki ID. Jelaskan mengapa dan *dictionary* apakah yang akan Anda gunakan.]

**ID disini yaitu representasi dari setiap nilai pada kolom education dan family_status, tujuannya untuk memetakan jenis pendidikan agar lebih mudah dibaca dan mempermudah kita untuk membuat fungsi yang akan kita buat. saya akan membuat 2 dictionary yaitu education_dictionaty dan family_status_dictionaty.**

In [46]:
# Temukan dictionary
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,0.0,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


In [47]:
education_dictionaty = data[['education', 'education_id']]
education_dictionaty = education_dictionaty.drop_duplicates()
education_dictionaty

Unnamed: 0,education,education_id
0,bachelor's degree,0
1,secondary education,1
13,some college,2
31,primary education,3
2963,graduate degree,4


In [48]:
cek = education_dictionaty.drop_duplicates(subset = 'education_id')
test = dict(zip(cek['education'], cek['education_id']))
test

{"bachelor's degree": 0,
 'secondary education': 1,
 'some college': 2,
 'primary education': 3,
 'graduate degree': 4}

In [49]:
family_status_dictionaty = data[['family_status', 'family_status_id']]
family_status_dictionaty = family_status_dictionaty.drop_duplicates()
family_status_dictionaty

Unnamed: 0,family_status,family_status_id
0,married,0
4,civil partnership,1
18,widow / widower,2
19,divorced,3
24,unmarried,4


In [50]:
cek1 = family_status_dictionaty.drop_duplicates(subset = 'family_status_id')
test1 = dict(zip(cek1['family_status'], cek1['family_status_id']))
test1

{'married': 0,
 'civil partnership': 1,
 'widow / widower': 2,
 'divorced': 3,
 'unmarried': 4}

### Memperbaiki nilai yang hilang di `total_income`

[Jelaskan secara singkat kolom dengan nilai yang hilang manakah yang perlu Anda tangani. Jelaskan bagaimana Anda akan memperbaikinya.]


[Mulailah dengan mengatasi total nilai pendapatan yang hilang. Buatlah kategori usia untuk nasabah. Buatlah kolom baru yang memuat kategori usia. Strategi ini dapat membantu untuk menghitung total nilai pendapatan.]


**Terdapat 2 kolom dengan nilai yang hilang yaitu kolom days_employed dan total_income, pertama-tama saya akan memperbaiki nilai yang hilang pada total_income:**
1. mengkategorikan usia untuk mempermudah saat mengisi rata-rata atau median berdasarkan pengelompokan usia nasabah. karena pada umumnya income bergantung terhadap usia, karena semakin lama bekerja samakin banyak pengalaman biasanya incomenya semakin besar.
2. mencari medain atau rata-rata dari kolom total_income
3. mengisi nilai yang hilang pada kolom total_income menggunakan hasil rata-rata atau median
4. cek ulang apakah ada nilai yang hlang sudah tidak ada atau masih ada

In [51]:
# Mari kita tulis sebuah fungsi untuk menghitung kategori usia
def age_group(age):
    
    try:
        if age <= 30:
            return '<30'
        if 31 <= age <= 40:
            return '31-40'
        if 41 <= age <= 50:
            return '41-50'
        if 51 <= age <= 60:
            return '51-60'
        if 61 <= age <= 70:
            return '61-70'
        else:
            return '>70'
    except:
        return 0

In [52]:
# Lakukan pengujian untuk melihat apakah fungsi Anda bekerja atau tidak
age_group(50)

'41-50'

In [53]:
# Buatlah kolom baru berdasarkan fungsi
data['age_group'] = data['dob_years'].apply(age_group)


In [54]:
# Periksa bagaimana nilai di dalam kolom baru
data[['age_group']]

Unnamed: 0,age_group
0,41-50
1,31-40
2,31-40
3,31-40
4,51-60
...,...
21520,41-50
21521,61-70
21522,31-40
21523,31-40


[Pikirkan tentang faktor-faktor yang biasanya bergantung pada pendapatan. Pada akhirnya, Anda akan mengetahui apakah Anda harus menggunakan nilai rata-rata atau median untuk mengganti nilai yang hilang. Untuk membuat keputusan ini, Anda mungkin ingin melihat distribusi faktor-faktor yang Anda identifikasi sebagai dampak dari pendapatan seseorang.]

[Buatlah tabel yang hanya memuat data tanpa nilai yang hilang. Data ini akan digunakan untuk memperbaiki nilai yang hilang.]

In [55]:
# Buat tabel tanpa nilai yang hilang dan tampilkan beberapa barisnya untuk memastikan semuanya berjalan dengan baik
df_without_nan= data[data['days_employed'].notnull()]
df_without_nan.shape

(19529, 13)

In [95]:
df_without_nan.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19529 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          19529 non-null  int64  
 1   days_employed     19529 non-null  float64
 2   dob_years         19529 non-null  int64  
 3   education         19529 non-null  object 
 4   education_id      19529 non-null  int64  
 5   family_status     19529 non-null  object 
 6   family_status_id  19529 non-null  int64  
 7   gender            19529 non-null  object 
 8   income_type       19529 non-null  object 
 9   debt              19529 non-null  int64  
 10  total_income      19149 non-null  float64
 11  purpose           19529 non-null  object 
 12  age_group         19529 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.1+ MB


In [56]:
df_without_nan

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,41-50
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,31-40
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,31-40
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,31-40
4,0,0.000000,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,51-60
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,41-50
21521,0,0.000000,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,61-70
21522,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,31-40
21523,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,31-40


In [57]:
# Perhatikan nilai rata-rata untuk pendapatan berdasarkan faktor yang telah Anda identifikasi
# karena kita telah identifikasi faktor yang mempengaruhi pendapatan adalah kategoti umur
# groupby berdasarkan kelompok umur, hitung mean dari total income untuk tiap kelomok umur
test = df_without_nan.pivot_table(index= 'age_group', values= 'total_income', aggfunc= 'mean')
test

Unnamed: 0_level_0,total_income
age_group,Unnamed: 1_level_1
31-40,28391.459775
41-50,28402.209709
51-60,25479.278587
61-70,23238.686225
<30,25822.367296
>70,19575.454327


In [58]:
# Perhatikan nilai median untuk pendapatan berdasarkan faktor yang telah Anda identifikasi
# groupby berdasarkan kelompok umur, hitung median dari total_income untuk tiap kelompok umur
test2 = df_without_nan.pivot_table(index='age_group', values= 'total_income', aggfunc='median')
test2

Unnamed: 0_level_0,total_income
age_group,Unnamed: 1_level_1
31-40,24850.092
41-50,24572.255
51-60,22050.9965
61-70,19700.256
<30,22957.185
>70,18611.5935


In [59]:
test3 = df_without_nan.pivot_table(index= 'age_group', columns= 'education', values= 'total_income', aggfunc= 'median')
test3

education,bachelor's degree,graduate degree,primary education,secondary education,some college
age_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
31-40,28969.7255,18187.3015,19674.2825,23080.778,28829.711
41-50,30479.707,31771.321,21807.668,22809.604,29497.709
51-60,27665.237,42945.794,18022.0315,21016.0275,22718.9595
61-70,25193.173,28334.215,16240.844,18794.68,27938.435
<30,26207.9085,,23388.807,21340.362,22801.2155
>70,26223.0685,,15013.505,18146.7015,19946.795


[Ulangi perbandingan tersebut untuk beberapa faktor. Pastikan Anda mempertimbangkan berbagai aspek dan menjelaskan proses berpikir Anda.]



**kita asumsikan faktor yang mempengaruhi total_income yaitu berdasarkan age_group**

[Buatlah keputusan tentang karakteristik yang paling menentukan pendapatan dan apakah Anda akan menggunakan median atau rata-rata. Jelaskan mengapa Anda membuat keputusan ini]


**saya memutuskan untuk menggunakan median untuk mengisi nilai yang hilang karena rata-rata sangat resisten terhadap outlier untuk menghindari nilai yang jauh dari pusat data**

In [60]:
#  Tulis fungsi yang akan kita gunakan untuk mengisi nilai yang hilang

def get_median_income(age_group):
    try:
        return test2['total_income'][age_group]
    except:
        return 'error'

In [61]:
# Memeriksa bagaimana nilai di dalam kolom baru
get_median_income('<30')

22957.184999999998

In [62]:
# Terapkan fungsi tersebut ke setiap baris
# buat kolom baru dengan nama mean/median_income dengan cara apply fungsi yang sudah kita buat
data['median_income'] = data['age_group'].apply(get_median_income)
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,median_income
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,41-50,24572.255
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,31-40,24850.092
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,31-40,24850.092
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,31-40,24850.092
4,0,0.0,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,51-60,22050.9965
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,<30,22957.185
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,41-50,24572.255
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,41-50,24572.255
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,31-40,24850.092
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,41-50,24572.255


In [63]:
# Periksa apakah kita mendapatkan kesalahan
# cek apakah ada error
data[data['median_income'] == 'error']

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,median_income


[Jika Anda menemukan kesalahan dalam menyiapkan nilai untuk data yang hilang, kemungkinan ada sesuatu yang istimewa tentang data untuk kategori tersebut. Mari pikirkan - Anda mungkin ingin memperbaiki beberapa hal secara manual, jika terdapat cukup data untuk menemukan median/rata-rata.]


In [64]:
# Ganti nilai yang hilang jika terdapat kesalahan


In [65]:
# mengisi missing value di total_income menggunakan value di kolom mean/median_income yang sudah kita buat sebelumnya
data['total_income'] = data['total_income'].fillna(data['median_income'])

[Setelah Anda selesai dengan `total_income`, periksa apakah jumlah total nilai di kolom ini sesuai dengan jumlah nilai di kolom lain.]

In [66]:
# Periksa jumlah entri di kolom
data.info()


<class 'pandas.core.frame.DataFrame'>
Int64Index: 21230 entries, 0 to 21524
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21230 non-null  int64  
 1   days_employed     19529 non-null  float64
 2   dob_years         21230 non-null  int64  
 3   education         21230 non-null  object 
 4   education_id      21230 non-null  int64  
 5   family_status     21230 non-null  object 
 6   family_status_id  21230 non-null  int64  
 7   gender            21230 non-null  object 
 8   income_type       21230 non-null  object 
 9   debt              21230 non-null  int64  
 10  total_income      21230 non-null  float64
 11  purpose           21230 non-null  object 
 12  age_group         21230 non-null  object 
 13  median_income     21230 non-null  float64
dtypes: float64(3), int64(5), object(6)
memory usage: 2.4+ MB


In [67]:
data.isna().sum()

children               0
days_employed       1701
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
age_group              0
median_income          0
dtype: int64

###  Memperbaiki nilai di `days_employed`

[Pikirkan tentang parameter yang dapat membantu Anda memperbaiki nilai yang hilang di kolom ini. Pada akhirnya, Anda akan mengetahui apakah Anda harus menggunakan nilai rata-rata atau median untuk mengganti nilai yang hilang. Anda mungkin perlu melakukan penelitian yang sama dengan yang Anda lakukan saat memperbaiki data di kolom sebelumnya.]

In [68]:
# Distribusi median dari `days_employed` berdasarkan parameter yang Anda identifikasi
# days_employed dipengaruhi oleh income_type
test1 = df_without_nan.pivot_table(index='income_type', values= 'days_employed', aggfunc='median')
test1


Unnamed: 0_level_0,days_employed
income_type,Unnamed: 1_level_1
business,1555.993659
civil servant,2672.903939
employee,1573.791064
entrepreneur,520.848083
paternity / maternity leave,3296.759962
retiree,0.0
student,578.751554
unemployed,0.0


In [69]:
# Distribusi rata-rata dari `days_employed` berdasarkan parameter yang Anda identifikasi
test2 = df_without_nan.pivot_table(index='income_type', values= 'days_employed', aggfunc= 'mean')
test2

Unnamed: 0_level_0,days_employed
income_type,Unnamed: 1_level_1
business,2119.512866
civil servant,3392.119263
employee,2325.740892
entrepreneur,520.848083
paternity / maternity leave,3296.759962
retiree,0.0
student,578.751554
unemployed,0.0


[Tentukan apa yang akan anda gunakan: rata-rata atau median, jelaskan mengapa]

**kita akan menggunakan median, karena nilai yang terdapat pada kolom days_employed beragam dan terdapat outliers, sehingga jika kita menggunakan mean nilainya tidak bisa merata karena ada pendapatan nasabah yang sangat besar.**

In [70]:
# Mari tulis fungsi yang menghitung rata-rata atau median (tergantung keputusan Anda) berdasarkan parameter yang Anda identifikasi
def get_median_days_employed(income_type):
    try:
        return test2['days_employed'][income_type]
    except:
        return 'error'

In [71]:
# Periksa apakah fungsi Anda dapat bekerja

get_median_days_employed('entrepreneur')

520.8480834953765

In [72]:
# Terapkan fungsi ke income_type
data['median_days_employed'] = data['income_type'].apply(get_median_days_employed)
data.head(10)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,median_income,median_days_employed
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,41-50,24572.255,2325.740892
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,31-40,24850.092,2325.740892
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,31-40,24850.092,2325.740892
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,31-40,24850.092,2325.740892
4,0,0.0,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,51-60,22050.9965,0.0
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,<30,22957.185,2119.512866
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,41-50,24572.255,2119.512866
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,41-50,24572.255,2325.740892
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,31-40,24850.092,2325.740892
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,41-50,24572.255,2325.740892


In [73]:
# Periksa apakah fungsi Anda bekerja

data[data['median_days_employed'] == 'error']

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,median_income,median_days_employed


In [74]:
# Ganti nilai yang hilang

data['days_employed'] = data['days_employed'].fillna(data['median_days_employed'])

[Setelah Anda selesai dengan `total_income`, periksa apakah jumlah total nilai di kolom ini sesuai dengan jumlah nilai di kolom lain.]

In [75]:
# Periksa entri di semua kolom - pastikan kita memperbaiki semua nilai yang hilang
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21230 entries, 0 to 21524
Data columns (total 15 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   children              21230 non-null  int64  
 1   days_employed         21230 non-null  float64
 2   dob_years             21230 non-null  int64  
 3   education             21230 non-null  object 
 4   education_id          21230 non-null  int64  
 5   family_status         21230 non-null  object 
 6   family_status_id      21230 non-null  int64  
 7   gender                21230 non-null  object 
 8   income_type           21230 non-null  object 
 9   debt                  21230 non-null  int64  
 10  total_income          21230 non-null  float64
 11  purpose               21230 non-null  object 
 12  age_group             21230 non-null  object 
 13  median_income         21230 non-null  float64
 14  median_days_employed  21230 non-null  float64
dtypes: float64(4), int6

## Pengkategorian Data

[Untuk menjawab pertanyaan dan menguji hipotesis, Anda akan bekerja dengan data yang telah dikategorikan. Lihatlah pertanyaan-pertanyaan yang diajukan kepada Anda dan yang harus Anda jawab. Pikirkan tentang data mana yang perlu dikategorikan untuk menjawab pertanyaan-pertanyaan ini. Di bawah ini, Anda akan menemukan templat yang bisa Anda gunakan untuk mengkategorikan data. Proses pertama mencakup data teks; yang kedua membahas data numerik yang perlu dikategorikan. Anda dapat menggunakan kedua petunjuk yang disarankan atau tidak sama sekali - semuanya terserah Anda.]

[Terlepas dari keputusan Anda untuk mengatasi pengkategorian, pastikan bahwa Anda secara lugas memberikan penjelasan tentang mengapa Anda membuat keputusan tersebut. Ingat: ini adalah pekerjaan Anda dan hanya Anda yang berhak membuat segala keputusan.]


In [76]:
# Tampilkan nilai data yang Anda pilih untuk pengkategorian

data['purpose'].unique()

array(['purchase of the house', 'car purchase', 'supplementary education',
       'to have a wedding', 'housing transactions', 'education',
       'having a wedding', 'purchase of the house for my family',
       'buy real estate', 'buy commercial real estate',
       'buy residential real estate', 'construction of own property',
       'property', 'building a property', 'buying a second-hand car',
       'buying my own car', 'transactions with commercial real estate',
       'building a real estate', 'housing',
       'transactions with my real estate', 'cars', 'to become educated',
       'second-hand car purchase', 'getting an education', 'car',
       'wedding ceremony', 'to get a supplementary education',
       'purchase of my own house', 'real estate transactions',
       'getting higher education', 'to own a car', 'purchase of a car',
       'profile education', 'university education',
       'buying property for renting out', 'to buy a car',
       'housing renovation', 'going

[Mari kita memeriksa nilai unik]

In [77]:
# Periksa nilai unik
for i in data['purpose']:
    if 'car' in i:
        print(i, 'car')

car purchase car
car purchase car
buying a second-hand car car
buying my own car car
car purchase car
buying a second-hand car car
cars car
car purchase car
second-hand car purchase car
car purchase car
buying my own car car
second-hand car purchase car
car car
cars car
cars car
second-hand car purchase car
cars car
buying a second-hand car car
to own a car car
purchase of a car car
cars car
purchase of a car car
second-hand car purchase car
purchase of a car car
car car
buying my own car car
buying a second-hand car car
second-hand car purchase car
to buy a car car
car car
cars car
purchase of a car car
car car
car car
second-hand car purchase car
to own a car car
buying my own car car
purchase of a car car
buying my own car car
car purchase car
buying my own car car
car purchase car
to own a car car
second-hand car purchase car
car purchase car
to own a car car
to own a car car
buying a second-hand car car
buying my own car car
second-hand car purchase car
buying a second-hand car ca

[Kelompok utama apakah yang dapat Anda identifikasi berdasarkan nilai uniknya?]

[Kita akan mengkategorikan data kita berdasarkan topik ini.]


**kelompok utamanya yaitu wedding, house, car, dan education**

In [78]:
# Mari kita tulis sebuah fungsi untuk mengategorikan data berdasarkan topik
purpose_dictionary = {'purchase of the house' : 'house', 'car purchase' : 'car', 'supplementary education' : 'education',
                      'to have a wedding' : 'wedding', 'housing transactions' : 'house',
                      'having a wedding' : 'wedding', 'purchase of the house for my family' : 'house',
                      'buy real estate' : 'house', 'buy commercial real estate' : 'house',
                      'buy residential real estate' : 'house', 'construction of own property' : 'house',
                      'property' : 'house', 'building a property' : 'house', 'buying a second-hand car' : 'car',
                      'buying my own car' : 'car', 'transactions with commercial real estate' : 'house',
                      'building a real estate' : 'house', 'housing' : 'house',
                      'transactions with my real estate' : 'house', 'cars' : 'car', 'to become educated' : 'education',
                      'second-hand car purchase' : 'car', 'getting an education' : 'education',
                      'wedding ceremony' : 'wedding', 'to get a supplementary education' : 'education',
                      'purchase of my own house' : 'house', 'real estate transactions' : 'house',
                      'getting higher education' : 'education', 'to own a car' : 'car', 'purchase of a car' : 'car',
                      'profile education' : 'education', 'university education' : 'education',
                      'buying property for renting out' : 'house', 'to buy a car' : 'car',
                      'housing renovation' : 'house', 'going to university' : 'education'
                     }

In [79]:
# Buat kolom yang memuat kategori dan hitung nilainya

data['kategori_purpose'] = data['purpose'].replace(purpose_dictionary)
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,median_income,median_days_employed,kategori_purpose
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,41-50,24572.255,2325.740892,house
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,31-40,24850.092,2325.740892,car
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,31-40,24850.092,2325.740892,house
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,31-40,24850.092,2325.740892,education
4,0,0.0,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,51-60,22050.9965,0.0,wedding
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,<30,22957.185,2119.512866,house
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,41-50,24572.255,2119.512866,house
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,41-50,24572.255,2325.740892,education
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,31-40,24850.092,2325.740892,wedding
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,41-50,24572.255,2325.740892,house


In [80]:
data['kategori_purpose'].value_counts()

house        10703
car           4258
education     3970
wedding       2299
Name: kategori_purpose, dtype: int64

[Jika Anda memutuskan untuk mengategorikan data numerik, Anda juga harus membuat kategori untuk data tersebut.]

In [81]:
# Lihat semua data numerik di kolom yang Anda pilih untuk pengkategorian
#'days_employed', 'dob_years', 'total_income'

columns = ['days_employed', 'dob_years', 'total_income']
df1 = pd.DataFrame(data, columns=columns)
df1

Unnamed: 0,days_employed,dob_years,total_income
0,8437.673028,42,40620.102
1,4024.803754,36,17932.802
2,5623.422610,33,23341.752
3,4124.747207,32,42820.568
4,0.000000,53,25378.572
...,...,...,...
21520,4529.316663,43,35966.698
21521,0.000000,67,24959.969
21522,2113.346888,38,14347.610
21523,3112.481705,38,39054.888


In [82]:
# Dapatkan kesimpulan statistik untuk kolomnya

df1.describe()

Unnamed: 0,days_employed,dob_years,total_income
count,21230.0,21230.0,21230.0
mean,1933.662135,43.482713,26458.235981
std,2181.912019,12.247789,15727.630844
min,0.0,19.0,3306.762
25%,316.758682,33.0,17208.1005
50%,1354.997108,43.0,23228.204
75%,2576.540024,53.0,31327.351
max,18388.949901,75.0,362496.645


[Tentukan rentang apa yang akan Anda gunakan untuk pengelompokan dan jelaskan alasannya.]

**rentang yang saya gunakan merujuk berdasarkan hasil dari df1.describe diatas, karena total_income minimum yaitu 3306 dan maximum yaitu 362496, perkiraan pengelompokanya dibagi menjadi 4 kelompok, low(<=10000), medium(<=30000), high(<=60000) dan very high(>60000).**

In [83]:
# Buat fungsi yang melakukan pengkategorian menjadi kelompok numerik yang berbeda berdasarkan rentang
# mengkategorikan total_income ke kolom income

def income_group(total_income):
    
    try:
        if (total_income > 0) and (total_income <= 10000):
            return 'low'
        if (total_income > 10000) and (total_income <= 30000):
            return 'middle'
        if (total_income > 30000) and (total_income <= 60000):
            return 'high'
        if (total_income > 60000):
            return 'very high'
        
    except:
        return 0

In [84]:
income_group(35000) 

'high'

In [85]:
# Buat kolom yang memuat kategori
# buat kolom baru misalnya kelompok_income dengan menggunakan apply seperti di bagian mengisi nilai hilang
data['income_group'] = data['total_income'].apply(income_group)
data['income_group']

0          high
1        middle
2        middle
3          high
4        middle
          ...  
21520      high
21521    middle
21522    middle
21523      high
21524    middle
Name: income_group, Length: 21230, dtype: object

In [86]:
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,median_income,median_days_employed,kategori_purpose,income_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,41-50,24572.255,2325.740892,house,high
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,31-40,24850.092,2325.740892,car,middle
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,31-40,24850.092,2325.740892,house,middle
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,31-40,24850.092,2325.740892,education,high
4,0,0.0,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,51-60,22050.9965,0.0,wedding,middle
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,<30,22957.185,2119.512866,house,high
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,41-50,24572.255,2119.512866,house,high
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,41-50,24572.255,2325.740892,education,middle
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,31-40,24850.092,2325.740892,wedding,middle
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,41-50,24572.255,2325.740892,house,middle


In [87]:
# Hitung setiap nilai kategori untuk melihat pendistribusiannya
# gunakan value_counts untuk melihat nilai dari kolom kelompok income yang sudah kita buat
data['income_group'].value_counts()

middle       14455
high          5190
low            916
very high      669
Name: income_group, dtype: int64

## Memeriksa hipotesis


**Apakah terdapat korelasi antara memiliki anak dengan probabilitas melakukan gagal bayar pinjaman?**

In [88]:
# Periksa data anak dan data gagal bayar pinjaman
# pivot table antara children dan debt

# Hitung persentase gagal bayar berdasarkan jumlah anak
pivot_table_children = data.pivot_table(index='children', columns='debt', values='dob_years', aggfunc='count')
pivot_table_children['percentage_gagal_bayar'] = pivot_table_children[1] / (pivot_table_children[1] + pivot_table_children[0]) * 100
pivot_table_children

debt,0,1,percentage_gagal_bayar
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,12963.0,1058.0,7.545824
1,4351.0,441.0,9.202838
2,1845.0,194.0,9.514468
3,301.0,27.0,8.231707
4,37.0,4.0,9.756098
5,9.0,,


**Kesimpulan**

[Tulis kesimpulan Anda berdasarkan manipulasi dan pengamatan yang Anda lakukan.]


**berdasarkan perbandingan antara nasabah yang memiliki anak dengan persentase gagal bayar hasilnya menujukan bahwa nasabah yang tidak memiliki anak berpotensi untuk dapat membayar pinjaman bank dengan baik. dari pada yang memiliki anak, tetapi pada nasabah yang memiliki anak 5 menunjukan tidak pernah gagal bayar oleh sebab itu nilainya NaN dan persentasenya pun juga NaN.**

**Apakah terdapat korelasi antara status keluarga dengan probabilitas melakukan gagal bayar pinjaman?**

In [89]:
# Periksa data status keluarga dan data gagal bayar pinjaman



# Hitung persentase gagal bayar berdasarkan status keluarga
pivot_table_family_status = data.pivot_table(index='family_status', columns='debt', values='dob_years', aggfunc='count')
pivot_table_family_status['percentage_gagal_bayar'] = pivot_table_family_status[1] / (pivot_table_family_status[1] + pivot_table_family_status[0]) * 100
pivot_table_family_status


debt,0,1,percentage_gagal_bayar
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
civil partnership,3729,383,9.314202
divorced,1095,84,7.124682
married,11290,923,7.557521
unmarried,2508,272,9.784173
widow / widower,884,62,6.553911


**Kesimpulan**

[Tulis kesimpulan Anda berdasarkan manipulasi dan pengamatan Anda.]


**korelasi antara status keluarga dengan probabilitas melakukan gagal bayar pinjaman menujukan bahwa pesentase yang paling besar untuk gagal bayar yaitu pada kategori unmarried, tetapi sebaliknya pada kategori widow / widower.**

**Apakah terdapat korelasi antara tingkat pendapatan dengan probabilitas melakukan gagal bayar pinjaman?**

In [90]:
# Periksa data tingkat pendapatan dan data gagal bayar pinjaman



# Hitung persentase gagal bayar berdasarkan tingkat pendapatan
pivot_table_income_group = data.pivot_table(index='income_group', columns='debt', values='dob_years', aggfunc='count')
pivot_table_income_group['percentage_gagal_bayar'] = pivot_table_income_group[1] / (pivot_table_income_group[1] + pivot_table_income_group[0]) * 100
pivot_table_income_group


debt,0,1,percentage_gagal_bayar
income_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
high,4795,395,7.61079
low,858,58,6.331878
middle,13222,1233,8.52992
very high,631,38,5.68012


**Kesimpulan**

[Tulis kesimpulan Anda berdasarkan manipulasi dan pengamatan Anda.]

**korelasi antara tingkat pendapatan dengan probabilitas melakukan gagal bayar pinjaman menunjukan bahwa persentase yang paling besar untuk gagal bayar ada pada pendapatan yang middle, dan kemungkinan kecil untuk tidak gagal bayar yaitu ada pada pendapatan yang very high**

**Bagaimana tujuan kredit memengaruhi persentase gagal bayar?**

In [91]:
# Periksa persentase tingkat gagal bayar untuk setiap tujuan kredit dan lakukan penganalisisan

pivot_table_kategori_purpose = data.pivot_table(index='kategori_purpose', columns='debt', values='dob_years', aggfunc='count')
pivot_table_kategori_purpose['percentage_gagal_bayar'] = pivot_table_kategori_purpose[1] / (pivot_table_kategori_purpose[1] + pivot_table_kategori_purpose[0]) * 100
pivot_table_kategori_purpose

debt,0,1,percentage_gagal_bayar
kategori_purpose,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
car,3861,397,9.323626
education,3601,369,9.29471
house,9926,777,7.259647
wedding,2118,181,7.872988


**Kesimpulan**

[Tulis kesimpulan Anda berdasarkan manipulasi dan pengamatan yang Anda lakukan.]


**persentase tingkat gagal bayar untuk setiap tujuan kredit menunjukan bahwa tujuan pengajuan kredit untuk rumah adalah yang paling rendah dan yang paling tinggi untuk gagal bayar yaitu pada pengajuan kredit mobil.**

# Kesimpulan umum 

[Tuliskan kesimpulan Anda di bagian akhir ini. Pastikan Anda memasukkan semua kesimpulan penting yang telah Anda buat berkaitan dengan cara Anda memproses dan menganalisis data. Kesimpulan tersebut harus membahas nilai yang hilang, duplikat, dan kemungkinan alasan serta solusi untuk data bermasalah yang harus Anda tangani.]

[Tuliskan juga kesimpulan Anda mengenai pertanyaan-pertanyaan yang diajukan di sini.]


**pada proses penganalisisan data diawali dengan adanya nilai yang hilang pada tabel total_income dan days_employed, sebelum mengisi NaN, terdapat 71 baris data duplikat yang kemudian dilakukan drop.duplicates pada data tersebut, karena dari semua data duplikat tidak terdapat data yang begitu berarti untuk dianalisi kembali dan mengabaikan data tersebut. Untuk data-data yang bermasalah sepereti pada tabel total_income dan days_employed, penyebab munculnya nilai yang hilang disebabkan karena nasabah tersebut tidak bekerja sehingga tidak memiliki pendapatan, tetapi setelah dicari kembali penyebab nilai yang hilang lainnya ternyata hasilnya random, NaN terdapat pada setiap kategori pekerjaan nasabah. Untuk mengisi nilai yang hilang menggunakan median karena rata-rata sangat resisten terhadap outlier untuk menghindari nilai yang jauh dari pusat data. setelah semua NaN telah diisi dengan median dari tiap kolom, kita mencari korelasi dari semua kategori terhadap persentase nasabah untuk gagal bayar.** 

**probabilitas gagal bayar untuk melunasi pinjaman pada nasabah yang memiliki anak cukup besar dibandingkan yang tidak memiliki anak, yang artinya calon nasabah yang tidak memiliki anak dapat dipertimbangkan kelayakannya untuk melakukan peminjaman atau kredit.
Begitupun dengan status keluarga yang tidak menikah memiliki probabilitas melakukan gagal bayar pinjaman paling besar, tetapi sebaliknya pada calon nasabah dengan status keluarga widow / widower.
pendapatan dengan kategori middle menunjukan persentase yang paling besar untuk gagal bayar, dan kemungkinan kecil untuk tidak gagal bayar yaitu ada pada pendapatan kategori very high.
tujuan pengajuan kredit untuk rumah adalah yang paling rendah untuk gagal bayar sedangkan pengajuan kredit mobil yang paling tinggi untuk dipertimbangkan kelayakan peminjaman.**