# Menganalisis Risiko Gagal Bayar Peminjam

Tugas Anda adalah menyiapkan laporan untuk divisi kredit suatu bank. Anda akan mencari tahu pengaruh status perkawinan seorang nasabah dan jumlah anak yang dimilikinya terhadap probabilitas gagal bayar dalam pelunasan pinjaman. Pihak bank sudah memiliki beberapa data mengenai kelayakan kredit nasabah.

Laporan Anda akan dipertimbangkan pada saat membuat **penilaian kredit** untuk calon nasabah. **Penilaian kredit** digunakan untuk mengevaluasi kemampuan calon peminjam untuk melunasi pinjaman mereka.

[Dalam *notebook* ini, Anda dapat menemukan petunjuk dan instruksi singkat serta arahan untuk berfikir. Jangan abaikan petunjuk tersebut karena mereka dirancang untuk membekali Anda dengan struktur pengerjaan proyek dan akan membantu Anda melakukan analisis secara lebih mendalam. Sebaliknya, buatlah agar laporan ini terlihat seolah-olah dikirimkan oleh Anda kepada rekan satu tim Anda untuk menunjukkan temuan Anda - mereka tidak perlu tahu bahwa Anda mendapatkan bantuan eksternal dari kami! Untuk membantu Anda, kami menempatkan semua petunjuk yang harus Anda hapus dalam tanda kurung siku.]

[Sebelum Anda masuk ke dalam proses analisis data Anda, jelaskan tujuan proyek dan hipotesis yang akan Anda uji.]

## Buka *file* data dan baca informasi umumnya.

[Mulailah dengan mengimpor *library* dan memuat datanya. Anda mungkin akan menyadari bahwa Anda memerlukan *library* tambahan saat Anda telah mengerjakan proyek ini, dan itu merupakan hal yang normal. Hanya saja, pastikan untuk memperbarui bagian ini jika dibutuhkan.]

In [1]:
# Muat semua *library*
import pandas as pd

# Muat datanya
df = pd.read_csv('/datasets/credit_scoring_eng.csv')
df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.422610,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21521,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21522,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


## Soal 1. Eksplorasi data

**Deskripsi Data**
- `children` - jumlah anak dalam keluarga
- `days_employed` - pengalaman kerja nasabah dalam hari
- `dob_years` - usia nasabah dalam tahun
- `education` - tingkat pendidikan nasabah
- `education_id` - pengidentifikasi untuk tingkat pendidikan nasabah
- `family_status` - pengidentifikasi untuk status perkawinan nasabah
- `family_status_id` - tanda pengenal status perkawinan
- `gender` - jenis kelamin nasabah
- `income_type` - jenis pekerjaan
- `debt` - apakah nasabah pernah melakukan gagal bayar pinjaman
- `total_income` - pendapatan bulanan
- `purpose` - tujuan mendapatkan pinjaman

[Sekarang saatnya menjelajahi data kita. Anda perlu melihat berapa banyak kolom dan baris yang dimiliki oleh data, serta mencermati beberapa baris data untuk memeriksa potensi masalah dengan data.]

In [2]:
# Mari kita lihat berapa banyak baris dan kolom yang dimiliki oleh dataset kita
row = len(df.axes[0])
col = len(df.axes[1])
print('Jumlah baris adalah:', row)
print('Jumlah kolom adalah:',col)

Jumlah baris adalah: 21525
Jumlah kolom adalah: 12


In [3]:
# Mari tampilkan N baris pertama
# 10 Baris pertama
df.head(10)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


[Jelaskan apa yang Anda lihat dan perhatikan dalam sampel data yang Anda tampilkan. Apakah terdapat masalah yang mungkin memerlukan penyelidikan dan perubahan lebih lanjut?]

In [4]:
# Dapatkan informasi data
df.info()
df.isna().sum()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

[Apakah terdapat nilai yang hilang di semua kolom atau hanya di beberapa kolom? Jelaskan secara singkat apa yang Anda amati dalam 1-2 kalimat.]

In [5]:
#Terdapat 2 kolom yang memiliki nilai yang hilang,
#pertama kolom days_employed sebanyak 2174 data, 
#kemudian kolom total_income sebanyak 2174 data

In [6]:
# Mari kita lihat tabel yang telah difilter dengan nilai yang hilang di kolom pertama yang mengandung data yang hilang
days_employed_missing = (df['days_employed'].isna())
df[days_employed_missing]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


In [7]:
total_income_missing = df['total_income'].isna()
df[total_income_missing]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


[Apakah nilai yang hilang tampak simetris? Apakah kita yakin dengan asumsi ini? Jelaskan pendapat Anda secara singkat di bagian ini. Anda mungkin ingin melakukan penyelidikan lebih lanjut, dan menghitung nilai yang hilang di semua baris dengan nilai yang hilang untuk memastikan bahwa sampel yang hilang memiliki ukuran yang sama.]

In [8]:
# Mari kita terapkan beberapa kondisi untuk memfilter data dan melihat jumlah baris dalam tabel yang telah difilter.
df['days_employed'].isna().sum()

2174

In [9]:
df['total_income'].isna().sum()

2174

In [10]:
df.loc[(df['days_employed'].isna()) & (df['total_income'].isna())].shape

(2174, 12)

**Kesimpulan sementara**

[Apakah jumlah baris dalam tabel yang telah difilter sesuai dengan jumlah nilai yang hilang? Kesimpulan apa yang bisa kita buat dari hal ini?]

[Hitung persentase nilai yang hilang jika dibandingkan dengan keseluruhan *dataset*. Apakah nilai yang hilang merupakan bagian data yang cukup besar? Jika demikian, Anda sebaiknya perlu mengisi nilai yang hilang. Untuk melakukannya, pertama-tama kita harus mempertimbangkan apakah data yang hilang bisa jadi disebabkan oleh karakteristik nasabah tertentu, seperti jenis pekerjaan atau yang lainnya. Anda harus memutuskan karakteristik mana yang menurut *Anda* mungkin merupakan penyebabnya. Kedua, kita harus memeriksa apakah ada ketergantungan nilai yang hilang pada nilai indikator lain dengan kolom-kolom yang mengidentifikasikan karakteristik tertentu nasabah.]

[Jelaskan langkah Anda selanjutnya dan bagaimana hubungannya dengan kesimpulan yang Anda buat sejauh ini.]

In [11]:
# Mari kita periksa nasabah yang tidak memiliki data tentang karakteristik yang teridentifikasi dan kolom dengan nilai yang hilang
df_null = df[(df['days_employed'].isnull()) & (df['total_income'].isnull())]
df_null


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


In [12]:
# Periksalah distribusinya
a = df_null['income_type'].value_counts(normalize = True).reset_index()
a['income_type'] = a['income_type'].apply("{:,.2%}".format)
b = df_null['income_type'].value_counts().reset_index()
c = pd.concat([a,b[['income_type']]],axis = 1 )
c


Unnamed: 0,index,income_type,income_type.1
0,employee,50.83%,1105
1,business,23.37%,508
2,retiree,19.00%,413
3,civil servant,6.76%,147
4,entrepreneur,0.05%,1


In [13]:
df_null['family_status'].value_counts(normalize = True)

married              0.568997
civil partnership    0.203312
unmarried            0.132475
divorced             0.051518
widow / widower      0.043698
Name: family_status, dtype: float64

[Deksripsikan temuan Anda di sini.]

**Kemungkinan penyebab hilangnya nilai dalam data**

[Kemukakan gagasan Anda mengenai kemungkinan alasan hilangnya nilai-nilai tersebut. Apakah menurut Anda mereka hilang secara acak atau apakah terdapat pola-pola tertentu?]

[Mari kita mulai memeriksa apakah nilai yang hilang bersifat acak.]

In [14]:
#Missing Value bersifat acak, 
#karena pada orang yang bekerja terdapat Missing Value sebesar 50% dan juga orang yang menikah sebesar 56% 

In [15]:
# Memeriksa distribusi di seluruh *dataset*
df['income_type'].value_counts(normalize = True)


employee                       0.516562
business                       0.236237
retiree                        0.179141
civil servant                  0.067782
entrepreneur                   0.000093
unemployed                     0.000093
student                        0.000046
paternity / maternity leave    0.000046
Name: income_type, dtype: float64

**Kesimpulan sementara**

[Apakah distribusi dalam *dataset* yang asli mirip dengan distribusi tabel yang telah difilter? Apa artinya hal tersebut untuk kita?]

[Jika menurut Anda kita belum dapat membuat kesimpulan apa pun, mari kita kembali menyelidiki *dataset* lebih lanjut. Mari pikirkan alasan lain yang dapat menyebabkan data hilang dan periksa apakah kita dapat menemukan pola tertentu yang dapat membuat kita berpikir bahwa hilangnya nilai-nilai tersebut tidak terjadi secara acak. Karena ini merupakan tugas Anda, maka bagian ini adalah opsional.]

In [16]:
# Periksa penyebab dan pola lain yang dapat mengakibatkan nilai yang hilang
df['education'].value_counts(normalize = True)


secondary education    0.638792
bachelor's degree      0.219187
SECONDARY EDUCATION    0.035865
Secondary Education    0.033031
some college           0.031034
BACHELOR'S DEGREE      0.012729
Bachelor's Degree      0.012451
primary education      0.011614
Some College           0.002184
SOME COLLEGE           0.001347
PRIMARY EDUCATION      0.000790
Primary Education      0.000697
graduate degree        0.000186
Graduate Degree        0.000046
GRADUATE DEGREE        0.000046
Name: education, dtype: float64

In [17]:
df['purpose'].value_counts(normalize = True)

wedding ceremony                            0.037027
having a wedding                            0.036098
to have a wedding                           0.035958
real estate transactions                    0.031405
buy commercial real estate                  0.030848
housing transactions                        0.030337
buying property for renting out             0.030337
transactions with commercial real estate    0.030244
purchase of the house                       0.030058
housing                                     0.030058
purchase of the house for my family         0.029779
construction of own property                0.029501
property                                    0.029454
transactions with my real estate            0.029268
building a real estate                      0.029082
buy real estate                             0.028990
purchase of my own house                    0.028804
building a property                         0.028804
housing renovation                          0.

**Kesimpulan sementara**

[Apakah pada akhirnya kita dapat memastikan bahwa nilai yang hilang adalah suatu kebetulan? Periksa hal lain yang menurut Anda penting di sini.]

In [18]:
# Periksa pola lainnya - jelaskan pola tersebut
#Tidak ada pola pada dataframe ini untuk nilai yang hilang, berdasarkan income_type , purpose dan education
#nilai yang hilang terjadi secara acak

**Kesimpulan**

[Apakah Anda menemukan suatu pola? Bagaimana Anda mendapatkan kesimpulan ini?]

[Jelaskan bagaimana Anda akan mengatasi nilai-nilai yang hilang. Pertimbangkan kategori dengan nilai yang hilang.]

[Rencanakan secara singkat langkah Anda selanjutnya untuk mentransformasi data. Anda mungkin perlu mengatasi berbagai jenis masalah: duplikat, pencatatan yang berbeda, sumber data yang salah, dan nilai yang hilang.]

## Transformasi data

[Mari kita perhatikan setiap kolom untuk melihat masalah apa yang mungkin dimiliki mereka.]

[Mulailah dengan menghapus duplikat dan memperbaiki data tentang informasi pendidikan jika diperlukan.]

In [19]:
# Mari kita lihat semua nilai di kolom pendidikan untuk memeriksa ejaan apa yang perlu diperbaiki
df['education'].unique()


array(["bachelor's degree", 'secondary education', 'Secondary Education',
       'SECONDARY EDUCATION', "BACHELOR'S DEGREE", 'some college',
       'primary education', "Bachelor's Degree", 'SOME COLLEGE',
       'Some College', 'PRIMARY EDUCATION', 'Primary Education',
       'Graduate Degree', 'GRADUATE DEGREE', 'graduate degree'],
      dtype=object)

In [20]:
# Perbaiki pencatatan jika diperlukan
df['education'] = df['education'].str.lower()

In [21]:
# Periksa semua nilai di kolom untuk memastikan bahwa kita telah memperbaikinya dengan tepat
df['education']


0          bachelor's degree
1        secondary education
2        secondary education
3        secondary education
4        secondary education
                ...         
21520    secondary education
21521    secondary education
21522    secondary education
21523    secondary education
21524    secondary education
Name: education, Length: 21525, dtype: object

[Periksa data kolom `children`]

In [22]:
# Mari kita lihat distribusi nilai pada kolom `children`
df['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

In [23]:
df['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

[Apakah terdapat hal-hal yang aneh di kolom tersebut? Bagaimana mereka bisa terjadi? Buat keputusan tentang apa yang akan Anda lakukan dengan data ini dan jelaskan alasannya.]

In [24]:
# [perbaiki data berdasarkan keputusan Anda]
df.loc[df['children']==-1,'children'] =  1
df.loc[df['children']==20, 'children'] = 2

In [25]:
# Periksa kembali kolom `children` untuk memastikan bahwa semuanya telah diperbaiki
df['children'].value_counts()


0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

[Periksa data dalam kolom the `days_employed`. Pertama-tama pikirkan tentang masalah apa yang mungkin ada pada kolom tersebut, serta pikirkan juga apa yang mungkin ingin Anda periksa dan bagaimana Anda akan melakukannya.]

In [26]:
# Temukan data yang bermasalah di kolom `days_employed` jika memang terdapat masalah, dan hitung persentasenya
df['days_employed'].describe()


count     19351.000000
mean      63046.497661
std      140827.311974
min      -18388.949901
25%       -2747.423625
50%       -1203.369529
75%        -291.095954
max      401755.400475
Name: days_employed, dtype: float64

In [27]:
df[df['days_employed']<0].shape

(15906, 12)

[Jika jumlah data yang bermasalah tinggi, hal tersebut mungkin disebabkan oleh beberapa masalah teknis. Kita mungkin perlu mengusulkan alasan paling jelas mengapa hal tersebut dapat terjadi dan bagaimana seharusnya data yang benar, mengingat kita tidak dapat menghapus baris yang bermasalah ini.]

In [28]:
# Atasi nilai yang bermasalah, jika ada
df['days_employed'] = df['days_employed'].abs()


In [29]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
df['days_employed'].describe()

count     19351.000000
mean      66914.728907
std      139030.880527
min          24.141633
25%         927.009265
50%        2194.220567
75%        5537.882441
max      401755.400475
Name: days_employed, dtype: float64

In [30]:
df['days_employed'] / 365

0         23.116912
1         11.026860
2         15.406637
3         11.300677
4        932.235814
            ...    
21520     12.409087
21521    942.294258
21522      5.789991
21523      8.527347
21524      5.437007
Name: days_employed, Length: 21525, dtype: float64

In [31]:
df.drop(df[df['days_employed']/365 > 900].index, inplace=True)

In [32]:
df['days_employed'] / 365

0        23.116912
1        11.026860
2        15.406637
3        11.300677
5         2.537495
           ...    
21519     6.442279
21520    12.409087
21522     5.789991
21523     8.527347
21524     5.437007
Name: days_employed, Length: 18080, dtype: float64

[Sekarang mari kita lihat usia nasabah dan mengecek apakah terdapat masalah di sana. Sekali lagi, pikirkan tentang kemungkinan kejanggalan apa yang bisa kita temui dalam kolom ini, misalnya angka usia yang tidak masuk akal.]

In [33]:
# Periksa `dob_years` untuk nilai yang mencurigakan dan hitung persentasenya
df['dob_years'].describe()

count    18080.000000
mean        40.276825
std         10.974709
min          0.000000
25%         32.000000
50%         40.000000
75%         48.000000
max         75.000000
Name: dob_years, dtype: float64

In [34]:
df['dob_years'].value_counts()

35    616
40    602
41    601
34    600
38    590
42    588
33    579
39    569
31    559
36    552
29    545
30    540
44    537
37    532
48    518
32    507
43    504
28    502
27    490
45    486
49    478
47    467
46    462
50    453
26    406
52    389
51    375
25    357
53    354
54    334
56    303
55    281
24    264
23    254
58    253
57    248
59    190
22    182
61    141
60    134
62    117
21    111
64     86
0      84
63     77
65     58
20     51
66     44
67     35
68     19
19     14
70     11
69     11
71     10
72      5
74      2
73      2
75      1
Name: dob_years, dtype: int64

[Putuskan apa yang akan Anda lakukan dengan nilai yang bermasalah dan jelaskan alasannya.]

In [35]:
# Atasi masalah pada kolom `dob_years`, jika terdapat masalah
print(df['dob_years'].describe())
error = df[df['dob_years']==0]['dob_years'].count()
print(error)
dob_totals = df['dob_years'].count()
print(dob_totals)
error_percentage = error/dob_totals
print(error_percentage)
df.drop(df.loc[df['dob_years']==0].index, inplace=True)

count    18080.000000
mean        40.276825
std         10.974709
min          0.000000
25%         32.000000
50%         40.000000
75%         48.000000
max         75.000000
Name: dob_years, dtype: float64
84
18080
0.004646017699115044


In [36]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
print(df['dob_years'].describe())
print(df[df['dob_years']==0]['dob_years'].count())

count    17996.000000
mean        40.464826
std         10.648880
min         19.000000
25%         32.000000
50%         40.000000
75%         48.000000
max         75.000000
Name: dob_years, dtype: float64
0


[Sekarang saatnya memeriksa kolom `family_status`. Periksalah nilai seperti apa yang dimuat di dalam kolom ini dan masalah apa yang mungkin perlu Anda atasi.]

In [37]:
# Mari kita lihat nilai untuk kolom ini
print(df['family_status'].describe())
print(df['family_status'].value_counts())

count       17996
unique          5
top       married
freq        10466
Name: family_status, dtype: object
married              10466
civil partnership     3579
unmarried             2488
divorced               988
widow / widower        475
Name: family_status, dtype: int64


In [38]:
# Atasi nilai yang bermasalah di `family_status`, jika ada



In [39]:
# Periksa hasilnya - pastikan nilainya telah diperbaiki
df['family_status'].describe()

count       17996
unique          5
top       married
freq        10466
Name: family_status, dtype: object

[Sekarang saatnya memeriksa kolom `gender`. Periksalah nilai seperti apa yang dimuat di dalam kolom ini dan masalah apa yang mungkin perlu Anda atasi]

In [40]:
# Mari kita liat nilai dalam kolom ini
print(df['gender'].describe())
print(df['gender'].value_counts())

count     17996
unique        3
top           F
freq      11373
Name: gender, dtype: object
F      11373
M       6622
XNA        1
Name: gender, dtype: int64


In [41]:
# Atasi nilai-nilai yang bermasalah, jika ada
# Mengganti nilai XNA dan F karena XNA tidak termasuk kategori 'gender'
df['gender'].replace(['XNA','F'], inplace=True)

In [42]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
df['gender'].value_counts()


M    17994
F        2
Name: gender, dtype: int64

[Sekarang saatnya memeriksa kolom `income_type`. Periksalah nilai seperti apa yang dimuat di dalam kolom ini dan masalah apa yang mungkin perlu Anda atasi]

In [43]:
# Mari kita lihat nilai dalam kolom ini
df['income_type'].value_counts()

employee                       11064
business                        5065
civil servant                   1453
retiree                          410
entrepreneur                       2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64

In [44]:
# Atasi nilai yang bermasalah, jika ada
df.drop(df[df['income_type']=='student'].index, inplace=True)
df.drop(df[df['income_type']=='unemployed'].index, inplace=True)

In [45]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
df['income_type'].value_counts()


employee                       11064
business                        5065
civil servant                   1453
retiree                          410
entrepreneur                       2
paternity / maternity leave        1
Name: income_type, dtype: int64

[Sekarang saatnya melihat apakah ada duplikat di dalam data kita. Jika kita menemukannya, Anda harus memutuskan apa yang akan Anda lakukan dengan duplikat tersebut dan menjelaskan alasannya.]

In [46]:
# Periksa duplikat
df.duplicated().sum()


103

In [47]:
# Atasi duplikat, jika ada
df.drop_duplicates(inplace=True)

In [48]:
# Lakukan pemeriksaan terakhir untuk mengecek apakah kita memiliki duplikat
df.duplicated().sum()

0

In [49]:
# Periksa ukuran dataset yang sekarang Anda miliki setelah manipulasi pertama yang Anda lakukan
df.shape

(17892, 12)

In [50]:
#perubahan yang terjadi dari 21525 data menjadi 21339 data
perubahan = 186
persentase_perubahan = perubahan/21525*100
print(persentase_perubahan)

0.8641114982578397


[Jelaskan *dataset* baru Anda: jelaskan secara singkat apa saja perubahannya dan seberapa besar persentase perubahannya, jika ada.]


# Bekerja dengan nilai yang hilang

[Untuk mempercepat pekerjaan dengan sejumlah data, Anda mungkin ingin menggunakan *dictionary* untuk beberapa nilai yang memiliki ID. Jelaskan mengapa dan *dictionary* apakah yang akan Anda gunakan.]

In [51]:
# Temukan dictionary
education_dictionary = df[['education','education_id']]
education_dictionary = education_dictionary.drop_duplicates()
education_dictionary

Unnamed: 0,education,education_id
0,bachelor's degree,0
1,secondary education,1
13,some college,2
31,primary education,3
4170,graduate degree,4


In [52]:
family_dictionary = df[['family_status','family_status_id']]
family_dictionary = family_dictionary.drop_duplicates()
family_dictionary

Unnamed: 0,family_status,family_status_id
0,married,0
5,civil partnership,1
19,divorced,3
29,unmarried,4
57,widow / widower,2


### Memperbaiki nilai yang hilang di `total_income`

[Jelaskan secara singkat kolom dengan nilai yang hilang manakah yang perlu Anda tangani. Jelaskan bagaimana Anda akan memperbaikinya.]


[Mulailah dengan mengatasi total nilai pendapatan yang hilang. Buatlah kategori usia untuk nasabah. Buatlah kolom baru yang memuat kategori usia. Strategi ini dapat membantu untuk menghitung total nilai pendapatan.]


In [53]:
# Mari kita tulis sebuah fungsi untuk menghitung kategori usia

    

In [54]:
def kelompok_usia(age):
    if age <=25:
        return'1-25'
    if age <=35:
        return'26-35'
    if age <=45:
        return'36-45'
    if age <=55:
        return'46-55'
    else:
        return'55-100'
    

In [55]:
# Lakukan pengujian untuk melihat apakah fungsi Anda bekerja atau tidak
kelompok_usia(25)

'1-25'

In [56]:
# Buatlah kolom baru berdasarkan fungsi
df['kelompok_usia'] = df['dob_years'].apply(kelompok_usia)


In [57]:
# Periksa bagaimana nilai di dalam kolom baru
df['kelompok_usia'].value_counts()


36-45     5541
26-35     5329
46-55     4087
55-100    1705
1-25      1230
Name: kelompok_usia, dtype: int64

In [58]:
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,kelompok_usia
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,36-45
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,36-45
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,26-35
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,26-35
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,26-35
6,0,2879.202052,43,bachelor's degree,0,married,0,M,business,0,38484.156,housing transactions,36-45
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,46-55
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,M,employee,0,15337.093,having a wedding,26-35
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,36-45
10,2,4171.483647,36,bachelor's degree,0,married,0,M,business,0,18230.959,buy real estate,36-45


[Pikirkan tentang faktor-faktor yang biasanya bergantung pada pendapatan. Pada akhirnya, Anda akan mengetahui apakah Anda harus menggunakan nilai rata-rata atau median untuk mengganti nilai yang hilang. Untuk membuat keputusan ini, Anda mungkin ingin melihat distribusi faktor-faktor yang Anda identifikasi sebagai dampak dari pendapatan seseorang.]

[Buatlah tabel yang hanya memuat data tanpa nilai yang hilang. Data ini akan digunakan untuk memperbaiki nilai yang hilang.]

In [59]:
# Buat tabel tanpa nilai yang hilang dan tampilkan beberapa barisnya untuk memastikan semuanya berjalan dengan baik
df_notna = df[df['days_employed'].notna()].reset_index(drop=True)

In [60]:
df_notna.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
kelompok_usia       0
dtype: int64

In [61]:
# Perhatikan nilai rata-rata untuk pendapatan berdasarkan faktor yang telah Anda identifikasi
df_notna.groupby('kelompok_usia')['total_income'].mean()

kelompok_usia
1-25      23471.253394
26-35     27643.611578
36-45     28720.637001
46-55     27954.561475
55-100    28682.759996
Name: total_income, dtype: float64

In [62]:
# Perhatikan nilai median untuk pendapatan berdasarkan faktor yang telah Anda identifikasi
df_notna.groupby('kelompok_usia')['total_income'].median()

kelompok_usia
1-25      21455.957
26-35     24215.926
36-45     24820.436
46-55     24143.671
55-100    25195.173
Name: total_income, dtype: float64

In [63]:
df_notna.groupby('kelompok_usia')['total_income'].mean().sort_values()

kelompok_usia
1-25      23471.253394
26-35     27643.611578
46-55     27954.561475
55-100    28682.759996
36-45     28720.637001
Name: total_income, dtype: float64

In [64]:
df_notna.groupby('kelompok_usia')['total_income'].median().sort_values()

kelompok_usia
1-25      21455.957
46-55     24143.671
26-35     24215.926
36-45     24820.436
55-100    25195.173
Name: total_income, dtype: float64

[Ulangi perbandingan tersebut untuk beberapa faktor. Pastikan Anda mempertimbangkan berbagai aspek dan menjelaskan proses berpikir Anda.]



[Buatlah keputusan tentang karakteristik yang paling menentukan pendapatan dan apakah Anda akan menggunakan median atau rata-rata. Jelaskan mengapa Anda membuat keputusan ini]


In [65]:
#  Tulis fungsi yang akan kita gunakan untuk mengisi nilai yang hilang
        
def fill_missing_total_income_value (df, agg_column, value_column):
    grouped_values = df.groupby(agg_column)[value_column].median().reset_index()
    size = len(grouped_values)
    for i in range(size):
        group = grouped_values[agg_column][i]
        value = grouped_values[value_column][i]
        df.loc[(df[agg_column]==group) & (df[value_column].isna()), value_column] = value
    return df

In [66]:
# Memeriksa bagaimana nilai di dalam kolom baru
df = fill_missing_total_income_value(df = df , agg_column = 'kelompok_usia', value_column = 'total_income')

In [67]:
# Terapkan fungsi tersebut ke setiap baris
df['total_income'].reset_index()

Unnamed: 0,index,total_income
0,0,40620.102
1,1,17932.802
2,2,23341.752
3,3,42820.568
4,5,40922.170
...,...,...
17887,21519,18551.846
17888,21520,35966.698
17889,21522,14347.610
17890,21523,39054.888


In [68]:
# Periksa apakah kita mendapatkan kesalahan
df.isna().sum()

children               0
days_employed       2061
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
kelompok_usia          0
dtype: int64

In [69]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 17892 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          17892 non-null  int64  
 1   days_employed     15831 non-null  float64
 2   dob_years         17892 non-null  int64  
 3   education         17892 non-null  object 
 4   education_id      17892 non-null  int64  
 5   family_status     17892 non-null  object 
 6   family_status_id  17892 non-null  int64  
 7   gender            17892 non-null  object 
 8   income_type       17892 non-null  object 
 9   debt              17892 non-null  int64  
 10  total_income      17892 non-null  float64
 11  purpose           17892 non-null  object 
 12  kelompok_usia     17892 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 1.9+ MB


[Jika Anda menemukan kesalahan dalam menyiapkan nilai untuk data yang hilang, kemungkinan ada sesuatu yang istimewa tentang data untuk kategori tersebut. Mari pikirkan - Anda mungkin ingin memperbaiki beberapa hal secara manual, jika terdapat cukup data untuk menemukan median/rata-rata.]


In [70]:
# Ganti nilai yang hilang jika terdapat kesalahan


[Setelah Anda selesai dengan `total_income`, periksa apakah jumlah total nilai di kolom ini sesuai dengan jumlah nilai di kolom lain.]

In [71]:
# Periksa jumlah entri di kolom
df['total_income'].value_counts()


24820.436    535
24215.926    507
24143.671    481
25195.173    421
21455.957    120
            ... 
27715.458      1
45484.109      1
27097.085      1
99284.696      1
17058.605      1
Name: total_income, Length: 15832, dtype: int64

In [72]:
df.value_counts()

children  days_employed  dob_years  education            education_id  family_status      family_status_id  gender  income_type    debt  total_income  purpose                           kelompok_usia
0         24.240695      32         bachelor's degree    0             unmarried          4                 M       employee       0     19858.460     to get a supplementary education  26-35            1
1         725.595743     27         bachelor's degree    0             married            0                 M       business       0     50322.264     housing renovation                26-35            1
          728.100488     40         bachelor's degree    0             civil partnership  1                 M       business       0     18772.671     to own a car                      36-45            1
          728.179628     37         secondary education  1             civil partnership  1                 M       employee       0     19929.938     housing transactions              36-4

###  Memperbaiki nilai di `days_employed`

[Pikirkan tentang parameter yang dapat membantu Anda memperbaiki nilai yang hilang di kolom ini. Pada akhirnya, Anda akan mengetahui apakah Anda harus menggunakan nilai rata-rata atau median untuk mengganti nilai yang hilang. Anda mungkin perlu melakukan penelitian yang sama dengan yang Anda lakukan saat memperbaiki data di kolom sebelumnya.]

In [73]:
# Distribusi median dari `days_employed` berdasarkan parameter yang Anda identifikasi
df_notna.groupby('income_type')['days_employed'].median()


income_type
business                       1548.637544
civil servant                  2673.404956
employee                       1576.067689
entrepreneur                    520.848083
paternity / maternity leave    3296.759962
Name: days_employed, dtype: float64

In [74]:
# Distribusi rata-rata dari `days_employed` berdasarkan parameter yang Anda identifikasi
df_notna.groupby('income_type')['days_employed'].mean()

income_type
business                       2112.798330
civil servant                  3388.508552
employee                       2328.603723
entrepreneur                    520.848083
paternity / maternity leave    3296.759962
Name: days_employed, dtype: float64

[Tentukan apa yang akan Anda gunakan: rata-rata atau median. Jelaskan mengapa.]

In [75]:
# Mari tulis fungsi yang menghitung rata-rata atau median (tergantung keputusan Anda) berdasarkan parameter yang Anda identifikasi
def fill_missing_days_employed_value (df, agg_column, value_column):
    grouped_values = df.groupby(agg_column)[value_column].median().reset_index()
    size = len(grouped_values)
    for i in range(size):
        group = grouped_values[agg_column][i]
        value = grouped_values[value_column][i]
        df.loc[(df[agg_column]==group) & (df[value_column].isna()), value_column] = value
    return df

In [76]:
# Periksa apakah fungsi Anda dapat bekerja
df = fill_missing_days_employed_value(df= df, agg_column='income_type',value_column='days_employed')



In [77]:
# Terapkan fungsi ke income_type
df['days_employed'].reset_index()


Unnamed: 0,index,days_employed
0,0,8437.673028
1,1,4024.803754
2,2,5623.422610
3,3,4124.747207
4,5,926.185831
...,...,...
17887,21519,2351.431934
17888,21520,4529.316663
17889,21522,2113.346888
17890,21523,3112.481705


In [78]:
# Periksa apakah fungsi Anda bekerja

df.isna().sum()

children              0
days_employed       374
dob_years             0
education             0
education_id          0
family_status         0
family_status_id      0
gender                0
income_type           0
debt                  0
total_income          0
purpose               0
kelompok_usia         0
dtype: int64

In [79]:
# Ganti nilai yang hilang



[Setelah Anda selesai dengan `total_income`, periksa apakah jumlah total nilai di kolom ini sesuai dengan jumlah nilai di kolom lain.]

In [80]:
# Periksa entri di semua kolom - pastikan kita memperbaiki semua nilai yang hilang
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 17892 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          17892 non-null  int64  
 1   days_employed     17518 non-null  float64
 2   dob_years         17892 non-null  int64  
 3   education         17892 non-null  object 
 4   education_id      17892 non-null  int64  
 5   family_status     17892 non-null  object 
 6   family_status_id  17892 non-null  int64  
 7   gender            17892 non-null  object 
 8   income_type       17892 non-null  object 
 9   debt              17892 non-null  int64  
 10  total_income      17892 non-null  float64
 11  purpose           17892 non-null  object 
 12  kelompok_usia     17892 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 1.9+ MB


## Pengkategorian Data

[Untuk menjawab pertanyaan dan menguji hipotesis, Anda akan bekerja dengan data yang telah dikategorikan. Lihatlah pertanyaan-pertanyaan yang diajukan kepada Anda dan yang harus Anda jawab. Pikirkan tentang data mana yang perlu dikategorikan untuk menjawab pertanyaan-pertanyaan ini. Di bawah ini, Anda akan menemukan templat yang bisa Anda gunakan untuk mengkategorikan data. Proses pertama mencakup data teks; yang kedua membahas data numerik yang perlu dikategorikan. Anda dapat menggunakan kedua petunjuk yang disarankan atau tidak sama sekali - semuanya terserah Anda.]

[Terlepas dari keputusan Anda untuk mengatasi pengkategorian, pastikan bahwa Anda secara lugas memberikan penjelasan tentang mengapa Anda membuat keputusan tersebut. Ingat: ini adalah pekerjaan Anda dan hanya Anda yang berhak membuat segala keputusan.]


In [81]:
# Tampilkan nilai data yang Anda pilih untuk pengkategorian
df[['children','total_income','dob_years']]


Unnamed: 0,children,total_income,dob_years
0,1,40620.102,42
1,1,17932.802,36
2,0,23341.752,33
3,3,42820.568,32
5,0,40922.170,27
...,...,...,...
21519,1,18551.846,37
21520,1,35966.698,43
21522,1,14347.610,38
21523,3,39054.888,38


[Mari kita memeriksa nilai unik]

In [82]:
# Periksa nilai unik
df[['children']].value_counts()

children
0           10860
1            4574
2            2087
3             322
4              40
5               9
dtype: int64

[Kelompok utama apakah yang dapat Anda identifikasi berdasarkan nilai uniknya?]

[Kita akan mengkategorikan data kita berdasarkan topik ini.]


In [83]:
# Mari kita tulis sebuah fungsi untuk mengategorikan data berdasarkan topik umum
def children_category (child):
    if child < 1 :
        return 'Tidak punya anak'
    if child >= 1:
        return 'Punya anak'

In [84]:
df['children_category'] = df['children'].apply(children_category)
df['children_category'].value_counts()

Tidak punya anak    10860
Punya anak           7032
Name: children_category, dtype: int64

In [85]:
# Buat kolom yang memuat kategori dan hitung nilainya
df[['dob_years','family_status','children_category']]


Unnamed: 0,dob_years,family_status,children_category
0,42,married,Punya anak
1,36,married,Punya anak
2,33,married,Tidak punya anak
3,32,married,Punya anak
5,27,civil partnership,Tidak punya anak
...,...,...,...
21519,37,divorced,Punya anak
21520,43,civil partnership,Punya anak
21522,38,civil partnership,Punya anak
21523,38,married,Punya anak


[Jika Anda memutuskan untuk mengategorikan data numerik, Anda juga harus membuat kategori untuk data tersebut.]

In [86]:
# Lihat semua data numerik di kolom yang Anda pilih untuk pengkategorian
df['total_income'].describe()

count     17892.000000
mean      27449.117906
std       16033.754961
min        3418.824000
25%       18125.238500
50%       24215.926000
75%       32045.447250
max      362496.645000
Name: total_income, dtype: float64

In [87]:
def income_category (income):
    if income < 15000:
        return 'very low'
    if 15000 <= income < 20000:
        return 'low'
    if 20000 <= income < 25000:
        return 'middle low'
    if 25000 <= income < 30000:
        return 'middle'
    if 30000 <= income < 35000:
        return 'high'
    if income >= 3500:
        return 'very high'
    else:
        return 'Unidentified'


In [88]:
df['income_category'] = df['total_income'].apply(income_category)
df['income_category'].value_counts()

middle low    4473
very high     3628
low           2893
middle        2711
very low      2595
high          1592
Name: income_category, dtype: int64

In [89]:
# Dapatkan kesimpulan statistik untuk kolomnya
df[['dob_years','children','family_status','total_income']]
#Sebanyak 5429 orang termasuk dalam kategori pendapatan middle low
#Sebanyak 4048 orang termasuk dalam kategori pendapatan very high
#Sebanyak 3722 orang termasuk dalam kategori pendapatan very low
#Sebanyak 3608 orang termasuk dalam kategori pendapatan low
#Sebanyak 2670 orang termasuk dalam kategori pendapatan middle
#Sebanyak 1841 orang termasuk dalam kategori pendapatan high

Unnamed: 0,dob_years,children,family_status,total_income
0,42,1,married,40620.102
1,36,1,married,17932.802
2,33,0,married,23341.752
3,32,3,married,42820.568
5,27,0,civil partnership,40922.170
...,...,...,...,...
21519,37,1,divorced,18551.846
21520,43,1,civil partnership,35966.698
21522,38,1,civil partnership,14347.610
21523,38,3,married,39054.888


In [90]:
df['purpose'].unique()

array(['purchase of the house', 'car purchase', 'supplementary education',
       'housing transactions', 'education', 'having a wedding',
       'purchase of the house for my family', 'buy real estate',
       'buy commercial real estate', 'to have a wedding',
       'buy residential real estate', 'construction of own property',
       'property', 'building a property', 'buying my own car',
       'buying a second-hand car', 'building a real estate', 'housing',
       'transactions with my real estate', 'cars', 'to become educated',
       'second-hand car purchase', 'getting an education', 'car',
       'wedding ceremony', 'to get a supplementary education',
       'purchase of my own house', 'real estate transactions',
       'getting higher education',
       'transactions with commercial real estate', 'to own a car',
       'purchase of a car', 'profile education', 'university education',
       'to buy a car', 'buying property for renting out',
       'housing renovation', 'going

[Tentukan rentang apa yang akan Anda gunakan untuk pengelompokan dan jelaskan alasannya.]

In [91]:
#Dari kolom purpose terbagi menjadi 4 kelompok yang dibagi berdasarkan nilai unik. Yaitu pembelian properti atau rumah,
#pembelian mobil, biaya pendidikan dan biaya pernikahan

In [92]:
# Buat fungsi yang melakukan pengkategorian menjadi kelompok numerik yang berbeda berdasarkan rentang
def kategori_purpose(row):
    if 'car' in row:
        return 'car'
    if 'house' in row or 'prop' in row or 'real est' in row:
        return 'real estate'
    if 'wedd'in row:
        return 'wedding'
    if 'edu'in row or 'uni' in row:
        return 'education'
    else:
        return 'Unidentified'


In [93]:
df['kategori_purpose'] = df['purpose'].apply(kategori_purpose)
df['kategori_purpose'].value_counts()

real estate     7451
car             3569
education       3345
wedding         1927
Unidentified    1600
Name: kategori_purpose, dtype: int64

In [94]:
# Buat kolom yang memuat kategori
df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,kelompok_usia,children_category,income_category,kategori_purpose
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,36-45,Punya anak,very high,real estate
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,36-45,Punya anak,low,car
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,26-35,Tidak punya anak,middle low,real estate
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,26-35,Punya anak,very high,education
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.170,purchase of the house,26-35,Tidak punya anak,very high,real estate
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21519,1,2351.431934,37,graduate degree,4,divorced,3,M,employee,0,18551.846,buy commercial real estate,36-45,Punya anak,low,real estate
21520,1,4529.316663,43,secondary education,1,civil partnership,1,M,business,0,35966.698,housing transactions,36-45,Punya anak,very high,Unidentified
21522,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,36-45,Punya anak,very low,real estate
21523,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,36-45,Punya anak,very high,car


In [95]:
# Hitung setiap nilai kategori untuk melihat pendistribusiannya
df['children_category'].describe()
df['income_category'].describe()
df['kategori_purpose'].describe()

count           17892
unique              5
top       real estate
freq             7451
Name: kategori_purpose, dtype: object

## Memeriksa hipotesis


**Apakah terdapat korelasi antara memiliki anak dengan probabilitas melakukan gagal bayar pinjaman?**

In [96]:
# Periksa data anak dan data gagal bayar pinjaman
indebt = df.loc[df['debt']==1]
success = df.loc[df['debt']!=1]
#Indebt merupakan jumlah total nasabah yang gagal bayar pinjaman
#Success merupakan jumlah total nasabah yang berhasil bayar pinjaman
# Hitung persentase gagal bayar berdasarkan jumlah anak



In [97]:
def indebt_percentage(column):
    return indebt.groupby(column)['debt'].count()*100/df.groupby(column)['debt'].count()


In [98]:
def success_percentage(column):
    return success.groupby(column)['debt'].count()*100/df.groupby(column)['debt'].count()

In [99]:
children = ['children_category']

for column in children:
    print(indebt_percentage(column))

children_category
Punya anak          9.385666
Tidak punya anak    8.213628
Name: debt, dtype: float64


In [100]:
for column in children:
    print(success_percentage(column))

children_category
Punya anak          90.614334
Tidak punya anak    91.786372
Name: debt, dtype: float64


**Kesimpulan**

[Tulis kesimpulan Anda berdasarkan manipulasi dan pengamatan yang Anda lakukan.]


In [101]:
#Sebanyak 90% nasabah yang berhasil bayar punya anak, dan sebanyak 92% nasabah yang berhasil bayar tidak punya anak, 
#hanya 9.2% nasabah yang punya anak yang gagal bayar, dan sebesar 7.5% yang tidak punya anak yang gagal bayar
#dapat disimpulkan memiliki atau tidak memiliki anak tidak ada korelasi dengan keberhasilan membayar pinjaman

**Apakah terdapat korelasi antara status keluarga dengan probabilitas melakukan gagal bayar pinjaman?**

In [102]:
# Periksa data status keluarga dan data gagal bayar pinjaman
status = ['family_status']
for column in status:
    print(indebt_percentage(column))


# Hitung persentase gagal bayar berdasarkan status keluarga
for column in status:
    print(success_percentage(column))


family_status
civil partnership    10.073363
divorced              7.489879
married               7.969621
unmarried            10.507246
widow / widower       6.540084
Name: debt, dtype: float64
family_status
civil partnership    89.926637
divorced             92.510121
married              92.030379
unmarried            89.492754
widow / widower      93.459916
Name: debt, dtype: float64


**Kesimpulan**

[Tulis kesimpulan Anda berdasarkan manipulasi dan pengamatan Anda.]


In [103]:
#Sebagian besar dari variasi status baik civil partnership, divorced, married, unmarried, widow/widower mayoritas berhasil membayar
#pinjaman dan hanya sebagian kecil dari setiap masing-masing variasi status yang telah disebutkan mengalami gagal bayar
#sehingga dapat ditarik kesimpulan tidak ada korelasi status dengan berhasil atau tidaknya membayar pinjaman

**Apakah terdapat korelasi antara tingkat pendapatan dengan probabilitas melakukan gagal bayar pinjaman?**

In [104]:
# Periksa data tingkat pendapatan dan data gagal bayar pinjaman
income =['income_category']
for column in income:
    print(indebt_percentage(column))
    


# Hitung persentase gagal bayar berdasarkan tingkat pendapatan
for column in income:
    print(success_percentage(column))


income_category
high          8.479899
low           9.471137
middle        9.000369
middle low    8.853119
very high     7.221610
very low      9.287091
Name: debt, dtype: float64
income_category
high          91.520101
low           90.528863
middle        90.999631
middle low    91.146881
very high     92.778390
very low      90.712909
Name: debt, dtype: float64


**Kesimpulan**

[Tulis kesimpulan Anda berdasarkan manipulasi dan pengamatan Anda.]

In [105]:
#Berdasarkan data diatas dapat ditarik kesimpulan bahwa diatas 90% dari bermacam-macam variasi kategori tingkat pendapatan baik 
#dimulai dari kategori very low sampai dengan very high berhasil membayar pinjaman, sehingga tingkat pendapatan tidak ada kaitan
#dengan keberhasilan membayar pinjaman

**Bagaimana tujuan kredit memengaruhi persentase gagal bayar?**

In [106]:
# Periksa persentase tingkat gagal bayar untuk setiap tujuan kredit dan lakukan penganalisisan

purpose = ['kategori_purpose']
for column in purpose:
    print(indebt_percentage(column))
for column in purpose:
    print(success_percentage(column))

kategori_purpose
Unidentified     7.062500
car             10.030821
education        9.805680
real estate      7.891558
wedding          8.562532
Name: debt, dtype: float64
kategori_purpose
Unidentified    92.937500
car             89.969179
education       90.194320
real estate     92.108442
wedding         91.437468
Name: debt, dtype: float64


**Kesimpulan**

[Tulis kesimpulan Anda berdasarkan manipulasi dan pengamatan yang Anda lakukan.]


In [107]:
#Berdasarkan data diatas dapat disimpulkan bahwa semua tujuan yang berbeda mayoritas diatas 90% berhasil melakukan 
#pembayaran pinjaman sehingga purpose tidak ada korelasi dengan keberhasilan membayar pinjaman

# Kesimpulan umum 

[Tuliskan kesimpulan Anda di bagian akhir ini. Pastikan Anda memasukkan semua kesimpulan penting yang telah Anda buat berkaitan dengan cara Anda memproses dan menganalisis data. Kesimpulan tersebut harus membahas nilai yang hilang, duplikat, dan kemungkinan alasan serta solusi untuk data bermasalah yang harus Anda tangani.]

[Tuliskan juga kesimpulan Anda mengenai pertanyaan-pertanyaan yang diajukan di sini.]


In [108]:
#Nilai yang hilang terjadi secara acak
#data yang terduplikat di drop lalu dilakukan pengecekan kembali
#Terdapat data yang tidak logis yaitu jumlah anak negatif sehingga diberlakukan fungsi abs(absolut)
# 1 gender yang memuat nilai XNA diganti menjadi F (Female)
#Tidak ada korelasi antara total pendapatan, status, jumlah anak, dalam keberhasilan membayar pinjaman