
# Menganalisis Risiko Gagal Bayar Peminjam

Tugas Anda adalah menyiapkan laporan untuk divisi kredit suatu bank. Anda akan mencari tahu pengaruh status perkawinan seorang nasabah dan jumlah anak yang dimilikinya terhadap probabilitas gagal bayar dalam pelunasan pinjaman. Pihak bank sudah memiliki beberapa data mengenai kelayakan kredit nasabah.

Laporan Anda akan dipertimbangkan pada saat membuat **penilaian kredit** untuk calon nasabah. **Penilaian kredit** digunakan untuk mengevaluasi kemampuan calon peminjam untuk melunasi pinjaman mereka.

[Dalam *notebook* ini, Anda dapat menemukan petunjuk dan instruksi singkat serta arahan untuk berfikir. Jangan abaikan petunjuk tersebut karena mereka dirancang untuk membekali Anda dengan struktur pengerjaan proyek dan akan membantu Anda melakukan analisis secara lebih mendalam. Sebaliknya, buatlah agar laporan ini terlihat seolah-olah dikirimkan oleh Anda kepada rekan satu tim Anda untuk menunjukkan temuan Anda - mereka tidak perlu tahu bahwa Anda mendapatkan bantuan eksternal dari kami! Untuk membantu Anda, kami menempatkan semua petunjuk yang harus Anda hapus dalam tanda kurung siku.]

[Sebelum Anda masuk ke dalam proses analisis data Anda, jelaskan tujuan proyek dan hipotesis yang akan Anda uji.]

# Konten <a id='back'></a>

* [Tahap 1. Pendahuluan](#intro)
* [Tahap 2. Data dan Informasi umum](#info)
* [Tahap 3. Eksplorasi Data](#explore)
    * [3.1 Nilai yang hilang](#missing)
    * [3.2 Kesimpulan](#kesimpulan1)
* [Tahap 4. Transformasi Data](#transform)
    * [4.1 Bekerja dengan nilai yang hilang](#hilang)
    * [4.2 Mengatasi nilai 'total_income'](#total)
    * [4.3 mengatasi nilai 'days_employed](#employed)
* [Tahap 5. Mengkategorikan Data](#category)
* [Tahap 6. Memeriksa Hipotesis](#hipotesis)
* [Kesimpulan Umum](#end)


## Pendahuluan <a id='intro'></a>
Dalam proyek kali ini saya akan menganalisis sebuah data nasabah yang melakukan kredit kepada bank untuk mencari tahu apakah status perkawinan dan banyak nya anak yang dimiliki mempengaruhi resiko gagal bayar peminjaman kredit bagi nasabah tersebut.

laporan akan diberikan kepada divisi kredit bank untuk dipelajari lebih lanjut dan dijadikan acuan untuk dapat menilai kelayakan nasabah yang akan meminjam kredit, sehingga dapat menurunkan resiko gagal bayar pinjaman kredit bank.

### Tujuan: 
Menguji tiga hipotesis:
1. Apakah status perkawinan memiliki pengaruh terhadap gagal bayar pinjaman kredit Bank
2. Apakah banyaknya jumlah anak yang dimilik nasabah memperngaruhi gagal bayar pinjaman kredit Bank
3. Apakah ada faktor lain yang menjadi penyebab seorang nasabah memiliki resiko gagal bayar pinjaman Kredit Bank

### Tahapan
Data tentang nasabah tersimpan di dalam file '/datasets/credit_scoring_eng.csv', tidak ada informasi terkait kualitas data, oleh sebab itu perlu dilakukan pemeriksaan pada informasi dan deskripsi data terlebih dahulu kemudian tahap pra pemrosesan data yang sangat penting untuk dilakukan agar data menjadi layak untuk dinalalisa sebelum langkah terakhir yaitu menguji hipotesis.
 
Proyek ini akan terdiri dari empat tahap:
 1. Ikhtisar Data
 2. Eksplorasi Data
 3. Pra-pemrosesan Data
 4. Pengkategorian Data

 
[Kembali ke Konten](#back)


## Buka *file* data dan baca informasi umumnya. <a id='info'></a>

[Mulailah dengan mengimpor *library* dan memuat datanya. Anda mungkin akan menyadari bahwa Anda memerlukan *library* tambahan saat Anda telah mengerjakan proyek ini, dan itu merupakan hal yang normal. Hanya saja, pastikan untuk memperbarui bagian ini jika dibutuhkan.]

In [2]:
# Muat semua *library*
import pandas as pd



In [3]:
# Muat datanya
df = pd.read_csv('/datasets/credit_scoring_eng.csv')


## Soal 1. Eksplorasi data <a id='explore'></a>

**Deskripsi Data**
- `children` - jumlah anak dalam keluarga
- `days_employed` - pengalaman kerja nasabah dalam hari
- `dob_years` - usia nasabah dalam tahun
- `education` - tingkat pendidikan nasabah
- `education_id` - pengidentifikasi untuk tingkat pendidikan nasabah
- `family_status` - pengidentifikasi untuk status perkawinan nasabah
- `family_status_id` - tanda pengenal status perkawinan
- `gender` - jenis kelamin nasabah
- `income_type` - jenis pekerjaan
- `debt` - apakah nasabah pernah melakukan gagal bayar pinjaman
- `total_income` - pendapatan bulanan
- `purpose` - tujuan mendapatkan pinjaman

[Sekarang saatnya menjelajahi data kita. Anda perlu melihat berapa banyak kolom dan baris yang dimiliki oleh data, serta mencermati beberapa baris data untuk memeriksa potensi masalah dengan data.]

In [4]:
# Mari kita lihat berapa banyak baris dan kolom yang dimiliki oleh dataset kita
df.shape


(21525, 12)

In [5]:
# Mari tampilkan N baris pertama
df.head(10)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


Dari gambaran data diatas dapat disimpulkan :
<ul>
    <li> nama kolom terlihat sudah sesuai dari segi penamaan nya</li>
    <li>beberapa data mungkin memiliki tipe data yg tidak sesuai, nilai yang hilang dan duplikasi.
khususnya pada kolom 'days_employed' yang tampak membingungkan karena bernilai negatif kemungkinan ada salah penginputan atau pemformatan data</li>
    <li>isi baris kolom 'education' ditulis dalam huruf besar dan kecil ini perlu diformat ulang dan nilainya terduplikasi</li>
    <li>Secara keseluruhan data perlu diperiksa dan dibersihkan agar lebih mudah digunakan dalam analisis data. Nilai yang terduplikasi dan nilai yang hilang perlu ditangani,data juga perlu diformat dengan benar dan disesuaikan tipe datanya, ditambahkan kolom yang diperlukan, dan dihapus kolom yang tidak diperlukan.</li>
</ul>

In [51]:
# Dapatkan informasi data
df.info()
df.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,26787.568355
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,16475.450632
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,3306.762
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,16488.5045
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,23202.87
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,32549.611
max,20.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


Dari informasi dan diskripsi data ditemukan :
<ul>
    <li> adanya nilai yang hilang pada kolom 'days_employed' dan 'total_income'</li>
    <li> hasil minimum dari kolom 'children' adalah negatif</li>
    <li> hasil min, 25%,50% dan 70% dari kolom 'days_employed' juga negatif</li>
    <li> hasil negatif pada sebuah kolom disebabkan adanya nilai negatif pada baris dalam kolom tersebut</li>

</ul>

In [32]:
# Mari kita lihat tabel yang telah difilter dengan nilai yang hilang di kolom pertama yang mengandung data yang hilang
df[df['days_employed'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


Dari gambaran tabel diatas kita dapat menyimpulkan :
<ul>
    <li> nilai yang hilang pada kolom 'days_employed' dan 'total_income' adalah NaN</li>
    <li> dilihat dari metode info() jumlah baris pada kolom 'days_employed' dan 'total_income sama yaitu 19351</li>
    <li> secara umum dapat dilihat jumlah dan letak nilai yang hilang pada kolom 'days_employed' dan 'total_income' tampak sama</li>
    <li> dapat dikatakan nilai yang hilang tampak simetris, namun hal ini harus dibuktikan lebih lanjut</li>
</ul>

In [33]:
# Mari kita terapkan beberapa kondisi untuk memfilter data dan melihat jumlah baris dalam tabel yang telah difilter.
df[df['days_employed'].isna() & df['total_income'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


**Kesimpulan sementara**

<ul>
    <li> jumlah baris dalam tabel yang telah difilter dengan metode isna() sama yaitu : 2174 baris</li>
    <li> Hal ini menunjukkan bahwa filter yang digunakan dalam kode tersebut benar-benar menyaring dataframe dan menampilkan baris yang memenuhi kondisi yang ditentukan</li>
    <li> kesimpulan sementara jumlah baris yang hilang pada kolom 'days_employed' dan 'total_income' adalah sama dan letaknya juga sama, sehingga dapat dikatakan nilai yang hilang simetris</li>
    
</ul>

<h5>Menghitung persentase nilai yang hilang :</h5>
<ul>
    <li> hitung persentase (jumlah nilai yang hilang/jumlah keseluruhan dataset) * 100 
        (2174/21525)* 100 yaitu 10%</li>
    <li> nilai yang hilang merupakan bagian data yang cukup besar</li>
    <li> untuk menentukan apakah nilai yang hilang disebabkan oleh karakteristik nasabah tertentu perlu dilakukan analisis lebih lanjut</li>
</ul>

<h5>langkah selanjutnya dan bagaimana hubungannya dengan kesimpulan : </h5>
<ul>
    <li> terdapat jumlah nilai yang hilang dalam dataset dengan persentase  10% </li> 
    <li> persentase tersebut bisa menjadi masalah atau tidak tergantung pada tujuan analisis data nantinya.</li>
    <li> Untuk langkah selanjutnya nilai yang hilang perlu diisi agar dapat digunakan untuk analisis lebih lanjut.</li>
    <li> Mengevaluasi karakteristik yang mungkin menyebabkan data yang hilang dan mengisi nilai yang hilang dengan metode yang sesuai.</li>

In [34]:
# Mari kita periksa nasabah yang tidak memiliki data tentang karakteristik yang teridentifikasi dan kolom dengan nilai yang hilang
df_filtered = df[df['days_employed'].isna() & df['total_income'].isna()]
df_filtered

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


In [35]:
# Periksalah distribusinya
df_filtered.value_counts()

Series([], dtype: int64)

In [10]:
# Memeriksa distribusi di seluruh *dataset*
columns = df.columns
for column in columns:
    print(f"Distribusi untuk kolom {column}:")
    df_column = df[column]
    percent = df_column.value_counts(normalize=True) * 100
    percent = percent.round(2)
    percent = percent.apply(lambda x: str(x) + '%')
    df_percent = percent.rename('percent').to_frame()
    count = df_column.value_counts()
    df_count = count.rename('count').to_frame()
    df_distribution = pd.concat([df_percent, df_count], axis=1)
    df_distribution.reset_index(inplace=True)
    df_distribution.rename(columns={'index':'unique'}, inplace=True)
    df_distribution = df_distribution[['unique','count','percent']]
    display(df_distribution)


Distribusi untuk kolom children:


Unnamed: 0,unique,count,percent
0,0,14149,65.73%
1,1,4818,22.38%
2,2,2055,9.55%
3,3,330,1.53%
4,20,76,0.35%
5,-1,47,0.22%
6,4,41,0.19%
7,5,9,0.04%


Distribusi untuk kolom days_employed:


Unnamed: 0,unique,count,percent
0,-327.685916,1,0.01%
1,-1580.622577,1,0.01%
2,-4122.460569,1,0.01%
3,-2828.237691,1,0.01%
4,-2636.090517,1,0.01%
...,...,...,...
19346,-7120.517564,1,0.01%
19347,-2146.884040,1,0.01%
19348,-881.454684,1,0.01%
19349,-794.666350,1,0.01%


Distribusi untuk kolom dob_years:


Unnamed: 0,unique,count,percent
0,35,617,2.87%
1,40,609,2.83%
2,41,607,2.82%
3,34,603,2.8%
4,38,598,2.78%
5,42,597,2.77%
6,33,581,2.7%
7,39,573,2.66%
8,31,560,2.6%
9,36,555,2.58%


Distribusi untuk kolom education:


Unnamed: 0,unique,count,percent
0,secondary education,13750,63.88%
1,bachelor's degree,4718,21.92%
2,SECONDARY EDUCATION,772,3.59%
3,Secondary Education,711,3.3%
4,some college,668,3.1%
5,BACHELOR'S DEGREE,274,1.27%
6,Bachelor's Degree,268,1.25%
7,primary education,250,1.16%
8,Some College,47,0.22%
9,SOME COLLEGE,29,0.13%


Distribusi untuk kolom education_id:


Unnamed: 0,unique,count,percent
0,1,15233,70.77%
1,0,5260,24.44%
2,2,744,3.46%
3,3,282,1.31%
4,4,6,0.03%


Distribusi untuk kolom family_status:


Unnamed: 0,unique,count,percent
0,married,12380,57.51%
1,civil partnership,4177,19.41%
2,unmarried,2813,13.07%
3,divorced,1195,5.55%
4,widow / widower,960,4.46%


Distribusi untuk kolom family_status_id:


Unnamed: 0,unique,count,percent
0,0,12380,57.51%
1,1,4177,19.41%
2,4,2813,13.07%
3,3,1195,5.55%
4,2,960,4.46%


Distribusi untuk kolom gender:


Unnamed: 0,unique,count,percent
0,F,14236,66.14%
1,M,7288,33.86%
2,XNA,1,0.0%


Distribusi untuk kolom income_type:


Unnamed: 0,unique,count,percent
0,employee,11119,51.66%
1,business,5085,23.62%
2,retiree,3856,17.91%
3,civil servant,1459,6.78%
4,entrepreneur,2,0.01%
5,unemployed,2,0.01%
6,student,1,0.0%
7,paternity / maternity leave,1,0.0%


Distribusi untuk kolom debt:


Unnamed: 0,unique,count,percent
0,0,19784,91.91%
1,1,1741,8.09%


Distribusi untuk kolom total_income:


Unnamed: 0,unique,count,percent
0,42413.096,2,0.01%
1,17312.717,2,0.01%
2,31791.384,2,0.01%
3,14427.878,1,0.01%
4,20837.034,1,0.01%
...,...,...,...
19343,27715.458,1,0.01%
19344,23834.534,1,0.01%
19345,26124.613,1,0.01%
19346,28692.182,1,0.01%


Distribusi untuk kolom purpose:


Unnamed: 0,unique,count,percent
0,wedding ceremony,797,3.7%
1,having a wedding,777,3.61%
2,to have a wedding,774,3.6%
3,real estate transactions,676,3.14%
4,buy commercial real estate,664,3.08%
5,buying property for renting out,653,3.03%
6,housing transactions,653,3.03%
7,transactions with commercial real estate,651,3.02%
8,housing,647,3.01%
9,purchase of the house,647,3.01%


**Kesimpulan sementara**

<ul>
   <li> pada distribusi seluruh kolom pada dataset, kolom 'days_employed' dan 'total_income memiliki persentase yang sama , mungkin ini disebabkan adanya nilai yang hilang yang cukup besar pada kedua kolom tersebut </li>
   <li>semua nasabah yang tidak memiliki data tentang karakteristik yang teridentifikasi dan kolom dengan nilai yang hilang dapat diabaikan dalam analisis ini </li>
</ul>
 

[Jika menurut Anda kita belum dapat membuat kesimpulan apa pun, mari kita kembali menyelidiki *dataset* lebih lanjut. Mari pikirkan alasan lain yang dapat menyebabkan data hilang dan periksa apakah kita dapat menemukan pola tertentu yang dapat membuat kita berpikir bahwa hilangnya nilai-nilai tersebut tidak terjadi secara acak. Karena ini merupakan tugas Anda, maka bagian ini adalah opsional.]

In [16]:
# Periksa penyebab dan pola lain yang dapat mengakibatkan nilai yang hilang
columns = df.columns
for column in columns:
    print(f"Jumlah data non-null untuk kolom {column}:")
    non_null = df[column].count()
    percent = non_null / df.shape[0] * 100
    df_non_null = pd.DataFrame({'unique':[column], 'count':[non_null], 'percent': [percent]})
    df_non_null["percent"] = df_non_null["percent"].round(2)
    df_non_null["percent"] = df_non_null["percent"].apply(lambda x: str(x) + '%')
    display(df_non_null)


Jumlah data non-null untuk kolom children:


Unnamed: 0,unique,count,percent
0,children,21525,100.0%


Jumlah data non-null untuk kolom days_employed:


Unnamed: 0,unique,count,percent
0,days_employed,19351,89.9%


Jumlah data non-null untuk kolom dob_years:


Unnamed: 0,unique,count,percent
0,dob_years,21525,100.0%


Jumlah data non-null untuk kolom education:


Unnamed: 0,unique,count,percent
0,education,21525,100.0%


Jumlah data non-null untuk kolom education_id:


Unnamed: 0,unique,count,percent
0,education_id,21525,100.0%


Jumlah data non-null untuk kolom family_status:


Unnamed: 0,unique,count,percent
0,family_status,21525,100.0%


Jumlah data non-null untuk kolom family_status_id:


Unnamed: 0,unique,count,percent
0,family_status_id,21525,100.0%


Jumlah data non-null untuk kolom gender:


Unnamed: 0,unique,count,percent
0,gender,21525,100.0%


Jumlah data non-null untuk kolom income_type:


Unnamed: 0,unique,count,percent
0,income_type,21525,100.0%


Jumlah data non-null untuk kolom debt:


Unnamed: 0,unique,count,percent
0,debt,21525,100.0%


Jumlah data non-null untuk kolom total_income:


Unnamed: 0,unique,count,percent
0,total_income,19351,89.9%


Jumlah data non-null untuk kolom purpose:


Unnamed: 0,unique,count,percent
0,purpose,21525,100.0%


**Kesimpulan sementara**
dari hasil diatas kita mendapatkan gambaran :
<ul>
    <li> hanya kolom 'days_employed' dan 'total_income' yang memiliki jumlah nilai yang hilang (19351 dari 21525) persentase yang dimiliki kedua kolom tersebut adalah 89.9%</li>
    <li> dua pola diatas menunjukan jumlah nilai yang hilang pada kedua kolom memang sama yaitu 19351</li>
    <li>Ini menunjukkan bahwa kolom tersebut memiliki nilai yang hilang memerlukan perhatian lebih lanjut dalam analisis</li>
</ul>

In [19]:
# Periksa pola lainnya - jelaskan pola tersebut
df_not_null = df.dropna()
columns = df_not_null.columns
df_non_null = pd.DataFrame(columns=["unique","count","percent"])
for column in columns:
    non_null = df_not_null[column].count()
    percent = non_null / df_not_null.shape[0] * 100
    df_non_null = df_non_null.append({'unique':column, 'count':non_null, 'percent': percent}, ignore_index=True)
df_non_null["percent"] = df_non_null["percent"].round(2)
df_non_null["percent"] = df_non_null["percent"].apply(lambda x: str(x) + '%')
display(df_non_null)

Unnamed: 0,unique,count,percent
0,children,19351,100.0%
1,days_employed,19351,100.0%
2,dob_years,19351,100.0%
3,education,19351,100.0%
4,education_id,19351,100.0%
5,family_status,19351,100.0%
6,family_status_id,19351,100.0%
7,gender,19351,100.0%
8,income_type,19351,100.0%
9,debt,19351,100.0%


**Kesimpulan** <a id='kesimpulan1'></a>

<h5> Pola dan Kesimpulan </h5>
<ul>
    <li> pola nilai yang hilang pada kolom 'days_employed' dan 'total_income'tidak acak</li> 
    <li> jumlah nilai yang hilang pada kolom 'days_employed' dan 'total_income' sama , dan ketika dilakukan pemfilteran dengan menggunakan fungsi dropna(), nilai - nilai pada semua kolom menunjukan jumlah yang sama.</li>
<ul>

<h5> Penanganan nilai yang hilang</h5>
<ul>
   <li> nilai yang hilang kedua kolom yaitu 'days_employed' dan 'total_income' merupakan kategori kuantitatif.</li>
   <li> untuk kolom 'total_income' kemungkinan memiliki outlier, jadi penangananya akan berbeda dengan 'days_employed'
'days_employed' dengan metode mean(), dan 'total_income' dengan median().</li>

 <h5> rencana singkat dan langkah berikutnya </h5>
<ul>
    <li> memeriksa nilai - nilai yang terduplikasi pada DataFrame</li>
    <li> mengganti nilai yang hilang pada DataFrame</li>
    <li> mentranformasi data jika terdapat huruf besar kecil yang tidak sesuai, angka negatif, atau tipe data yang tidak sesuai</li>
    </ul>

## Transformasi data <a id='transform'></a>

[Mari kita perhatikan setiap kolom untuk melihat masalah apa yang mungkin dimiliki mereka.]

[Mulailah dengan menghapus duplikat dan memperbaiki data tentang informasi pendidikan jika diperlukan.]

<h5> penjelasan kolom education</h5> 
<ul>
    <li> kolom 'education' memiliki masalah pada tipe data yaitu adanya huruf besar dan kecil yang dapat diatasi dengan metode str.lower()</li>
    <li> terdapat duplikasi karena program tidak dapat membedakan bahwa data tersebut terduplikasi karena huruf besar dan kecil</li>
    <li> setelah menerapkan metode str_lower(), kemudian dilakukan drop_duplicates() untuk hapus duplikasi</li>
</ul>

In [52]:
# Mari kita lihat semua nilai di kolom pendidikan untuk memeriksa ejaan apa yang perlu diperbaiki
df['education'].value_counts()

secondary education    13750
bachelor's degree       4718
SECONDARY EDUCATION      772
Secondary Education      711
some college             668
BACHELOR'S DEGREE        274
Bachelor's Degree        268
primary education        250
Some College              47
SOME COLLEGE              29
PRIMARY EDUCATION         17
Primary Education         15
graduate degree            4
Graduate Degree            1
GRADUATE DEGREE            1
Name: education, dtype: int64

In [53]:
# Perbaiki pencatatan jika diperlukan
df['education'] = df['education'].str.lower()

In [54]:
# Periksa semua nilai di kolom untuk memastikan bahwa kita telah memperbaikinya dengan tepat
df['education'].drop_duplicates().reset_index(drop=True)

0      bachelor's degree
1    secondary education
2           some college
3      primary education
4        graduate degree
Name: education, dtype: object

[Periksa data kolom `children`]

In [98]:
# Mari kita lihat distribusi nilai pada kolom `children`
df['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

<h5> Kesimpulan kolom 'children' adalah : </h5>
<ul>
  <li> datanya memiliki nilai negatif yang mana ini tidak mungkin terjadi karena kolom 'children' merupakan data keterangan jumlah anak dari seorang nasabah</li>
  <li> adanya nilai 20 yang mana kurang sesuai walaupun memungkinkan, namun harus diperbaiki karena ini bisa terjadi krena salah penginputan</li>
</ul>


In [99]:
# [perbaiki data berdasarkan keputusan Anda]
df = df[(df['children'] != 20) ] 
df= df[(df['children'] != -1) ] 

In [17]:
# Periksa kembali kolom `children` untuk memastikan bahwa semuanya telah diperbaiki
df['children'].value_counts()

0    14149
1     4818
2     2055
3      330
4       41
5        9
Name: children, dtype: int64

<h5> Pemeriksaan data kolom 'days_employed' dan langkah selanjutnya </h5>
<ul>
  <li> adanya nilai yang hilang berupa NaN yang dapat mendistorsi hasil pada saat melakukan pengelompokan data</li>
  <li> metode isna() diterapkan untuk mendeteksi nilai yang hilang pada kolom 'days_employed'</li>
  <li>nilai pada kolom days_employed juga negatif, agar tidak negatif tipoe datanya diganti int dengan metode abs()</li>

In [55]:
# Temukan data yang bermasalah di kolom `days_employed` jika memang terdapat masalah, dan hitung persentasenya
days_employed_data = df[df['days_employed'].isna()]
days_employed_count = days_employed_data.shape[0]
days_employed_percentage = days_employed_count / df.shape[0] * 100
days_employed_percentage

10.099883855981417

[Jika jumlah data yang bermasalah tinggi, hal tersebut mungkin disebabkan oleh beberapa masalah teknis. Kita mungkin perlu mengusulkan alasan paling jelas mengapa hal tersebut dapat terjadi dan bagaimana seharusnya data yang benar, mengingat kita tidak dapat menghapus baris yang bermasalah ini.]

In [56]:
# Atasi nilai yang bermasalah, jika ada
df['days_employed'] = df['days_employed'].abs()

In [102]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
df['days_employed'].value_counts()

142.276217     1
402.974768     1
3601.450735    1
1849.622944    1
5849.845620    1
              ..
3951.652030    1
847.043824     1
1745.884477    1
1801.512744    1
1636.419775    1
Name: days_employed, Length: 19240, dtype: int64

[Sekarang mari kita lihat usia nasabah dan mengecek apakah terdapat masalah di sana. Sekali lagi, pikirkan tentang kemungkinan kejanggalan apa yang bisa kita temui dalam kolom ini, misalnya angka usia yang tidak masuk akal.]

In [103]:
# Periksa `dob_years` untuk nilai yang mencurigakan dan hitung persentasenya
df['dob_years'].value_counts()

35    614
40    603
41    603
34    597
38    595
42    592
33    577
39    572
31    556
36    553
29    543
44    543
48    536
30    536
37    531
43    510
50    509
32    506
49    505
28    501
45    494
27    490
52    483
56    482
47    480
54    476
46    469
58    461
53    457
57    457
51    446
59    441
55    441
26    406
60    376
25    356
61    353
62    351
63    268
24    263
64    263
23    252
65    194
66    183
22    183
67    167
21    110
0     100
68     99
69     83
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

<h5> menangani nilai yang bermasalah pada kolom 'dob_years' dan langkah selanjutnya </h5>
<ul>
    <li>terdapat nilai yang salah, keran ini usia nasabah jadi tidak mungkin ada angka 0, 2 dan 1, mungkin metode mean() dapat memperbaiki kesalahan nilai tersebut</li>
</ul>

In [104]:
# Atasi masalah pada kolom `dob_years`, jika terdapat masalah
df.loc[df['dob_years'] == 0, 'dob_years'] = df['dob_years'].mean()
df.loc[df['dob_years'] == 1, 'dob_years'] = df['dob_years'].mean()
df.loc[df['dob_years'] == 2, 'dob_years'] = df['dob_years'].mean()

In [105]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
df['dob_years'].value_counts().sort_values(ascending=False)

35.000000    614
41.000000    603
40.000000    603
34.000000    597
38.000000    595
42.000000    592
33.000000    577
39.000000    572
31.000000    556
36.000000    553
44.000000    543
29.000000    543
30.000000    536
48.000000    536
37.000000    531
43.000000    510
50.000000    509
32.000000    506
49.000000    505
28.000000    501
45.000000    494
27.000000    490
52.000000    483
56.000000    482
47.000000    480
54.000000    476
46.000000    469
58.000000    461
57.000000    457
53.000000    457
51.000000    446
55.000000    441
59.000000    441
26.000000    406
60.000000    376
25.000000    356
61.000000    353
62.000000    351
63.000000    268
64.000000    263
24.000000    263
23.000000    252
65.000000    194
66.000000    183
22.000000    183
67.000000    167
21.000000    110
43.300206    100
68.000000     99
69.000000     83
70.000000     65
71.000000     58
20.000000     51
72.000000     33
19.000000     14
73.000000      8
74.000000      6
75.000000      1
Name: dob_year

[Sekarang saatnya memeriksa kolom `family_status`. Periksalah nilai seperti apa yang dimuat di dalam kolom ini dan masalah apa yang mungkin perlu Anda atasi.]

In [112]:
# Mari kita lihat nilai untuk kolom ini
df['family_status'].value_counts()

married              12302
civil partnership     4160
unmarried             2799
divorced              1189
widow / widower        952
Name: family_status, dtype: int64

In [109]:
# Atasi nilai yang bermasalah di `family_status`, jika ada


In [110]:
# Periksa hasilnya - pastikan nilainya telah diperbaiki




<h5> Mengatasi kolom 'gender' </h5>
<ul>
    <li>terdapat nilai XNA pada kolom 'gender' yang seharusnya hanya berisi M untuk Male dan F untuk Female</li>
    <li> penanganan masalah tersebut adalah dengan menghapus nilai XNA</li>
</ul>

In [113]:
# Mari kita liat nilai dalam kolom ini
df['gender'].value_counts()

F      14154
M       7247
XNA        1
Name: gender, dtype: int64

In [114]:
# Atasi nilai-nilai yang bermasalah, jika ada
df = df[df['gender'] != 'XNA']

In [115]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
df['gender'].value_counts()


F    14154
M     7247
Name: gender, dtype: int64



<h5> tidak ada masalah</h5>

In [120]:
# Mari kita lihat nilai dalam kolom ini
df['income_type'].value_counts()

employee                       11050
business                        5053
retiree                         3839
civil servant                   1453
unemployed                         2
entrepreneur                       2
paternity / maternity leave        1
student                            1
Name: income_type, dtype: int64

In [31]:
# Atasi nilai yang bermasalah, jika ada

In [117]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki



In [None]:
# Periksa duplikat
df.duplicated().sum()

71

In [122]:
# Atasi duplikat, jika ada
df=df.drop_duplicates().reset_index(drop=True)

In [123]:
# Lakukan pemeriksaan terakhir untuk mengecek apakah kita memiliki duplikat
df.duplicated().sum()

0

In [124]:
# Periksa ukuran dataset yang sekarang Anda miliki setelah manipulasi pertama yang Anda lakukan
df.shape

(21330, 12)


<h5> hasilnya berbeda , dataset awal : (21525, 12), ukuran dataset saat ini : (21330, 12). ini bisa terjadi karena telah hilangkan duplikasi pada dataset persentase perubahaan = (ukuran baru - ukuran lama) / ukuran lama *100 yaitu 0.90%</h5>

# Bekerja dengan nilai yang hilang <a id='hilang'></a>

[Untuk mempercepat pekerjaan dengan sejumlah data, Anda mungkin ingin menggunakan *dictionary* untuk beberapa nilai yang memiliki ID. Jelaskan mengapa dan *dictionary* apakah yang akan Anda gunakan.]
<h5> dengan metode groupby dan agg akan mengelompokkan dataframe Anda berdasarkan kolom 'education_id' dan menghitung jumlah unik ('count') dan jumlah ('sum') dari kolom 'education' untuk setiap grup. begitu juga dengan kolom 'family_status_id' dengan kolom 'family_status'. Menggunakan dictionary dapat mempercepat proses kerja dengan data karena dictionary memungkinkan akses cepat dan efisien ke nilai yang telah ditentukan </h5>

In [37]:
# Temukan dictionary
df_grouped = df.groupby('family_status').agg({'family_status_id': ['count', 'sum']})
df_grouped

Unnamed: 0_level_0,family_status_id,family_status_id
Unnamed: 0_level_1,count,sum
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2
civil partnership,4145,4145
divorced,1189,3567
married,12266,0
unmarried,2796,11184
widow / widower,951,1902


### Memperbaiki nilai yang hilang di `total_income` <a id='total'></a>

[Jelaskan secara singkat kolom dengan nilai yang hilang manakah yang perlu Anda tangani. Jelaskan bagaimana Anda akan memperbaikinya.]
<h5> kolom 'days_employed' dan 'total_income', karena nilai yang hilang telah diketahui sebagai NaN dan kita tidak bisa menghapus nilai yang hilang tersebut , dan kedua kolom merupakan kategori kuantitatif maka akan diisi dengan mean() atau median() menggunakan metode fillna() </h5>


[Mulailah dengan mengatasi total nilai pendapatan yang hilang. Buatlah kategori usia untuk nasabah. Buatlah kolom baru yang memuat kategori usia. Strategi ini dapat membantu untuk menghitung total nilai pendapatan.]


In [125]:
# Mari kita tulis sebuah fungsi untuk menghitung kategori usia
def age_category(age):
    if age < 20:
        return "Under 20"
    elif age >= 20 and age < 30:
        return "20-29"
    elif age >= 30 and age < 40:
        return "30-39"
    elif age >= 40 and age < 50:
        return "40-49"
    elif age >= 50 and age < 60:
        return "50-59"
    elif age >= 60 and age < 70:
        return "60-69"
    elif age >= 70:
        return "Above 70"
    else:
        return "Unknown"

In [126]:
# Lakukan pengujian untuk melihat apakah fungsi Anda bekerja atau tidak
age_category(35)

'30-39'

In [127]:
# Buatlah kolom baru berdasarkan fungsi
df['age_category'] = df['dob_years'].apply(age_category)

In [41]:
# Periksa bagaimana nilai di dalam kolom baru
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,education_lower,age_category
0,1,8437.673028,42.0,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,bachelor's degree,40-49
1,1,4024.803754,36.0,secondary education,1,married,0,F,employee,0,17932.802,car purchase,secondary education,30-39
2,0,5623.42261,33.0,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house,secondary education,30-39
3,3,4124.747207,32.0,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,secondary education,30-39
4,0,340266.072047,53.0,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,secondary education,50-59
5,0,926.185831,27.0,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,bachelor's degree,20-29
6,0,2879.202052,43.0,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,bachelor's degree,40-49
7,0,152.779569,50.0,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education,secondary education,50-59
8,2,6929.865299,35.0,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding,bachelor's degree,30-39
9,0,2188.756445,41.0,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,secondary education,40-49


[Pikirkan tentang faktor-faktor yang biasanya bergantung pada pendapatan. Pada akhirnya, Anda akan mengetahui apakah Anda harus menggunakan nilai rata-rata atau median untuk mengganti nilai yang hilang. Untuk membuat keputusan ini, Anda mungkin ingin melihat distribusi faktor-faktor yang Anda identifikasi sebagai dampak dari pendapatan seseorang.]

[Buatlah tabel yang hanya memuat data tanpa nilai yang hilang. Data ini akan digunakan untuk memperbaiki nilai yang hilang.]

In [128]:
# Buat tabel tanpa nilai yang hilang dan tampilkan beberapa barisnya untuk memastikan semuanya berjalan dengan baik
df.dropna(subset=['days_employed', 'total_income'])
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_category
0,1,8437.673028,42.0,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40-49
1,1,4024.803754,36.0,secondary education,1,married,0,F,employee,0,17932.802,car purchase,30-39
2,0,5623.42261,33.0,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,30-39
3,3,4124.747207,32.0,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,30-39
4,0,340266.072047,53.0,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,50-59
5,0,926.185831,27.0,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,20-29
6,0,2879.202052,43.0,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,40-49
7,0,152.779569,50.0,secondary education,1,married,0,M,employee,0,21731.829,education,50-59
8,2,6929.865299,35.0,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,30-39
9,0,2188.756445,41.0,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,40-49


In [129]:
# Perhatikan nilai rata-rata untuk pendapatan berdasarkan faktor yang telah Anda identifikasi
df['total_income'].mean()

26791.503175061076

In [130]:
# Perhatikan nilai median untuk pendapatan berdasarkan faktor yang telah Anda identifikasi
df['total_income'].median()

23202.87

[Ulangi perbandingan tersebut untuk beberapa faktor. Pastikan Anda mempertimbangkan berbagai aspek dan menjelaskan proses berpikir Anda.]



[Buatlah keputusan tentang karakteristik yang paling menentukan pendapatan dan apakah Anda akan menggunakan median atau rata-rata. Jelaskan mengapa Anda membuat keputusan ini]
<h5> median(), 'total_income' merupakan kategori kuantitatif yang kemungkinan memiliki outlier, jadi median akan lebih tepat digunakan </h5>

In [271]:
#  Tulis fungsi yang akan kita gunakan untuk mengisi nilai yang hilang
def fill_nan_median(dataframe, agg_column, value_column):
    grouped_values = dataframe.groupby(agg_column)[value_column].median().reset_index()
    size = len(grouped_values)
    for i in range(size):
        group = grouped_values[agg_column][i]
        values = grouped_values[value_column][i]
        dataframe.loc[(dataframe[agg_column]==group) & (dataframe[value_column].isna()), value_column] = values
    return dataframe


In [272]:
# Memeriksa bagaimana nilai di dalam kolom baru
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding


In [274]:
# Terapkan fungsi tersebut ke setiap baris
fill_nan_median(df, 'children', 'total_income')

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21521,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21522,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


In [275]:
# Periksa apakah kita mendapatkan kesalahan
df['total_income'].isna().sum()

0

[Jika Anda menemukan kesalahan dalam menyiapkan nilai untuk data yang hilang, kemungkinan ada sesuatu yang istimewa tentang data untuk kategori tersebut. Mari pikirkan - Anda mungkin ingin memperbaiki beberapa hal secara manual, jika terdapat cukup data untuk menemukan median/rata-rata.]


In [49]:
# Ganti nilai yang hilang jika terdapat kesalahan


[Setelah Anda selesai dengan `total_income`, periksa apakah jumlah total nilai di kolom ini sesuai dengan jumlah nilai di kolom lain.]

In [276]:
# Periksa jumlah entri di kolom
df.count()

children            21525
days_employed       19351
dob_years           21525
education           21525
education_id        21525
family_status       21525
family_status_id    21525
gender              21525
income_type         21525
debt                21525
total_income        21525
purpose             21525
dtype: int64

###  Memperbaiki nilai di `days_employed` <a id='employed'></a>

[Pikirkan tentang parameter yang dapat membantu Anda memperbaiki nilai yang hilang di kolom ini. Pada akhirnya, Anda akan mengetahui apakah Anda harus menggunakan nilai rata-rata atau median untuk mengganti nilai yang hilang. Anda mungkin perlu melakukan penelitian yang sama dengan yang Anda lakukan saat memperbaiki data di kolom sebelumnya.]

In [171]:
# Distribusi median dari `days_employed` berdasarkan parameter yang Anda identifikasi
df.groupby(['family_status'])['days_employed'].median()

family_status
civil partnership      1942.742034
divorced               2400.189289
married                2307.664398
unmarried              1464.797517
widow / widower      336995.172530
Name: days_employed, dtype: float64

In [172]:
# Distribusi rata-rata dari `days_employed` berdasarkan parameter yang Anda identifikasi
df.groupby(['family_status'])['days_employed'].median()

family_status
civil partnership      1942.742034
divorced               2400.189289
married                2307.664398
unmarried              1464.797517
widow / widower      336995.172530
Name: days_employed, dtype: float64

[Tentukan apa yang akan Anda gunakan: rata-rata atau median. Jelaskan mengapa.]

<ul>
  <li>median lebih cocok digunakan untuk mengisi nilai yang hilang dari kolom 'days_employed' daripada rata-rata. Hal ini karena median merupakan nilai tengah dari sebuah distribusi data.</li>
  <li>Nilai mean dari 'days_employed' pada beberapa kategori 'family_status' cukup tinggi seperti 'widow / widower' yang menyebabkan mean yang dihasilkan jauh lebih tinggi dari median, oleh karena saya akan gunakan median() </li>
</ul>

In [53]:
# Mari tulis fungsi yang menghitung rata-rata atau median (tergantung keputusan Anda) berdasarkan parameter yang Anda identifikasi
df.groupby(['family_status'])['days_employed'].median()

family_status
civil partnership      1942.742034
divorced               2400.189289
married                2307.664398
unmarried              1464.797517
widow / widower      336995.172530
Name: days_employed, dtype: float64

In [277]:
# Periksa apakah fungsi Anda dapat bekerja
fill_nan_median(df, 'family_status', 'days_employed')

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21521,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21522,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


In [185]:
# Terapkan fungsi ke income_type
fill_nan_median(df, 'income_type', 'days_employed')

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_category,total_median
0,1,8437.673028,42.0,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40-49,
1,1,4024.803754,36.0,secondary education,1,married,0,F,employee,0,17932.802,car purchase,30-39,
2,0,5623.422610,33.0,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,30-39,
3,3,4124.747207,32.0,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,30-39,
4,0,340266.072047,53.0,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,50-59,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21325,1,4529.316663,43.0,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,40-49,
21326,0,343937.404131,67.0,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,60-69,
21327,1,2113.346888,38.0,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,30-39,
21328,3,3112.481705,38.0,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,30-39,


In [186]:
# Periksa apakah fungsi Anda bekerja
df.groupby(['income_type'])['days_employed'].value_counts()


income_type  days_employed
business     2307.664398      270
             1942.742034      108
             1464.797517       79
             2400.189289       29
             336995.172530     11
                             ... 
retiree      401715.811749      1
             401755.400475      1
student      578.751554         1
unemployed   337524.466835      1
             395302.838654      1
Name: days_employed, Length: 19259, dtype: int64

In [187]:
# Ganti nilai yang hilang
df['days_employed'].fillna(df['days_employed'].median(), inplace=True)

In [188]:
# Periksa entri di semua kolom - pastikan kita memperbaiki semua nilai yang hilang
df.count()

children            21330
days_employed       21330
dob_years           21330
education           21330
education_id        21330
family_status       21330
family_status_id    21330
gender              21330
income_type         21330
debt                21330
total_income        21330
purpose             21330
age_category        21330
total_median            0
dtype: int64

## Pengkategorian Data <a id='category'></a>

[Untuk menjawab pertanyaan dan menguji hipotesis, Anda akan bekerja dengan data yang telah dikategorikan. Lihatlah pertanyaan-pertanyaan yang diajukan kepada Anda dan yang harus Anda jawab. Pikirkan tentang data mana yang perlu dikategorikan untuk menjawab pertanyaan-pertanyaan ini. Di bawah ini, Anda akan menemukan templat yang bisa Anda gunakan untuk mengkategorikan data. Proses pertama mencakup data teks; yang kedua membahas data numerik yang perlu dikategorikan. Anda dapat menggunakan kedua petunjuk yang disarankan atau tidak sama sekali - semuanya terserah Anda.]

[Terlepas dari keputusan Anda untuk mengatasi pengkategorian, pastikan bahwa Anda secara lugas memberikan penjelasan tentang mengapa Anda membuat keputusan tersebut. Ingat: ini adalah pekerjaan Anda dan hanya Anda yang berhak membuat segala keputusan.]


In [189]:
# Tampilkan nilai data yang Anda pilih untuk pengkategorian

df.pivot_table(index='income_type', values='debt', aggfunc='count', margins=True)

Unnamed: 0_level_0,debt
income_type,Unnamed: 1_level_1
business,5046
civil servant,1451
employee,11015
entrepreneur,2
paternity / maternity leave,1
retiree,3812
student,1
unemployed,2
All,21330


[Mari kita memeriksa nilai unik]

In [190]:
# Periksa nilai unik
df['income_type'].unique()

array(['employee', 'retiree', 'business', 'civil servant', 'unemployed',
       'entrepreneur', 'student', 'paternity / maternity leave'],
      dtype=object)


<h5> kelompok income_type, banyak kolom yang bisa dikategorikan sebagai upaya indentifikasi gagal bayar seorang nasabah, dalam kasus ini saya mencoba dengan income_type yaitu jenis pekerjaan nasabah sebagai kategori data tesk dan debt sebagai kategori data numerik</h5>

[Kita akan mengkategorikan data kita berdasarkan topik ini.]


In [61]:
# Mari kita tulis sebuah fungsi untuk mengategorikan data berdasarkan topik umum
def income_category(job):
    if job == 'employee'and 'civil servant': 
        return 'employed'
    elif job == 'businnes' and 'interpreneur':
        return 'self-employed'
    elif job == 'paternity / maternity leave':
        return 'paid leave'
    else :
        return 'unemployed'
    


In [62]:
# Buat kolom yang memuat kategori dan hitung nilainya
df['income_category'] = df['income_type'].apply(income_category)
df['income_category'].count()

21347

[Jika Anda memutuskan untuk mengategorikan data numerik, Anda juga harus membuat kategori untuk data tersebut.]

In [63]:
# Lihat semua data numerik di kolom yang Anda pilih untuk pengkategorian
df['debt'].value_counts()

0    19615
1     1732
Name: debt, dtype: int64

In [64]:
# Dapatkan kesimpulan statistik untuk kolomnya
df['debt'].describe()

count    21347.000000
mean         0.081136
std          0.273050
min          0.000000
25%          0.000000
50%          0.000000
75%          0.000000
max          1.000000
Name: debt, dtype: float64


<h5> 0 yang berarti belum pernah gagal bayar dan 1 yaitu pernah gagal bayar, ini akan menjadi acuan track record peminjaman nasabah</h5>

In [65]:
# Buat fungsi yang melakukan pengkategorian menjadi kelompok numerik yang berbeda berdasarkan rentang
def debt_category(debt):
    if debt == 0 :
        return "belum pernah gagal bayar"
    else :
        return "sudah pernah gagal bayar"


In [66]:
# Buat kolom yang memuat kategori
df['debt_category'] = df['debt'].apply(debt_category)

In [67]:
# Hitung setiap nilai kategori untuk melihat pendistribusiannya
df['debt_category'].count()

21347

## Memeriksa hipotesis <a id='hipotesis'></a>


**Apakah terdapat korelasi antara memiliki anak dengan probabilitas melakukan gagal bayar pinjaman?**

In [68]:
# Periksa data anak dan data gagal bayar pinjaman

df['children'].value_counts()

df['debt'].value_counts()


# Hitung persentase gagal bayar berdasarkan jumlah anak
df.groupby('children')['debt'].mean().sort_values(ascending=False)


children
4    0.097561
2    0.094542
1    0.092327
3    0.081818
0    0.075358
5    0.000000
Name: debt, dtype: float64

**Kesimpulan**

[Tulis kesimpulan Anda berdasarkan manipulasi dan pengamatan yang Anda lakukan.]
<ul>
    <li> Pada jumlah anak 0, sekitar 7.54% nasabah pernah gagal bayar pinjaman</li>
    <li> Pada jumlah anak 1, sekitar 9.23% nasabah pernah gagal bayar pinjaman</li>
    <li> Pada jumlah anak 2, sekitar 9.45% nasabah pernah gagal bayar pinjaman</li>
    <li> Pada jumlah anak 3, sekitar 8.18% nasabah pernah gagal bayar pinjaman</li>
    <li> Pada jumlah anak 4, sekitar 9.76% nasabah pernah gagal bayar pinjaman</li>
    <li> Pada jumlah anak 5, tidak ada nasabah yang pernah gagal bayar pinjaman</li>
    <li> ternyata kepemilikan banyak anak belum tentu berhubungan dengan gagalnya nasabah membayar pinjaman</li>



**Apakah terdapat korelasi antara status keluarga dengan probabilitas melakukan gagal bayar pinjaman?**
<ul>
<li>terdapat korelasi, namun jumlah anak pada kasus ini tidak menentukan apakah seorang nasabah bisa gagal bayar, misal nasabah yang memiliki 5 anak ternyata belum ada track record gagal bayar, namun hal ini juga bisa disebabkan karena sedikitnya nasabah yang memiliki 5 anak atau mungkin juga nasabah - nasabah yang memiliki anak 5 adalah nasabah - nasabah yang pendapatanya cukup besar</li>

In [69]:
# Periksa data status keluarga dan data gagal bayar pinjaman
df['family_status'].value_counts()
df['debt'].value_counts()

# Hitung persentase gagal bayar berdasarkan status keluarga

df.groupby('family_status')['debt'].mean().sort_values(ascending=False)


family_status
unmarried            0.097639
civil partnership    0.092883
married              0.075575
divorced             0.070648
widow / widower      0.066246
Name: debt, dtype: float64

**Kesimpulan**

[Tulis kesimpulan Anda berdasarkan manipulasi dan pengamatan Anda.]
<ul>
    <li> status civil partnership 9.29% </li>
    <li>status divorced 7.1% </li>
    <li>status married 7.56% </li>
    <li>status unmarried 9.77% </li>
    <li>status widow 0.66% </li>
    <li>ternyata status unmarried menempati urutan teratas, dan widow paling bawah atau paling sedikit untuk resiko gagal bayar</li>


**Apakah terdapat korelasi antara tingkat pendapatan dengan probabilitas melakukan gagal bayar pinjaman?**
<h5> pastinya ada , karena berpengaruh terhadap pembayaran kredit, namun nasabah dengan pendapatan paling kecil belum tentu akan gagal bayar begitupun dengan nasabah yang dengan pendapatan tinggi belum tentu akan terhindar dari gagal bayar</h5>

In [70]:
# Periksa data tingkat pendapatan dan data gagal bayar pinjaman
df['total_income'].value_counts()
df['debt'].value_counts()

# Hitung persentase gagal bayar berdasarkan tingkat pendapatan

df.groupby('total_income')['debt'].mean().sort_values(ascending=False)


total_income
3306.762      1.0
19975.104     1.0
19744.945     1.0
19747.039     1.0
19765.533     1.0
             ... 
20194.323     0.0
20195.680     0.0
20197.859     0.0
20201.953     0.0
362496.645    0.0
Name: debt, Length: 19236, dtype: float64

**Kesimpulan**

[Tulis kesimpulan Anda berdasarkan manipulasi dan pengamatan Anda.]
<ul>
  <li> belum dapat disimpulkan dengan jelas karena nilainya sangat beragam, namun tinggi rendahnya nilai pendapatan belum tentu membuat nasabah tidak membayar / gagal bayar.</li>
  <li> Banyak faktor lain yang mempengaruhi sebagai contoh pendapatan tinggi namun komsumtif atau pendapatan relatif namun selalu bisa menabung dan menyisihkan untuk cicilan kredit, tentu hal - hal demikian sebagai perilaku nasabah terhadap pendapatan mereka masing - masing sangat variatif</li>

**Bagaimana tujuan kredit memengaruhi persentase gagal bayar?**
<ul>
   <li> Tujuan kredit dapat memengaruhi persentase gagal bayar karena dapat mempengaruhi kemampuan nasabah untuk membayar cicilan. Misalnya, jika tujuan kredit adalah untuk membeli rumah atau mobil, maka nasabah mungkin memiliki kemampuan yang lebih baik untuk membayar cicilan karena memiliki aset yang dapat digunakan sebagai jaminan.</li>
   <li>Sebaliknya, jika tujuan kredit adalah untuk keperluan konsumtif seperti liburan atau pembelian barang elektronik, maka nasabah mungkin memiliki kemampuan yang lebih buruk untuk membayar cicilan karena tidak memiliki aset yang dapat digunakan sebagai jaminan.</li>

   <li>Selain itu, beberapa tujuan kredit juga dapat mempengaruhi motivasi nasabah untuk membayar cicilan. Misalnya, jika tujuan kredit adalah untuk memulai bisnis, nasabah mungkin memiliki motivasi yang lebih tinggi untuk membayar cicilan karena memiliki harapan untuk menghasilkan pendapatan yang lebih tinggi.</li>

In [71]:
# Periksa persentase tingkat gagal bayar untuk setiap tujuan kredit dan lakukan penganalisisan
df.groupby('purpose')['debt'].mean().sort_values(ascending=False)


purpose
to get a supplementary education            0.114607
purchase of a car                           0.109890
getting higher education                    0.108235
second-hand car purchase                    0.106029
profile education                           0.101852
to own a car                                0.099156
to become educated                          0.095588
to buy a car                                0.093617
cars                                        0.092437
car purchase                                0.091503
buying my own car                           0.091270
university education                        0.089686
building a property                         0.087237
going to university                         0.086694
supplementary education                     0.083516
car                                         0.083503
real estate transactions                    0.081845
getting an education                        0.081818
wedding ceremony                      

**Kesimpulan**

<h5>kesimpulan Anda berdasarkan manipulasi dan pengamatan</h5>
<ul>
    <li> tujuan untuk mendapatkan pendidikan tambahan nampak menempati urutan teratas pada data nasabah hal ini tentu ada pengaruhnya mengingat pendidikan saat ini biaya nya sangat tinggi</li>
    <li> kemudian diikuti dengan membeli mobil karena mungkin merupakan kebutuhan namun juga bisa bersifat komsumtif. Pembelian properti, real estate, dan rumah menempati urutan bawah, bisa disebabkan karena nasabah menyewakan atau menjual kembali properti tersebut sehingga kembali mendapatkan keuntungan sehingga mampu menurunkan resiko gagal bayar kredit</li>
</ul>


# Kesimpulan umum * <a id='end'></a>

[Tuliskan kesimpulan Anda di bagian akhir ini. Pastikan Anda memasukkan semua kesimpulan penting yang telah Anda buat berkaitan dengan cara Anda memproses dan menganalisis data. Kesimpulan tersebut harus membahas nilai yang hilang, duplikat, dan kemungkinan alasan serta solusi untuk data bermasalah yang harus Anda tangani.]
<h5> nilai yang hilang :</h5>
<ul>
   <li> setelah menerapkan metode info() ternyata data memiliki nilai yang hilang pada dua kolom yaitu 'days_employed' dan 'total_income' dan data tersebut adalah NaN</li>
    <li> setelah menerapkan metode dropna() dan isna()sum() untuk memfilter nilai yang hilang dan mengecek kembali nilai - nilai yang hilang tersebut , dapat diketahui bahwa nilai yang hilang simetris atau dalam baris yang sama dan tidak acak.</li>
    <li> Karena nilai yang hilang dalam kategori kuantitatif , numerik dan nilainya adalah NaN maka data yang hilang akan diganti dengan metode fillna() , dan menentukan nilainya dengan median() karena nilai mean() menghasilkan nilai yang terlampau besar atau tidak mendekati nilai - nilai pada kolomnya</li>
</ul>

 <h5> nilai duplikasi :</h5>
 <ul>
   <li> setelah melihat distribusi data dengan motode value_counts() terdapat duplikasi pada beberapa kolom dan juga kesalahan huruf besar dan kecil</li>
   <li>metode str.lower() akan membuat nilai - nilai pada kolom menjadi huruf kecil semua sehingga library Pandas akan mendeteksi adanya duplikasi</li>
    <li>lalu metode drop_duplicates() diterapkan untuk menghapus diplikasi.</li>
</ul>


<p> setelah menghapus duplikasi dan mengisi nilai yang hilang, metode value_counts() diterapkan kembali untuk melihat distribusi data setelah dilakukan pengisian niai yang hilang dan penghapusan duplikat, dan masing - masing berisi data sebesar 21347, sehingga dapat disimpulkan bahwa data yang hilang sebesar 0.82%.</p>

<p> penulisan nama kolom sudah baik, data yang bermasalah hanya pada nilai yang hilang, duplikasi, nilai yang negatif dan pacahan pada kolom yang seharusnya bernilai bulat (interger), penamaan baris yang bermasalah yaitu huruf besar kecil, nilai yang tidak wajar atau tidak sesuai sebagai contoh di kolom 'children' dengan nilai -1 lalu di kolom 'dob_years' dengan nilai 0. kemungkinan kesalahan-kesalahan ini terjadi karena masalah penginputan atau pemformatan data. Solusi nya adalah dengan metode info() dan value_counts() serta describe() pada awal penerimaan data untuk dilakukan pengecekan pada kolom - kolom yang bermasalah kemudian menerapkan metode - metode untuk mengatasi nilai yang hilang jika ada dan juga duplikasi jika ditemukan, selanjutkan mengubah dan mengkategorikan data untuk memudahkan analisis data berikutnya</p>

[Tuliskan juga kesimpulan Anda mengenai pertanyaan-pertanyaan yang diajukan di sini.]
<p> saat awal melihat informasi data secara keseluruhan belum dapat dipastikan penyebab nasabah gagal bayar kredit, namun setelah dilakukan beberapa analisis dengan banyak metode - metode yang diterapkan, ternyata tujuan penggunaan kredit memiliki peran yang cukup besar dalam resiko nasabah gagal bayar pinjaman, walaupun tidak dapat dikesampingkan juga faktor - faktor lain seperti 'family_status', 'total_income', 'income_type', 'children' yang pastinya memiliki korelasi dalam resiko gagal bayar seorang nasabah dan tentu saja 'dob_years' saya rasa juga berkontribusi, karena ada kemungkinan usia produktif atau usia lanjut seorang nasabah dapat mempengaruhi pekerjaan dan income nasabah sehingga berimbas pada habit pembayaran kredit nasabah. </p>
