# Menganalisis risiko peminjam gagal membayar

Proyek Anda ialah menyiapkan laporan untuk bank bagian kredit. Anda harus mencari tahu pengaruh status perkawinan seorang nasabah dan jumlah anak terhadap probabilitas ketepatan waktu dalam melunasi pinjaman. Bank sudah memiliki beberapa data mengenai kelayakan kredit nasabah.

Laporan Anda akan dipertimbangkan pada saat membuat **penilaian kredit** untuk calon nasabah. **Penilaian kredit** digunakan untuk mengevaluasi kemampuan calon peminjam untuk melunasi pinjaman mereka.

Sebelum melakukan analisis data pada resiko peminjam gagal membayar. langkah yang harus dilakukan adalah :

1. Mengimport Libraries dan membuka file serta membaca informasi pada dataset secara umum. 

2. Explorasi Data / Data Quality Checking yang meliputi :
     
     Melakukan analisis data secara global dengan mengamati dengan detail value dari semua kolom serta tipe datanya. lalu memeriksa kualitas dari data tersebut. 
a. Memeriksa value yang unique pada datasets apakah terdapat gaya penulisan yang tidak sesuai dengan formatnya.
b. Memeriksa value duplikasi data pada datasets. 
c. Memeriksa value apakah terdapat data yang tidak wajar sesuai dengan karakteristik pada value column tersebut. 
d. Memfilter value pada column yang terindikasi nilai yang hilang apakah terdapat nilai yang hilang secara acak atau terpola
   
3. Data Cleansing / Membersihkan data 
    Melakukan data cleansing yang terindetifikasi :
a. memperbaiki value yang terduplikasi.
b. memperbaiki value yang unique pada gaya penulisan.
c. memperbaiki value yang teridentifikasi tidak wajar.
d. memperbaiki nilai yang hilang.  

4. Data Categorizing / Pengkategorian data 
     Melakukan pengkategorian data, untuk menjawab hipotesis. 
     
5. Hipotesis / Kesimpulan akhir dari pertanyaan.

## 1. Buka *file* data dan baca informasi umumnya. 




In [1]:
# Memuat semua perpustakaan
import pandas as pd, numpy as np



In [2]:
# muat data
try:
    df = pd.read_csv('/datasets/credit_scoring_eng.csv')
    
except:
    df = pd.read_csv('credit_scoring_eng.csv')

## 2. Soal 1. Eksplorasi Data

**Deskripsi Data**
- *`children`* - jumlah anak dalam keluarga
- *`days_employed`* - pengalaman kerja dalam hari
- *`dob_years`* - usia klien dalam tahun
- *`education`* - pendidikan klien
- *`education_id`* - tanda pengenal pendidikan
- *`family_status`* - status perkawinan
- *`family_status_id`* - tanda pengenal status perkawinan
- *`gender`* - jenis kelamin klien
- *`income_type`* - jenis pekerjaan
- *`debt`* - apakah klien memiliki hutang pembayaran pinjaman
- *`total_income`* - pendapatan bulanan
- *`purpose`* - tujuan mendapatkan pinjaman

Pada langkah ini kita akan melihat seputar informasi umum pada :
a. Berapa banyak baris dan column pada datasets


In [3]:
# Mari kita lihat berapa banyak baris dan kolom yang dimiliki oleh dataset kita
print(f'panjang baris pada dataset dan jumlah column pada dataset adalah : {df.shape}')

panjang baris pada dataset dan jumlah column pada dataset adalah : (21525, 12)


In [4]:
print(f'detail column yang terdapat pada datasets sebagai berikut :')
df.columns

detail column yang terdapat pada datasets sebagai berikut :


Index(['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose'],
      dtype='object')

In [5]:
# mari menampilkan N baris pertama
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding


**Setelah menampilkan baris dan kolom serta baris pertama dari sampel data, perlu penyelidikan lebih lanjut dengan alasan :**
**1. kurangnya informasi lebih dalam mengenai sampel data.**
**2. adanya gaya penulisan yang tidak sesuai.**
**3. memastikan ada atau tidaknya data terduplikasi dan data dengan value yang hilang.**
***4. terdapat nilai yang tidak wajar pada value days employed***

In [6]:
# Mendapatkan informasi data
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


**dengan memanggil informasi dari semua column terdapat indetifikasi sementara nilai yang hilang di days_employed & total income dengan jumlah row yang berbeda pada kedua column**

In [7]:
# Mari kita melihat tabel yang telah difilter dengan nilai yang hilang di kolom pertama dengan data yang hilang
filter_df = df.loc[(df['days_employed'].isna()) & df['total_income'].isna()]
filter_df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding


Terdapat Value Nan pada column days employed dan total income. 

In [8]:
# Menampilkan jumlah column dengan nilai yang hilang pada setiap column
df.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Terdapat 2174 value yang terindikasi hilang pada column days employed dan total income.


**Terdapat nilai yang hilang pada column days_employed & dob_years dengan pola yang simetris yakni jumlah value yang hilang pada kedua column. sebaiknya kita identifikasi lebih dalam untuk memastikan***

In [9]:
# Mari kita menerapkan beberapa persyaratan untuk memfilter data dan melihat jumlah baris dalam tabel yang difilter.
test  = pd.DataFrame(df.isna().sum(), columns=['missing_values'])

**Kesimpulan menengah**

[Apakah jumlah baris dalam tabel yang difilter sesuai dengan jumlah nilai yang hilang? Kesimpulan apa yang bisa kita buat dari hal ini?]

**jumlah baris dalam tabel yg difilter menggunakan isna.count() memiliki value yang sama, namun dengan menggunakan isna.sum() ditemukan nilai yang hilang sebesar 2174 row. dapat disimpulkan bahwa terdapat nilai yang hilang pada column['days_employed,total_income] mari kita selidiki lebih lanjut**  

[Hitung persentase nilai yang hilang yang dibandingkan dengan seluruh kumpulan data. Apakah ini merupakan bagian data yang sangat besar? Jika demikian, Anda mungkin ingin mengisi nilai yang hilang. Untuk melakukannya, pertama-tama kita harus mempertimbangkan apakah data yang hilang bisa jadi disebabkan oleh karakteristik klien tertentu, seperti jenis pekerjaan atau yang lainnya. Anda perlu memutuskan karakteristik mana yang *Anda* pikir mungkin menjadi alasannya. Kedua, kita harus memeriksa apakah terdapat ketergantungan nilai yang hilang pada nilai indikator lain dengan kolom yang berisi karakteristik klien spesifik yang teridentifikasi.]

**setelah menghitung persentasa antara nilai column yang hilang dengan jumlah range dataset didapat 10.1% nilai yang hilang pada column (days_employed & total_income).**

[Jelaskan langkah Anda selanjutnya dan bagaimana hubungannya dengan kesimpulan yang Anda buat sejauh ini.]

**langkah selanjutnya adalah memeriksa data pada column yang hilang identifikasi nilai yang hilang secara detail apakah ada pola yang terhubung dengan satu sama lain.**

In [10]:
# Mari kita memeriksa klien yang tidak memiliki data tentang karakteristik yang teridentifikasi dan kolom dengan nilai yang hilang
test['percent'] = test['missing_values'] / len(df)
test

Unnamed: 0,missing_values,percent
children,0,0.0
days_employed,2174,0.100999
dob_years,0,0.0
education,0,0.0
education_id,0,0.0
family_status,0,0.0
family_status_id,0,0.0
gender,0,0.0
income_type,0,0.0
debt,0,0.0


In [11]:
# Memeriksa distribusi 
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


[Deksripsikan yang Anda temukan di sini.]

Deskripsi pada data distribusi awal dan distribusi seluruh dataset memiliki karakteristik value yang sama yaitu :
1. pada column children terdapat value yang tidak wajar yaitu -1 dan 20.
2. pada colum days employed terdapat value dengan nilai negatif.
3. pada column dob_years terdapat value yang menunjukkan umur nasabah 0th.
4. pada column education terdapat gaya penulisan yang berbeda dan tidak beraturan untuk value dengan defenisi yang sama.
5. pada column purpose terdapat beberapa 'str' yang mendefenisikan arti yang sama.
6. pada column gender terdapat value yang tidak diketahu gendernya yakni XNA
7. pada column purpose terdapat value bawaan dengan defenisi yang sama.

[Ajukan ide-ide Anda tentang mengapa menurut Anda nilai-nilai tersebut kemungkinan hilang. Apakah menurut Anda mereka hilang secara acak atau terdapat pola?]

Belum dapat dipastikan kemungkinan nilai-nilai yang hilang tersebut, hilang secara acak atau terdapat pola 

[Mari kita mulai memeriksa apakah nilai hilang secara acak.]

In [12]:
# Memeriksa distribusi pada keseluruhan dataset
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,26787.568355
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,16475.450632
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,3306.762
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,16488.5045
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,23202.87
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,32549.611
max,20.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


In [13]:
# Menampilkan nilai yang unik pada column children
df['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

In [14]:
# Menampilkan nilai yang unik pada column days employed
df['days_employed'].unique()

array([-8437.67302776, -4024.80375385, -5623.42261023, ...,
       -2113.3468877 , -3112.4817052 , -1984.50758853])

In [15]:
# Menampilkan nilai yang unik pada column dob years
df['dob_years'].unique()

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51,  0, 59, 29, 60, 55, 58, 71, 22, 73,
       66, 69, 19, 72, 70, 74, 75])

In [16]:
# Menampilkan nilai yang unik pada column education
df['education'].unique()

array(["bachelor's degree", 'secondary education', 'Secondary Education',
       'SECONDARY EDUCATION', "BACHELOR'S DEGREE", 'some college',
       'primary education', "Bachelor's Degree", 'SOME COLLEGE',
       'Some College', 'PRIMARY EDUCATION', 'Primary Education',
       'Graduate Degree', 'GRADUATE DEGREE', 'graduate degree'],
      dtype=object)

In [17]:
# Menampilkan nilai yang unik pada column education id
df['education_id'].unique()

array([0, 1, 2, 3, 4])

In [18]:
# Menampilkan nilai yang unik pada column family status
df['family_status'].unique()

array(['married', 'civil partnership', 'widow / widower', 'divorced',
       'unmarried'], dtype=object)

In [19]:
# Menampilkan nilai yang unik pada column family status id
df['family_status_id'].unique()

array([0, 1, 2, 3, 4])

In [20]:
# Menampilkan nilai yang unik pada column gender
df['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

In [21]:
# Menampilkan nilai yang unik pada column income type
df['income_type'].unique()

array(['employee', 'retiree', 'business', 'civil servant', 'unemployed',
       'entrepreneur', 'student', 'paternity / maternity leave'],
      dtype=object)

In [22]:
# Menampilkan nilai yang unik pada column debt
df['debt'].unique()

array([0, 1])

In [23]:
# Menampilkan Nilai yang unik pada total income
df['total_income'].unique()

array([40620.102, 17932.802, 23341.752, ..., 14347.61 , 39054.888,
       13127.587])

In [24]:
# Menampilkan nilai yang unik pada column purpose
df['purpose'].unique()

array(['purchase of the house', 'car purchase', 'supplementary education',
       'to have a wedding', 'housing transactions', 'education',
       'having a wedding', 'purchase of the house for my family',
       'buy real estate', 'buy commercial real estate',
       'buy residential real estate', 'construction of own property',
       'property', 'building a property', 'buying a second-hand car',
       'buying my own car', 'transactions with commercial real estate',
       'building a real estate', 'housing',
       'transactions with my real estate', 'cars', 'to become educated',
       'second-hand car purchase', 'getting an education', 'car',
       'wedding ceremony', 'to get a supplementary education',
       'purchase of my own house', 'real estate transactions',
       'getting higher education', 'to own a car', 'purchase of a car',
       'profile education', 'university education',
       'buying property for renting out', 'to buy a car',
       'housing renovation', 'going

**Kesimpulan menengah**

[Apakah distribusi dalam dataset yang asli mirip dengan distribusi tabel yang telah difilter? Apa artinya itu untuk kita?]

#### Distribusi pada dataset asli mirip dengan distribusi dataset yang telah difilter. terdapat kesamaan masalah pada dataset yang telah difilter dan dataset yang asli. data belum dapat diambil kesimpulan apapun untuk nilai yang hilang secara acak maupun terpola.

[Jika menurut Anda kita belum dapat membuat kesimpulan apa pun, mari kembali menyelidiki dataset kita lebih lanjut. Mari kita pikirkan alasan lain yang dapat menyebabkan data hilang dan periksa apakah kita dapat menemukan pola yang dapat membuat kita berpikir bahwa nilai yang hilang tidaklah secara acak. Karena ini merupakan pekerjaan Anda, bagian ini adalah bagian opsional.]

In [25]:
#Periksa penyebab dan pola lain yang dapat mengakibatkan nilai yang hilang
df_filter2 = df.loc[(df['income_type'].isna()) & df['total_income'].isna()]
df_filter2

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


**Kesimpulan menengah**

[Apakah pada akhirnya kita dapat memastikan bahwa nilai yang hilang adalah suatu kebetulan? Periksa hal lain yang menurut Anda penting di sini.]

#### Setelah memeriksa penyebab nilai yang hilang dengan menggunakan column income type tidak didapat nilai yang hilang secara kebetulan. mari kita periksa lebih detail pada column income_type dimana terdapat beberapa pekerjaan yang mungkin tidak berpenghasilan. 

In [26]:
# Memeriksa pola lainnya - jelaskan pola tersebut
# # Memeriksa pola lainnya dengan detail income type employee
df.loc[(df['income_type']=='employee') & (df['total_income'].isna())]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
82,2,,50,bachelor's degree,0,married,0,F,employee,0,,housing
83,0,,52,secondary education,1,married,0,M,employee,0,,housing
90,2,,35,bachelor's degree,0,married,0,F,employee,0,,housing transactions
96,0,,44,SECONDARY EDUCATION,1,married,0,F,employee,0,,buy residential real estate
97,0,,47,bachelor's degree,0,married,0,F,employee,0,,profile education
...,...,...,...,...,...,...,...,...,...,...,...,...
21432,1,,38,some college,2,unmarried,4,F,employee,0,,housing transactions
21463,1,,35,bachelor's degree,0,civil partnership,1,M,employee,0,,having a wedding
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


In [27]:
# Memeriksa pola lainnya dengan detail income type retiree
df.loc[(df['income_type']=='retiree') & (df['total_income'].isna())]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
67,0,,52,bachelor's degree,0,married,0,F,retiree,0,,purchase of the house for my family
145,0,,62,secondary education,1,married,0,M,retiree,0,,building a property
...,...,...,...,...,...,...,...,...,...,...,...,...
21311,0,,49,secondary education,1,married,0,F,retiree,0,,buying property for renting out
21321,0,,56,Secondary Education,1,married,0,F,retiree,0,,real estate transactions
21414,0,,65,secondary education,1,married,0,F,retiree,0,,purchase of my own house
21415,0,,54,secondary education,1,married,0,F,retiree,0,,housing transactions


In [28]:
# Memeriksa pola lainnya dengan detail income type business
df.loc[(df['income_type']=='business') & (df['total_income'].isna())]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
65,0,,21,secondary education,1,unmarried,4,M,business,0,,transactions with commercial real estate
94,1,,34,bachelor's degree,0,civil partnership,1,F,business,0,,having a wedding
121,0,,29,bachelor's degree,0,married,0,F,business,0,,car
135,0,,27,secondary education,1,married,0,M,business,0,,housing
174,0,,55,bachelor's degree,0,widow / widower,2,F,business,0,,to own a car
...,...,...,...,...,...,...,...,...,...,...,...,...
21390,20,,53,secondary education,1,married,0,M,business,0,,buy residential real estate
21391,0,,52,secondary education,1,married,0,F,business,0,,purchase of the house for my family
21407,1,,36,secondary education,1,married,0,F,business,0,,building a real estate
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car


In [29]:
# Memeriksa pola lainnya dengan detail income type civil servant
df.loc[(df['income_type']=='civil cervant') & (df['total_income'].isna())]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


In [30]:
 # Memeriksa pola lainnya dengan detail income type unemployed
df.loc[(df['income_type']=='unemployed') & (df['total_income'].isna())]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


In [31]:
 # Memeriksa pola lainnya dengan detail income type entrepreneur
df.loc[(df['income_type']=='entrepreneur') & (df['total_income'].isna())]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
5936,0,,58,bachelor's degree,0,married,0,M,entrepreneur,0,,buy residential real estate


In [32]:
# Memeriksa pola lainnya dengan detail income type  student
df.loc[(df['income_type']=='student') & (df['total_income'].isna())]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


In [33]:
 # Memeriksa pola lainnya dengan detail income type  'paternity / maternity leave'
df.loc[(df['income_type']=='paternity / maternity leave') & (df['total_income'].isna())]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


**Kesimpulan**

[Apakah Anda menemukan suatu pola? Bagaimana Anda mendapatkan kesimpulan ini?]

Terdapat pola nilai yang hilang pada kategori income type :
1. kategori employee dengan nilai yang hilang sebanyak : 1105 rows
2. kategori retiree dengan nilai yang hilang sebanyak : 413 rows 
3. kategori business dengan nilai yang hilang sebanyak : 508 rows
4. kategori enterprenuer dengan nilai yang hilang sebanyak : 1 rows

[Jelaskan bagaimana Anda akan mengatasi nilai-nilai yang hilang. Mempertimbangkan kategori yang nilainya tidak ada.]

untuk mengatasi missing value pada kategori yang teridentifikasi memiliki nilai yang hilang sebaiknya kita kita memperbaiki data secara keseluruhan lalu mengisi nilai yang hilang dengan menghitung rata-rata atau median pada column yang nilainya hilang  berdasarkan umur yang dikelompokkan dan total penghasilan yang dikelompokkan.  

[Buatlah perencanaan secara singkat langkah Anda selanjutnya untuk mengubah data. Anda mungkin perlu mengatasi berbagai jenis masalah: duplikat, register yang berbeda, data lama yang salah, dan nilai yang hilang.]

Perencanaan secara singkat pada transformasi data dimana kita akan memeriksa value setiap column yang meliputi :
1.  Data yang terduplikasi
2.  Register yang berbeda
3.  Data lama yang salah / tidak wajar 
4.  mengisi nilai yang hilang

## Transformasi data

[Mari kita perhatikan setiap kolom untuk melihat masalah apa yang mungkin kita miliki di dalamnya.]

[Mulailah dengan menghapus duplikat dan memperbaiki informasi pendidikan jika diperlukan.]

In [34]:
# Mari kita lihat semua nilai di kolom pendidikan untuk memeriksa ejaan apa yang perlu diperbaiki
sorted(df['education'].unique())


["BACHELOR'S DEGREE",
 "Bachelor's Degree",
 'GRADUATE DEGREE',
 'Graduate Degree',
 'PRIMARY EDUCATION',
 'Primary Education',
 'SECONDARY EDUCATION',
 'SOME COLLEGE',
 'Secondary Education',
 'Some College',
 "bachelor's degree",
 'graduate degree',
 'primary education',
 'secondary education',
 'some college']

Terdapat data pada bebrapa value dengan register yang salah sehingga harus di terapkan metode yang dapat menyamakan value nya

In [35]:
# Memeriksa data yang terduplikasi
df['education'].duplicated()

0        False
1        False
2        False
3         True
4         True
         ...  
21520     True
21521     True
21522     True
21523     True
21524     True
Name: education, Length: 21525, dtype: bool

In [36]:
# Perbaiki register jika diperlukan
df['education'] = df['education'].str.lower()


In [37]:
# Memeriksa perbaikan terhadap duplikasi data
sorted(df['education'].unique())

["bachelor's degree",
 'graduate degree',
 'primary education',
 'secondary education',
 'some college']

Setelah penggunaan str.lower() value dengan register yang salah telah disamakan.

In [38]:
# Memeriksa data yang terduplikasi 
df['education'].duplicated()

0        False
1        False
2         True
3         True
4         True
         ...  
21520     True
21521     True
21522     True
21523     True
21524     True
Name: education, Length: 21525, dtype: bool

[Periksa data kolom `children`]

In [39]:
# Mari kita lihat distribusi nilai pada kolom `children`
sorted(df['children'].unique())

[-1, 0, 1, 2, 3, 4, 5, 20]

[Apakah terdapat hal-hal aneh di kolom? Jika jawabannya iya, seberapa tinggi persentase data yang bermasalah? Bagaimana mereka bisa terjadi? Buat keputusan tentang apa yang akan Anda lakukan dengan data ini dan jelaskan alasannya.]

**terdapat nilai numerik dengan value yang kurang tepat yaitu -1, dimana jika seseorang tidak mempunyai anak dengan nilai 0 dan nilai 20 menjadi 2**

In [40]:
# [perbaiki data berdasarkan keputusan Anda]
df['children'] = df['children'].replace(-1,0)
df['children'] = df['children'].replace(20,2)

In [41]:
# Periksa kembali kolom `children` untuk memastikan semua telah diperbaiki

sorted(df['children'].unique())

[0, 1, 2, 3, 4, 5]

[Periksa data dalam kolom the `days_employed`. Pertama-tama pikirkan tentang masalah apa yang mungkin ada dan apa yang mungkin ingin Anda periksa dan bagaimana Anda akan melakukannya.]

In [42]:
# Temukan data yang bermasalah di `days_employed`, jika terdapat masalah, dan hitung persentasenya
# Menghitung lama nasabah bekerja dengan nilai negatid dibawah 0 tahun
day_min = df['days_employed'].loc[(df['days_employed'] < 0)].count() 
print(f'jumlah lama bekerja kurang dari 0 hari adalah : {day_min} row')

jumlah lama bekerja kurang dari 0 hari adalah : 15906 row


In [43]:
# Menghitung lama nasabah yang melebihi batas usia nasabah
day_max = df['days_employed'].loc[(df['days_employed'] > 14610)].count()
print(f'jumlah lama bekerja melebihi dari 14610 hari adalah : {day_max} row')

jumlah lama bekerja melebihi dari 14610 hari adalah : 3445 row


In [44]:
# Menampilkan persentase error dari column days employed
perc_of_error = (day_min + day_max) / len(df) * 100
print(f'persentasi dari value yang error adalah : {perc_of_error}%')

persentasi dari value yang error adalah : 89.90011614401858%


[Jika jumlah data yang bermasalah tinggi, hal tersebut mungkin dikarenakan beberapa masalah teknis. Kami mungkin ingin mengusulkan alasan paling jelas mengapa hal tersebut dapat terjadi dan bagaimanakah kemungkinan data yang benar, karena kita tidak dapat menghapus baris yang bermasalah ini.]

***Terdapat data yang tidak wajar dengan nilai negatif sebesar 15906 row dan lama nasabah bekerja diatas 40 tahun sebesar 3455 row***

***Data yang bermasalah pada days_employed berdasarakan persentasenya adalah ; batas wajar bekerja dari rata-rata umur nasabah dikali dengan 365 hari, lalu ditambahkan dengan persentase dari nilai yang memiliki nilai negatif dibagi dengan panjang row dikalikan 100. maka hasilnya adalah 89%.***


In [45]:
# Atasi nilai yang bermasalah, jika ada
#langkah pertama merubah nilai yang negativ menjadi positif
df['days_employed'] = abs(df['days_employed'])

In [46]:
#mengganti nilai berapa lama nasabah telah bekerja dalam hari dengan maksimal 40 tahun rata-rata nasabah bekerja
df.loc[df['days_employed'] > 14610, 'days_employed'] = 14610

In [47]:
# Periksa hasilnya - pastikan telah diperbaiki
print('menampilkan jumlah nasabah yang bekerja diatas 40 Tahun')
print(df['days_employed'].loc[df['days_employed'] > 15585].count())

menampilkan jumlah nasabah yang bekerja diatas 40 Tahun
0


In [48]:
# Memeriksa distribusi pada column days employed
print('Menampilkan distribusi dari column days_employed :')
print(df['days_employed'].describe())

Menampilkan distribusi dari column days_employed :
count    19351.000000
mean      4534.078277
std       5131.000987
min         24.141633
25%        927.009265
50%       2194.220567
75%       5537.882441
max      14610.000000
Name: days_employed, dtype: float64


[Sekarang mari kita melihat usia klien dan apakah terdapat masalah di sana. Sekali lagi, pikirkan tentang data apakah yang dapat menjadi suatu kejanggalan pada kolom ini, yaitu berapa usia seseorang.]

In [49]:
# Periksa `dob_years` untuk nilai yang mencurigakan dan hitung persentasenya
print('memeriksa nilai yang unik pada column dob_years:')
print(df['dob_years'].unique())

memeriksa nilai yang unik pada column dob_years:
[42 36 33 32 53 27 43 50 35 41 40 65 54 56 26 48 24 21 57 67 28 63 62 47
 34 68 25 31 30 20 49 37 45 61 64 44 52 46 23 38 39 51  0 59 29 60 55 58
 71 22 73 66 69 19 72 70 74 75]


In [50]:
# Memeriksa distribusi nilai pada column dob years
print('memeriksa distribusi nilai column dob_years:')
print(df['dob_years'].describe())

memeriksa distribusi nilai column dob_years:
count    21525.000000
mean        43.293380
std         12.574584
min          0.000000
25%         33.000000
50%         42.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64


In [51]:
# Menghitung nilai umur nasabah yang teridentifikasi 0 tahun
df_dy_eror = df['dob_years'].loc[df['dob_years'] == 0].count()
print(df_dy_eror)

101


In [52]:
# Menghitung Persentase nilai error pada umur nasabah
persentase_dy_eror = (df_dy_eror / len(df)) * 100
persentase_dy_eror

0.4692218350754936

[Putuskan apa yang akan Anda lakukan dengan nilai yang bermasalah dan jelaskan alasannya.]

**Terdapat nilai yang unik dan umur nasabah dimana nilainya adalah  = 0, mari kita hapus nilai yang terduplikasi dan ganti nilai yang = 0 dengan rata-rata umur nasabah.**

In [53]:
# Atasi masalah pada kolom `dob_years`, jika terdapat masalah
print('mengganti nilai dob years dari 0 menjadi 43 tahun')
df.loc[df['dob_years'] == 0, 'dob_years'] = 43 #rata-rata umur nasabah


mengganti nilai dob years dari 0 menjadi 43 tahun


Alasan terkait penggunaan rata-rata yakni 43 dibanding nilainya adalah pendekatan secara statistika dimana dalam menangani nilai yang hilang kita dapat menentukan nilai yang hilang dengan mean/median/modus. disini saya memilih nilai mean atau rata-rata umur nasabah 43 tahun dikarenakan rata-rata nasabah memiliki umur 43 tahun. 

In [54]:
# Periksa hasilnya - pastikan telah diperbaiki
print('Memeriksa hasil dari nilai yang telah diperbaiki :')
print(df.loc[df['dob_years'] == 0])

Memeriksa hasil dari nilai yang telah diperbaiki :
Empty DataFrame
Columns: [children, days_employed, dob_years, education, education_id, family_status, family_status_id, gender, income_type, debt, total_income, purpose]
Index: []


[Sekarang saatnya memeriksa kolom `family_status`. Lihat nilai seperti apakah yang terdapat di kolom dan masalah apa yang mungkin perlu Anda atasi.]

In [55]:
# Mari kita lihat nilai untuk kolom
print('memeriksa nilai yang unik :')
print(df['family_status'].unique())


memeriksa nilai yang unik :
['married' 'civil partnership' 'widow / widower' 'divorced' 'unmarried']


In [56]:
# Atasi nilai yang bermasalah di `family_status`, jika ada
#tidak ada value yang bermasalah di column famil_status


In [57]:
# Periksa hasilnya - pastikan nilai telah diperbaiki


[Sekarang saatnya memeriksa kolom `gender`. Lihat nilai seperti apakah yang terdapat di kolom dan masalah apa yang mungkin perlu Anda atasi.]

In [58]:
# Mari kita melihat nilainya di kolom
print(df['gender'].unique())

['F' 'M' 'XNA']


In [59]:
# Menghitung nilai gender yang XNA
print(df['gender'].loc[df['gender'] == 'XNA'].count())

1


In [60]:
# Atasi nilai-nilai yang bermasalah, jika ada
df.loc[df['gender']== 'XNA', 'gender']='F'

In [61]:
# Periksa hasilnya - pastikan telah diperbaiki
print(df['gender'].loc[df['gender'] == 'XNA'].count())

0


[Sekarang saatnya memeriksa kolom `income_type`. Lihat nilai seperti apakah yang terdapat di kolom dan masalah apa yang mungkin perlu Anda atasi.]

In [62]:
# Mari kita lihat nilai dalam kolom income type
print(df['income_type'].unique())

['employee' 'retiree' 'business' 'civil servant' 'unemployed'
 'entrepreneur' 'student' 'paternity / maternity leave']


In [63]:
# Atasi nilai yang bermasalah, jika ada
#tidak ada value yang bermasalah di column income_type

In [64]:
# Periksa hasilnya - pastikan telah diperbaiki



[Sekarang saatnya melihat apakah terdapat duplikasi di dalam data kita. Jika kita menemukannya, Anda harus memutuskan apa yang akan Anda lakukan dengan duplikat tersebut dan menjelaskan alasannya.]

In [65]:
# Memeriksa duplikat 
print(df.duplicated().sum())

71


In [66]:
# Atasi duplikat, jika ada

df = df.drop_duplicates().reset_index(drop=True) 

In [67]:
# Terakhir periksa apakah kita memiliki duplikat
df.duplicated().sum()

0

In [68]:
# Periksa ukuran dataset yang sekarang Anda miliki setelah manipulasi pertama yang Anda lakukan
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21454 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21454 non-null  int64  
 3   education         21454 non-null  object 
 4   education_id      21454 non-null  int64  
 5   family_status     21454 non-null  object 
 6   family_status_id  21454 non-null  int64  
 7   gender            21454 non-null  object 
 8   income_type       21454 non-null  object 
 9   debt              21454 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21454 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [69]:
# Menampilkan Persentase dari dataset awal dengan dataset yang telah di manipulasi
df_percentage_after = 21525 - len(df)
print(f'Menampilkan ukuran dataset yang telah di manipulasi dengan jumlah : {df_percentage_after} row')

Menampilkan ukuran dataset yang telah di manipulasi dengan jumlah : 71 row


In [70]:
# Persentase akhir dari perbandingan dataset awal dengan dataset yang sudah dimanipulasi
print(f'Persentase akhir dari perbandingan dataset awal dengan dataset yang sudah dimanipulasi : {df_percentage_after / len(df) *100}%')


Persentase akhir dari perbandingan dataset awal dengan dataset yang sudah dimanipulasi : 0.3309406171343339%


In [71]:
# Menampilakan distribusi jumlah row dari datasets yang telah di manipulasi 
df.shape

(21454, 12)

[Jelaskan dataset baru Anda: jelaskan secara singkat apa perubahannya dan berapa persentase perubahannya, jika ada.]


**Terdapat Perubahan jumlah dataset awal yang berjumlah 21525 setelah dimanipulasi menjadi 21454 dengan persentase perbedaan dataset sebesar 0.3%**


# Bekerja dengan nilai yang hilang

[Untuk mempercepat pekerjaan dengan beberapa data, Anda mungkin ingin menggunakan dictionary untuk beberapa nilai, di mana tersedia ID. Jelaskan mengapa dan dictionary apakah yang akan Anda gunakan.]

**Untuk penggunaan dictionary untuk beberapa nilai kita dapat mengelompokkan umur nasabah untuk penyedian ID agar mempermudah pengisian nilai yang hilang.**

In [117]:
# Temukan dictionary
sorted(df['dob_years'].unique())

[19,
 20,
 21,
 22,
 23,
 24,
 25,
 26,
 27,
 28,
 29,
 30,
 31,
 32,
 33,
 34,
 35,
 36,
 37,
 38,
 39,
 40,
 41,
 42,
 43,
 44,
 45,
 46,
 47,
 48,
 49,
 50,
 51,
 52,
 53,
 54,
 55,
 56,
 57,
 58,
 59,
 60,
 61,
 62,
 63,
 64,
 65,
 66,
 67,
 68,
 69,
 70,
 71,
 72,
 73,
 74,
 75]

### Memperbaiki nilai yang hilang di `total_income`

[Jelaskan secara singkat kolom manakah yang memiliki nilai yang hilang yang perlu Anda tangani. Jelaskan bagaimana Anda akan memperbaikinya.]

**Column dengan nilai yang hilang ada pada column days_employed & total_income, saya akan mengisi nilai yang hilang dengan mengkategorikan usia nasabah lalu mencari nilai rata/median untuk mengisi nilai yang hilang pada pendapatan total & lama nasabah bekerja**

[Mulailah dengan mengatasi nilai pendapatan total yang hilang. Membuat kategori usia untuk klien. Membuat kolom baru dengan kategori usia. Strategi ini dapat dibantu dengan menghitung nilai pendapatan total.]


In [73]:
# Mari menulis fungsi untuk menghitung kategori usia
age = df['dob_years']

def age_group(age):
    if age < 15 :
        return '15 Tahun Kebawah'
    elif age >=16 and age <=24:
        return '16 Tahun - 24 Tahun'
    elif age >= 25 and age <=34:
        return '25 Tahun - 34 Tahun'
    elif age >= 35 and age <=44:
        return '35 Tahun - 44 Tahun'
    elif age >= 45 and age <=54:
        return '35 Tahun - 44 Tahun'
    elif age >= 55 and age <=64:
        return '55 Tahun - 64 Tahun'
    else :
        return '65 Tahun Keatas'


In [74]:
# Lakukan pengujian apakah fungsi bekerja atau tidak
age_group (30)

'25 Tahun - 34 Tahun'

In [75]:
# Membuat kolom baru berdasarkan fungsi
df['age_group'] = df['dob_years'].apply(age_group)
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,35 Tahun - 44 Tahun
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,35 Tahun - 44 Tahun
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,25 Tahun - 34 Tahun
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,25 Tahun - 34 Tahun
4,0,14610.0,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,35 Tahun - 44 Tahun


In [76]:
# Memeriksa bagaimana nilai di dalam kolom baru
df['age_group'].value_counts()

35 Tahun - 44 Tahun    10708
25 Tahun - 34 Tahun     5092
55 Tahun - 64 Tahun     3884
65 Tahun Keatas          895
16 Tahun - 24 Tahun      875
Name: age_group, dtype: int64

[Pikirkan tentang faktor-faktor yang biasanya bergantung pada pendapatan. Akhirnya, Anda akan mengetahui apakah Anda harus menggunakan nilai rata-rata atau median untuk mengganti nilai yang hilang. Untuk membuat keputusan ini, Anda mungkin ingin melihat identifikasi distribusi faktor yang memengaruhi pendapatan seseorang.]

[Buat tabel yang hanya memiliki data tanpa nilai yang hilang. Data ini akan digunakan untuk memperbaiki nilai yang hilang.]

In [77]:
# Membuat tabel tanpa nilai yang hilang dan menampilkan beberapa barisnya untuk memastikan semuanya berjalan dengan baik
#df_dropna = df.loc[~(df['days_employed'].()) & ~(df['total_income'].isna())]
df_dropna = df.dropna()
df_dropna

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,35 Tahun - 44 Tahun
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,35 Tahun - 44 Tahun
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,25 Tahun - 34 Tahun
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,25 Tahun - 34 Tahun
4,0,14610.000000,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,35 Tahun - 44 Tahun
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21449,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,35 Tahun - 44 Tahun
21450,0,14610.000000,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,65 Tahun Keatas
21451,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,35 Tahun - 44 Tahun
21452,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,35 Tahun - 44 Tahun


In [78]:
# Perhatikan nilai rata-rata untuk pendapatan berdasarkan faktor yang telah Anda identifikasi
print('nilai mean dari pendapatan adalah:')
df_dropna.pivot_table(index='age_group', values='total_income', aggfunc='mean')

nilai mean dari pendapatan adalah:


Unnamed: 0_level_0,total_income
age_group,Unnamed: 1_level_1
16 Tahun - 24 Tahun,22703.351103
25 Tahun - 34 Tahun,27337.934929
35 Tahun - 44 Tahun,28087.460887
55 Tahun - 64 Tahun,24601.730826
65 Tahun Keatas,21542.65045


In [79]:
# Perhatikan nilai median untuk pendapatan berdasarkan faktor yang telah Anda identifikasi
print('nilai median dari pendapatan adalah:')
df_dropna.pivot_table(index='age_group', values='total_income', aggfunc='median')

nilai median dari pendapatan adalah:


Unnamed: 0_level_0,total_income
age_group,Unnamed: 1_level_1
16 Tahun - 24 Tahun,20572.209
25 Tahun - 34 Tahun,23990.901
35 Tahun - 44 Tahun,24278.732
55 Tahun - 64 Tahun,21339.562
65 Tahun Keatas,18471.391


[Ulangi perbandingan tersebut untuk beberapa faktor. Pastikan Anda mempertimbangkan berbagai aspek dan menjelaskan proses pada saat Anda berpikir.]



[Buat keputusan tentang karakteristik yang paling menentukan pendapatan dan apakah Anda akan menggunakan median atau mean. Jelaskan mengapa Anda membuat keputusan ini]

**Dilihat dari tabel disttribusi 'total_income' , saya menggunakan median untuk mengisi nilai yang hilang. karena terdapat nilai pada median pada age_group nilai rentang distribusinya tidak terlalu jauh**

In [80]:
# Mari tulis fungsi yang menghitung rata-rata atau median (tergantung keputusan Anda) berdasarkan parameter yang Anda identifikasi

df['total_income'] = df.groupby('age_group')['total_income'].transform(lambda x: x.fillna(x.median()))


In [81]:
# Memeriksa bagaimana nilai di dalam kolom baru
df['total_income'].isna().sum()

0

nilai yang hilang pada column total income sekarang sudah terisi berdasarkan parameter yang telah diindetifikasi

In [82]:
# Terapkan fungsi ke setiap baris
#fungsi sudah diterapkan pada column sebelumnya

In [83]:
# Periksa apakah kita mendapatkan kesalahan
#fungsi sudah di periksa pada column sebelumnya

[Jika Anda menemukan kesalahan dalam menyiapkan nilai data yang hilang, artinya mungkin terdapat sesuatu yang khusus terkait dengan data untuk kategori tersebut. Mari pikirkan - Anda mungkin ingin memperbaiki beberapa hal secara manual, jika terdapat cukup data untuk menemukan median/rata-rata.]


In [84]:
# Mengganti nilai yang hilang jika terdapat kesalahan
#Nilai yang hilang sudah digantikan pada column diatas

[Ketika Anda berpikir Anda telah selesai dengan `total_income`, periksa apakah jumlah total nilai di kolom ini sesuai dengan jumlah nilai di kolom lain.]

In [85]:
# Memeriksa jumlah entri di kolom
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21454 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21454 non-null  int64  
 3   education         21454 non-null  object 
 4   education_id      21454 non-null  int64  
 5   family_status     21454 non-null  object 
 6   family_status_id  21454 non-null  int64  
 7   gender            21454 non-null  object 
 8   income_type       21454 non-null  object 
 9   debt              21454 non-null  int64  
 10  total_income      21454 non-null  float64
 11  purpose           21454 non-null  object 
 12  age_group         21454 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.1+ MB


###  Memperbaiki nilai di `days_employed`

[Pikirkan tentang parameter yang dapat membantu Anda memperbaiki nilai yang hilang di kolom ini. Akhirnya, Anda akan mengetahui apakah Anda harus menggunakan nilai rata-rata atau median untuk mengganti nilai yang hilang. Anda mungkin akan melakukan penelitian yang sama dengan yang Anda lakukan saat memperbaiki data di kolom sebelumnya.]

In [86]:
# Distribusi median dari `days_employed` berdasarkan parameter yang Anda identifikasi
print('dirstribusi dari nilai median days_employed berdasarkan age_group')
df.pivot_table(index='age_group', values='days_employed', aggfunc='median')

dirstribusi dari nilai median days_employed berdasarkan age_group


Unnamed: 0_level_0,days_employed
age_group,Unnamed: 1_level_1
16 Tahun - 24 Tahun,744.54213
25 Tahun - 34 Tahun,1292.221018
35 Tahun - 44 Tahun,2180.41265
55 Tahun - 64 Tahun,14610.0
65 Tahun Keatas,14610.0


In [87]:
# Distribusi rata-rata dari `days_employed` berdasarkan parameter yang Anda identifikasi
print('dirstribusi dari nilai mean days_employed berdasarkan age_group')
df.pivot_table(index='age_group', values='days_employed', aggfunc='mean')

dirstribusi dari nilai mean days_employed berdasarkan age_group


Unnamed: 0_level_0,days_employed
age_group,Unnamed: 1_level_1
16 Tahun - 24 Tahun,871.669342
25 Tahun - 34 Tahun,1629.238372
35 Tahun - 44 Tahun,3464.105828
55 Tahun - 64 Tahun,10158.577181
65 Tahun Keatas,13092.784889


[Tentukan apa yang akan Anda gunakan: rata-rata atau median. Jelaskan mengapa.]

**Dilihat dari distribusi days_employed, saya menggunakan median untuk mengisi nilai yang hilang, dikarenakan terdapat value yang `outlier` dimana value dari days_employed terdapat rentang nilai yang terlalu rendah.**

In [88]:
# Mari tulis fungsi yang menghitung rata-rata atau median (tergantung keputusan Anda) berdasarkan parameter yang Anda identifikasi

df['days_employed'] = df.groupby('age_group')['days_employed'].transform(lambda x: x.fillna(x.median()))
   

In [89]:
# Periksa bahwa fungsi bekerja
df['days_employed'].isna().sum()

0

In [90]:
# Terapkan fungsi ke income_type
#fungsi sudah diterapkan pada column sebelumnya

In [91]:
# Periksa bahwa fungsi bekerja
#Fungsi sudah diperiksa di column atas

In [92]:
# Mengganti nilai yang hilang jika ada terdapat kesalahan
#Nilai yang hilang sudah digantikan pada column diatas



[Ketika Anda berpikir bahwa Anda telah selesai dengan `total_income`, periksa apakah jumlah total nilai di kolom ini sesuai dengan jumlah nilai di kolom lain.]

In [118]:
# Periksa entri di semua kolom - pastikan kita memperbaiki semua nilai yang hilang
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 16 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21454 non-null  int64  
 1   days_employed     21454 non-null  float64
 2   dob_years         21454 non-null  int64  
 3   education         21454 non-null  object 
 4   education_id      21454 non-null  int64  
 5   family_status     21454 non-null  object 
 6   family_status_id  21454 non-null  int64  
 7   gender            21454 non-null  object 
 8   income_type       21454 non-null  object 
 9   debt              21454 non-null  int64  
 10  total_income      21454 non-null  float64
 11  purpose           21454 non-null  object 
 12  age_group         21454 non-null  object 
 13  level_income      21454 non-null  object 
 14  gender_meaning    21454 non-null  object 
 15  debt_meaning      21454 non-null  object 
dtypes: float64(2), int64(5), object(9)
memor

## 4. Pengkategorian Data

[Untuk menjawab pertanyaan dan menguji hipotesis, Anda akan bekerja dengan data yang telah dikategorikan. Lihatlah pertanyaan-pertanyaan yang diajukan kepada Anda dan yang harus Anda jawab. Pikirkan tentang data mana yang perlu dikategorikan untuk menjawab pertanyaan-pertanyaan ini. Di bawah ini Anda akan menemukan template di mana Anda dapat bekerja dengan cara Anda sendiri saat mengkategorikan data. Proses pertama adalah menutup data teks; yang kedua mengatasi data numerik yang perlu dikategorikan. Anda dapat menggunakan keduanya atau tidak sama sekali dari petunjuk yang disarankan - terserah Anda.]

[Terlepas dari keputusan Anda untuk mengatasi pengkategorian, pastikan secara jelas Anda memberikan penjelasan tentang mengapa Anda membuat keputusan tersebut. Ingat: ini merupakan pekerjaan Anda dan semua di dalamnya adalah keputusan Anda.]

Langkah saya dalam pengkategorian data pada bab ini untuk menjawab pertanyaan dari hipotesis adalah  :
1. Menampilkan data pengkategorian untuk menjawab hipotesis
2. Melihat nilai unik pada setiap kategori yang telah dipilih untuk di identifikasi berdasarkan nilai uniknya yakni total income, gender, debt.
3. Mengkategorikan value total income menjadi tingkat pendapatan.
4. Mengkategorikan value gender menjadi gender meaning untuk di klasifisikan menjadi Female & Male.
5. Mengkategorikan value debt 0 untuk berhasil melunasi pinjaman dan 1 untuk gala melunasi pinjaman. 
6. Mengkategorikan value purpose agar lebih rapi

penjelasan mengenai keputusan yang diambil dalam pengkategorian data menggunakan data categorical akan lebih mudah dalam menjawab pertanyaan dari hipotesis. 
 

In [94]:
# Tampilkan nilai data yang Anda pilih untuk pengkategorian
category_column = df[['total_income', 'gender', 'debt','purpose']]
category_column

Unnamed: 0,total_income,gender,debt,purpose
0,40620.102,F,0,purchase of the house
1,17932.802,F,0,car purchase
2,23341.752,M,0,purchase of the house
3,42820.568,M,0,supplementary education
4,25378.572,F,0,to have a wedding
...,...,...,...,...
21449,35966.698,F,0,housing transactions
21450,24959.969,F,0,purchase of a car
21451,14347.610,M,1,property
21452,39054.888,M,1,buying my own car


[Let's check unique values]


In [119]:
category_column = df[['total_income', 'gender', 'debt','purpose']]
for loop in category_column:
    print(loop)
    print(df[loop].unique())
    print()

total_income
[40620.102 17932.802 23341.752 ... 14347.61  39054.888 13127.587]

gender
['F' 'M']

debt
[0 1]

purpose
['Buy Property Purpose' 'Buy Car Purpose' 'Education Purpose'
 'Wedding Purpose' 'Building Property Purpose']



[Kelompok utama apakah yang dapat Anda identifikasi berdasarkan nilai uniknya?

**kelompok utama yang dapat di identifikasi berdasarkan nilai uniknya adalah total income, gender, debt, purpose**

[Berdasarkan topik ini, kita ingin mengkategorikan data kita.]



In [96]:
# Membuat fungsi untuk mengkategorikan total pendapatan menjadi tingkat pendapatan
tingkat_pendapatan = df['total_income'] 

def level_of_income(tingkat_pendapatan):
    if tingkat_pendapatan >= 0 and tingkat_pendapatan <= 1035:
        return 'Low Income'
    elif tingkat_pendapatan >= 1036 and tingkat_pendapatan <= 4045:
        return 'Lower Middle Income'
    elif tingkat_pendapatan >= 4046 and tingkat_pendapatan <=12535: 
        return 'Upper Middle Income'
    elif tingkat_pendapatan >= 12536:
        return 'High Income'
    else :
        return 'unknown'

In [97]:
# Menerapkan fungsi untuk dibuat column baru ke dataset untuk pengkategorian tingkat pendapatan berdasarkan total income
df['level_income'] = df['total_income'].apply(level_of_income)

In [98]:
# Menghitung nilai pada column level_income
df['level_income'].count()

21454

In [99]:
# Membuat fungsi untuk mengkategorikan data berdasarkan gender
def gender_meaning(value):
    if value == 'F':
        return 'Female'
    else:
        return 'Male'
        

In [100]:
# Buat kolom dengan kategori dan hitung nilainya
df['gender_meaning'] = df['gender'].apply(gender_meaning)

In [101]:
# Menghitung nilai pada column gender meaning 
df['gender_meaning'].count()

21454

In [102]:
# Membuat fungsi untuk mengkategorikan data berdasarkan debt
def debt_meaning(value):
    if value == 1:
        return 'Gagal Melunasi Pinjaman'
    else:
        return 'Berhasil Melunasi Pinjaman'

In [103]:
# Buat kolom dengan kategori debt mening dan hitung nilainya
df['debt_meaning'] = df['debt'].apply(debt_meaning)

In [104]:
# Menghitung nilai pada column debt meaning 
df['debt_meaning'].count()

21454

In [105]:
# Memanipulasi Tujuan Kredit agar terlihat lebih rapi
df.loc[df['purpose'].isin(['building a property', 'building a real estate', 'construction of own property', 'housing renovation' ]), 'purpose'] = 'Building Property Purpose' 
df.loc[df['purpose'].isin(['property','buy commercial real estate', 'buy real estate', 'buy residential real estate', 'buying property for renting out', 'housing', 'housing transactions', 'purchase of my own house', 'purchase of the house', 'real estate transactions', 'transactions with commercial real estate','transactions with my real estate', 'purchase of the house for my family', ]), 'purpose'] = 'Buy Property Purpose' 
df.loc[df['purpose'].isin(['buying a second-hand car', 'buying my own car','car','car purchase','cars','purchase of a car','second-hand car purchase','second-hand car purchase','to buy a car','to own a car']), 'purpose'] = 'Buy Car Purpose' 
df.loc[df['purpose'].isin(['education', 'getting an education','getting higher education','going to university', 'supplementary education','to become educated', 'profile education', 'to get a supplementary education','university education',]), 'purpose'] = 'Education Purpose'
df.loc[df['purpose'].isin(['having a wedding','to have a wedding', 'wedding ceremony']), 'purpose'] = 'Wedding Purpose'

# Menampilkan hasil manipulasi purpose
sorted(df['purpose'].unique())

['Building Property Purpose',
 'Buy Car Purpose',
 'Buy Property Purpose',
 'Education Purpose',
 'Wedding Purpose']

In [106]:
# Melihat dataset keseluruhan setelah di kategorikan
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,level_income,gender_meaning,debt_meaning
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,Buy Property Purpose,35 Tahun - 44 Tahun,High Income,Female,Berhasil Melunasi Pinjaman
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,Buy Car Purpose,35 Tahun - 44 Tahun,High Income,Female,Berhasil Melunasi Pinjaman
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,Buy Property Purpose,25 Tahun - 34 Tahun,High Income,Male,Berhasil Melunasi Pinjaman
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,Education Purpose,25 Tahun - 34 Tahun,High Income,Male,Berhasil Melunasi Pinjaman
4,0,14610.0,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,Wedding Purpose,35 Tahun - 44 Tahun,High Income,Female,Berhasil Melunasi Pinjaman


## 5. Memeriksa Hipotesis


**Apakah terdapat korelasi antara memiliki anak dengan membayar kembali tepat waktu?**

In [112]:
# Periksa data anak dan membayar kembali dengan tepat waktu
# Menghitung tarif otomatis berdasarkan jumlah anak
df1 = df.pivot_table(index='children',columns='debt_meaning', values='debt', aggfunc='count') 
df1 = df1.reset_index()
df1['percentage'] = df1['Gagal Melunasi Pinjaman'] / (df1['Gagal Melunasi Pinjaman'] + df1['Berhasil Melunasi Pinjaman'])
df1

debt_meaning,children,Berhasil Melunasi Pinjaman,Gagal Melunasi Pinjaman,percentage
0,0,13074.0,1064.0,0.075258
1,1,4364.0,444.0,0.092346
2,2,1926.0,202.0,0.094925
3,3,303.0,27.0,0.081818
4,4,37.0,4.0,0.097561
5,5,9.0,,


**Kesimpulan**

Kesimpulan dari hipotesis ini adalah :
Nasabah yang tidak mempunyai anak memiliki probabilitas atau persentase dapat mengembalikan pinjaman tepat waktu dibandingkan dengan nasabah yang memiliki anak lebih dari satu.  

**Apakah terdapat korelasi antara status keluarga dengan membayar kembali tepat waktu?**

In [113]:
# Periksa data status keluarga dan membayar kembali dengan tepat waktu
# Menghitung tarif otomatis berdasarkan status keluarga
df2 = df.pivot_table(index='family_status',columns='debt_meaning', values='debt', aggfunc='count') 
df2 = df2.reset_index()
df2['percentage'] = df2['Gagal Melunasi Pinjaman'] / (df2['Gagal Melunasi Pinjaman'] + df2['Berhasil Melunasi Pinjaman'])
df2

debt_meaning,family_status,Berhasil Melunasi Pinjaman,Gagal Melunasi Pinjaman,percentage
0,civil partnership,3763,388,0.093471
1,divorced,1110,85,0.07113
2,married,11408,931,0.075452
3,unmarried,2536,274,0.097509
4,widow / widower,896,63,0.065693


**Kesimpulan**


Kesimpulan dari hipotesis ini adalah :
Probabilitas dari persentase Nasabah dengan status keluarga widow/widower dapat mengembalikan pinjaman tepat waktu dibandingkan dengan status keluarga lainnya.


**Apakah terdapat korelasi antara tingkat pendapatan dengan membayar kembali tepat waktu?**



In [114]:
# Periksa data tingkat pendapatan dan membayar kembali dengan tepat waktu
# Menghitung tarif otomatis berdasarkan tingkat pendapatan
df3 = df.pivot_table(index='level_income',columns='debt_meaning', values='debt', aggfunc='count') 
df3 = df3.reset_index()
df3['percentage'] = df3['Gagal Melunasi Pinjaman'] / (df3['Gagal Melunasi Pinjaman'] + df3['Berhasil Melunasi Pinjaman'])
df3

debt_meaning,level_income,Berhasil Melunasi Pinjaman,Gagal Melunasi Pinjaman,percentage
0,High Income,17758,1587,0.082037
1,Lower Middle Income,8,1,0.111111
2,Upper Middle Income,1947,153,0.072857


**Kesimpulan**

[Tulis kesimpulan Anda berdasarkan manipulasi dan pengamatan Anda.]

Dari Hasil hipotesis ini adalah :
Probabilitas dari persentasi nasabah dengan tingkat pendapatan menengah keatas dapat mengembalikan pinjaman tepat waktu dibandingkan dengan dengan tingkat pendapatan kelas atas. 

**Bagaimana tujuan kredit memengaruhi tarif otomatis?**

In [115]:
# Periksa persentase tarif otomatis untuk setiap tujuan kredit dan lakukan penganalisisan
df4 = df.pivot_table(index='purpose',columns='debt_meaning', values='debt', aggfunc='count') 
df4 = df4.reset_index()
df4['percentage'] = df4['Gagal Melunasi Pinjaman'] / (df4['Gagal Melunasi Pinjaman'] + df4['Berhasil Melunasi Pinjaman'])
df4

debt_meaning,purpose,Berhasil Melunasi Pinjaman,Gagal Melunasi Pinjaman,percentage
0,Building Property Purpose,2306,179,0.072032
1,Buy Car Purpose,3903,403,0.09359
2,Buy Property Purpose,7723,603,0.072424
3,Education Purpose,3643,370,0.0922
4,Wedding Purpose,2138,186,0.080034


**Kesimpulan**

[Tulis kesimpulan Anda berdasarkan manipulasi dan pengamatan Anda.]

Dari Hasil hipotesis ini adalah : 
Probabilitas dari persentase nasabah dengan tujuan membangun property dan membeli property dapat mengembalikan pinjaman tepat waktu lebih rendah dibandingkan dengan nasabah yang memiliki tujuan pinjaman pernikahan, pendidikan dan membeli mobil. 

# Kesimpulan Umum 

[Tuliskan kesimpulan Anda di bagian akhir ini. Pastikan Anda memasukkan semua kesimpulan penting yang telah Anda buat berkaitan dengan cara Anda memproses dan menganalisis data. Mengatasi nilai yang hilang, duplikat, dan kemungkinan alasan serta solusi untuk data lama yang bermasalah yang harus Anda tangani.]

Kesimpulan Akhir :
1. Loading Data and Libraries
Langkah awal dalam memproses data yakni dengan mengimport library, memuat data lalu menampilkan informasi secara keseluruhan.

2. Explorasi Data / Data Quality Checking  
langkah kedua melakukan analisis data secara global dengan mengamati dengan detail value dari semua kolom serta tipe datanya. lalu memeriksa kualitas dari data tersebut yang meliputi. 
a. Memfilter value pada column yang terindikasi nilai yang hilang apakah terdapat nilai yang hilang secara acak atau terpola. 
b. Memeriksa duplikasi data pada datasets. 
c. Memeriksa nilai yang unique pada datasets apakah terdapat gaya penulisan yang tidak sesuai dengan formatnya.
d. Memeriksa Value apakah terdapat data yang tidak wajar sesuai dengan karakteristik pada value column tersebut.

3. Data Cleansing / Transformasi data
langkah ketiga melakukan pembersihan data atau memanipulasi data terhadap data yang terindikasi :
a. data yang terindikasi dengan gaya penulisan yang berbeda tetapi memiliki defenisi yang sama. dengan mereplace value yang lama dengan value yang baru.
b. data yang terindikasi tidak wajar terhadap realita pada value column tersebut contoh pada column 'children' memiliki value yang tidak wajar, 'education' memiliki gaya penulisan yang berbeda, 'days_employed' memiliki nilai yang negatif dan nilai yang tidak wajar, 'dob_years' memiliki nilai yang tidak wajar. 

Pada tahap ini kita mentransformasi nilai pada column 'children' dengan melakukan metode `.replace()` pada nilai yang terindikasi tidak wajar. lalu kita beralih pada column 'education' yang terindikasi gaya penulisan yang berbeda tetapi dengan defenisi yang sama, metode yang digunakan adalah melihat nilai yang `.unique()` lalu disamakan gaya penulisannya dengan metode `str.lower()`. beralih pada column 'days_employed' dimana terindikasi memiliki nilai negatif dengan merubah nilai tersebut menjadi positif dengan menggunakan metode `abs` serta menerapkan value yang nilainya terlalu tinggi dan merubahnya dengan nilai yang wajar berdasarkan nilai mean pada distribusi column tersebut. lalu beralih ke column 'dob_years'  merubah nilai yang tidak wajar dengan menerapkan nilai rata-rata pada 'dob_years'.

c. data yang memiliki nilai yang hilang pada column 'total_income' dan 'days_employed'.
    
 Pada tahap ini kita bekerja dengan nilai yang hilang pada column 'total_income' dengan membuat fungsi *def* berdasarkan kelompok umur dari lama nasabah bekerja lalu membuat column baru dengan nama 'age_group', yang nantinya value ini akan digunakan untuk menentukan nilai mean dan median guna mengisi nilai yang hilang. lalu membuat table / datasets baru yang tidak memiliki nilai yang hilang dengan metode mengeliminasi nilai yang hilang yakni *~.isna()* guna mencari nilai mean dan median untuk diterapkan pada datasets awal yang memiliki nilai yang hilang secara terpola. setelah mendapatkan nilainya disini saya menggunakan nilai median untuk mengisi nilai yang hilang ke column 'total_income' dengan metode *fillna*, dengan pertimbangan bahwa data memiliki nilai *OUTLIER* atau nilai yang terlalu tinggi dibandingkan denga rata-rata nilai yang lain. 
    Beralih kepada column 'days_employed' dimana terdapat nilai yang hilang, dengan metode mencari nilai rata-rata dan median berdasarkan column 'age_group'. setelah mendapatkan nilainya disini saya menggunakan nilai median untuk mengisi nilai yang hilang ke column 'total_income' dengan metode *fillna*, dengan pertimbangan bahwa data memiliki nilai *OUTLIER* atau nilai yang terlalu tinggi dibandingkan denga rata-rata nilai yang lain. 

4. Categorizing Data / Pengkategorian Data 
langkah keempat ini adalah mengkategorikan data sesuai dengan tipe data yang nantinya akan digunakan untuk menjawab hipotesis. 

a. Langkah pertama mengkategorikan data dengan tipe data kategoris, disini pengkategorian data menggunakan metode *pivot_table* dalam memilih tipe data kategoris untuk melihat distribusi data guna menjawab hipotesis. 

b. Langkah kedua mengkategorikan data dengan tipe data numerik, disini data menggunakan metode *pivot_table* dalam memilih tipe data numerik untuk melihat distribusi data guna menjawab hipotesis.

c. Langkah ketiga melihat distribusi nilai statistik atau rentang nilia  dari value pengkategorian tipe data kategoris dan numerik untuk mendapatkan insight atau kesimpulan untuk menjawab hipotesis.


[Tuliskan kesimpulan Anda mengenai pertanyaan yang ingin Anda ajukan di sini juga.]

5. Hipotesis / Conclusion 'Kesimpulan Akhir'

a. Apakah ada korelasi antara memiliki anak dengan ketepatan waktu dalam melunasi pinjaman?
    Dari hasil conclusion, didapatlah kesimpulan analisa dalam distribusi data sebagai berikut:
Kesimpulan dari hipotesis ini adalah : Nasabah yang tidak mempunyai anak memiliki probabilitas atau persentase dapat mengembalikan pinjaman tepat waktu dibandingkan dengan nasabah yang memiliki anak lebih dari satu.

b. Apakah ada korelasi antara status keluarga dengan ketepatan waktu dalam melunasi pinjaman?
    Dari hasil conclusion didapatlah kesimpulan analisa dalam distribusi data family status terhadap pembayaran hutang sebagai berikut:
Kesimpulan dari hipotesis ini adalah : Probabilitas dari persentase Nasabah dengan status keluarga widow/widower dapat mengembalikan pinjaman tepat waktu dibandingkan dengan status keluarga lainnya.

c. Apakah ada korelasi antara tingkat pendapatan dengan ketepatan waktu dalam melunasi pinjaman? 
    Dari hasil conclusion, didapatlah kesimpulan analisa dalam distribusi data level income terhadap pembayaran hutang sebagai berikut:
Dari Hasil hipotesis ini adalah : Probabilitas dari persentasi nasabah dengan tingkat pendapatan menengah keatas dapat mengembalikan pinjaman tepat waktu dibandingkan dengan dengan tingkat pendapatan kelas atas.

d. Bagaimana tujuan pinjaman mempengaruhi ketepatan waktu dalam melunasi pinjaman?
    Dari hasil conclusi, didapatlah kesimpulan analisa dalam distribusi data level income terhadap pembayaran hutang sebagai berikut:
Dari Hasil hipotesis ini adalah : Probabilitas dari persentase nasabah dengan tujuan membangun property dan membeli property dapat mengembalikan pinjaman tepat waktu lebih rendah dibandingkan dengan nasabah yang memiliki tujuan pinjaman pernikahan, pendidikan dan membeli mobil.



In [116]:
# Mengekspor data akhir ke dalam pivot table
data_final = df
data_final = data_final.pivot_table(index=['days_employed','dob_years','children'], columns='debt', values='total_income', aggfunc='mean')
data_final

Unnamed: 0_level_0,Unnamed: 1_level_0,debt,0,1
days_employed,dob_years,children,Unnamed: 3_level_1,Unnamed: 4_level_1
24.141633,31,1,,26712.386
24.240695,32,0,19858.460000,
30.195337,47,2,37033.790000,
33.520665,43,0,,20568.944
34.701045,31,1,14489.279000,
...,...,...,...,...
14610.000000,72,0,18025.993240,12668.922
14610.000000,72,1,18942.954667,
14610.000000,73,0,16575.455000,
14610.000000,73,1,18471.391000,
