# Menganalisis Risiko Gagal Bayar Peminjam

Tugas Anda adalah menyiapkan laporan untuk divisi kredit suatu bank. Anda akan mencari tahu pengaruh status perkawinan seorang nasabah dan jumlah anak yang dimilikinya terhadap probabilitas gagal bayar dalam pelunasan pinjaman. Pihak bank sudah memiliki beberapa data mengenai kelayakan kredit nasabah.

Laporan Anda akan dipertimbangkan pada saat membuat **penilaian kredit** untuk calon nasabah. **Penilaian kredit** digunakan untuk mengevaluasi kemampuan calon peminjam untuk melunasi pinjaman mereka.

[Dalam *notebook* ini, Anda dapat menemukan petunjuk dan instruksi singkat serta arahan untuk berfikir. Jangan abaikan petunjuk tersebut karena mereka dirancang untuk membekali Anda dengan struktur pengerjaan proyek dan akan membantu Anda melakukan analisis secara lebih mendalam. Sebaliknya, buatlah agar laporan ini terlihat seolah-olah dikirimkan oleh Anda kepada rekan satu tim Anda untuk menunjukkan temuan Anda - mereka tidak perlu tahu bahwa Anda mendapatkan bantuan eksternal dari kami! Untuk membantu Anda, kami menempatkan semua petunjuk yang harus Anda hapus dalam tanda kurung siku.]

[Sebelum Anda masuk ke dalam proses analisis data Anda, jelaskan tujuan proyek dan hipotesis yang akan Anda uji.]

# Kredit Nasabah 

# Konten <a id='back'></a>

* [Pendahuluan]
* [Tahap 1. Buka file data dan baca informasi umumnya]
    
* [Tahap 2. Soal 1. Eksplorasi data]
    * [Kemungkinan penyebab hilangnya nilai dalam data]
    * [Kesimpulan]
* [Tahap 3. Transformasi data]
    * [Bekerja dengan nilai yang hilang]
    * [3.2 Memperbaiki nilai yang hilang di total_income]
    * [3.3 Memperbaiki nilai di days_employed]
* [Tahap 4. Pengkategorian Data]
* [Tahap 5. Memeriksa hipotesis]
    * [5.1 Hipotesis 1: Apakah terdapat korelasi antara memiliki anak dengan probabilitas melakukan gagal bayar pinjaman?]
    * [5.2 Hipotesis 2: Apakah terdapat korelasi antara status keluarga dengan probabilitas melakukan gagal bayar pinjaman?]
    * [5.3 Hipotesis 3: Apakah terdapat korelasi antara tingkat pendapatan dengan probabilitas melakukan gagal bayar pinjaman?]
    * [5.4 Hipotesis 4: Bagaimana tujuan kredit memengaruhi persentase gagal bayar?]

* [Kesimpulan umum]

## Pendahuluan <a id='intro'></a>
Seperti analisis pada umumnya, kita perlu merumuskan beberapa hipotesis  dan mengujinya lebih lanjut. Terkadang, pengujian yang kita lakukan membawa kita untuk menerima hipotesis tersebut, adakalanya kita juga perlu menolaknya. Untuk membuat keputusan yang tepat dalam bisnis, kita harus memahami apakah asumsi yang kita buat sudah tepat atau belum.

Dalam proyek kali ini, kita akan mencari tahu pengaruh status perkawinan seorang nasabah dan jumlah anak yang dimilikinya terhadap probabilitas gagal bayar dalam melunasi pinjaman. Data mengenai kelayakan kredit nasabah. Hasil analisis data ini  akan menjadi bahan pertimbangan pada saat membuat penilaian kredit untuk calon nasabah. Penilaian kredit digunakan untuk mengevaluasi kemampuan calon peminjam untuk melunasi pinjaman mereka,


### Tujuan: 
Menguji empat hipotesis:
1. Apakah terdapat korelasi antara memiliki anak dengan probabilitas melakukan gagal bayar pinjaman?

2. Apakah terdapat korelasi antara status keluarga dengan probabilitas melakukan gagal bayar pinjaman?

3. Apakah terdapat korelasi antara tingkat pendapatan dengan probabilitas melakukan gagal bayar pinjaman?

4. Bagaimana tujuan kredit memengaruhi persentase gagal bayar?


### Tahapan
Data nasabah disimpan dalam *file* `/datasets/credit_scoring_eng.csv`. Tidak ada informasi terkait kualitas data tersebut, jadi kita perlu memeriksanya terlebih dahulu sebelum menguji hipotesis.

Pertama, kita akan mengevaluasi kualitas data dan melihat apakah masalahnya signifikan. Kemudian, selama pra-pemrosesan data, Anda akan mencoba mengatasi masalah yang paling serius.
 
Proyek ini akan terdiri dari empat tahap:
 1. Eksplorasi data
 2. Transformasi data
 3. Pengkategorian Data
 4. Memeriksa hipotesis
 5. Kesimpulan umum

 
[Kembali ke Konten](#back)

## Buka *file* data dan baca informasi umumnya.

[Mulailah dengan mengimpor *library* dan memuat datanya. Anda mungkin akan menyadari bahwa Anda memerlukan *library* tambahan saat Anda telah mengerjakan proyek ini, dan itu merupakan hal yang normal. Hanya saja, pastikan untuk memperbarui bagian ini jika dibutuhkan.]

In [3]:
# Muat semua *library*
import pandas as pd


In [4]:
# Muat datanya
data_credit = pd.read_csv('/datasets/credit_scoring_eng.csv')

## Soal 1. Eksplorasi data

**Deskripsi Data**
- `children` - jumlah anak dalam keluarga
- `days_employed` - pengalaman kerja nasabah dalam hari
- `dob_years` - usia nasabah dalam tahun
- `education` - tingkat pendidikan nasabah
- `education_id` - pengidentifikasi untuk tingkat pendidikan nasabah
- `family_status` - pengidentifikasi untuk status perkawinan nasabah
- `family_status_id` - tanda pengenal status perkawinan
- `gender` - jenis kelamin nasabah
- `income_type` - jenis pekerjaan
- `debt` - apakah nasabah pernah melakukan gagal bayar pinjaman
- `total_income` - pendapatan bulanan
- `purpose` - tujuan mendapatkan pinjaman

[Sekarang saatnya menjelajahi data kita. Anda perlu melihat berapa banyak kolom dan baris yang dimiliki oleh data, serta mencermati beberapa baris data untuk memeriksa potensi masalah dengan data.]

In [5]:
# Mari kita lihat berapa banyak baris dan kolom yang dimiliki oleh dataset kita

print("Jumlah baris:", data_credit.shape[0])
print("Jumlah kolom:", data_credit.shape[1])

Jumlah baris: 21525
Jumlah kolom: 12


In [6]:
# Mari tampilkan N baris pertama
data_credit.head(10)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


[Jelaskan apa yang Anda lihat dan perhatikan dalam sampel data yang Anda tampilkan. Apakah terdapat masalah yang mungkin memerlukan penyelidikan dan perubahan lebih lanjut?]

Jawab :

    1. ada 2 kolom yang hilang datanya. 
       pada kolom ('days_employed')[12] dan kolom ('total_income')[12]
       
    2. jumlah hari bekerja bernilai negatif (-)   
    
    3. Jika nilai ('days_employed') kosong, maka kolom ('total_income') juga nilainya kosong 

In [7]:
# Dapatkan informasi data
data_credit.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [8]:
data_credit.dtypes

children              int64
days_employed       float64
dob_years             int64
education            object
education_id          int64
family_status        object
family_status_id      int64
gender               object
income_type          object
debt                  int64
total_income        float64
purpose              object
dtype: object

In [9]:
data_credit.columns

Index(['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose'],
      dtype='object')

[Apakah terdapat nilai yang hilang di semua kolom atau hanya di beberapa kolom? Jelaskan secara singkat apa yang Anda amati dalam 1-2 kalimat.]

Jawab : Tidak. hilang hanya beberapa kolom saja.
Berdasarkan hasil "print(data_credit.info())",ada 2 kolom yang memiliki missing value. kolom ('days_employed') memiliki 19351 record dan ('total_income') memiliki 19351 record. nilainya kurang dari nilai kolom-kolom yang lain sebanyak 21525.

    

In [10]:
#jumlah baris yang hilang di kolom 'days_employed' dan 'total_income'  

data_credit.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [11]:
# lihat tabel yang telah difilter dengan nilai yang hilang di kolom pertama

days_employed_filtered = data_credit[data_credit['days_employed'].isnull()]

In [12]:
# Tampilkan tabel yang telah difilter

days_employed_filtered


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


[Apakah nilai yang hilang tampak simetris? Apakah kita yakin dengan asumsi ini? Jelaskan pendapat Anda secara singkat di bagian ini. Anda mungkin ingin melakukan penyelidikan lebih lanjut, dan menghitung nilai yang hilang di semua baris dengan nilai yang hilang untuk memastikan bahwa sampel yang hilang memiliki ukuran yang sama.]

[jawab : iya , karena nilainya sama 2174. yakin, karena ('total_income') dihitung berdasarkan nilai dari('days_employed'). 
 jadi kalau nilai ('days_employed') hilang, ('total_income')nya juga hilang karena ga bisa dihitung.]

In [13]:
# Mari kita terapkan beberapa kondisi untuk memfilter data dan melihat jumlah baris dalam tabel yang telah difilter.

null_data_filtered = data_credit[data_credit['days_employed'].isnull() & data_credit['total_income'].isnull()]

null_data_filtered


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


[ada 2174 jumlah baris yang telah di filter yaitu kolom pertama yang nilai hilang]

In [14]:
days_employed_filtered.shape[0]

2174

In [15]:
null_data_filtered.shape[0]

2174

**Kesimpulan sementara**

[Apakah jumlah baris dalam tabel yang telah difilter sesuai dengan jumlah nilai yang hilang? Kesimpulan apa yang bisa kita buat dari hal ini?]

[Hitung persentase nilai yang hilang jika dibandingkan dengan keseluruhan *dataset*. Apakah nilai yang hilang merupakan bagian data yang cukup besar? Jika demikian, Anda sebaiknya perlu mengisi nilai yang hilang. Untuk melakukannya, pertama-tama kita harus mempertimbangkan apakah data yang hilang bisa jadi disebabkan oleh karakteristik nasabah tertentu, seperti jenis pekerjaan atau yang lainnya. Anda harus memutuskan karakteristik mana yang menurut *Anda* mungkin merupakan penyebabnya. Kedua, kita harus memeriksa apakah ada ketergantungan nilai yang hilang pada nilai indikator lain dengan kolom-kolom yang mengidentifikasikan karakteristik tertentu nasabah.]

[Jelaskan langkah Anda selanjutnya dan bagaimana hubungannya dengan kesimpulan yang Anda buat sejauh ini.]

[Kesimpulan :]

    [1. Jumlah baris dalam tabel yang telah di filter sama dengan jumlah nilai yang hilang. ]
    
    [2. hipotesis sementara, penyebab data hilang di kolom 'total_income' di sebabkan oleh hilangnya data di kolom 'days_employed'.]
    
    [3. data 'total_income' tergantung dari data di kolom 'days_employed'.]
    
    [4. sementara itu penyebab data hilang di 'days_employed' di perkirakan oleh karakteristik nasabah tetentu  ]
    
    [5. seperti nasabah tersebut memang sudah tidak bekerja atau income_type = retiree ]

In [16]:
#berikut persentase nilai yang hilang jika dibandingkan dengan keseluruhan dataset.

num_missing = data_credit['days_employed'].isna().sum()
row_complete = len(data_credit)

percent_missing = (num_missing / row_complete)

print('Persentase nilai hilang di kolom days_employed: {:.2%}'.format(percent_missing))



Persentase nilai hilang di kolom days_employed: 10.10%


persentase nilai yang hilang = 10.10% dari keseluruhan ['days_employed']. 10.10% merupakan nilai yang cukup besar

In [17]:
# Mari kita periksa nasabah yang tidak memiliki data tentang karakteristik yang teridentifikasi dan kolom dengan nilai yang hilang

# Filter baris yang tidak memiliki nilai yang hilang di kolom days_employed dan total_income
not_missing_data = data_credit[(data_credit['days_employed'].notnull()) & (data_credit['total_income'].notnull())]
not_missing_data


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.422610,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21521,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21522,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


In [18]:
# Periksalah distribusinya
#not_missing_data.describe()


[Deksripsikan temuan Anda di sini.]

**Kemungkinan penyebab hilangnya nilai dalam data**

[Kemukakan gagasan Anda mengenai kemungkinan alasan hilangnya nilai-nilai tersebut. Apakah menurut Anda mereka hilang secara acak atau apakah terdapat pola-pola tertentu?]

[Mari kita mulai memeriksa apakah nilai yang hilang bersifat acak.]

[Deskripsikan temuan :

    1. saya menemukan kesimpulan sementara data yang hilang tidak secara acak melainkan mempunyai pola tertentu,
    
    2. jika data kolom (days_employed) hilang maka data di kolom (total_income) juga hilang pada row yang sama. 
    
    3. ini membuktikan kedua kolom tersebut mempunyai ketergantungan.]
 

In [19]:
percent_days = data_credit['days_employed'].isnull().value_counts(normalize=True).mul(100).round(2).astype(str)+"%"

percent_days

False    89.9%
True     10.1%
Name: days_employed, dtype: object

[Hasil persentase nilai null di kolom 'days_employed' : 10.1% ]

In [20]:
percent_total = data_credit['total_income'].isnull().value_counts(normalize=True).mul(100).round(2).astype(str)+"%"

percent_total

False    89.9%
True     10.1%
Name: total_income, dtype: object

In [21]:
# Memeriksa distribusi di seluruh *dataset*

data_credit.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,26787.568355
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,16475.450632
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,3306.762
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,16488.5045
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,23202.87
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,32549.611
max,20.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


In [22]:
percent_data_credit = data_credit.isnull().value_counts(normalize=True).mul(100).round(2).astype(str)+"%"

percent_data_credit

children  days_employed  dob_years  education  education_id  family_status  family_status_id  gender  income_type  debt   total_income  purpose
False     False          False      False      False         False          False             False   False        False  False         False      89.9%
          True           False      False      False         False          False             False   False        False  True          False      10.1%
dtype: object

**Kesimpulan sementara**

[Apakah distribusi dalam *dataset* yang asli mirip dengan distribusi tabel yang telah difilter? Apa artinya hal tersebut untuk kita?]

[Jika menurut Anda kita belum dapat membuat kesimpulan apa pun, mari kita kembali menyelidiki *dataset* lebih lanjut. Mari pikirkan alasan lain yang dapat menyebabkan data hilang dan periksa apakah kita dapat menemukan pola tertentu yang dapat membuat kita berpikir bahwa hilangnya nilai-nilai tersebut tidak terjadi secara acak. Karena ini merupakan tugas Anda, maka bagian ini adalah opsional.]

[Kesimpulan sementara :]

[1. distribusi dalam dataset yang asli mirip dengan distribusi tabel yang telah difilter.]

[2. artinya tidak ada data hilang secara acak, data hilang hanya dikolom days_employed dan total_income.]

[3. penyebab dan pola lain yang dapat mengakibatkan nilai yang hilang antara lain :] 

       [a. nasabah yang sudah pensiun mengakibatkan days_employed nilainya hilang]
       
       [b. nasabah yang usia diatas 55tahun biasanya banyak yang pensiun mengakibatkan days_employed nilainya hilang ]
       
       [c. nilai days_employed juga hilang, karena banyak nasabah yang pekerjaannya 'business' jadi tidak punya hari kerja] 
       
       [d. nasabah yang pekerjaannya 'business' karena tidak punya hari kerja, maka days_employed juga hilang]

       

In [23]:
# no.2. Periksa penyebab dan pola lain yang dapat mengakibatkan nilai yang hilang

# Tampilkan hanya kolom 'days_employed' dan 'total_income' yang memiliki nilai yang hilang
missing_data = data_credit[['days_employed', 'total_income']].isnull().any(axis=1)
filtered_data = data_credit.loc[missing_data, ['days_employed', 'total_income']]

# Tampilkan data yang sudah difilter
filtered_data

Unnamed: 0,days_employed,total_income
12,,
26,,
29,,
41,,
55,,
...,...,...
21489,,
21495,,
21497,,
21502,,


In [24]:
#pola lain yang dapat mengakibatkan nilai yang hilang- nasabah pensiun maka days_employed juga hilang

# no.3a nasabah yang usia diatas 55tahun biasanya banyak yang pensiun mengakibatkan days_employed nilainya hilang

# Filter hanya baris di kolom days_employed dengan nilai null dan income_type='retiree'
filtered_pensiun = data_credit.loc[data_credit['days_employed'].isnull() & (data_credit['income_type'] == 'retiree'), ['days_employed', 'income_type']]

# Tampilkan hasil filter
filtered_pensiun

Unnamed: 0,days_employed,income_type
12,,retiree
29,,retiree
55,,retiree
67,,retiree
145,,retiree
...,...,...
21311,,retiree
21321,,retiree
21414,,retiree
21415,,retiree


In [25]:
# no.3b pola lain yang dapat mengakibatkan nilai yang hilang- nasabah yang usia diatas 55tahun maka days_employed juga hilang

filtered_usia = data_credit.loc[(data_credit['days_employed'].isnull()) & (data_credit['dob_years'] >= 55) & (data_credit['income_type'] == 'retiree'),['days_employed', 'dob_years', 'income_type']]

# Tampilkan hasil filter
filtered_usia

Unnamed: 0,days_employed,dob_years,income_type
12,,65,retiree
29,,63,retiree
145,,62,retiree
247,,60,retiree
280,,66,retiree
...,...,...,...
21146,,69,retiree
21305,,59,retiree
21321,,56,retiree
21414,,65,retiree


In [26]:
# no.3d pola lain yang dapat mengakibatkan nilai yang hilang- nasabah yang pekerjaannya 'business' karena tidak punya 
# hari kerja, maka days_employed juga hilang

filtered_usia = data_credit[(data_credit['days_employed'].isnull()) & (data_credit['income_type']== 'business')]
filtered_usia

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
65,0,,21,secondary education,1,unmarried,4,M,business,0,,transactions with commercial real estate
94,1,,34,bachelor's degree,0,civil partnership,1,F,business,0,,having a wedding
121,0,,29,bachelor's degree,0,married,0,F,business,0,,car
135,0,,27,secondary education,1,married,0,M,business,0,,housing
174,0,,55,bachelor's degree,0,widow / widower,2,F,business,0,,to own a car
...,...,...,...,...,...,...,...,...,...,...,...,...
21390,20,,53,secondary education,1,married,0,M,business,0,,buy residential real estate
21391,0,,52,secondary education,1,married,0,F,business,0,,purchase of the house for my family
21407,1,,36,secondary education,1,married,0,F,business,0,,building a real estate
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car


**Kesimpulan sementara**

[Apakah pada akhirnya kita dapat memastikan bahwa nilai yang hilang adalah suatu kebetulan? Periksa hal lain yang menurut Anda penting di sini.]

kita dapat memastikan bahwa nilai yang hilang adalah bukan suatu kebetulan. sudah dijelaskan di atas, hipotesis sementara dikarenakan 3 hal.
dan sudah di buktikan di atas.


**Kesimpulan**

[Apakah Anda menemukan suatu pola? Bagaimana Anda mendapatkan kesimpulan ini?]

[Jelaskan bagaimana Anda akan mengatasi nilai-nilai yang hilang. Pertimbangkan kategori dengan nilai yang hilang.]

[Rencanakan secara singkat langkah Anda selanjutnya untuk mentransformasi data. Anda mungkin perlu mengatasi berbagai jenis masalah: duplikat, pencatatan yang berbeda, sumber data yang salah, dan nilai yang hilang.]

Apakah Anda menemukan suatu pola? Bagaimana Anda mendapatkan kesimpulan ini?

jawab : iya, ada polanya. 
    
    1) nilai total_income hilang, karena nilai days_employed juga hilang.
    
    2. nilai days_employed hilang, karena nasabah sudah banyak yang pensiun
    
    3. nilai days_employed juga hilang, karena banyak nasabah yang pekerjaannya 'business' jadi tidak punya hari kerja

In [27]:
percent_full = not_missing_data.isnull().value_counts(normalize=True).mul(100).round(2).astype(str)+"%"

percent_full

children  days_employed  dob_years  education  education_id  family_status  family_status_id  gender  income_type  debt   total_income  purpose
False     False          False      False      False         False          False             False   False        False  False         False      100.0%
dtype: object

## Transformasi data

[Mari kita perhatikan setiap kolom untuk melihat masalah apa yang mungkin dimiliki mereka.]

[Mulailah dengan menghapus duplikat dan memperbaiki data tentang informasi pendidikan jika diperlukan.]

In [28]:
# Mari kita lihat semua nilai di kolom pendidikan untuk memeriksa ejaan apa yang perlu diperbaiki

data_pendidikan = data_credit['education'].unique()
 
data_pendidikan

array(["bachelor's degree", 'secondary education', 'Secondary Education',
       'SECONDARY EDUCATION', "BACHELOR'S DEGREE", 'some college',
       'primary education', "Bachelor's Degree", 'SOME COLLEGE',
       'Some College', 'PRIMARY EDUCATION', 'Primary Education',
       'Graduate Degree', 'GRADUATE DEGREE', 'graduate degree'],
      dtype=object)

In [29]:
data_credit['education'].value_counts()

secondary education    13750
bachelor's degree       4718
SECONDARY EDUCATION      772
Secondary Education      711
some college             668
BACHELOR'S DEGREE        274
Bachelor's Degree        268
primary education        250
Some College              47
SOME COLLEGE              29
PRIMARY EDUCATION         17
Primary Education         15
graduate degree            4
Graduate Degree            1
GRADUATE DEGREE            1
Name: education, dtype: int64

In [30]:
data_credit['education']=data_credit['education'].str.lower()


In [31]:
data_credit['education'].value_counts()

secondary education    15233
bachelor's degree       5260
some college             744
primary education        282
graduate degree            6
Name: education, dtype: int64

In [32]:
# Periksa semua nilai di kolom untuk memastikan bahwa kita telah memperbaikinya dengan tepat

data_credit['education'].unique()

array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

[Periksa data kolom `children`]

In [33]:
# Mari kita lihat distribusi nilai pada kolom `children`
data_credit['children'].describe()

count    21525.000000
mean         0.538908
std          1.381587
min         -1.000000
25%          0.000000
50%          0.000000
75%          1.000000
max         20.000000
Name: children, dtype: float64

In [34]:
data_credit['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

1. [ada 47 nasabah yang mempunyai anak -1, ini suatu keanehan nilai data]

2. [Apakah terdapat hal-hal yang aneh di kolom tersebut? Bagaimana mereka bisa terjadi? Buat keputusan tentang apa yang akan Anda lakukan dengan data ini dan jelaskan alasannya.]

3. [iya, ada keanehan pada nilai min nya : -1. padahal jumlah anak tidak boleh bernilai negatif (-). kemungkinan ini disebabkan salah input.
 atau bisa juga karena masalah teknis.
 

4. [yang harus dilakukan adalah mengubah nilai -(negatif) ke nilai +(positif)]

5. [ada 76 nasabah yang mempunyai anak 20, ini suatu keanehan nilai data. namun sepertinya ini disebabkan salah input.]


6. [oleh karena itu kita akan ubah 20 menjadi 2]

In [35]:
#kita ubah nilai negatif dalam kolom anak
data_credit['children'] = data_credit['children'].abs()


In [36]:
#data min jumlah anak sudah berubah menjadi 0
data_credit['children'].describe()

count    21525.000000
mean         0.543275
std          1.379876
min          0.000000
25%          0.000000
50%          0.000000
75%          1.000000
max         20.000000
Name: children, dtype: float64

In [37]:
#kita ubah nilai '20' menjadi '2' dalam kolom anak
#employee_data = data_credit[(data_credit['income_type'] == 'employee') & (data_credit['dob_years'] != 0)]
data_credit['children'] = data_credit['children'].replace(20, 2)
data_credit['children'].describe()

count    21525.000000
mean         0.479721
std          0.755528
min          0.000000
25%          0.000000
50%          0.000000
75%          1.000000
max          5.000000
Name: children, dtype: float64

[tidak ada lagi jumlah anak yang bernilai negatif]

[Periksa data dalam kolom the `days_employed`. Pertama-tama pikirkan tentang masalah apa yang mungkin ada pada kolom tersebut, serta pikirkan juga apa yang mungkin ingin Anda periksa dan bagaimana Anda akan melakukannya.]

In [38]:
# Temukan data yang bermasalah di kolom `days_employed` jika memang terdapat masalah, dan hitung persentasenya
data_credit['days_employed'].describe()

count     19351.000000
mean      63046.497661
std      140827.311974
min      -18388.949901
25%       -2747.423625
50%       -1203.369529
75%        -291.095954
max      401755.400475
Name: days_employed, dtype: float64

In [39]:
data_credit[data_credit['days_employed'] < 0]['days_employed']


0       -8437.673028
1       -4024.803754
2       -5623.422610
3       -4124.747207
5        -926.185831
            ...     
21519   -2351.431934
21520   -4529.316663
21522   -2113.346888
21523   -3112.481705
21524   -1984.507589
Name: days_employed, Length: 15906, dtype: float64

In [40]:
#menghitung persentase masalah data negatif terhadap semua data di kolom 'days_employed'

neg_days_employed = data_credit[data_credit['days_employed'] < 0]['days_employed']
neg_days_employed_percent = len(neg_days_employed) / len(data_credit) * 100

print(f"Persentase nilai negatif di kolom 'days_employed' adalah {neg_days_employed_percent:.2f}%")

Persentase nilai negatif di kolom 'days_employed' adalah 73.90%


[Jika jumlah data yang bermasalah tinggi, hal tersebut mungkin disebabkan oleh beberapa masalah teknis. Kita mungkin perlu mengusulkan alasan paling jelas mengapa hal tersebut dapat terjadi dan bagaimana seharusnya data yang benar, mengingat kita tidak dapat menghapus baris yang bermasalah ini.]

[data 'days_employed' banyak yang berisi nilai negatif(-). mengingat persentase kesalahan yang tinggi, dugaan sementara hal itu mungkin disebabkan kesalahan teknis, 
 bisa juga karna salah format data. 
jadi langkah yang saya ambil adalah mengubah nilai negatif(-) menjadi positif(+), tanpa harus menghapusnya atau mengubah nilainya. ]  

In [41]:
# Atasi nilai yang bermasalah, jika ada
#mengubah nilai negatif menjadi positif
data_credit['days_employed'] = data_credit['days_employed'].abs()


In [42]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
data_credit['days_employed'].describe()


count     19351.000000
mean      66914.728907
std      139030.880527
min          24.141633
25%         927.009265
50%        2194.220567
75%        5537.882441
max      401755.400475
Name: days_employed, dtype: float64

In [43]:
data_credit['days_employed'].head(15)

0       8437.673028
1       4024.803754
2       5623.422610
3       4124.747207
4     340266.072047
5        926.185831
6       2879.202052
7        152.779569
8       6929.865299
9       2188.756445
10      4171.483647
11       792.701887
12              NaN
13      1846.641941
14      1844.956182
Name: days_employed, dtype: float64

[sekarang tidak ada lagi data yang bernilai negatif(-) di kolom ['days_employed']....]

[Sekarang mari kita lihat usia nasabah dan mengecek apakah terdapat masalah di sana. Sekali lagi, pikirkan tentang kemungkinan kejanggalan apa yang bisa kita temui dalam kolom ini, misalnya angka usia yang tidak masuk akal.]

In [44]:
# Periksa `dob_years` untuk nilai yang mencurigakan dan hitung persentasenya
data_credit['dob_years'].describe()


count    21525.000000
mean        43.293380
std         12.574584
min          0.000000
25%         33.000000
50%         42.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64

[ada umur nasabah yang berumur 0 tahun, ini adalah suatu kejanggalan]

In [45]:
# menghitung jumlah umur nasabah 0 tahun di kolom umur nasabah 

data_credit.loc[(data_credit['dob_years'] <= 0)]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
99,0,346541.618895,0,secondary education,1,married,0,F,retiree,0,11406.644,car
149,0,2664.273168,0,secondary education,1,divorced,3,F,employee,0,11228.230,housing transactions
270,3,1872.663186,0,secondary education,1,married,0,F,employee,0,16346.633,housing renovation
578,0,397856.565013,0,secondary education,1,married,0,F,retiree,0,15619.310,construction of own property
1040,0,1158.029561,0,bachelor's degree,0,divorced,3,F,business,0,48639.062,to own a car
...,...,...,...,...,...,...,...,...,...,...,...,...
19829,0,,0,secondary education,1,married,0,F,employee,0,,housing
20462,0,338734.868540,0,secondary education,1,married,0,F,retiree,0,41471.027,purchase of my own house
20577,0,331741.271455,0,secondary education,1,unmarried,4,F,retiree,0,20766.202,property
21179,2,108.967042,0,bachelor's degree,0,married,0,M,business,0,38512.321,building a real estate


In [46]:
data_credit['dob_years'].sort_values().unique()

array([ 0, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
       69, 70, 71, 72, 73, 74, 75])

[ada 101 nasabah yang berumur 0 tahun, suatu hal yang aneh ada nasabah yang berumur 0 tahun]

In [47]:
# menghitung angka persentase umur nasabah 0 tahun di kolom umur nasabah 

count_zero_age = data_credit['dob_years'].value_counts()[0]
count_all_age = data_credit['dob_years'].count()
percentage_zero_age = count_zero_age / count_all_age * 100
print("Persentase umur nasabah 0 tahun: {:.2f}%".format(percentage_zero_age))


Persentase umur nasabah 0 tahun: 0.47%


[Putuskan apa yang akan Anda lakukan dengan nilai yang bermasalah dan jelaskan alasannya.]

[Di temukan kejanggalan di kolom 'dob_years', ternyata ada nasabah yang umurnya 0 tahun. padahal hal itu tidak mungkin terjadi, bayi menjadi nasabah pijaman.

 
 solusi yang saya ambil yaitu, mengganti nilai 0 dengan nilai rata-rata nasabah berdasarkan jenis pekerjaannya. ]


In [48]:
# langkah 1 - menampilkan jenis pekerjaan 
count_income = data_credit['income_type'].value_counts()
count_income

employee                       11119
business                        5085
retiree                         3856
civil servant                   1459
unemployed                         2
entrepreneur                       2
paternity / maternity leave        1
student                            1
Name: income_type, dtype: int64

In [49]:
# langkah 2 - menampilkan rata-rata dan median berdasarkan jenis pekerjaan 

# Mean & median untuk umur nasabah != 0 
income_dob = round(data_credit.groupby('income_type')['dob_years'].agg(['mean', 'median']))

income_dob

Unnamed: 0_level_0,mean,median
income_type,Unnamed: 1_level_1,Unnamed: 2_level_1
business,40.0,39.0
civil servant,41.0,40.0
employee,40.0,39.0
entrepreneur,42.0,42.0
paternity / maternity leave,39.0,39.0
retiree,59.0,60.0
student,22.0,22.0
unemployed,38.0,38.0


In [50]:
# menampilkan nilai yg terdapat di kolom jenis pekerjaan 
data_credit['income_type'].unique()

array(['employee', 'retiree', 'business', 'civil servant', 'unemployed',
       'entrepreneur', 'student', 'paternity / maternity leave'],
      dtype=object)

In [51]:
# langkah 3 - mengganti nilai 0 tahun dengan umur rata-rata nasabah berdasarkan jenis pekerjaan 

# Mengganti nilai 0 di kolom 'dob_years' dengan nilai rata-rata berdasarkan 'income_type'
for type_income in data_credit['income_type'].unique():
    criteria = (data_credit['dob_years'] == 0) & (data_credit['income_type'] == type_income)
    mean_age = data_credit.loc[data_credit['income_type'] == type_income, 'dob_years'].mean()
    data_credit.loc[criteria, 'dob_years'] = int(mean_age)

In [52]:
#pastikan bahwa masalahnya telah diperbaiki - mengecek kembali umur nasabah 0 tahun

# langkah 4 - memastikan nilai 0 tahun sudah tergantikan 

data_credit.loc[data_credit['dob_years'] == 0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


In [53]:
#tidak ada lagi umur nasabah 0 tahun - done
data_credit['dob_years'].unique()


array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51, 59, 29, 60, 55, 58, 71, 22, 73, 66,
       69, 19, 72, 70, 74, 75])

In [54]:
data_credit['dob_years'].describe()

count    21525.000000
mean        43.495238
std         12.230322
min         19.000000
25%         34.000000
50%         43.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64

[masalahnya telah diperbaiki, tidak ada lagi nasabah yang umunya 0 tahun]

[Sekarang saatnya memeriksa kolom `family_status`. Periksalah nilai seperti apa yang dimuat di dalam kolom ini dan masalah apa yang mungkin perlu Anda atasi.]

In [55]:
# Mari kita lihat nilai untuk kolom ini
data_credit['family_status'].describe()


count       21525
unique          5
top       married
freq        12380
Name: family_status, dtype: object

In [56]:
# Atasi nilai yang bermasalah di `family_status`, jika ada

data_credit['family_status'].unique()

array(['married', 'civil partnership', 'widow / widower', 'divorced',
       'unmarried'], dtype=object)

In [57]:
# Periksa hasilnya - pastikan nilainya telah diperbaiki


[Tidak ada masalah dalam kolom 'family_status', tidak ada data ganda dan tidak ada data hilang.]

[Tidak ada masalah dalam kolom 'family_status', tidak ada data ganda dan tidak ada data hilang.
tanda'/'pada 'widow / widower'dalam kolom 'family_status' merupakan bagian dari nama kategori tersebut, sehingga tidak perlu diperbaiki]

[Sekarang saatnya memeriksa kolom `gender`. Periksalah nilai seperti apa yang dimuat di dalam kolom ini dan masalah apa yang mungkin perlu Anda atasi]

In [58]:
# Mari kita liat nilai dalam kolom ini
data_credit['gender'].describe()

count     21525
unique        3
top           F
freq      14236
Name: gender, dtype: object

In [59]:
# Atasi nilai-nilai yang bermasalah, jika ada
data_credit['gender'].unique()


array(['F', 'M', 'XNA'], dtype=object)

In [60]:
data_credit[data_credit['gender']=='XNA']['gender'].value_counts()

XNA    1
Name: gender, dtype: int64

In [61]:
data_credit['gender'].value_counts()


F      14236
M       7288
XNA        1
Name: gender, dtype: int64

[walaupun hanya 1 nilai aneh dalam kolom 'gender' namun tetap harus dihapus ]

In [62]:
# menghapus 1 baris yang mengandung 1 nilai aneh ("XNA")di kolom 'gender'

# Mencari indeks baris yang memiliki nilai 'gender' = 'XNA'
index_to_drop = data_credit[data_credit['gender'] == 'XNA'].index

# Menghapus baris dengan indeks yang telah dicari sebelumnya
data_credit.drop(index_to_drop, inplace=True)

In [63]:
# periksa kembali apakah nilai "XNA" sudah terhapus - hasilnya "XNA" sudah terhapus
data_credit['gender'].value_counts()

F    14236
M     7288
Name: gender, dtype: int64

In [64]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki


[Tidak ada masalah dalam kolom 'gender', tidak ada data ganda dan tidak ada data hilang. Terdapat 1 nilai aneh "XNA" sudah dihapus]

[Sekarang saatnya memeriksa kolom `income_type`. Periksalah nilai seperti apa yang dimuat di dalam kolom ini dan masalah apa yang mungkin perlu Anda atasi]

In [65]:
# Mari kita lihat nilai dalam kolom ini
data_credit['income_type'].describe()

count        21524
unique           8
top       employee
freq         11119
Name: income_type, dtype: object

In [66]:
# Atasi nilai yang bermasalah, jika ada
# tidak ada masalah
data_credit['income_type'].unique()

array(['employee', 'retiree', 'business', 'civil servant', 'unemployed',
       'entrepreneur', 'student', 'paternity / maternity leave'],
      dtype=object)

[Tidak ada masalah dalam kolom 'income_type', tidak ada data ganda dan tidak ada data hilang.]

In [67]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki


[Tidak ada masalah dalam kolom 'income_type', tidak ada data ganda dan tidak ada data hilang.]

[Sekarang saatnya melihat apakah ada duplikat di dalam data kita. Jika kita menemukannya, Anda harus memutuskan apa yang akan Anda lakukan dengan duplikat tersebut dan menjelaskan alasannya.]

In [68]:
# Periksa duplikat
data_credit.duplicated().sum()


71

In [69]:
# tampilkan data duplikat
duplicate_data = data_credit[data_credit.duplicated()]
duplicate_data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
2849,0,,41,secondary education,1,married,0,F,employee,0,,purchase of the house for my family
3290,0,,58,secondary education,1,civil partnership,1,F,retiree,0,,to have a wedding
4182,1,,34,bachelor's degree,0,civil partnership,1,F,employee,0,,wedding ceremony
4851,0,,60,secondary education,1,civil partnership,1,F,retiree,0,,wedding ceremony
5557,0,,58,secondary education,1,civil partnership,1,F,retiree,0,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
20702,0,,64,secondary education,1,married,0,F,retiree,0,,supplementary education
21032,0,,60,secondary education,1,married,0,F,retiree,0,,to become educated
21132,0,,47,secondary education,1,married,0,F,employee,0,,housing renovation
21281,1,,30,bachelor's degree,0,married,0,F,employee,0,,buy commercial real estate


In [70]:
#menghitung persentase data duplikat 

jumlah_duplikat = data_credit.duplicated().sum()
jumlah_record = len(data_credit)
percentage_jumlah_duplikat = (jumlah_duplikat / jumlah_record) * 100
print("Persentase data duplikat: {:.2f}%".format(percentage_jumlah_duplikat))

Persentase data duplikat: 0.33%


[setelah memeriksa data duplikat, yang akan kita lakukan adalah menghapus data duplikat tersebut]

In [71]:
# Atasi duplikat, jika ada data duplikat akan dihapus

data_credit = data_credit.drop_duplicates().reset_index(drop=True)
data_credit
#data_credit.drop_duplicates(inplace=True)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21448,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21449,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21450,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21451,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


In [72]:
# Lakukan pemeriksaan terakhir untuk mengecek apakah kita memiliki duplikat

data_credit.duplicated().sum()


0

In [73]:
data_credit[data_credit.duplicated()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


In [74]:
# Periksa ukuran dataset yang sekarang Anda miliki setelah manipulasi pertama yang Anda lakukan
data_credit.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21453 entries, 0 to 21452
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21453 non-null  int64  
 1   days_employed     19350 non-null  float64
 2   dob_years         21453 non-null  int64  
 3   education         21453 non-null  object 
 4   education_id      21453 non-null  int64  
 5   family_status     21453 non-null  object 
 6   family_status_id  21453 non-null  int64  
 7   gender            21453 non-null  object 
 8   income_type       21453 non-null  object 
 9   debt              21453 non-null  int64  
 10  total_income      19350 non-null  float64
 11  purpose           21453 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


[Jelaskan *dataset* baru Anda: jelaskan secara singkat apa saja perubahannya dan seberapa besar persentase perubahannya, jika ada.]


1. [data duplikat telah dihapus, jumlah row sekarang telah berkurang dari row awal]

2. [data awal ada 21525 rows × 12 columns, setelah di cek ada 54data duplikat. lalu dilakukan hapus data duplikat.
sisa ada [21454 rows x 12 columns] dalam tabel]

# Bekerja dengan nilai yang hilang

[Untuk mempercepat pekerjaan dengan sejumlah data, Anda mungkin ingin menggunakan *dictionary* untuk beberapa nilai yang memiliki ID. Jelaskan mengapa dan *dictionary* apakah yang akan Anda gunakan.]

[Dictionary yang akan saya gunakan adalah data_credit['family_status_id'] dan ['family_status'] 

karena nilai yang ada di ['family_status_id'] akan menjelaskan keterangan di kolom  ['family_status']]

In [75]:
dict(zip(data_credit.family_status_id, data_credit.family_status))

{0: 'married',
 1: 'civil partnership',
 2: 'widow / widower',
 3: 'divorced',
 4: 'unmarried'}

In [76]:
dict(zip(data_credit.education_id, data_credit.education))

{0: "bachelor's degree",
 1: 'secondary education',
 2: 'some college',
 3: 'primary education',
 4: 'graduate degree'}

### Memperbaiki nilai yang hilang di `total_income`

[Jelaskan secara singkat kolom dengan nilai yang hilang manakah yang perlu Anda tangani. Jelaskan bagaimana Anda akan memperbaikinya.]


[Mulailah dengan mengatasi total nilai pendapatan yang hilang. Buatlah kategori usia untuk nasabah. Buatlah kolom baru yang memuat kategori usia. Strategi ini dapat membantu untuk menghitung total nilai pendapatan.]


kolom dengan nilai yang hilang yang perlu Anda tangani adalah 'days_employed' dan 'total_income'. 

In [77]:
# Mari kita tulis sebuah fungsi untuk menghitung kategori usia

def category_dob(dob_years):
    if dob_years <= 25:
        return str('19-25')
    elif dob_years <= 35:
        return str('26-35')
    elif dob_years <= 45:
        return str('36-45')
    elif dob_years <= 55:
        return str('46-55')
    elif dob_years <= 65:
        return str('56-65')
    return str('65+')

In [78]:
# Lakukan pengujian untuk melihat apakah fungsi Anda bekerja atau tidak

print(category_dob(25))

19-25


In [79]:
# Terapkan fungsi category_dob
data_credit['category_dob'] = data_credit['dob_years'].apply(category_dob)

# Tampilkan 10 baris pertamanya
data_credit.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category_dob
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,36-45
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,36-45
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,26-35
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,26-35
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,46-55
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,26-35
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,36-45
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,46-55
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,26-35
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,36-45


In [80]:
# Buatlah kolom baru berdasarkan fungsi

data_credit['category_dob'] = data_credit['dob_years'].apply(category_dob)
data_credit[['dob_years', 'category_dob']].head()

Unnamed: 0,dob_years,category_dob
0,42,36-45
1,36,36-45
2,33,26-35
3,32,26-35
4,53,46-55


In [81]:
data_credit['category_dob'] = data_credit['dob_years'].apply(category_dob)

In [82]:
# Periksa bagaimana nilai di dalam kolom baru

data_credit['category_dob'].value_counts()

data_credit

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category_dob
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,36-45
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,36-45
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,26-35
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,26-35
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,46-55
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21448,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,36-45
21449,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,65+
21450,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,36-45
21451,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,36-45


[Pikirkan tentang faktor-faktor yang biasanya bergantung pada pendapatan. Pada akhirnya, Anda akan mengetahui apakah Anda harus menggunakan nilai rata-rata atau median untuk mengganti nilai yang hilang. Untuk membuat keputusan ini, Anda mungkin ingin melihat distribusi faktor-faktor yang Anda identifikasi sebagai dampak dari pendapatan seseorang.]

[Buatlah tabel yang hanya memuat data tanpa nilai yang hilang. Data ini akan digunakan untuk memperbaiki nilai yang hilang.]

In [83]:
# Buat tabel tanpa nilai yang hilang dan tampilkan beberapa barisnya untuk memastikan semuanya berjalan dengan baik

data_credit_lengkap = data_credit.dropna()
data_credit_lengkap.head()


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category_dob
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,36-45
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,36-45
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,26-35
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,26-35
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,46-55


In [84]:
# Perhatikan nilai rata-rata untuk pendapatan berdasarkan faktor yang telah Anda identifikasi

income_by_education = data_credit.groupby('education')['total_income'].mean()
income_by_education



education
bachelor's degree      33142.802434
graduate degree        27960.024667
primary education      21144.882211
secondary education    24594.503037
some college           29040.132990
Name: total_income, dtype: float64

In [85]:
#data_credit_clean = data_credit.dropna().reset_index(drop=True)
#data_credit_clean.info()
#data_credit_clean.head()

data_credit_group = data_credit_lengkap.groupby('category_dob').agg({'total_income':['mean','median']})
data_credit_group

Unnamed: 0_level_0,total_income,total_income
Unnamed: 0_level_1,mean,median
category_dob,Unnamed: 1_level_2,Unnamed: 2_level_2
19-25,23447.795802,21423.8355
26-35,27613.702541,24193.5905
36-45,28635.84309,24768.995
46-55,27112.241563,23337.4395
56-65,24543.079048,21295.083
65+,20804.461461,17978.231


In [86]:
# Perhatikan nilai median untuk pendapatan berdasarkan faktor yang telah Anda identifikasi

median_income_edu = data_credit.groupby('education')['total_income'].median().reset_index()
median_income_edu

Unnamed: 0,education,total_income
0,bachelor's degree,28054.531
1,graduate degree,25161.5835
2,primary education,18741.976
3,secondary education,21836.583
4,some college,25608.7945


[Ulangi perbandingan tersebut untuk beberapa faktor. Pastikan Anda mempertimbangkan berbagai aspek dan menjelaskan proses berpikir Anda.]



[saya membuat perbandingan dengan faktor lain yaitu: rata-rata 'total _income berdasarkan 'income_type' untuk mengisi 'total_income']

In [87]:
#mencari nilai mean total_income berdasarkan income_type nasabah

income_by_type = data_credit.groupby('income_type')['total_income'].mean()
income_by_type


income_type
business                       32386.741818
civil servant                  27343.729582
employee                       25820.841683
entrepreneur                   79866.103000
paternity / maternity leave     8612.661000
retiree                        21940.394503
student                        15712.260000
unemployed                     21014.360500
Name: total_income, dtype: float64

In [88]:
#mencari nilai median total_income berdasarkan income_type nasabah

median_income_by_type = data_credit.groupby('income_type')['total_income'].median().reset_index()
median_income_by_type

Unnamed: 0,income_type,total_income
0,business,27571.0825
1,civil servant,24071.6695
2,employee,22815.1035
3,entrepreneur,79866.103
4,paternity / maternity leave,8612.661
5,retiree,18962.318
6,student,15712.26
7,unemployed,21014.3605


[Buatlah keputusan tentang karakteristik yang paling menentukan pendapatan dan apakah Anda akan menggunakan median atau rata-rata. Jelaskan mengapa Anda membuat keputusan ini]


[saya lebih memilih menggunakan nilai rata-rata total_income berdasarkan nilai income_type , alasannya nilai rata-rata lebih banyak dipakai dan lebih mugah untuk menjelaskannya.] 

In [89]:
#  Tulis fungsi yang akan kita gunakan untuk mengisi nilai yang hilang

income_type_mean = data_credit.groupby('income_type')['total_income'].mean()
def fill_income(row):
    if pd.isnull(row['total_income']):
        return income_type_mean[row['income_type']]
    return row['total_income']
data_credit['total_income'] = data_credit.apply(fill_income, axis=1)



In [90]:
# memeriksa data di kolom total_income, semua sudah terisi. tidak ada yg bernilai null
data_credit.isnull().sum()

children               0
days_employed       2103
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
category_dob           0
dtype: int64

In [91]:
data_credit.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21453 entries, 0 to 21452
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21453 non-null  int64  
 1   days_employed     19350 non-null  float64
 2   dob_years         21453 non-null  int64  
 3   education         21453 non-null  object 
 4   education_id      21453 non-null  int64  
 5   family_status     21453 non-null  object 
 6   family_status_id  21453 non-null  int64  
 7   gender            21453 non-null  object 
 8   income_type       21453 non-null  object 
 9   debt              21453 non-null  int64  
 10  total_income      21453 non-null  float64
 11  purpose           21453 non-null  object 
 12  category_dob      21453 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.1+ MB


In [92]:
# Memeriksa bagaimana nilai di dalam kolom baru


[pada saat ini saya tidak membuat tabel baru, karena saya memilih rata-rata pendapatan nasabah berdasarkan type pekerjaan mereka]

[lalu nilai rata-rata dari jenis pekerjaan itu saya masukkan ke dalam nilai hilang/kosong berdasarkan income_type nasabah]

[tanpa membuat tabel/kolom baru.]

In [93]:
# Terapkan fungsi tersebut ke setiap baris

#mengecek nilai di kolom ['total_income'] record ke 16
print(data_credit['total_income'].iloc[15])

#mengecek nilai di kolom ['total_income'] record ke 201
print(data_credit['total_income'].iloc[200])

#mengecek nilai di kolom ['total_income'] record ke 178
print(data_credit['total_income'].iloc[177])


#tidak ada nilai bernilai null lagi,..

18691.345
32180.168
27691.871


In [94]:
# Periksa apakah kita mendapatkan kesalahan
total_income_null = data_credit[data_credit['total_income'].isnull()]
print(total_income_null)


Empty DataFrame
Columns: [children, days_employed, dob_years, education, education_id, family_status, family_status_id, gender, income_type, debt, total_income, purpose, category_dob]
Index: []


In [95]:
print(data_credit['total_income'].describe())

count     21453.000000
mean      26788.857867
std       15690.010913
min        3306.762000
25%       17219.352000
50%       24300.221000
75%       32386.741818
max      362496.645000
Name: total_income, dtype: float64


In [96]:
#ini adalah data yang dimasukkan ke kolom 'total_income' yang bernilai null
income_by_type = data_credit.groupby('income_type')['total_income'].mean()
income_by_type

income_type
business                       32386.741818
civil servant                  27343.729582
employee                       25820.841683
entrepreneur                   79866.103000
paternity / maternity leave     8612.661000
retiree                        21940.394503
student                        15712.260000
unemployed                     21014.360500
Name: total_income, dtype: float64

[Jika Anda menemukan kesalahan dalam menyiapkan nilai untuk data yang hilang, kemungkinan ada sesuatu yang istimewa tentang data untuk kategori tersebut. Mari pikirkan - Anda mungkin ingin memperbaiki beberapa hal secara manual, jika terdapat cukup data untuk menemukan median/rata-rata.]


In [97]:
# Ganti nilai yang hilang jika terdapat kesalahan
# tidak terdapat kesalahan
data_credit['total_income'].value_counts()

25820.841683    1070
32386.741818     501
21940.394503     386
27343.729582     145
79866.103000       2
                ... 
45484.109000       1
27715.458000       1
23834.534000       1
26124.613000       1
41428.916000       1
Name: total_income, Length: 19351, dtype: int64

[Setelah Anda selesai dengan `total_income`, periksa apakah jumlah total nilai di kolom ini sesuai dengan jumlah nilai di kolom lain.]

In [98]:
# Periksa jumlah entri di kolom

data_credit.info()
# Jumlah row nya sama dengan kolom lain

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21453 entries, 0 to 21452
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21453 non-null  int64  
 1   days_employed     19350 non-null  float64
 2   dob_years         21453 non-null  int64  
 3   education         21453 non-null  object 
 4   education_id      21453 non-null  int64  
 5   family_status     21453 non-null  object 
 6   family_status_id  21453 non-null  int64  
 7   gender            21453 non-null  object 
 8   income_type       21453 non-null  object 
 9   debt              21453 non-null  int64  
 10  total_income      21453 non-null  float64
 11  purpose           21453 non-null  object 
 12  category_dob      21453 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.1+ MB


###  Memperbaiki nilai di `days_employed`

[Pikirkan tentang parameter yang dapat membantu Anda memperbaiki nilai yang hilang di kolom ini. Pada akhirnya, Anda akan mengetahui apakah Anda harus menggunakan nilai rata-rata atau median untuk mengganti nilai yang hilang. Anda mungkin perlu melakukan penelitian yang sama dengan yang Anda lakukan saat memperbaiki data di kolom sebelumnya.]

In [99]:
# Distribusi median dari `days_employed` berdasarkan parameter yang Anda identifikasi

#mencari nilai median total_income berdasarkan income_type nasabah

median_days = data_credit.groupby('income_type')['days_employed'].median().reset_index()
median_days


Unnamed: 0,income_type,days_employed
0,business,1546.333214
1,civil servant,2689.368353
2,employee,1574.202821
3,entrepreneur,520.848083
4,paternity / maternity leave,3296.759962
5,retiree,365213.306266
6,student,578.751554
7,unemployed,366413.652744


In [100]:
# Distribusi rata-rata dari `days_employed` berdasarkan parameter yang Anda identifikasi
mean_days = data_credit.groupby('income_type')['days_employed'].mean().reset_index()
mean_days

Unnamed: 0,income_type,days_employed
0,business,2111.470404
1,civil servant,3399.896902
2,employee,2326.499216
3,entrepreneur,520.848083
4,paternity / maternity leave,3296.759962
5,retiree,365003.491245
6,student,578.751554
7,unemployed,366413.652744


[Tentukan apa yang akan Anda gunakan: rata-rata atau median. Jelaskan mengapa.]

In [101]:
# Mari tulis fungsi yang menghitung rata-rata atau median (tergantung keputusan Anda) berdasarkan parameter yang Anda identifikasi

days_mean = data_credit.groupby('income_type')['days_employed'].mean()
def fill_days(row):
    if pd.isnull(row['days_employed']):
        return days_mean[row['income_type']]
    return row['days_employed']
data_credit['days_employed'] = data_credit.apply(fill_days, axis=1)


In [102]:
data_credit.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
category_dob        0
dtype: int64

In [103]:
# Periksa apakah fungsi Anda dapat bekerja

#mengecek nilai di kolom ['total_income'] record ke 301
print(data_credit['days_employed'].iloc[300])

#mengecek nilai di kolom ['total_income'] record ke 89
print(data_credit['days_employed'].iloc[88])

#mengecek nilai di kolom ['total_income'] record ke 67
print(data_credit['days_employed'].iloc[66])


#tidak ada nilai bernilai null lagi,..

359.1939748533992
373129.7896543124
916.4288292557608


In [104]:
# Periksa apakah fungsi Anda bekerja

days_employed_null = data_credit[data_credit['days_employed'].isnull()]
print(days_employed_null)


Empty DataFrame
Columns: [children, days_employed, dob_years, education, education_id, family_status, family_status_id, gender, income_type, debt, total_income, purpose, category_dob]
Index: []


In [105]:
# Terapkan fungsi ke income_type - diatas juga memang udah pake fungsi income_type untuk mengisi nilai days_employed

#mungkin caranya berbeda tetapi tujuannya sama mengisi data kolom yang kosong

mean_days = data_credit.groupby('income_type')['days_employed'].mean().reset_index()
mean_days

Unnamed: 0,income_type,days_employed
0,business,2111.470404
1,civil servant,3399.896902
2,employee,2326.499216
3,entrepreneur,520.848083
4,paternity / maternity leave,3296.759962
5,retiree,365003.491245
6,student,578.751554
7,unemployed,366413.652744


[nilai rata-rata sudah masuk dalam kolom 'days_employed' setelah di cek memakai fungsi value_counts() ]

In [106]:
# Ganti nilai yang hilang
# tidak terdapat kesalahan
data_credit['days_employed'].value_counts()


2326.499216      1070
2111.470404       501
365003.491245     386
3399.896902       145
520.848083          2
                 ... 
1394.302246         1
2325.720832         1
4086.407828         1
1259.497032         1
1636.419775         1
Name: days_employed, Length: 19354, dtype: int64

[Setelah Anda selesai dengan `days_employed`, periksa apakah jumlah total nilai di kolom ini sesuai dengan jumlah nilai di kolom lain.]

In [107]:
# Periksa entri di semua kolom - pastikan kita memperbaiki semua nilai yang hilang
data_credit.info()
# Jumlah row nya sama dengan kolom lain -  sudah terisi semua

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21453 entries, 0 to 21452
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21453 non-null  int64  
 1   days_employed     21453 non-null  float64
 2   dob_years         21453 non-null  int64  
 3   education         21453 non-null  object 
 4   education_id      21453 non-null  int64  
 5   family_status     21453 non-null  object 
 6   family_status_id  21453 non-null  int64  
 7   gender            21453 non-null  object 
 8   income_type       21453 non-null  object 
 9   debt              21453 non-null  int64  
 10  total_income      21453 non-null  float64
 11  purpose           21453 non-null  object 
 12  category_dob      21453 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.1+ MB


## Pengkategorian Data

[Untuk menjawab pertanyaan dan menguji hipotesis, Anda akan bekerja dengan data yang telah dikategorikan. Lihatlah pertanyaan-pertanyaan yang diajukan kepada Anda dan yang harus Anda jawab. Pikirkan tentang data mana yang perlu dikategorikan untuk menjawab pertanyaan-pertanyaan ini. Di bawah ini, Anda akan menemukan templat yang bisa Anda gunakan untuk mengkategorikan data. Proses pertama mencakup data teks; yang kedua membahas data numerik yang perlu dikategorikan. Anda dapat menggunakan kedua petunjuk yang disarankan atau tidak sama sekali - semuanya terserah Anda.]

[Terlepas dari keputusan Anda untuk mengatasi pengkategorian, pastikan bahwa Anda secara lugas memberikan penjelasan tentang mengapa Anda membuat keputusan tersebut. Ingat: ini adalah pekerjaan Anda dan hanya Anda yang berhak membuat segala keputusan.]


In [108]:
# Tampilkan nilai data yang Anda pilih untuk pengkategorian

data_credit['debt'].head()


0    0
1    0
2    0
3    0
4    0
Name: debt, dtype: int64

[Mari kita memeriksa nilai unik]

In [109]:
# Periksa nilai unik
data_credit['debt'].unique()

array([0, 1])

[Kelompok utama apakah yang dapat Anda identifikasi berdasarkan nilai uniknya?]

[Kita akan mengkategorikan data kita berdasarkan topik ini.]


In [110]:
# Mari kita tulis sebuah fungsi untuk mengategorikan data berdasarkan topik umum

def categorize_debt(debt):
    if debt == 0:
        return 'No debt'
    else:
        return 'Debt'

In [111]:
# Buat kolom yang memuat kategori dan hitung nilainya
data_credit['category_debt'] = data_credit['debt'].apply(categorize_debt)


[Jika Anda memutuskan untuk mengategorikan data numerik, Anda juga harus membuat kategori untuk data tersebut.]

In [112]:
# Lihat semua data numerik di kolom yang Anda pilih untuk pengkategorian
data_credit[['children', 'debt']].head()

Unnamed: 0,children,debt
0,1,0
1,1,0
2,0,0
3,3,0
4,0,0


In [113]:
# Dapatkan kesimpulan statistik untuk kolomnya


[Nasabah yang memiliki 'sedikit anak' dan 'tidak memiliki anak' cenderung tidak gagal bayar ]

[Tentukan rentang apa yang akan Anda gunakan untuk pengelompokan dan jelaskan alasannya.]

In [114]:
# Buat fungsi yang melakukan pengkategorian menjadi kelompok numerik yang berbeda berdasarkan rentang

def categorize_children(children):
    if children == 0:
        return 'No children'
    elif children >= 1 and children <= 2:
        return 'Few children'
    else:
        return 'Many children'

In [115]:
# Buat kolom yang memuat kategori
data_credit['category_children'] = data_credit['children'].apply(categorize_children)


In [116]:
print(categorize_children(0))   
print(categorize_children(2))    
print(categorize_children(5))    

No children
Few children
Many children


In [117]:
# Hitung setiap nilai kategori untuk melihat pendistribusiannya

data_credit[['children', 'debt', 'category_children', 'category_debt']].head()

Unnamed: 0,children,debt,category_children,category_debt
0,1,0,Few children,No debt
1,1,0,Few children,No debt
2,0,0,No children,No debt
3,3,0,Many children,No debt
4,0,0,No children,No debt


## Memeriksa hipotesis


**Apakah terdapat korelasi antara memiliki anak dengan probabilitas melakukan gagal bayar pinjaman?**

In [118]:
# Periksa data anak dan data gagal bayar pinjaman

debt_by_children = (data_credit.groupby('children')['debt']).sum()
print(debt_by_children)

# Hitung persentase gagal bayar berdasarkan jumlah anak

debt_by_children = data_credit.groupby('children')['debt'].value_counts(normalize=True).loc[:,1]*100

print(debt_by_children)

children
0    1063
1     445
2     202
3      27
4       4
5       0
Name: debt, dtype: int64
children
0    7.544358
1    9.165808
2    9.492481
3    8.181818
4    9.756098
Name: debt, dtype: float64


In [119]:
debt_by_children = data_credit.groupby('children')['debt'].sum()

# Hitung total data berdasarkan jumlah anak
count_by_children = data_credit['children'].value_counts()

# Gabungkan kedua series di atas menjadi satu dataframe
debt_count = pd.concat([debt_by_children, count_by_children], axis=1)
debt_count.columns = ['debt_count', 'total_count']

# Hitung persentase debt=1 berdasarkan jumlah anak
debt_count['persentase'] = debt_count['debt_count'] / debt_count['total_count'] * 100

# Tampilkan hasilnya
print(debt_count)

   debt_count  total_count  persentase
0        1063        14090    7.544358
1         445         4855    9.165808
2         202         2128    9.492481
3          27          330    8.181818
4           4           41    9.756098
5           0            9    0.000000


**Kesimpulan**

[Tulis kesimpulan Anda berdasarkan manipulasi dan pengamatan yang Anda lakukan.]


[kesimpulan: semakin besar jumlah anak maka semakin besar juga kemungkinan nasabah gagal bayar, 
 terbukti dengan hasil persentase gagal bayar terhadap setiap jumlah anak. ]

[2. walaupun demikian perbedaan persentase tidak terlalu jauh antara yang banyak anak dengan yg tidak punya anak]

[3. selain itu banyak nasabah yang melakukan gagal bayar justru yang tidak punya anak ]

**Apakah terdapat korelasi antara status keluarga dengan probabilitas melakukan gagal bayar pinjaman?**

In [120]:
# Periksa data status keluarga dan data gagal bayar pinjaman
debt_by_family_status = data_credit[data_credit['debt'] == 1].groupby('family_status')['debt'].count()

print(debt_by_family_status)

print ()

# Hitung persentase gagal bayar berdasarkan status keluarga

debt_by_family_status = data_credit[data_credit['debt'] == 1].groupby('family_status')['debt'].count()
total_by_family_status = data_credit.groupby('family_status')['debt'].count()
percentage_by_family_status = (debt_by_family_status / total_by_family_status) * 100

print(percentage_by_family_status)

family_status
civil partnership    388
divorced              85
married              931
unmarried            274
widow / widower       63
Name: debt, dtype: int64

family_status
civil partnership    9.349398
divorced             7.112971
married              7.545182
unmarried            9.750890
widow / widower      6.569343
Name: debt, dtype: float64


**Kesimpulan**

[Tulis kesimpulan Anda berdasarkan manipulasi dan pengamatan Anda.]


[kesimpulan : status lajang /belum menikah baik civil partnership atau unmarried tinggi nilai gagal bayar]
 
[(widow/widower, divorced) kedua status ini paling kecil tingkat gagal bayarnya, ]

[dapat disimpulkan family_status nasabah berpengaruh terhadap kemapuan bayar pinjaman]

**Apakah terdapat korelasi antara tingkat pendapatan dengan probabilitas melakukan gagal bayar pinjaman?**

In [121]:
# Periksa data tingkat pendapatan dan data gagal bayar pinjaman
def income_category(total_income):
    if total_income <= 10000:
        return 'Very Low Income'
    elif total_income <= 20000:
        return 'Low Income'
    elif total_income <= 30000:
        return 'Moderate Income'
    elif total_income <= 50000:
        return 'Above Moderate Income'
    elif total_income <= 75000:
        return 'High Income'
    elif total_income <= 100000:
        return 'Very High Income'
    else:
        return 'Extremely High Income'
     

In [122]:
# membuat kolom baru hasil kategori baru
data_credit['income_category'] = data_credit['total_income'].apply(income_category)
    

In [123]:
#menampilkan tabel hasil category income berdasarkan total income nasabah
data_credit[['total_income','income_category']].head()

Unnamed: 0,total_income,income_category
0,40620.102,Above Moderate Income
1,17932.802,Low Income
2,23341.752,Moderate Income
3,42820.568,Above Moderate Income
4,25378.572,Moderate Income


In [124]:
# Hitung persentase gagal bayar berdasarkan tingkat pendapatan

income_debt = data_credit.groupby('income_category')['debt'].agg(['sum', 'count'])

income_debt['percent_debt'] = income_debt['sum'] / income_debt['count'] * 100

print(income_debt)

                       sum  count  percent_debt
income_category                                
Above Moderate Income  374   5099      7.334772
Extremely High Income    6     99      6.060606
High Income             76   1032      7.364341
Low Income             550   6443      8.536396
Moderate Income        667   7664      8.703027
Very High Income        10    190      5.263158
Very Low Income         58    926      6.263499


**Kesimpulan**

[Tulis kesimpulan Anda berdasarkan manipulasi dan pengamatan Anda.]

Kesimpulan :
    
    1. semakin tinggi pendapatan nasabah semakin kecil juga kemungkinan gagal bayar 
    
    2. kemampuan bayar nasabah di pengaruhi tingkat pendapatan
    
    3. nilai gagal bayar tertinggi dipegang oleh nasabah yang berpendapatan rendah
    
    4. yang paling rajin membayar cicilan adalah nasabah yang category "Very High Income"

**Bagaimana tujuan kredit memengaruhi persentase gagal bayar?**

In [125]:
# Periksa persentase tingkat gagal bayar untuk setiap tujuan kredit dan lakukan penganalisisan

debt_by_purpose = data_credit.groupby('purpose')['debt'].agg(['count', 'sum'])
debt_by_purpose['debt_percentage'] = (debt_by_purpose['sum'] / debt_by_purpose['count']) * 100
print(debt_by_purpose)

                                          count  sum  debt_percentage
purpose                                                              
building a property                         619   54         8.723748
building a real estate                      624   48         7.692308
buy commercial real estate                  661   47         7.110439
buy real estate                             620   43         6.935484
buy residential real estate                 606   41         6.765677
buying a second-hand car                    478   36         7.531381
buying my own car                           505   46         9.108911
buying property for renting out             651   52         7.987711
car                                         494   42         8.502024
car purchase                                461   42         9.110629
cars                                        478   44         9.205021
construction of own property                635   42         6.614173
education           

[Analisa : persentase tingkat gagal bayar untuk setiap tujuan kredit ]

1. [gagal bayar tertinggi di lakukan oleh nasabah yang mempunyai tujuan membeli mobil dan tujuan pendidikan]

2. [sedangkan tujuan untuk rumah baik itu membeli maupun renovasi , nasabah masih mampu bayar]

3. [secara umum dapat disimpulkan data ini tidak ada perbedaan mencolok. hampir semua tujuan pinjamnan mempunyai data gagal bayar, jumlahnya hampir sama]

**Kesimpulan**

[Tulis kesimpulan Anda berdasarkan manipulasi dan pengamatan yang Anda lakukan.]


[sudah tertera dalam kesimpulan umum. kurang lebih sama]

# Kesimpulan umum 

[Tuliskan kesimpulan Anda di bagian akhir ini. Pastikan Anda memasukkan semua kesimpulan penting yang telah Anda buat berkaitan dengan cara Anda memproses dan menganalisis data. Kesimpulan tersebut harus membahas nilai yang hilang, duplikat, dan kemungkinan alasan serta solusi untuk data bermasalah yang harus Anda tangani.]

[Tuliskan juga kesimpulan Anda mengenai pertanyaan-pertanyaan yang diajukan di sini.]


Kesimpulan : 
    
    1. secara keseluruhan data banyak yang hilang, akan tetapi data sedikit yang duplikat.
    
    2. data juga banyak yang bernilai negatif, suatu hal yang aneh
    
    3. penyebab nasabah gagar bayar disebabkan banyak faktor, dari status family, maupun tingkat pendapatan dan tujuan pinjaman,
       
       semua mempunyai peran masing-masing penyebab gagal bayar. 
    4. hampir semua rata nilai persentasenya, max beda 2% selisihnya antara penyebab satu dan lainnya.
    
    demikian analisa saya. Thank you
    
    mohon maaf saya belum bisa memberikan analisa dalam bentuk grafik oleh karena belum saya pelajari dalam materi, jadi saya belum tau cara menampilkannya.
    
        
    