# Menganalisis Risiko Gagal Bayar Peminjam



## Pendahuluan

Dalam industri perbankan, evaluasi kredit merupakan tahapan kritis dalam proses penyaluran pinjaman kepada nasabah. Tujuan utamanya adalah untuk memastikan bahwa peminjam memiliki kemampuan dan niat yang cukup untuk melunasi pinjaman mereka sesuai dengan persyaratan yang telah ditetapkan. Evaluasi kredit yang baik membantu bank dalam mengelola risiko kreditnya, meminimalkan kemungkinan gagal bayar, dan menjaga kesehatan keuangan institusi.

Dalam konteks ini, faktor-faktor seperti status perkawinan dan jumlah anak yang dimiliki oleh seorang nasabah dapat menjadi indikator penting dalam menilai kelayakan kredit. Status perkawinan dapat mencerminkan stabilitas keuangan dan tanggung jawab finansial seorang nasabah, sedangkan jumlah anak dapat mempengaruhi tingkat ketergantungan finansial dan fleksibilitas anggaran mereka.


## Tujuan Penelitian

Laporan ini untuk divisi kredit suatu bank. Laporan ini akan menganalisis dan mencari tahu pengaruh status perkawinan seorang nasabah dan jumlah anak yang dimilikinya terhadap probabilitas gagal bayar dalam pelunasan pinjaman.

Pihak bank telah memiliki beberapa data mengenai kelayakan kredit nasabah.

## Manfaat Penelitian

Laporan ini dapat menjadi pertimbangan dalam membuat **penilaian kredit** untuk calon nasabah. **Penilaian kredit** sendiri digunakan untuk mengevaluasi kemampuan calon peminjam guna melunasi pinjaman nasabah.

## Daftar Isi

**1 Pendahuluan**

**2 Tujuan Penelitian** 

**3 Manfaat Penelitian** 

**4 Daftar Isi**

**5 Langkah Penelitian** 

	5.1 Mengimpor Library 

	5.2 Memuat Data 

	5.3 Eksplorasi Data 

	5.4 Menghapus Nilai Duplikat

	5.5 Transformasi Data

		5.5.1 Transformasi Data pada Kolom debt

		5.5.2 Transformasi Data pada Kolom total_incone

		5.5.3 Transformasi Data pada Kolom income_type

		5.5.4 Transformasi Data pada Kolom fanily_status dan family_status_id

		5.5.5 Transformasi Data pada Kolom education dan education_id

		5.5.6 Transformasi Data pada Kolom gender

		5.5.7 Transformasi Data pada Kolom children

		5.5.8 Transformasi Data pada Kolom dob_years

		5.5.9 Transformasi Data pada Kolom days_employed

		5.5.10 Transformasi Data pada Kolom purpose 

		5.5.11 Mengisi Nilai yang Hilang pada Kolom days employed

			5.5.11.1 Pembuatan Kolom Baru dob_category dan dob_category_id

			5.5.11.2 Mengisi Nilai yang Hilang pada Kolom days_employed

						pada Nasabah dengan Kategori Umur young

			5.5.11.3 Mengisi Nilai yang Hilang pada Kolom days_employed

						pada Nasabah dengan Kategori Umur adult

			5.5.11.4 Mengisi Nilai yang Hilang pada Kolom days_employed

						pada Nasabah dengan Kategori Umur senior

		5.5.12 Mengisi Nilai yang Hilang pada Kolom total_income

			5.5.12.1 Mengisi Nilai yang Hilang pada Kolom total_income

                        pada Nasabah dengan Kategori Umur young

			5.5.12.2 Mengisi Nilai yang Hilang pada Kolom total_income

						pada Nasabah dengan Kategori Umur adult

			5.5.12.3 Mengisi Nila yang Hilang pada Kolom total_income

						pada Nasabah dengan Kategori Umur senior

	5.6 Pengkategorian Data

		5.6.1 Pembuatan Kolom Bar total_income_category

				dan total_income_category_id 

		5.6.2 Pembuatan kolom bar children_category dan children_category_id

		5.6.3 Pembuatan Kolom Baru Bernama purpose_id

	5.7 Memeriksa Hipotesis

		5.7.1 Korelasi antara Memiliki anak dengan Probabilitas Gagal Bayar Pinjaman

		5.7.2 Korelasi antara Status Keluarga dengan Probabilitas Gagal Bayar Pinjaman

		5.7.3 Korelasi antara Tingkat Pendapatan dengan Probabilitas Gaga Bayar Pinjaman

		5.7.4 Korelasi antara Tujuan Kredit dengan Probabilitas Gagal Bayar Pinjaman

**6 Kesimpulan Umum**



## Langkah Penelitian

### Mengimpor Library

In [1]:
# -Mengimpor library

import pandas as pd
# ----------


### Memuat Data

In [2]:
# -Memuat Data

customers = pd.read_csv('/datasets/credit_scoring_eng.csv')
# ----------


### Eksplorasi Data

In [3]:
# Mari kita lihat berapa banyak baris dan kolom yang dimiliki oleh dataset kita

customers.info()
# ----------


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [4]:

customers.head()

# ----------


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding


**Deskripsi data**

Dataset memiliki 10 kolom sebagai berikut:
- `children` - jumlah anak dalam keluarga
- `days_employed` - pengalaman kerja nasabah dalam hari
- `dob_years` - usia nasabah dalam tahun
- `education` - tingkat pendidikan nasabah
- `education_id` - pengidentifikasi untuk tingkat pendidikan nasabah
- `family_status` - status perkawinan
- `family_status_id` - pengidentifikasi untuk status perkawinan nasabah
- `gender` - jenis kelamin nasabah
- `income_type` - jenis pekerjaan
- `debt` - apakah nasabah pernah melakukan gagal bayar pinjaman
- `total_income` - pendapatan bulanan, tidak diketahui apa mata uang yang digunakan dalam data ini
- `purpose` - tujuan mendapatkan pinjaman

Terlihat bahwa data ini memiliki 21.525 baris dan 12 kolom. Namun ada dua kolom yang hanya memiliki 19.351 baris, yaitu `days_employed` dan `total_income`. Artinya, kedua kolom tersebut memiliki nilai yang hilang.


### Menghapus Nilai Duplikat

In [5]:
customers.duplicated().sum()

54

Ada 54 duplikat pada dataframe.!

In [6]:
# menghapus duplikat

customers = customers.drop_duplicates()

customers.reset_index(drop=True)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.422610,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21466,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21467,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21468,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21469,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


Saya akan mengecek kembali apakah masih ada nilai duplikat.

In [7]:
customers.duplicated().sum()

0

Masalah duplikat telah teratasi.

### Transformasi Data

#### Transformasi Data pada Kolom  `debt`

In [8]:
# menampilkan list unik pada kolom ‘debt’

customers['debt'].unique().tolist()

[0, 1]

Tidak ada masalah pada kolom `debt`.

#### Transformasi Data pada Kolom  `total_income`

In [9]:
# menampilkan list unik pada kolom ‘total_income’


customers['total_income'].describe()

count     19351.000000
mean      26787.568355
std       16475.450632
min        3306.762000
25%       16488.504500
50%       23202.870000
75%       32549.611000
max      362496.645000
Name: total_income, dtype: float64

Tidak ada masalah pada kolom `total_income`

#### Transformasi Data pada Kolom  `income_type`

In [10]:
# menampilkan list unik pada kolom ‘income_tye’

customers['income_type'].unique().tolist()

['employee',
 'retiree',
 'business',
 'civil servant',
 'unemployed',
 'entrepreneur',
 'student',
 'paternity / maternity leave']

Tidak ada masalah pada kolom `income_type`.

#### Transformasi Data pada Kolom  `family_status` dan `family_status_id`

In [11]:
# menampilkan list unik pada kolom ‘family_status’

customers['family_status'].unique().tolist()

['married', 'civil partnership', 'widow / widower', 'divorced', 'unmarried']

In [12]:
# Menampilkan kolom family_status_id

customers[['family_status','family_status_id']]

Unnamed: 0,family_status,family_status_id
0,married,0
1,married,0
2,married,0
3,married,0
4,civil partnership,1
...,...,...
21520,civil partnership,1
21521,married,0
21522,civil partnership,1
21523,married,0


Tidak ada masalah pada kolom `family_status` dan `family_status_id`

#### Transformasi Data pada Kolom  `education` dan `education_id`

In [13]:
# menampilkan list unik pada kolom 'education'

customers['education'].unique().tolist()

["bachelor's degree",
 'secondary education',
 'Secondary Education',
 'SECONDARY EDUCATION',
 "BACHELOR'S DEGREE",
 'some college',
 'primary education',
 "Bachelor's Degree",
 'SOME COLLEGE',
 'Some College',
 'PRIMARY EDUCATION',
 'Primary Education',
 'Graduate Degree',
 'GRADUATE DEGREE',
 'graduate degree']

Identifikasi masalah pada kolom ‘education’:
- Penggunaan huruf besar/kecil yang tidak konsisten
- Ejaan yang tidak konsisten

In [14]:
# Mengubah penulisan menjadi huruf kecil
customers['education'] = customers['education'].str.lower()

In [15]:
# cek hasil

customers['education'].unique().tolist()

["bachelor's degree",
 'secondary education',
 'some college',
 'primary education',
 'graduate degree']

Masalah pada kolom `education` telah teratasi.

#### Transformasi Data pada Kolom  `gender`

In [16]:
# menampilkan list unik pada kolom ‘gender’

customers['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

Identifikasi masalah pada kolom ‘gender:
- gender dengan nilai "XNA" --> akan dihapus

In [17]:
# Menghapus baris di mana kolom 'gender' bernilai 'XNA'
customers = customers.drop(customers[customers['gender'] == 'XNA'].index)

customers['gender'].unique()

array(['F', 'M'], dtype=object)

Masalah pada kolom `gender` telah teratasi.

#### Transformasi Data pada Kolom  `children`

In [18]:
# menampilkan statistik deskriptif pada kolom `children`

customers['children'].describe()

count    21470.000000
mean         0.539590
std          1.383006
min         -1.000000
25%          0.000000
50%          0.000000
75%          1.000000
max         20.000000
Name: children, dtype: float64

Identifikasi masalah pada kolom ‘children’:
- adanya nilai negatif pada jumlah anak.
- jumlah anak tidak masuk akal: 20

In [19]:
# mengubah nilai negatif tersebut menjadi nilai absolut

customers['children'] = customers['children'].abs()
customers['children'].describe()

count    21470.000000
mean         0.543968
std          1.381289
min          0.000000
25%          0.000000
50%          0.000000
75%          1.000000
max         20.000000
Name: children, dtype: float64

Masalah berikutnya adalah adanya nasabah yang memiliki anak 20, ini merupakan outlier, yang saya asumsikan sebagai kesahalan menginput data, saya akan menggantinya dengan nilai '2'.

In [20]:
# mengganti nilai 20 menjadi 2

customers.loc[customers['children'] == 20, 'children'] = 2

In [21]:
# mengecek kembali

customers['children'].value_counts()

0    14106
1     4856
2     2128
3      330
4       41
5        9
Name: children, dtype: int64

Masalah pada kolom `children` sudah diatasi.

#### Transformasi Data pada Kolom  `dob_years`

In [22]:
# menampilkan statistik deskriptif pada kolom `dob_years`

customers['dob_years'].describe()

count    21470.000000
mean        43.279972
std         12.573896
min          0.000000
25%         33.000000
50%         42.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64

Identifikasi masalah pada kolom ‘dob_years:
- Ada data nasabah berusia 0

In [23]:
# Mengganti nilai 0 pada usia nasabah menjadi nilai median

# Hitung median dari kolom 'dob_years' tanpa memperhitungkan nilai 0
median_dob_years = customers[customers['dob_years'] != 0]['dob_years'].median()

In [24]:
# Ganti nilai 0 dengan median
customers['dob_years'].replace(0, median_dob_years, inplace=True)

In [25]:
# menampilkan hasil
customers['dob_years'].describe()

count    21470.000000
mean        43.482254
std         12.216796
min         19.000000
25%         34.000000
50%         43.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64

Masalah pada kolom `dob_years` telah teratasi.

#### Transformasi Data pada Kolom  `days_employed`

In [26]:
# menampilkan statistik deskriptif pada kolom `days_employed`

customers['days_employed'].describe()

count     19350.000000
mean      63049.877770
std      140830.166081
min      -18388.949901
25%       -2747.486276
50%       -1203.307346
75%        -291.077541
max      401755.400475
Name: days_employed, dtype: float64

Identifikasi masalah pada kolom ‘days_employed:
- nilai negatif pada pengalaman hari bekerja
- days_employed selama 401755.400475 tidak masuk akal

In [27]:
# mengubah nilai negatif kolom `days_employed` menjadi positif

customers['days_employed'] = customers['days_employed'].abs()
customers['days_employed'].describe()

count     19350.000000
mean      66918.065141
std      139033.698578
min          24.141633
25%         926.990457
50%        2194.218768
75%        5538.423086
max      401755.400475
Name: days_employed, dtype: float64

In [28]:
# memperbaiki pengalaman kerja yang tidak masuk akal

# usia nasabah tertua adalah 75 tahun atau setara dengan kurang lebih 27.000 hari,
# berdasarkan hal tersebut saya akan menetapkan nilai maksimal untuk pengalaman kerja adalah selama 27.000 hari
# maka, data days_employed di atas 27.000 hari akan diubah menjadi nilai hilang terlebih dahulu
# Kemudian pada langkah selanjutnya akan diisi dengan nilai rata-rata pada masing-masing kategori umur. 

customers.loc[customers['days_employed'] > 27000, 'days_employed'] = None

customers['days_employed'].describe()

count    15905.000000
mean      2353.015581
std       2304.316291
min         24.141633
25%        756.281915
50%       1629.997862
75%       3157.654315
max      18388.949901
Name: days_employed, dtype: float64

Masalah pada kolom `days_employed` telah teratasi.

#### Transformasi Data pada Kolom  `purpose`

In [29]:
# menampilkan list unik pada kolom ‘purpose’

customers['purpose'].unique().tolist()

['purchase of the house',
 'car purchase',
 'supplementary education',
 'to have a wedding',
 'housing transactions',
 'education',
 'having a wedding',
 'purchase of the house for my family',
 'buy real estate',
 'buy commercial real estate',
 'buy residential real estate',
 'construction of own property',
 'property',
 'building a property',
 'buying a second-hand car',
 'buying my own car',
 'transactions with commercial real estate',
 'building a real estate',
 'housing',
 'transactions with my real estate',
 'cars',
 'to become educated',
 'second-hand car purchase',
 'getting an education',
 'car',
 'wedding ceremony',
 'to get a supplementary education',
 'purchase of my own house',
 'real estate transactions',
 'getting higher education',
 'to own a car',
 'purchase of a car',
 'profile education',
 'university education',
 'buying property for renting out',
 'to buy a car',
 'housing renovation',
 'going to university']

Identifikasi masalah pada kolom ‘gender:
    - nilai yang tidak konsisten dengan maksud sama.

Saya akan merename daftar tersebut:

In [30]:
# Mengganti nilai-nilai tertentu dalam kolom 'purpose' dengan nilai 'car'

replacement_values_car = {'buying a second-hand car': 'car', 'cars': 'car', 'second-hand car purchase': 'car',
                      'to own a car': 'car', 'to buy a car': 'car', 'purchase of a car': 'car', 'car': 'car',
                      'buying my own car': 'car', 'car purchase': 'car'}

customers['purpose'] = customers['purpose'].replace(replacement_values_car)

In [31]:
# Mengganti nilai-nilai tertentu dalam kolom 'purpose' dengan nilai 'education'

replacement_values_education = {
    'to become educated': 'education',
    'getting an education': 'education',
    'getting higher education': 'education',
    'university education': 'education',
    'going to university': 'education',
    'profile education': 'education',
    'to get a supplementary education': 'education',
    'education': 'education',
    'supplementary education': 'education'
}

customers['purpose'] = customers['purpose'].replace(replacement_values_education)

In [32]:
# Mengganti nilai-nilai tertentu dalam kolom 'purpose' dengan nilai 'wedding'
replacement_values_wedding = {
    'having a wedding': 'wedding',
    'wedding ceremony': 'wedding',
    'to have a wedding': 'wedding'
}

customers['purpose'] = customers['purpose'].replace(replacement_values_wedding)

In [33]:
# Daftar nilai yang akan diganti
values_to_replace = ['purchase of the house', 'buy real estate', 'buy commercial real estate', 'property',
                     'building a property', 'building a real estate', 'housing', 'purchase of my own house',
                     'buying property for renting out', 'housing renovation', 'real estate transactions',
                     'transactions with my real estate', 'transactions with commercial real estate',
                     'construction of own property', 'buy residential real estate', 'purchase of the house for my family',
                     'housing transactions']

# Mengganti nilai-nilai tertentu dalam kolom 'purpose' dengan nilai 'property'
customers['purpose'] = customers['purpose'].replace(values_to_replace, 'property')


# Cek hasil
customers['purpose'].unique().tolist()

['property', 'car', 'education', 'wedding']

#### Mengisi Nilai yang Hilang pada Kolom `days employed`

Untuk mengisi data yang hilang pada kolom `days_employed` saya akan membuat kolom baru dulu dengan mengkategorikan nasabah berdasarkan usianya. 

Kemudian, data-data yang hilang akan diinput dari rata-rata nilai pada nasabah sesuai kategori usianya. 

##### Pembuatan Kolom Baru `dob_category` dan `dob_category_id`

In [34]:
# cek isi dob_years

customers['dob_years'].describe()

count    21470.000000
mean        43.482254
std         12.216796
min         19.000000
25%         34.000000
50%         43.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64

In [35]:
# saya akan membuat kategori umur di mana: 
# 19 - 35 = young
# 35 - 60 = adult
# 60 - 75 = senior

# Membuat kolom baru 'dob_category' dengan mengkategorikan umur

customers['dob_category'] = pd.cut(customers['dob_years'],
                                  bins=[18, 35, 60, 75],
                                  labels=['young', 'adult', 'senior'],
                                  include_lowest=True)

# Mengubah tipe data kolom 'dob_category' menjadi objek
customers['dob_category'] = customers['dob_category'].astype('object')



In [36]:
# Membuat kolom baru 'dob_category_id' berdasarkan 'dob_category'

customers['dob_category_id'] = customers['dob_category'].map({'young': 1, 'adult': 2, 'senior': 3})


# Mengubah tipe data kolom 'dob_category_id' menjadi integer
customers['dob_category_id'] = customers['dob_category_id'].astype(int)


In [37]:
# Cek hasil
customers[['dob_years','dob_category','dob_category_id']].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21470 entries, 0 to 21524
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   dob_years        21470 non-null  float64
 1   dob_category     21470 non-null  object 
 2   dob_category_id  21470 non-null  int64  
dtypes: float64(1), int64(1), object(1)
memory usage: 670.9+ KB


##### Mengisi Nilai yang Hilang pada Kolom `days_employed` pada Nasabah dengan Kategori Umur `young`

In [38]:
# membuat df baru, young_customers

young_customers = customers[customers['dob_category'] == 'young']
young_customers.info()
# ----------

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6584 entries, 2 to 21515
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          6584 non-null   int64  
 1   days_employed     5933 non-null   float64
 2   dob_years         6584 non-null   float64
 3   education         6584 non-null   object 
 4   education_id      6584 non-null   int64  
 5   family_status     6584 non-null   object 
 6   family_status_id  6584 non-null   int64  
 7   gender            6584 non-null   object 
 8   income_type       6584 non-null   object 
 9   debt              6584 non-null   int64  
 10  total_income      5950 non-null   float64
 11  purpose           6584 non-null   object 
 12  dob_category      6584 non-null   object 
 13  dob_category_id   6584 non-null   int64  
dtypes: float64(3), int64(5), object(6)
memory usage: 771.6+ KB


In [39]:
# hitung 'days_employed' yang hilang pada nasabah dengan kategori 'young'
missing_young_days_employed = young_customers['days_employed'].isna().sum()

print("Ada", missing_young_days_employed, "nilai yang hilang pada nasabah dengan kategori 'young'.")
# ----------

Ada 651 nilai yang hilang pada nasabah dengan kategori 'young'.


In [40]:
# menghitung days_employed rata-rata di mana kolom dob_category bernilai "young"
avg_days_employed_young = young_customers['days_employed'].mean()
avg_days_employed_young
print("Rata-rata pengalaman kerja pada nasabah dengan kategori 'young' adalah selama", round(avg_days_employed_young), "hari.")


Rata-rata pengalaman kerja pada nasabah dengan kategori 'young' adalah selama 1539 hari.


In [41]:
# mengisi days_employed yang memiliki nilai yang hilang pada nasabah kategori "young" dengan rata-ratanya

customers.loc[(customers['dob_category'] == 'young') & (customers['days_employed'].isna()), 'days_employed'] = avg_days_employed_young


In [43]:
# cek apakah masih ada nilai hilang pada days_employed di mana dob_category bernilai ‘young

customers[customers['dob_category'] == 'young']['dob_category'].isnull().sum()


0

In [45]:
customers.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21470 entries, 0 to 21524
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21470 non-null  int64  
 1   days_employed     16556 non-null  float64
 2   dob_years         21470 non-null  float64
 3   education         21470 non-null  object 
 4   education_id      21470 non-null  int64  
 5   family_status     21470 non-null  object 
 6   family_status_id  21470 non-null  int64  
 7   gender            21470 non-null  object 
 8   income_type       21470 non-null  object 
 9   debt              21470 non-null  int64  
 10  total_income      19350 non-null  float64
 11  purpose           21470 non-null  object 
 12  dob_category      21470 non-null  object 
 13  dob_category_id   21470 non-null  int64  
dtypes: float64(3), int64(5), object(6)
memory usage: 2.5+ MB


Nilai hilang pada kolom `days_employed` untuk kategori `young` telah diisi.


##### Mengisi Nilai yang Hilang pada Kolom `days_employed` pada Nasabah dengan Kategori Umur `adult`

In [46]:
# membuat df baru, adult_customers

adult_customers = customers[customers['dob_category'] == 'adult']
adult_customers.info()
# ----------


<class 'pandas.core.frame.DataFrame'>
Int64Index: 12754 entries, 0 to 21524
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          12754 non-null  int64  
 1   days_employed     9576 non-null   float64
 2   dob_years         12754 non-null  float64
 3   education         12754 non-null  object 
 4   education_id      12754 non-null  int64  
 5   family_status     12754 non-null  object 
 6   family_status_id  12754 non-null  int64  
 7   gender            12754 non-null  object 
 8   income_type       12754 non-null  object 
 9   debt              12754 non-null  int64  
 10  total_income      11483 non-null  float64
 11  purpose           12754 non-null  object 
 12  dob_category      12754 non-null  object 
 13  dob_category_id   12754 non-null  int64  
dtypes: float64(3), int64(5), object(6)
memory usage: 1.5+ MB


In [47]:

# hitung 'days_employed' yang hilang pada nasabah dengan kategori 'adult'
missing_adult_days_employed = adult_customers['days_employed'].isna().sum()

print("Ada", missing_adult_days_employed, "nilai yang hilang pada nasabah dengan kategori 'adult'.")
# ----------


Ada 3178 nilai yang hilang pada nasabah dengan kategori 'adult'.


In [48]:
# menghitung days_employed rata-rata di mana kolom dob_category bernilai "adult"
avg_days_employed_adult = adult_customers['days_employed'].mean()
avg_days_employed_adult
print("Rata-rata pengalaman kerja pada nasabah dengan kategori 'adult' adalah selama", round(avg_days_employed_adult), "hari.")


Rata-rata pengalaman kerja pada nasabah dengan kategori 'adult' adalah selama 2794 hari.


In [49]:
# mengisi days_employed yang memiliki nilai yang hilang pada nasabah kategori "adult" dengan rata-ratanya

customers.loc[(customers['dob_category'] == 'adult') & (customers['days_employed'].isna()), 'days_employed'] = avg_days_employed_adult


In [50]:
# cek apakah masih ada nilai hilang pada days_employed di mana dob_category bernilai ‘adult

customers[customers['dob_category'] == 'adult']['dob_category'].isnull().sum()


0

In [51]:
customers.info()


<class 'pandas.core.frame.DataFrame'>
Int64Index: 21470 entries, 0 to 21524
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21470 non-null  int64  
 1   days_employed     19734 non-null  float64
 2   dob_years         21470 non-null  float64
 3   education         21470 non-null  object 
 4   education_id      21470 non-null  int64  
 5   family_status     21470 non-null  object 
 6   family_status_id  21470 non-null  int64  
 7   gender            21470 non-null  object 
 8   income_type       21470 non-null  object 
 9   debt              21470 non-null  int64  
 10  total_income      19350 non-null  float64
 11  purpose           21470 non-null  object 
 12  dob_category      21470 non-null  object 
 13  dob_category_id   21470 non-null  int64  
dtypes: float64(3), int64(5), object(6)
memory usage: 2.5+ MB


Nilai hilang pada kolom `days_employed` untuk kategori `adult` telah diisi.

##### Mengisi Nilai yang Hilang pada Kolom `days_employed` pada Nasabah dengan Kategori Umur `senior`

In [52]:
# membuat df baru, senior_customers

senior_customers = customers[customers['dob_category'] == 'senior']
senior_customers.info()
# ----------


<class 'pandas.core.frame.DataFrame'>
Int64Index: 2132 entries, 12 to 21521
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          2132 non-null   int64  
 1   days_employed     396 non-null    float64
 2   dob_years         2132 non-null   float64
 3   education         2132 non-null   object 
 4   education_id      2132 non-null   int64  
 5   family_status     2132 non-null   object 
 6   family_status_id  2132 non-null   int64  
 7   gender            2132 non-null   object 
 8   income_type       2132 non-null   object 
 9   debt              2132 non-null   int64  
 10  total_income      1917 non-null   float64
 11  purpose           2132 non-null   object 
 12  dob_category      2132 non-null   object 
 13  dob_category_id   2132 non-null   int64  
dtypes: float64(3), int64(5), object(6)
memory usage: 249.8+ KB


In [53]:
# hitung 'days_employed' yang hilang pada nasabah dengan kategori 'senior'
missing_senior_days_employed = senior_customers['days_employed'].isna().sum()

print("Ada", missing_senior_days_employed, "nilai yang hilang pada nasabah dengan kategori 'senior'.")
# ----------


Ada 1736 nilai yang hilang pada nasabah dengan kategori 'senior'.


In [54]:
# menghitung days_employed rata-rata di mana kolom dob_category bernilai "senior"
avg_days_employed_senior = senior_customers['days_employed'].mean()
avg_days_employed_senior
print("Rata-rata pengalaman kerja pada nasabah dengan kategori 'senior' adalah selama", round(avg_days_employed_senior), "hari.")


Rata-rata pengalaman kerja pada nasabah dengan kategori 'senior' adalah selama 3871 hari.


In [55]:
# mengisi days_employed yang memiliki nilai yang hilang pada nasabah kategori "senior" dengan rata-ratanya

customers.loc[(customers['dob_category'] == 'senior') & (customers['days_employed'].isna()), 'days_employed'] = avg_days_employed_senior


In [56]:
# cek apakah masih ada nilai hilang pada days_employed di mana dob_category bernilai ‘senior’

customers[customers['dob_category'] == 'senior']['dob_category'].isnull().sum()


0

In [57]:
customers.info()


<class 'pandas.core.frame.DataFrame'>
Int64Index: 21470 entries, 0 to 21524
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21470 non-null  int64  
 1   days_employed     21470 non-null  float64
 2   dob_years         21470 non-null  float64
 3   education         21470 non-null  object 
 4   education_id      21470 non-null  int64  
 5   family_status     21470 non-null  object 
 6   family_status_id  21470 non-null  int64  
 7   gender            21470 non-null  object 
 8   income_type       21470 non-null  object 
 9   debt              21470 non-null  int64  
 10  total_income      19350 non-null  float64
 11  purpose           21470 non-null  object 
 12  dob_category      21470 non-null  object 
 13  dob_category_id   21470 non-null  int64  
dtypes: float64(3), int64(5), object(6)
memory usage: 2.5+ MB


Nilai hilang pada kolom `days_employed` untuk kategori `senior` telah diisi.

#### Mengisi Nilai yang Hilang pada Kolom `total_income`

Pada langkah sebelumnya, kita telah membuat df baru bernama `young_customers`, `adult_customers`, dan `senior_customers`. Jadi pada tahap ini kita tidak membuat df baru lagi pada masing-masing langkah yang akan dilakukan. 

##### Mengisi Nilai yang Hilang pada Kolom `total_income` pada Nasabah dengan Kategori Umur `young`

In [58]:
# hitung 'total_income' yang hilang pada nasabah dengan kategori 'young'
missing_young_total_income = young_customers['total_income'].isna().sum()

print("Ada", missing_young_total_income, "nilai yang hilang pada nasabah dengan kategori 'young'.")
# ----------

Ada 634 nilai yang hilang pada nasabah dengan kategori 'young'.


In [59]:
# total_income rata-rata di mana kolom total_income bernilai "young"
avg_total_income_young = young_customers['total_income'].mean()
avg_total_income_young
print("Rata-rata pendapatan pada nasabah dengan kategori 'young' adalah sebesar", round(avg_total_income_young))
# ----------

Rata-rata pendapatan pada nasabah dengan kategori 'young' adalah sebesar 26835


In [62]:
#### mengisi total_income yang memiliki nilai yang hilang pada nasabah kategori "young" dengan rata-ratanya

customers.loc[(customers['dob_category'] == 'young') & (customers['total_income'].isna()), 'total_income'] = avg_total_income_young
# ----------

In [63]:
# cek apakah masih ada nilai hilang pada total_income di mana dob_category bernilai ‘young’

customers[customers['total_income'] == 'young']['total_income'].isnull().sum()
# ----------


0

In [64]:
customers.info()


<class 'pandas.core.frame.DataFrame'>
Int64Index: 21470 entries, 0 to 21524
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21470 non-null  int64  
 1   days_employed     21470 non-null  float64
 2   dob_years         21470 non-null  float64
 3   education         21470 non-null  object 
 4   education_id      21470 non-null  int64  
 5   family_status     21470 non-null  object 
 6   family_status_id  21470 non-null  int64  
 7   gender            21470 non-null  object 
 8   income_type       21470 non-null  object 
 9   debt              21470 non-null  int64  
 10  total_income      19984 non-null  float64
 11  purpose           21470 non-null  object 
 12  dob_category      21470 non-null  object 
 13  dob_category_id   21470 non-null  int64  
dtypes: float64(3), int64(5), object(6)
memory usage: 2.5+ MB


Nilai hilang pada kolom `total_income` untuk kategori "young" telah diisi.

##### Mengisi Nilai yang Hilang pada Kolom `total_income` pada Nasabah dengan Kategori Umur `adult`

In [65]:
# hitung 'total_income' yang hilang pada nasabah dengan kategori 'adult'
missing_adult_total_income = adult_customers['total_income'].isna().sum()

print("Ada", missing_adult_total_income, "nilai yang hilang pada nasabah dengan kategori 'adult'.")
# ----------

Ada 1271 nilai yang hilang pada nasabah dengan kategori 'adult'.


In [66]:
# total_income rata-rata di mana kolom total_income bernilai "adult"
avg_total_income_adult = adult_customers['total_income'].mean()
avg_total_income_adult
print("Rata-rata pendapatan pada nasabah dengan kategori 'adult' adalah sebesar", round(avg_total_income_adult))
# ----------

Rata-rata pendapatan pada nasabah dengan kategori 'adult' adalah sebesar 27385


In [67]:
#### mengisi total_income yang memiliki nilai yang hilang pada nasabah kategori "adult" dengan rata-ratanya

customers.loc[(customers['dob_category'] == 'adult') & (customers['total_income'].isna()), 'total_income'] = avg_total_income_adult
# ----------

In [68]:
# cek apakah masih ada nilai hilang pada total_income di mana dob_category bernilai ‘adult’

customers[customers['total_income'] == 'adult']['total_income'].isnull().sum()
# ----------

0

In [69]:
customers.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21470 entries, 0 to 21524
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21470 non-null  int64  
 1   days_employed     21470 non-null  float64
 2   dob_years         21470 non-null  float64
 3   education         21470 non-null  object 
 4   education_id      21470 non-null  int64  
 5   family_status     21470 non-null  object 
 6   family_status_id  21470 non-null  int64  
 7   gender            21470 non-null  object 
 8   income_type       21470 non-null  object 
 9   debt              21470 non-null  int64  
 10  total_income      21255 non-null  float64
 11  purpose           21470 non-null  object 
 12  dob_category      21470 non-null  object 
 13  dob_category_id   21470 non-null  int64  
dtypes: float64(3), int64(5), object(6)
memory usage: 2.5+ MB


Nilai hilang pada kolom `total_income` untuk kategori "adult" telah diisi.

##### Mengisi Nilai yang Hilang pada Kolom `total_income` pada Nasabah dengan Kategori Umur `senior`

In [70]:
# hitung 'total_income' yang hilang pada nasabah dengan kategori 'senior'
missing_senior_total_income = senior_customers['total_income'].isna().sum()

print("Ada", missing_senior_total_income, "nilai yang hilang pada nasabah dengan kategori 'senior'.")
# ----------

Ada 215 nilai yang hilang pada nasabah dengan kategori 'senior'.


In [71]:
# total_income rata-rata di mana kolom total_income bernilai "senior"
avg_total_income_senior = senior_customers['total_income'].mean()
avg_total_income_senior
print("Rata-rata pendapatan pada nasabah dengan kategori 'senior' adalah sebesar", round(avg_total_income_senior))
# ----------

Rata-rata pendapatan pada nasabah dengan kategori 'senior' adalah sebesar 23058


In [72]:
#### mengisi total_income yang memiliki nilai yang hilang pada nasabah kategori "senior" dengan rata-ratanya

customers.loc[(customers['dob_category'] == 'senior') & (customers['total_income'].isna()), 'total_income'] = avg_total_income_senior
# ----------

In [73]:
# cek apakah masih ada nilai hilang pada total_income di mana dob_category bernilai ‘senior’

customers[customers['total_income'] == 'senior']['total_income'].isnull().sum()
# ----------

0

In [74]:
customers.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21470 entries, 0 to 21524
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21470 non-null  int64  
 1   days_employed     21470 non-null  float64
 2   dob_years         21470 non-null  float64
 3   education         21470 non-null  object 
 4   education_id      21470 non-null  int64  
 5   family_status     21470 non-null  object 
 6   family_status_id  21470 non-null  int64  
 7   gender            21470 non-null  object 
 8   income_type       21470 non-null  object 
 9   debt              21470 non-null  int64  
 10  total_income      21470 non-null  float64
 11  purpose           21470 non-null  object 
 12  dob_category      21470 non-null  object 
 13  dob_category_id   21470 non-null  int64  
dtypes: float64(3), int64(5), object(6)
memory usage: 2.5+ MB


Nilai hilang pada kolom `total_income` untuk kategori "senior" telah diisi.

### Pengkategorian Data

#### Pembuatan Kolom Baru `total_income_category` dan ` total_income_category _id`

In [75]:
# cek isi total_income

customers['total_income'].describe()

count     21470.000000
mean      26786.722705
std       15646.344787
min        3306.762000
25%       17224.471500
50%       24624.688000
75%       31320.082250
max      362496.645000
Name: total_income, dtype: float64

In [78]:
# saya akan membuat kategori pendapatan di mana: 
# 0 – 2.000 = rendah
# 2.000 – 4.000 = sedang
# di atas 4.000 = tinggi

# Menggununakan pd.cut untuk mengkategorikan total_income
customers['total_income_category'] = pd.cut(customers['total_income'],
                                  bins=[0, 20000, 40000, float('inf')],
                                  labels=['rendah', 'sedang', 'tinggi'],
                                  right=False)

In [79]:
# Mengubah tipe data kolom 'total_income_category' menjadi objek
customers['total_income_category'] = customers['total_income_category'].astype('object')

In [80]:
# Cek hasil
customers['total_income_category']
# ----------

0        tinggi
1        rendah
2        sedang
3        tinggi
4        sedang
          ...  
21520    sedang
21521    sedang
21522    rendah
21523    sedang
21524    rendah
Name: total_income_category, Length: 21470, dtype: object

In [81]:
# Membuat kolom baru 'total_income_category_id' 

customers['total_income_category_id'] = customers['total_income_category'].map({'rendah': 1, 'sedang': 2, 'tinggi': 3})


In [82]:
# Mengubah tipe data kolom 'total_income_category_id' menjadi integer
customers['total_income_category_id'] = customers['total_income_category_id'].astype(int)


In [83]:
# Cek hasil
customers['total_income_category_id']

0        3
1        1
2        2
3        3
4        2
        ..
21520    2
21521    2
21522    1
21523    2
21524    1
Name: total_income_category_id, Length: 21470, dtype: int64

#### Pembuatan kolom baru `children_category` dan `children_category_id`

In [85]:
# membuat kolom baru 'chilren_category'

customers['children_category'] = customers['children'].apply(lambda x: 'memiliki anak' if x > 0 else 'tidak memiliki anak')


In [86]:
# cek hasil
customers['children_category']


0              memiliki anak
1              memiliki anak
2        tidak memiliki anak
3              memiliki anak
4        tidak memiliki anak
                ...         
21520          memiliki anak
21521    tidak memiliki anak
21522          memiliki anak
21523          memiliki anak
21524          memiliki anak
Name: children_category, Length: 21470, dtype: object

In [87]:
# Membuat kolom baru 'children_category_id'

customers['children_category_id'] = customers['children'].apply(lambda x: 0 if x == 0 else 1)


In [88]:
# cek hasil
customers['children_category_id']

0        1
1        1
2        0
3        1
4        0
        ..
21520    1
21521    0
21522    1
21523    1
21524    1
Name: children_category_id, Length: 21470, dtype: int64

#### Pembuatan Kolom Baru Bernama  `purpose_id`

In [89]:
# Membuat dictionary mapping dari nilai unik dalam kolom 'purpose' ke kategori numerik
# di mana, 1 = property, 2 = car, 3 = education, 4 = wedding

purpose_categories = customers['purpose'].unique()
purpose_mapping = {category: i+1 for i, category in enumerate(purpose_categories)}


In [90]:
# Mengganti nilai dalam kolom 'purpose' dengan kategori numerik dan menyimpannya dalam kolom baru 'purpose_id'
customers['purpose_id'] = customers['purpose'].map(purpose_mapping)


In [95]:
# cek hasil
customers[['purpose', 'purpose_id']]


Unnamed: 0,purpose,purpose_id
0,property,1
1,car,2
2,property,1
3,education,3
4,wedding,4
...,...,...
21520,property,1
21521,car,2
21522,property,1
21523,car,2


### Memeriksa Hipotesis

#### Korelasi antara Memiliki anak dengan Probabilitas Gagal Bayar Pinjaman

Apakah terdapat korelasi antara memiliki anak dengan probabilitas melakukan gagal bayar pinjaman?

In [96]:
# menampilkan persentase tiap kategori anak

debt_percentage_by_children_category = customers.groupby(['children_category_id', 'children_category'])['debt'].mean() * 100

debt_percentage_by_children_category

# ----------

children_category_id  children_category  
0                     tidak memiliki anak    7.535800
1                     memiliki anak          9.206953
Name: debt, dtype: float64

Dari data di atas juga dapat disimpulkan bahwa nasabah yang memiliki anak memiliki tingkat gagal bayar yang lebih tinggi (9,21%) dibandingkan dengan individu yang tidak memiliki anak (7,54%).


#### Korelasi antara Status Keluarga dengan Probabilitas Gagal Bayar Pinjaman

Apakah terdapat korelasi antara status keluarga dengan probabilitas melakukan gagal bayar pinjaman?

In [97]:

# menampilkan persentase gagal bayar tiap status keluarga

debt_percentage_by_family_status = customers.groupby(['family_status_id', 'family_status'])['debt'].mean() * 100

debt_percentage_by_family_status

# ----------

family_status_id  family_status    
0                 married              7.542126
1                 civil partnership    9.322441
2                 widow / widower      6.569343
3                 divorced             7.112971
4                 unmarried            9.750890
Name: debt, dtype: float64

Dari data ini, kita dapat menyimpulkan bahwa ada perbedaan dalam tingkat gagal bayar antara berbagai status keluarga. Secara umum, status keluarga "widow / widower" memiliki tingkat gagal bayar yang lebih rendah yakni sebesar 6,57%, sedangkan status keluarga "unmarried" memiliki tingkat gagal bayar yang lebih tinggi yakni sebesar 9,75%. 


#### Korelasi antara Tingkat Pendapatan dengan Probabilitas Gagal Bayar Pinjaman

Apakah terdapat korelasi antara tingkat pendapatan dengan probabilitas melakukan gagal bayar pinjaman?

In [98]:
# menampilkan persentase gagal bayar tiap tingkat pendapatan

debt_percentage_by_total_income_category = customers.groupby(['total_income_category_id', 'total_income_category'])['debt'].mean() * 100

debt_percentage_by_total_income_category

# ----------


total_income_category_id  total_income_category
1                         rendah                   8.250780
2                         sedang                   8.317832
3                         tinggi                   6.899004
Name: debt, dtype: float64

Dari data di atas, terlihat bahwa tingkat gagal bayar cenderung lebih tinggi untuk nasabah dengan pendapatan rendah dan sedang yakni dengan tingkat gagal bayar di atas 8%  dibandingkan dengan nasabah dengan pendapatan tinggi yang sebesar 6,90%. 


#### Korelasi antara Tujuan Kredit dengan Probabilitas Gagal Bayar Pinjaman

Apakah terdapat korelasi antara tujuan kredit dengan probabilitas melakukan gagal bayar pinjaman?

In [100]:
# menampilkan persentase gagal bayar tiap tujuan kredit

debt_percentage_by_purpose = customers.groupby(['purpose_id', 'purpose'])['debt'].mean() * 100

debt_percentage_by_purpose

# ----------


purpose_id  purpose  
1           property     7.232036
2           car          9.354689
3           education    9.217738
4           wedding      7.965739
Name: debt, dtype: float64

Pinjaman dengan tujuan pembelian mobil dan pendidikan cenderung memiliki tingkat gagal bayar yang lebih tinggi yakni dengan tingkat gagal bayar di atas 9%, sementara pinjaman dengan tujuan properti dan pernikahan memiliki tingkat gagal bayar yang lebih rendah.

## Kesimpulan Umum

Dalam penelitian ini dapat disimpulkan sebagai berikut: 

**Status Keluarga dan Tingkat Gagal Bayar**

Nasabah yang memiliki anak cenderung memiliki tingkat gagal bayar yang lebih tinggi (9,21%) dibandingkan dengan nasabah yang tidak memiliki anak (7,54%). Status keluarga "widow / widower" memiliki tingkat gagal bayar yang lebih rendah (6,57%), sementara status keluarga "unmarried" memiliki tingkat gagal bayar yang lebih tinggi (9,75%). Hal ini menunjukkan adanya perbedaan dalam tingkat gagal bayar antara berbagai status keluarga.

**Pendapatan dan Tingkat Gagal Bayar**

Nasabah dengan pendapatan rendah dan sedang memiliki tingkat gagal bayar yang lebih tinggi, dengan tingkat di atas 8%, dibandingkan dengan nasabah dengan pendapatan tinggi yang memiliki tingkat gagal bayar sekitar 6,90%. Ini menunjukkan bahwa tingkat pendapatan memiliki pengaruh pada risiko gagal bayar, dengan tingkat risiko meningkat seiring dengan penurunan pendapatan.

**Tujuan Pinjaman dan Tingkat Gagal Bayar**

Pinjaman dengan tujuan pembelian mobil dan pendidikan cenderung memiliki tingkat gagal bayar yang lebih tinggi, dengan tingkat di atas 9%, sementara pinjaman dengan tujuan properti dan pernikahan memiliki tingkat gagal bayar yang lebih rendah. Ini menunjukkan bahwa tujuan pinjaman juga memengaruhi tingkat risiko gagal bayar.

Dengan demikian, faktor-faktor seperti status keluarga, pendapatan, dan tujuan pinjaman memainkan peran penting dalam menentukan tingkat risiko gagal bayar. Informasi ini penting bagi lembaga keuangan guna mengelola risiko dan merancang kebijakan peminjaman yang sesuai dengan profil risiko nasabah.
