# Pendahuluan

Proyek ini bertujuan untuk menganalisis dataset yang berisi informasi tentang nasabah yang mengajukan pinjaman di sebuah bank. Tujuan utama dari proyek ini adalah untuk mendapatkan wawasan tentang faktor-faktor apa saja yang berpengaruh terhadap kemungkinan nasabah melakukan gagal bayar pinjaman. Melalui analisis data yang mendalam, kami akan mencoba menjawab beberapa pertanyaan dan menguji hipotesis berikut:

1. Apakah terdapat korelasi antara memiliki anak dengan probabilitas melakukan gagal bayar pinjaman?

2. Apakah terdapat korelasi antara status keluarga dengan probabilitas melakukan gagal bayar pinjaman?

3. Bagaimana tujuan kredit memengaruhi persentase gagal bayar?

4. Apakah terdapat korelasi antara tingkat pendapatan dengan probabilitas melakukan gagal bayar pinjaman?

Melalui analisis ini, kita berharap dapat mengidentifikasi faktor-faktor yang paling berpengaruh terhadap kemungkinan gagal bayar pinjaman dan memberikan wawasan yang berguna bagi perusahaan dalam mengambil keputusan terkait pemberian pinjaman.

In [None]:
import pandas as pd # Muat semua library


In [None]:
df = pd.read_csv('/datasets/credit_scoring_eng.csv')

In [None]:
df.shape# Mari kita lihat berapa banyak baris dan kolom yang dimiliki oleh dataset kita


(21525, 12)

In [None]:
df.head(5)# Mari tampilkan N baris pertama



Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding


In [None]:
df.info()# Dapatkan informasi data


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [None]:
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,26787.568355
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,16475.450632
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,3306.762
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,16488.5045
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,23202.87
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,32549.611
max,20.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


terdapat dua kolom yang memiliki nilai yang hilang, yaitu days_employed dan total_income. Sementara itu, kolom lainnya memiliki nilai non-null untuk setiap barisnya.

In [None]:
missing_values = df['children'].isnull().sum() # Mari kita lihat tabel yang telah difilter dengan nilai yang hilang di kolom pertama yang mengandung data yang hilang
print(missing_values)


0


tidak ada nilai yang hilang. Namun, untuk memastikan apakah nilai yang hilang terdistribusi secara simetris atau tidak, perlu dilakukan penelitian lebih lanjut dengan menghitung jumlah nilai yang hilang di semua baris.

In [None]:
filtered_df = df[df['children'].isnull()] # Mari kita terapkan beberapa kondisi untuk memfilter data dan melihat jumlah baris dalam tabel yang telah difilter.
print(filtered_df.shape[0])


0


**Kesimpulan sementara**

[Apakah jumlah baris dalam tabel yang telah difilter sesuai dengan jumlah nilai yang hilang? Kesimpulan apa yang bisa kita buat dari hal ini?]

Hitung persentase nilai yang hilang jika dibandingkan dengan keseluruhan dataset. Apakah nilai yang hilang merupakan bagian data yang cukup besar? Jika demikian, kamu sebaiknya perlu mengisi nilai yang hilang. Untuk melakukannya, pertama-tama kita harus mempertimbangkan apakah data yang hilang bisa jadi disebabkan oleh karakteristik nasabah tertentu, seperti jenis pekerjaan atau yang lainnya. Kamu harus memutuskan karakteristik mana yang menurut *kamu* mungkin merupakan penyebabnya. Kedua, kita harus memeriksa apakah ada ketergantungan nilai yang hilang pada nilai indikator lain dengan kolom-kolom yang mengidentifikasikan karakteristik tertentu nasabah.


In [None]:
# Mari kita periksa nasabah yang tidak memiliki data tentang karakteristik yang teridentifikasi dan kolom dengan nilai yang hilang
missing_characteristics = df[df['income_type'] == 'unknown']

In [None]:
# Periksalah distribusinya
characteristics_distribution = df['income_type'].value_counts()

Kemungkinan penyebab hilangnya nilai dalam data:

Hilang secara acak: Kemungkinan ada beberapa nilai yang hilang secara acak di beberapa kolom seperti 'days_employed', 'total_income', dan 'purpose'.

Pola tertentu: Terdapat kemungkinan ada pola tertentu yang menyebabkan hilangnya nilai, seperti penghasilan yang tidak dilaporkan atau tujuan pinjaman yang tidak ditentukan dengan jelas

Mari kita mulai memeriksa apakah nilai yang hilang bersifat acak.

In [None]:
# Memeriksa distribusi di seluruh dataset
df.describe()


Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,26787.568355
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,16475.450632
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,3306.762
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,16488.5045
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,23202.87
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,32549.611
max,20.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


**Kesimpulan sementara**

[Apakah distribusi dalam dataset yang asli mirip dengan distribusi tabel yang telah difilter? Apa artinya hal tersebut untuk kita?]

Distribusi dalam dataset yang asli tampak serupa dengan distribusi tabel yang telah difilter. Namun, perlu diperhatikan bahwa beberapa kolom memiliki nilai minimum yang tidak masuk akal, seperti nilai negatif pada kolom days_employed dan nilai 0 pada kolom dob_years (usia nasabah). Hal ini menunjukkan adanya nilai yang tidak valid atau aneh dalam dataset.

Jika menurutmu kita belum dapat membuat kesimpulan apa pun, mari kita kembali menyelidiki dataset lebih lanjut. Mari pikirkan alasan lain yang dapat menyebabkan data hilang dan periksa apakah kita dapat menemukan pola tertentu yang dapat membuat kita berpikir bahwa hilangnya nilai-nilai tersebut tidak terjadi secara acak. Karena ini merupakan tugasmu maka bagian ini adalah opsional.

In [None]:
# Periksa penyebab dan pola lain yang dapat mengakibatkan nilai yang hilang
days_employed_missing = df[df['days_employed'].isnull()]
income_type_missing_days_employed = days_employed_missing['income_type'].value_counts()
total_income_missing = df[df['total_income'].isnull()]
income_type_missing_total_income = total_income_missing['income_type'].value_counts()
print(income_type_missing_days_employed)
print(income_type_missing_total_income)

employee         1105
business          508
retiree           413
civil servant     147
entrepreneur        1
Name: income_type, dtype: int64
employee         1105
business          508
retiree           413
civil servant     147
entrepreneur        1
Name: income_type, dtype: int64


**Kesimpulan sementara**

[Apakah pada akhirnya kita dapat memastikan bahwa nilai yang hilang adalah suatu kebetulan? Periksa hal lain yang menurutmu penting di sini.]

[ada pola yang mungkin terkait dengan jenis pekerjaan dalam mengakibatkan missing value. Namun, untuk memastikan apakah hal ini hanya kebetulan atau ada faktor lain yang terkait, perlu dilakukan analisis lebih lanjut dan pemeriksaan pada faktor-faktor lain yang relevan dalam dataset, seperti status perkawinan, tingkat pendidikan, atau tujuan pinjaman.]

In [None]:
# Periksa pola lainnya - jelaskan pola tersebut
df_missing = df[df.isnull().any(axis=1)]

# Lihat pola distribusi pada kolom 'family_status'
family_status_missing = df_missing['family_status'].value_counts()
print(family_status_missing)
# Lihat pola distribusi pada kolom 'education'
education_missing = df_missing['education'].value_counts()
print(education_missing)
# Lihat pola distribusi pada kolom 'gender'
gender_missing = df_missing['gender'].value_counts()
print(gender_missing)
# Lihat pola distribusi pada kolom 'purpose'
purpose_missing = df_missing['purpose'].value_counts()
print(purpose_missing)

married              1237
civil partnership     442
unmarried             288
divorced              112
widow / widower        95
Name: family_status, dtype: int64
secondary education    1408
bachelor's degree       496
SECONDARY EDUCATION      67
Secondary Education      65
some college             55
Bachelor's Degree        25
BACHELOR'S DEGREE        23
primary education        19
Some College              7
SOME COLLEGE              7
Primary Education         1
PRIMARY EDUCATION         1
Name: education, dtype: int64
F    1484
M     690
Name: gender, dtype: int64
having a wedding                            92
to have a wedding                           81
wedding ceremony                            76
construction of own property                75
housing transactions                        74
buy real estate                             72
purchase of the house for my family         71
transactions with my real estate            71
housing renovation                          70


**Kesimpulan**

Dari hasil distribusi pada kolom-kolom kategorikal yang memiliki nilai yang hilang, kita dapat melihat beberapa pola:

Family Status: Mayoritas nilai yang hilang berasal dari kategori "married" dan "civil partnership".
Education: Mayoritas nilai yang hilang berasal dari kategori "secondary education" dan "bachelor's degree". Terdapat variasi ejaan dan capitalization yang berbeda untuk kategori yang sama, seperti "SECONDARY EDUCATION" dan "Secondary Education".
Gender: Mayoritas nilai yang hilang berasal dari kategori "F" (female).

Berdasarkan pola ini, langkah selanjutnya untuk mengatasi nilai-nilai yang hilang adalah:

Untuk kolom Family Status: Kita dapat mengisi nilai yang hilang dengan modus (kategori yang paling sering muncul), yaitu "married" atau "civil partnership".
Untuk kolom Education: Kita dapat mengatasi variasi ejaan dan capitalization dengan melakukan normalisasi, misalnya dengan mengubah semua nilai menjadi huruf kecil. Selanjutnya, kita dapat mengisi nilai yang hilang dengan modus, yaitu "secondary education" atau "bachelor's degree".
Untuk kolom Gender: Karena hanya ada dua kategori yang mungkin (male dan female), kita dapat mengisi nilai yang hilang dengan modus, yaitu "F".

Rencanakan langkah-langkah berikutnya untuk mentransformasi data:

1.Normalisasi nilai pada kolom Education dengan mengubah semua nilai menjadi huruf kecil.
2.Mengisi nilai yang hilang pada kolom Family Status dengan modus.
3.Mengisi nilai yang hilang pada kolom Education dengan modus setelah normalisasi.
4.Mengisi nilai yang hilang pada kolom Gender dengan modus.
5.Menindaklanjuti masalah-masalah lainnya yang teridentifikasi, seperti duplikat, pencatatan yang berbeda, dan sumber data yang salah.

## Transformasi data

[Mari kita perhatikan setiap kolom untuk melihat masalah apa yang mungkin dimiliki mereka.]

[Mulailah dengan menghapus duplikat dan memperbaiki data tentang informasi pendidikan jika diperlukan.]

In [None]:
# Mari kita lihat semua nilai di kolom pendidikan untuk memeriksa ejaan apa yang perlu diperbaiki
unique_education_values = df['education'].unique()
print(unique_education_values)

["bachelor's degree" 'secondary education' 'Secondary Education'
 'SECONDARY EDUCATION' "BACHELOR'S DEGREE" 'some college'
 'primary education' "Bachelor's Degree" 'SOME COLLEGE' 'Some College'
 'PRIMARY EDUCATION' 'Primary Education' 'Graduate Degree'
 'GRADUATE DEGREE' 'graduate degree']


In [None]:
# Perbaiki pencatatan jika diperlukan

# Perbaiki variasi kapitalisasi dalam kolom "education"
df['education'] = df['education'].str.lower()

In [None]:
# Periksa semua nilai di kolom untuk memastikan bahwa kita telah memperbaikinya dengan tepat
unique_education = df['education'].unique()
print(unique_education)

["bachelor's degree" 'secondary education' 'some college'
 'primary education' 'graduate degree']


In [None]:
# Mari kita lihat distribusi nilai pada kolom `children`
children_distribution = df['children'].value_counts()
print(children_distribution)

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64


[Apakah terdapat hal-hal yang aneh di kolom tersebut? Jika jawabannya iya, seberapa tinggi persentase data yang bermasalah? Bagaimana mereka bisa terjadi? Buat keputusan tentang apa yang akan kamu lakukan dengan data ini dan jelaskan alasannya.]

[Ya, terdapat beberapa nilai yang aneh di kolom "children". Terdapat kemunculan nilai -1 dan 20, yang tidak masuk akal dalam konteks jumlah anak dalam keluarga. Persentase data yang bermasalah dapat dihitung dengan menjumlahkan kemunculan nilai -1 dan 20, kemudian dibagi dengan total jumlah baris data.]

Persentase data yang bermasalah dapat dihitung sebagai berikut:

Jumlah data yang bermasalah = jumlah kemunculan nilai -1 + jumlah kemunculan nilai 20
Persentase data yang bermasalah = (Jumlah data yang bermasalah / Total jumlah baris data) * 100%

Data yang bermasalah ini mungkin terjadi karena kesalahan input atau kekeliruan saat mengisi jumlah anak dalam keluarga. Dalam konteks ini, nilai -1 dan 20 tidak dapat dianggap valid dan perlu ditangani.

Keputusan yang dapat diambil tergantung pada analisis lebih lanjut terhadap data. Beberapa opsi yang dapat dilakukan adalah:

Menghapus baris yang memiliki nilai -1 atau 20, jika jumlah data yang bermasalah relatif kecil dan tidak signifikan bagi analisis yang akan dilakukan.
Mengganti nilai -1 atau 20 dengan nilai yang valid berdasarkan konteks data, seperti menggantinya dengan nilai 0 atau 1 tergantung pada kebijakan atau aturan yang berlaku.

In [None]:
# [perbaiki data berdasarkan keputusanmu]
# Mengganti nilai -1 dengan 0
df.loc[df['children'] == -1, 'children'] = 0

# Mengganti nilai 20 dengan 1
df.loc[df['children'] == 20, 'children'] = 1

In [None]:
# Periksa kembali kolom `children` untuk memastikan bahwa semuanya telah diperbaiki
print(df['children'].value_counts())

0    14196
1     4894
2     2055
3      330
4       41
5        9
Name: children, dtype: int64


In [None]:
# Temukan data yang bermasalah di kolom `days_employed` jika memang terdapat masalah dan hitung persentase
df['days_employed'].describe()

count     19351.000000
mean      63046.497661
std      140827.311974
min      -18388.949901
25%       -2747.423625
50%       -1203.369529
75%        -291.095954
max      401755.400475
Name: days_employed, dtype: float64

Jika jumlah data yang bermasalah tinggi, hal tersebut mungkin disebabkan oleh beberapa masalah teknis. Kita mungkin perlu mengusulkan alasan paling jelas mengapa hal tersebut dapat terjadi dan bagaimana seharusnya data yang benar, mengingat kita tidak dapat menghapus baris yang bermasalah ini.

In [None]:
# Atasi nilai yang bermasalah, jika ada
df["days_employed"] = df["days_employed"].abs()

In [None]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
df['days_employed'].describe()

count     19351.000000
mean      66914.728907
std      139030.880527
min          24.141633
25%         927.009265
50%        2194.220567
75%        5537.882441
max      401755.400475
Name: days_employed, dtype: float64

In [None]:
# Periksa `dob_years` untuk nilai yang mencurigakan dan hitung persentasenya
min_age = 18
max_age = 100
suspicious_dob_years = df[(df['dob_years'] < min_age) | (df['dob_years'] > max_age)]
suspicious_count = len(suspicious_dob_years)
suspicious_percentage = (suspicious_count / len(df)) * 100
print(suspicious_count)
print(suspicious_percentage)


101
0.4692218350754936


saya mengganti nilai yang hilang menggunkan nilai tengah (mean). Langkah ini diambil untuk memastikan integritas data dan menghindari kesalahan analisis yang mungkin terjadi jika terdapat nilai yang tidak valid atau mencurigakan dalam kolom dob_years.

In [None]:
# Atasi masalah pada kolom `dob_years`, jika terdapat masalah
suspicious_values = df[df['dob_years'] == 0]['dob_years']

# Hitung nilai tengah (mean) dari kolom `dob_years`
mean_dob_years = df['dob_years'].mean()

# Ganti nilai yang mencurigakan dengan nilai tengah
df.loc[df['dob_years'] == 0, 'dob_years'] = mean_dob_years


In [None]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
print(df['dob_years'].value_counts())

35.00000    617
40.00000    609
41.00000    607
34.00000    603
38.00000    598
42.00000    597
33.00000    581
39.00000    573
31.00000    560
36.00000    555
44.00000    547
29.00000    545
30.00000    540
48.00000    538
37.00000    537
50.00000    514
43.00000    513
32.00000    510
49.00000    508
28.00000    503
45.00000    497
27.00000    493
56.00000    487
52.00000    484
47.00000    480
54.00000    479
46.00000    475
58.00000    461
57.00000    460
53.00000    459
51.00000    448
59.00000    444
55.00000    443
26.00000    408
60.00000    377
25.00000    357
61.00000    355
62.00000    352
63.00000    269
64.00000    265
24.00000    264
23.00000    254
65.00000    194
22.00000    183
66.00000    183
67.00000    167
21.00000    111
43.29338    101
68.00000     99
69.00000     85
70.00000     65
71.00000     58
20.00000     51
72.00000     33
19.00000     14
73.00000      8
74.00000      6
75.00000      1
Name: dob_years, dtype: int64


In [None]:
# Mari kita lihat nilai untuk kolom ini
df['family_status'].value_counts()

married              12380
civil partnership     4177
unmarried             2813
divorced              1195
widow / widower        960
Name: family_status, dtype: int64

In [None]:
# Atasi nilai yang bermasalah di `family_status`, jika ada



In [None]:
# Periksa hasilnya - pastikan nilainya telah diperbaiki


In [None]:
# Mari kita liat nilai dalam kolom ini
df['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

In [None]:
# Atasi nilai-nilai yang bermasalah, jika ada
df = df[df['gender'] != 'XNA']

In [None]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki
df['gender'].value_counts()

F    14236
M     7288
Name: gender, dtype: int64

In [None]:
# Mari kita lihat nilai dalam kolom ini
df['income_type'].value_counts()

employee                       11119
business                        5084
retiree                         3856
civil servant                   1459
entrepreneur                       2
unemployed                         2
paternity / maternity leave        1
student                            1
Name: income_type, dtype: int64

In [None]:
# Atasi nilai yang bermasalah, jika ada

In [None]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki



In [None]:
# Periksa duplikat
df.duplicated().sum()

71

In [None]:
# Atasi duplikat, jika ada
df.drop_duplicates(inplace=True)

In [None]:
# Lakukan pemeriksaan terakhir untuk mengecek apakah kita memiliki duplikat
df.duplicated().sum()

0

In [None]:
# Periksa ukuran dataset yang sekarang kamu miliki setelah manipulasi pertama yang kamu lakukan
df.shape

(21453, 12)

[Jelaskan dataset barumu: jelaskan secara singkat apa saja perubahannya dan seberapa besar persentase perubahannya, jika ada.]

[terdapat perubahan pada jumlah baris dataset setelah melakukan manipulasi data. Jumlah baris awal sebelum manipulasi adalah 21525, dan setelah manipulasi menjadi 21453. Perubahan ini menunjukkan adanya penghapusan atau pengubahan pada beberapa baris data.]

In [None]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42.0,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,4024.803754,36.0,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,5623.42261,33.0,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,4124.747207,32.0,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53.0,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding


# Bekerja dengan nilai yang hilang

[Untuk mempercepat pekerjaan dengan sejumlah data, kamu mungkin ingin menggunakan dictionary untuk beberapa nilai yang memiliki ID. Jelaskan mengapa dan dictionary manakah yang akan kamu gunakan.]

[saya menggunakan dictionary untuk kolom-kolom dengan nilai yang memiliki ID, seperti kolom 'education'. Dengan menggunakan dictionary seperti ini, kita dapat dengan mudah menggantikan nilai-nilai ID dengan nilai aktual saat bekerja dengan dataset.]

In [None]:
# Temukan dictionary
education_dict = {
    0: "bachelor's degree",
    1: "secondary education",
    2: "secondary education",
    3: "secondary education",
    4: "primary education"
}

df['education'] = df['education_id'].map(education_dict)

### Memperbaiki nilai yang hilang di `total_income`

[Jelaskan secara singkat kolom dengan nilai yang hilang manakah yang perlu kamu tangani. Jelaskan bagaimana kamu akan memperbaikinya.]


[Mulai dengan mengatasi total nilai pendapatan yang hilang. Buat kategori usia untuk nasabah. Buat kolom baru yang memuat kategori usia. Strategi ini dapat membantu untuk menghitung total nilai pendapatan.]


In [None]:
# Mari kita tulis sebuah fungsi untuk menghitung kategori usia
def calculate_age_category(age):
    if age < 30:
        return 'Young'
    elif age < 50:
        return 'Middle'
    else:
        return 'Old'

In [None]:
# Lakukan pengujian untuk melihat apakah fungsimu bekerja atau tidak
print(calculate_age_category(25))  # Output: 'Young'
print(calculate_age_category(35))  # Output: 'Middle'
print(calculate_age_category(55))  # Output: 'Old'

Young
Middle
Old


In [None]:
# Buatlah kolom baru berdasarkan fungsi
df['age_category'] = df['dob_years'].apply(calculate_age_category)

In [None]:
# Periksa bagaimana nilai di dalam kolom baru
df['age_category'].value_counts()

Middle    11117
Old        7157
Young      3179
Name: age_category, dtype: int64

In [None]:
# Buat tabel tanpa nilai yang hilang dan tampilkan beberapa barisnya untuk memastikan semuanya berjalan dengan baik
clean_data = df.dropna()

In [None]:
# Perhatikan nilai rata-rata untuk pendapatan berdasarkan faktor yang telah kamu identifikasi
income_by_age_category = clean_data.groupby('age_category')['total_income'].mean()
print(income_by_age_category)

age_category
Middle    28400.559157
Old       24833.682909
Young     25531.501098
Name: total_income, dtype: float64


In [None]:
# Perhatikan nilai median untuk pendapatan berdasarkan faktor yang telah kamu identifikasi
income_by_age_category = clean_data.groupby('age_category')['total_income'].median()
print(income_by_age_category)

age_category
Middle    24719.020
Old       21387.208
Young     22735.911
Name: total_income, dtype: float64


[Buat keputusan tentang karakteristik yang paling menentukan pendapatan dan apakah kamu akan menggunakan median atau rata-rata. Jelaskan mengapa kamu membuat keputusan ini]


In [None]:
#  Tulis fungsi yang akan kita gunakan untuk mengisi nilai yang hilang
def fill_missing_income(row):
    age_category = row['age_category']
    median_income = income_by_age_category[age_category]

    if pd.isnull(row['total_income']):
        return median_income
    else:
        return row['total_income']

In [None]:
# Memeriksa bagaimana nilai di dalam kolom baru
df['total_income'] = df.apply(fill_missing_income, axis=1)
print(df['total_income'])

0        40620.102
1        17932.802
2        23341.752
3        42820.568
4        25378.572
           ...    
21520    35966.698
21521    24959.969
21522    14347.610
21523    39054.888
21524    13127.587
Name: total_income, Length: 21453, dtype: float64


In [None]:
# Terapkan fungsi tersebut ke setiap baris
df['total_income'] = df.apply(fill_missing_income, axis=1)

In [None]:
# Periksa apakah kita mendapatkan kesalahan
print(df['total_income'].isnull().sum())

0


In [None]:
# Ganti nilai yang hilang jika terdapat kesalahan


In [None]:
# Periksa jumlah entri di kolom
total_income_count = clean_data['total_income'].count()
other_columns_count = clean_data.drop('total_income', axis=1).count()
print(f"Total entries in total_income column: {total_income_count}")
print(f"Total entries in other columns:")
print(other_columns_count)

Total entries in total_income column: 19350
Total entries in other columns:
children            19350
days_employed       19350
dob_years           19350
education           19350
education_id        19350
family_status       19350
family_status_id    19350
gender              19350
income_type         19350
debt                19350
purpose             19350
age_category        19350
dtype: int64


###  Memperbaiki nilai di `days_employed`

[Pikirkan tentang parameter yang dapat membantumu memperbaiki nilai yang hilang di kolom ini. Pada akhirnya, kamu akan mengetahui apakah kamu harus menggunakan nilai rata-rata atau median untuk mengganti nilai yang hilang. Kamu mungkin perlu melakukan penelitian yang sama dengan yang kamu lakukan saat memperbaiki data di kolom sebelumnya.]

In [None]:
# Distribusi median dari `days_employed` berdasarkan parameter yang kamu identifikasi
median_days_employed_by_education = clean_data.groupby('education')['days_employed'].median()
print(median_days_employed_by_education)

education
bachelor's degree      1895.747795
primary education      5660.057032
secondary education    2304.326814
Name: days_employed, dtype: float64


In [None]:
# Distribusi rata-rata dari `days_employed` berdasarkan parameter yang kamu identifikasi
mean_days_employed_by_education = clean_data.groupby('education')['days_employed'].mean()
print(mean_days_employed_by_education)

education
bachelor's degree       42375.409174
primary education      121323.630206
secondary education     74808.189023
Name: days_employed, dtype: float64


penggunaan mean bisa menjadi pilihan yang baik karena dapat memberikan representasi yang akurat tentang kecenderungan nilai di kolom tersebut. Dalam hal ini, penggunaan mean dalam fungsi calculate_mean_by_parameter didasarkan pada asumsi bahwa nilai-nilai ekstrem dalam kolom days_employed tidak mempengaruhi secara signifikan perhitungan rata-rata. Jika ada kemungkinan adanya nilai-nilai ekstrem yang signifikan, maka lebih disarankan untuk menggunakan median sebagai pengukuran sentral yang lebih stabil.

In [None]:
# Mari tulis fungsi yang menghitung rata-rata atau median (tergantung keputusanmu) berdasarkan parameter yang kamu identifikasi
def calculate_mean_by_parameter(data, parameter):
    mean_values = data.groupby(parameter)['days_employed'].mean()
    return mean_values

In [None]:
# Periksa apakah fungsimu bekerja
mean_by_parameter = calculate_mean_by_parameter(df, 'age_category')
print(mean_by_parameter)


age_category
Middle      8712.002985
Old       186762.749685
Young       2082.398127
Name: days_employed, dtype: float64


In [None]:
# Terapkan fungsi ke income_type
mean_by_income_type = calculate_mean_by_parameter(df, 'income_type')

In [None]:
# Periksa apakah fungsimu bekerja
print(mean_by_income_type)

income_type
business                         2111.470404
civil servant                    3399.896902
employee                         2326.499216
entrepreneur                      520.848083
paternity / maternity leave      3296.759962
retiree                        365003.491245
student                           578.751554
unemployed                     366413.652744
Name: days_employed, dtype: float64


In [None]:
# Ganti nilai yang hilang
for index, row in df.iterrows():
    if pd.isnull(row['days_employed']):
        income_type = row['income_type']
        mean_days_employed = mean_by_income_type[income_type]
        df.loc[index, 'days_employed'] = mean_days_employed


[Setelah kamu selesai dengan `total_income`, periksa apakah jumlah total nilai di kolom ini sesuai dengan jumlah nilai di kolom lain.]

In [None]:
# Periksa entri di semua kolom - pastikan kita memperbaiki semua nilai yang hilang
df.isnull().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
age_category        0
dtype: int64

## Pengkategorian data

[Untuk menjawab pertanyaan dan menguji hipotesis, kamu akan bekerja dengan data yang telah dikategorikan. Lihat pertanyaan-pertanyaan yang diajukan kepadamu dan yang harus kamu jawab. Pikirkan tentang data mana yang perlu dikategorikan untuk menjawab pertanyaan-pertanyaan ini. Di bawah ini, kamu akan menemukan templat yang bisa kamu gunakan untuk mengkategorikan data. Proses pertama mencakup data teks; yang kedua membahas data numerik yang perlu dikategorikan. Kamu dapat menggunakan kedua petunjuk yang disarankan atau tidak sama sekali - semuanya terserahmu.]

[Terlepas dari keputusanmu untuk mengatasi pengkategorian, pastikan bahwa kamu secara lugas memberikan penjelasan tentang mengapa kamu membuat keputusan tersebut. Ingat: ini adalah pekerjaanmu dan hanya kamu yang berhak membuat segala keputusan.]


In [None]:
# Tampilkan nilai data yang kamu pilih untuk pengkategorian
df['family_status'].value_counts()


married              12339
civil partnership     4150
unmarried             2810
divorced              1195
widow / widower        959
Name: family_status, dtype: int64

[Mari kita periksa nilai unik]

In [None]:
# Periksa nilai unik
df['family_status'].unique()

array(['married', 'civil partnership', 'widow / widower', 'divorced',
       'unmarried'], dtype=object)

[Kelompok utama apakah yang dapat kamu identifikasi berdasarkan nilai uniknya?]

[Kita akan mengategorikan data kita berdasarkan topik ini.]


In [None]:
# Mari kita tulis sebuah fungsi untuk mengategorikan data berdasarkan topik umum
def categorize_data(data, column_name, categories):
    data[column_name + '_category'] = data[column_name].map(categories)
    return data

In [None]:
# Buat kolom yang memuat kategori dan hitung nilainya
category_counts = df['family_status'].value_counts()
print(category_counts)


married              12339
civil partnership     4150
unmarried             2810
divorced              1195
widow / widower        959
Name: family_status, dtype: int64


[Jika kamu memutuskan untuk mengategorikan data numerik, kamu juga harus membuat kategori untuk data tersebut.]

In [None]:
# Lihat semua data numerik di kolom yang kamu pilih untuk pengkategorian
numeric_data = df['family_status'].unique()
print(numeric_data)

['married' 'civil partnership' 'widow / widower' 'divorced' 'unmarried']


In [None]:
# Dapatkan kesimpulan statistik untuk kolomnya

column_stats = df['family_status'].describe()
print(column_stats)

count       21453
unique          5
top       married
freq        12339
Name: family_status, dtype: object


[Tentukan rentang apa yang akan kamu gunakan untuk pengelompokan dan jelaskan alasannya.]

In [None]:
# Buat fungsi yang melakukan pengkategorian menjadi kelompok numerik yang berbeda berdasarkan rentang
def categorize_family_status(status):
    if status == 'married':
        return 'Married'
    elif status == 'civil partnership':
        return 'Civil Partnership'
    elif status == 'unmarried':
        return 'Unmarried'
    elif status == 'divorced':
        return 'Divorced'
    elif status == 'widow / widower':
        return 'Widow/Widower'
    else:
        return 'Unknown'


In [None]:
# Buat kolom yang memuat kategori
df['family_status_category'] = df['family_status'].map(categorize_family_status)

In [None]:
# Hitung setiap nilai kategori untuk melihat pendistribusiannya
df['family_status_category'].value_counts()

Married              12339
Civil Partnership     4150
Unmarried             2810
Divorced              1195
Widow/Widower          959
Name: family_status_category, dtype: int64

## Memeriksa hipotesis


**Apakah terdapat korelasi antara memiliki anak dengan probabilitas melakukan gagal bayar pinjaman?**

In [None]:
# Periksa data anak dan data gagal bayar pinjaman
df['children'].value_counts()
df['debt'].value_counts()

# Hitung persentase gagal bayar berdasarkan jumlah anak
df.groupby('children')['debt'].mean() * 100


children
0    7.526349
1    9.254709
2    9.454191
3    8.181818
4    9.756098
5    0.000000
Name: debt, dtype: float64

**Kesimpulan**

[Tulis kesimpulanmu berdasarkan manipulasi dan pengamatan yang kamu lakukan.]

Distribusi jumlah anak pada dataset menunjukkan bahwa sebagian besar individu memiliki 0, 1, atau 2 anak. Jumlah anak yang lebih tinggi (3, 4, atau 5) memiliki frekuensi yang lebih rendah.

Ketika melihat persentase gagal bayar pinjaman berdasarkan jumlah anak, terlihat bahwa individu dengan jumlah anak yang lebih tinggi (3, 4, atau 5) memiliki persentase gagal bayar yang lebih tinggi dibandingkan dengan individu dengan jumlah anak yang lebih sedikit (0, 1, atau 2). Namun, perlu dicatat bahwa persentase gagal bayar untuk semua kategori jumlah anak relatif rendah.


**Apakah terdapat korelasi antara status keluarga dengan probabilitas melakukan gagal bayar pinjaman?**

In [None]:
# Periksa data status keluarga dan data gagal bayar pinjaman
df['family_status'].value_counts()


# Hitung persentase gagal bayar berdasarkan status keluarga
df.groupby('family_status')['debt'].mean() * 100


family_status
civil partnership    9.349398
divorced             7.112971
married              7.545182
unmarried            9.750890
widow / widower      6.569343
Name: debt, dtype: float64

**Kesimpulan**

[Tulis kesimpulanmu berdasarkan manipulasi dan pengamatanmu.]

Kategori status keluarga "civil partnership" memiliki persentase gagal bayar tertinggi sebesar 9.35%, diikuti oleh kategori "unmarried" dengan persentase 9.75%. Hal ini menunjukkan bahwa individu dengan status pernikahan non-resmi atau tanpa status pernikahan cenderung memiliki risiko gagal bayar yang lebih tinggi.

Kategori status keluarga "widow / widower" memiliki persentase gagal bayar terendah sebesar 6.57%. Ini menunjukkan bahwa individu yang menjadi janda atau duda memiliki risiko gagal bayar yang lebih rendah dibandingkan dengan kategori lainnya.

Kategori status keluarga "divorced" dan "married" memiliki persentase gagal bayar yang relatif lebih rendah, yaitu 7.11% dan 7.55% secara berturut-turut. Hal ini menunjukkan bahwa individu yang bercerai atau memiliki status pernikahan sah memiliki risiko gagal bayar yang lebih rendah dibandingkan dengan kategori "civil partnership" dan "unmarried".


**Apakah terdapat korelasi antara tingkat pendapatan dengan probabilitas melakukan gagal bayar pinjaman?**

In [None]:
#Kategorisasi Kolom total_income:
income_distribution = df['total_income'].describe()

high_income_threshold = income_distribution['75%']
low_income_threshold = income_distribution['25%']

def categorize_total_income(income):
    if income >= high_income_threshold:
        return 'high income'
    elif income >= low_income_threshold:
        return 'mid income'
    else:
        return 'low income'
df['income_category'] = df['total_income'].apply(categorize_total_income)
income_category_counts = df['income_category'].value_counts()
print(income_category_counts)

mid income     10726
high income     5364
low income      5363
Name: income_category, dtype: int64


In [None]:
# Periksa data tingkat pendapatan dan data gagal bayar pinjaman
df.groupby('income_category')['debt'].mean()


# Hitung persentase gagal bayar berdasarkan tingkat pendapatan
df.groupby('income_category')['debt'].mean() * 100


income_category
high income    7.140194
low income     7.961962
mid income     8.679843
Name: debt, dtype: float64

**Kesimpulan**

[Tulis kesimpulanmu berdasarkan manipulasi dan pengamatanmu.]

Berikut adalah hasil perhitungan persentase gagal bayar pinjaman berdasarkan tingkat pendapatan:

    Tingkat Pendapatan Tinggi (High Income): 7.14%
    Tingkat Pendapatan Rendah (Low Income): 7.96%
    Tingkat Pendapatan Menengah (Mid Income): 8.68%

Dari hasil ini, tampaknya tidak ada hubungan yang signifikan antara tingkat pendapatan dan probabilitas gagal bayar pinjaman. Semua kategori tingkat pendapatan memiliki persentase gagal bayar yang relatif serupa. Namun, penting untuk dicatat bahwa analisis ini hanya berdasarkan pada data yang ada dan mungkin ada faktor lain yang dapat mempengaruhi probabilitas gagal bayar pinjaman.

**Bagaimana tujuan kredit memengaruhi persentase gagal bayar?**

In [None]:
purpose_keywords = {
    'property': ['property', 'real estate', 'house'],
    'car': ['car', 'vehicle'],
    'education': ['education', 'university', 'study'],
    'wedding': ['wedding', 'marriage'],
}

def categorize_purpose(purpose):
    for category, keywords in purpose_keywords.items():
        for keyword in keywords:
            if keyword in purpose:
                return category
    return 'other'

df['purpose_category'] = df['purpose'].apply(categorize_purpose)
purpose_category_counts = df['purpose_category'].value_counts()
print(purpose_category_counts)

property     8905
car          4306
education    3605
wedding      2324
other        2313
Name: purpose_category, dtype: int64


In [None]:
# Periksa persentase tingkat gagal bayar untuk setiap tujuan kredit dan lakukan penganalisisan
df.groupby('purpose_category')['debt'].mean() * 100


purpose_category
car          9.359034
education    9.181692
other        7.263294
property     7.332959
wedding      8.003442
Name: debt, dtype: float64

**Kesimpulan**

Berikut adalah hasil perhitungan persentase gagal bayar pinjaman berdasarkan kategori tujuan kredit:

    Tujuan Kredit Mobil (Car): 9.36%
    Tujuan Kredit Pendidikan (Education): 9.18%
    Tujuan Kredit Lainnya (Other): 7.26%
    Tujuan Kredit Properti (Property): 7.33%
    Tujuan Pernikahan (Wedding): 8.00%

Dari hasil ini, terlihat bahwa tujuan kredit mobil dan tujuan kredit pendidikan memiliki persentase gagal bayar yang sedikit lebih tinggi dibandingkan dengan tujuan lainnya. Namun, perbedaannya tidak terlalu signifikan. Oleh karena itu, tidak dapat disimpulkan secara pasti bahwa tujuan kredit memengaruhi probabilitas gagal bayar pinjaman secara signifikan.


# Kesimpulan umum

[Tuliskan kesimpulanmu di bagian akhir ini. Pastikan kamu memasukkan semua kesimpulan penting yang telah kamu buat berkaitan dengan caramu memproses dan menganalisis data. Kesimpulan tersebut harus membahas nilai yang hilang, duplikat, dan kemungkinan alasan, serta solusi untuk data bermasalah yang harus kamu tangani.]

[Tuliskan juga kesimpulanmu mengenai pertanyaan-pertanyaan yang diajukan di sini.]


Kesimpulan umum dari analisis data adalah sebagai berikut:

Nilai yang hilang: Dalam dataset, terdapat beberapa nilai yang hilang, terutama pada kolom "total_income" dan "days_employed". Untuk mengatasi nilai yang hilang, kita menggunakan metode pengisian nilai menggunakan median atau rata-rata berdasarkan kategori yang relevan.

Duplikat: Dataset juga mengandung beberapa data duplikat yang telah diidentifikasi dan dihapus untuk memastikan keakuratan analisis.

Korelasi antara variabel: Terdapat beberapa korelasi yang dapat diamati antara variabel-variabel tertentu dalam dataset. Misalnya, terdapat korelasi antara memiliki anak dan probabilitas melakukan gagal bayar pinjaman, di mana jumlah anak yang lebih banyak memiliki hubungan dengan tingkat gagal bayar yang lebih tinggi.

Pengkategorian data: Data telah dikategorikan berdasarkan beberapa faktor seperti usia, status keluarga, tujuan kredit, dan tingkat pendapatan. Pengkategorian ini membantu dalam analisis dan pemahaman yang lebih baik tentang pola dan hubungan di antara variabel-variabel tersebut.

Kesimpulan pertanyaan-pertanyaan yang diajukan:
    
  a. Terdapat korelasi antara memiliki anak dengan probabilitas melakukan gagal bayar pinjaman. Tingkat gagal bayar cenderung lebih tinggi untuk individu
  dengan jumlah anak yang lebih banyak.

  b. Terdapat variasi dalam tingkat gagal bayar berdasarkan status keluarga. Individu dengan status "unmarried" memiliki tingkat gagal bayar yang lebih tinggi dibandingkan dengan yang lainnya.

  c. Terdapat variasi dalam tingkat gagal bayar berdasarkan tujuan kredit. Beberapa tujuan kredit memiliki tingkat gagal bayar yang lebih tinggi daripada yang lain, seperti tujuan pendidikan tinggi atau kepemilikan mobil.
  
  d. Terdapat korelasi antara tingkat pendapatan dengan probabilitas melakukan gagal bayar pinjaman. Individu dengan tingkat pendapatan yang lebih tinggi cenderung memiliki tingkat gagal bayar yang lebih rendah.