# Menganalisis Risiko Gagal Bayar Peminjam

Tugas Anda adalah menyiapkan laporan untuk divisi kredit suatu bank. Anda akan mencari tahu pengaruh status perkawinan seorang nasabah dan jumlah anak yang dimilikinya terhadap probabilitas gagal bayar dalam pelunasan pinjaman. Pihak bank sudah memiliki beberapa data mengenai kelayakan kredit nasabah.

Laporan Anda akan dipertimbangkan pada saat membuat **penilaian kredit** untuk calon nasabah. **Penilaian kredit** digunakan untuk mengevaluasi kemampuan calon peminjam untuk melunasi pinjaman mereka.

[Dalam *notebook* ini, Anda dapat menemukan petunjuk dan instruksi singkat serta arahan untuk berfikir. Jangan abaikan petunjuk tersebut karena mereka dirancang untuk membekali Anda dengan struktur pengerjaan proyek dan akan membantu Anda melakukan analisis secara lebih mendalam. Sebaliknya, buatlah agar laporan ini terlihat seolah-olah dikirimkan oleh Anda kepada rekan satu tim Anda untuk menunjukkan temuan Anda - mereka tidak perlu tahu bahwa Anda mendapatkan bantuan eksternal dari kami! Untuk membantu Anda, kami menempatkan semua petunjuk yang harus Anda hapus dalam tanda kurung siku.]

[Sebelum Anda masuk ke dalam proses analisis data Anda, jelaskan tujuan proyek dan hipotesis yang akan Anda uji.]

## Buka *file* data dan baca informasi umumnya.

[Mulailah dengan mengimpor *library* dan memuat datanya. Anda mungkin akan menyadari bahwa Anda memerlukan *library* tambahan saat Anda telah mengerjakan proyek ini, dan itu merupakan hal yang normal. Hanya saja, pastikan untuk memperbarui bagian ini jika dibutuhkan.]

In [2]:
# Muat semua *library*
import pandas as pd

# Muat datanya
df = pd.read_csv('/datasets/credit_scoring_eng.csv')

In [2]:
df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.422610,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21521,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21522,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


## Soal 1. Eksplorasi data

**Deskripsi Data**
- `children` - jumlah anak dalam keluarga
- `days_employed` - pengalaman kerja nasabah dalam hari
- `dob_years` - usia nasabah dalam tahun
- `education` - tingkat pendidikan nasabah
- `education_id` - pengidentifikasi untuk tingkat pendidikan nasabah
- `family_status` - pengidentifikasi untuk status perkawinan nasabah
- `family_status_id` - tanda pengenal status perkawinan
- `gender` - jenis kelamin nasabah
- `income_type` - jenis pekerjaan
- `debt` - apakah nasabah pernah melakukan gagal bayar pinjaman
- `total_income` - pendapatan bulanan
- `purpose` - tujuan mendapatkan pinjaman

[Sekarang saatnya menjelajahi data kita. Anda perlu melihat berapa banyak kolom dan baris yang dimiliki oleh data, serta mencermati beberapa baris data untuk memeriksa potensi masalah dengan data.]

In [3]:
# Mari kita lihat berapa banyak baris dan kolom yang dimiliki oleh dataset kita
df.shape

(21525, 12)

In [4]:
# Mari tampilkan N baris pertama
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding


[Jelaskan apa yang Anda lihat dan perhatikan dalam sampel data yang Anda tampilkan. Apakah terdapat masalah yang mungkin memerlukan penyelidikan dan perubahan lebih lanjut?]

In [5]:
# Dapatkan informasi data
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


[Apakah terdapat nilai yang hilang di semua kolom atau hanya di beberapa kolom? Jelaskan secara singkat apa yang Anda amati dalam 1-2 kalimat.]

In [14]:
# Mari kita lihat tabel yang telah difilter dengan nilai yang hilang di kolom pertama yang mengandung data yang hilang

df_de_null = df[df['days_employed'].isnull()]
df_de_null.shape

(2174, 12)

In [15]:
# Mari kita lihat tabel yang telah difilter dengan nilai yang hilang di kolom pertama yang mengandung data yang hilang

df_ti_null = df[df['total_income'].isnull()]
df_ti_null.shape

(2174, 12)

[Apakah nilai yang hilang tampak simetris? Apakah kita yakin dengan asumsi ini? Jelaskan pendapat Anda secara singkat di bagian ini. Anda mungkin ingin melakukan penyelidikan lebih lanjut, dan menghitung nilai yang hilang di semua baris dengan nilai yang hilang untuk memastikan bahwa sampel yang hilang memiliki ukuran yang sama.]

In [None]:
# Mari kita terapkan beberapa kondisi untuk memfilter data dan melihat jumlah baris dalam tabel yang telah difilter.



**Kesimpulan sementara**

[Apakah jumlah baris dalam tabel yang telah difilter sesuai dengan jumlah nilai yang hilang? Kesimpulan apa yang bisa kita buat dari hal ini?]

[Hitung persentase nilai yang hilang jika dibandingkan dengan keseluruhan *dataset*. Apakah nilai yang hilang merupakan bagian data yang cukup besar? Jika demikian, Anda sebaiknya perlu mengisi nilai yang hilang. Untuk melakukannya, pertama-tama kita harus mempertimbangkan apakah data yang hilang bisa jadi disebabkan oleh karakteristik nasabah tertentu, seperti jenis pekerjaan atau yang lainnya. Anda harus memutuskan karakteristik mana yang menurut *Anda* mungkin merupakan penyebabnya. Kedua, kita harus memeriksa apakah ada ketergantungan nilai yang hilang pada nilai indikator lain dengan kolom-kolom yang mengidentifikasikan karakteristik tertentu nasabah.]

[Jelaskan langkah Anda selanjutnya dan bagaimana hubungannya dengan kesimpulan yang Anda buat sejauh ini.]

In [19]:
df_de_null.shape[0]*100/len(df)

10.099883855981417

In [21]:
for i in list(df_de_null):
    print(i, df_de_null[i].nunique(), df_de_null[i].nunique())

children 8
days_employed 0
dob_years 56
education 12
education_id 4
family_status 5
family_status_id 5
gender 2
income_type 5
debt 2
total_income 0
purpose 38


In [None]:
# Mari kita periksa nasabah yang tidak memiliki data tentang karakteristik yang teridentifikasi dan kolom dengan nilai yang hilang



In [None]:
# Periksalah distribusinya



[Deksripsikan temuan Anda di sini.]

**Kemungkinan penyebab hilangnya nilai dalam data**

[Kemukakan gagasan Anda mengenai kemungkinan alasan hilangnya nilai-nilai tersebut. Apakah menurut Anda mereka hilang secara acak atau apakah terdapat pola-pola tertentu?]

[Mari kita mulai memeriksa apakah nilai yang hilang bersifat acak.]

In [None]:
# Memeriksa distribusi di seluruh *dataset*

df

**Kesimpulan sementara**

[Apakah distribusi dalam *dataset* yang asli mirip dengan distribusi tabel yang telah difilter? Apa artinya hal tersebut untuk kita?]

[Jika menurut Anda kita belum dapat membuat kesimpulan apa pun, mari kita kembali menyelidiki *dataset* lebih lanjut. Mari pikirkan alasan lain yang dapat menyebabkan data hilang dan periksa apakah kita dapat menemukan pola tertentu yang dapat membuat kita berpikir bahwa hilangnya nilai-nilai tersebut tidak terjadi secara acak. Karena ini merupakan tugas Anda, maka bagian ini adalah opsional.]

In [6]:
# Periksa penyebab dan pola lain yang dapat mengakibatkan nilai yang hilang

df_total_income_null = df[df['total_income'].isnull()]
df_days_employed_null = df[df['days_employed'].isnull()]

**Kesimpulan sementara**

[Apakah pada akhirnya kita dapat memastikan bahwa nilai yang hilang adalah suatu kebetulan? Periksa hal lain yang menurut Anda penting di sini.]

In [None]:
# Periksa pola lainnya - jelaskan pola tersebut

**Kesimpulan**

[Apakah Anda menemukan suatu pola? Bagaimana Anda mendapatkan kesimpulan ini?]

[Jelaskan bagaimana Anda akan mengatasi nilai-nilai yang hilang. Pertimbangkan kategori dengan nilai yang hilang.]

[Rencanakan secara singkat langkah Anda selanjutnya untuk mentransformasi data. Anda mungkin perlu mengatasi berbagai jenis masalah: duplikat, pencatatan yang berbeda, sumber data yang salah, dan nilai yang hilang.]

## Transformasi data

[Mari kita perhatikan setiap kolom untuk melihat masalah apa yang mungkin dimiliki mereka.]

[Mulailah dengan menghapus duplikat dan memperbaiki data tentang informasi pendidikan jika diperlukan.]

In [13]:
# Mari kita lihat semua nilai di kolom pendidikan untuk memeriksa ejaan apa yang perlu diperbaiki
df.loc[df['year_employed'] > df['dob_years'],        'days_employed'       ] = np.null

12      NaN
26      NaN
29      NaN
41      NaN
55      NaN
         ..
21489   NaN
21495   NaN
21497   NaN
21502   NaN
21510   NaN
Name: total_income, Length: 2174, dtype: float64

In [None]:
# Perbaiki pencatatan jika diperlukan


In [None]:
# Periksa semua nilai di kolom untuk memastikan bahwa kita telah memperbaikinya dengan tepat



[Periksa data kolom `children`]

In [None]:
# Mari kita lihat distribusi nilai pada kolom `children`


[Apakah terdapat hal-hal yang aneh di kolom tersebut? Bagaimana mereka bisa terjadi? Buat keputusan tentang apa yang akan Anda lakukan dengan data ini dan jelaskan alasannya.]

In [None]:
# [perbaiki data berdasarkan keputusan Anda]


In [None]:
# Periksa kembali kolom `children` untuk memastikan bahwa semuanya telah diperbaiki



[Periksa data dalam kolom the `days_employed`. Pertama-tama pikirkan tentang masalah apa yang mungkin ada pada kolom tersebut, serta pikirkan juga apa yang mungkin ingin Anda periksa dan bagaimana Anda akan melakukannya.]

In [None]:
# Temukan data yang bermasalah di kolom `days_employed` jika memang terdapat masalah, dan hitung persentasenya


[Jika jumlah data yang bermasalah tinggi, hal tersebut mungkin disebabkan oleh beberapa masalah teknis. Kita mungkin perlu mengusulkan alasan paling jelas mengapa hal tersebut dapat terjadi dan bagaimana seharusnya data yang benar, mengingat kita tidak dapat menghapus baris yang bermasalah ini.]

In [None]:
# Atasi nilai yang bermasalah, jika ada



In [None]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki


[Sekarang mari kita lihat usia nasabah dan mengecek apakah terdapat masalah di sana. Sekali lagi, pikirkan tentang kemungkinan kejanggalan apa yang bisa kita temui dalam kolom ini, misalnya angka usia yang tidak masuk akal.]

In [None]:
# Periksa `dob_years` untuk nilai yang mencurigakan dan hitung persentasenya



[Putuskan apa yang akan Anda lakukan dengan nilai yang bermasalah dan jelaskan alasannya.]

In [None]:
# Atasi masalah pada kolom `dob_years`, jika terdapat masalah


In [None]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki


[Sekarang saatnya memeriksa kolom `family_status`. Periksalah nilai seperti apa yang dimuat di dalam kolom ini dan masalah apa yang mungkin perlu Anda atasi.]

In [None]:
# Mari kita lihat nilai untuk kolom ini



In [None]:
# Atasi nilai yang bermasalah di `family_status`, jika ada



In [None]:
# Periksa hasilnya - pastikan nilainya telah diperbaiki


[Sekarang saatnya memeriksa kolom `gender`. Periksalah nilai seperti apa yang dimuat di dalam kolom ini dan masalah apa yang mungkin perlu Anda atasi]

In [None]:
# Mari kita liat nilai dalam kolom ini

In [None]:
# Atasi nilai-nilai yang bermasalah, jika ada

In [None]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki



[Sekarang saatnya memeriksa kolom `income_type`. Periksalah nilai seperti apa yang dimuat di dalam kolom ini dan masalah apa yang mungkin perlu Anda atasi]

In [None]:
# Mari kita lihat nilai dalam kolom ini

In [None]:
# Atasi nilai yang bermasalah, jika ada

In [None]:
# Periksa hasilnya - pastikan bahwa masalahnya telah diperbaiki



[Sekarang saatnya melihat apakah ada duplikat di dalam data kita. Jika kita menemukannya, Anda harus memutuskan apa yang akan Anda lakukan dengan duplikat tersebut dan menjelaskan alasannya.]

In [None]:
# Periksa duplikat



In [None]:
# Atasi duplikat, jika ada

In [None]:
# Lakukan pemeriksaan terakhir untuk mengecek apakah kita memiliki duplikat


In [None]:
# Periksa ukuran dataset yang sekarang Anda miliki setelah manipulasi pertama yang Anda lakukan

[Jelaskan *dataset* baru Anda: jelaskan secara singkat apa saja perubahannya dan seberapa besar persentase perubahannya, jika ada.]


# Bekerja dengan nilai yang hilang

[Untuk mempercepat pekerjaan dengan sejumlah data, Anda mungkin ingin menggunakan *dictionary* untuk beberapa nilai yang memiliki ID. Jelaskan mengapa dan *dictionary* apakah yang akan Anda gunakan.]

In [None]:
# Temukan dictionary

### Memperbaiki nilai yang hilang di `total_income`

[Jelaskan secara singkat kolom dengan nilai yang hilang manakah yang perlu Anda tangani. Jelaskan bagaimana Anda akan memperbaikinya.]


[Mulailah dengan mengatasi total nilai pendapatan yang hilang. Buatlah kategori usia untuk nasabah. Buatlah kolom baru yang memuat kategori usia. Strategi ini dapat membantu untuk menghitung total nilai pendapatan.]


In [4]:
df[['education', 'education_id']].drop_duplicates()

Unnamed: 0,education,education_id
0,bachelor's degree,0
1,secondary education,1
2,Secondary Education,1
7,SECONDARY EDUCATION,1
8,BACHELOR'S DEGREE,0
13,some college,2
31,primary education,3
62,Bachelor's Degree,0
134,SOME COLLEGE,2
376,Some College,2


In [None]:
# Mari kita tulis sebuah fungsi untuk menghitung kategori usia

    

In [None]:
# Lakukan pengujian untuk melihat apakah fungsi Anda bekerja atau tidak


In [None]:
# Buatlah kolom baru berdasarkan fungsi



In [None]:
# Periksa bagaimana nilai di dalam kolom baru



[Pikirkan tentang faktor-faktor yang biasanya bergantung pada pendapatan. Pada akhirnya, Anda akan mengetahui apakah Anda harus menggunakan nilai rata-rata atau median untuk mengganti nilai yang hilang. Untuk membuat keputusan ini, Anda mungkin ingin melihat distribusi faktor-faktor yang Anda identifikasi sebagai dampak dari pendapatan seseorang.]

[Buatlah tabel yang hanya memuat data tanpa nilai yang hilang. Data ini akan digunakan untuk memperbaiki nilai yang hilang.]

In [None]:
# Buat tabel tanpa nilai yang hilang dan tampilkan beberapa barisnya untuk memastikan semuanya berjalan dengan baik

In [None]:
# Perhatikan nilai rata-rata untuk pendapatan berdasarkan faktor yang telah Anda identifikasi

In [None]:
# Perhatikan nilai median untuk pendapatan berdasarkan faktor yang telah Anda identifikasi


[Ulangi perbandingan tersebut untuk beberapa faktor. Pastikan Anda mempertimbangkan berbagai aspek dan menjelaskan proses berpikir Anda.]



[Buatlah keputusan tentang karakteristik yang paling menentukan pendapatan dan apakah Anda akan menggunakan median atau rata-rata. Jelaskan mengapa Anda membuat keputusan ini]


In [None]:
#  Tulis fungsi yang akan kita gunakan untuk mengisi nilai yang hilang
        
        

In [None]:
# Memeriksa bagaimana nilai di dalam kolom baru


In [None]:
# Terapkan fungsi tersebut ke setiap baris


In [None]:
# Periksa apakah kita mendapatkan kesalahan


[Jika Anda menemukan kesalahan dalam menyiapkan nilai untuk data yang hilang, kemungkinan ada sesuatu yang istimewa tentang data untuk kategori tersebut. Mari pikirkan - Anda mungkin ingin memperbaiki beberapa hal secara manual, jika terdapat cukup data untuk menemukan median/rata-rata.]


In [None]:
# Ganti nilai yang hilang jika terdapat kesalahan


[Setelah Anda selesai dengan `total_income`, periksa apakah jumlah total nilai di kolom ini sesuai dengan jumlah nilai di kolom lain.]

In [None]:
# Periksa jumlah entri di kolom



###  Memperbaiki nilai di `days_employed`

[Pikirkan tentang parameter yang dapat membantu Anda memperbaiki nilai yang hilang di kolom ini. Pada akhirnya, Anda akan mengetahui apakah Anda harus menggunakan nilai rata-rata atau median untuk mengganti nilai yang hilang. Anda mungkin perlu melakukan penelitian yang sama dengan yang Anda lakukan saat memperbaiki data di kolom sebelumnya.]

In [None]:
# Distribusi median dari `days_employed` berdasarkan parameter yang Anda identifikasi




In [None]:
# Distribusi rata-rata dari `days_employed` berdasarkan parameter yang Anda identifikasi

[Tentukan apa yang akan Anda gunakan: rata-rata atau median. Jelaskan mengapa.]

In [None]:
# Mari tulis fungsi yang menghitung rata-rata atau median (tergantung keputusan Anda) berdasarkan parameter yang Anda identifikasi


In [None]:
# Periksa apakah fungsi Anda dapat bekerja



In [None]:
# Terapkan fungsi ke income_type



In [None]:
# Periksa apakah fungsi Anda bekerja



In [None]:
# Ganti nilai yang hilang



[Setelah Anda selesai dengan `total_income`, periksa apakah jumlah total nilai di kolom ini sesuai dengan jumlah nilai di kolom lain.]

In [None]:
# Periksa entri di semua kolom - pastikan kita memperbaiki semua nilai yang hilang

## Pengkategorian Data

[Untuk menjawab pertanyaan dan menguji hipotesis, Anda akan bekerja dengan data yang telah dikategorikan. Lihatlah pertanyaan-pertanyaan yang diajukan kepada Anda dan yang harus Anda jawab. Pikirkan tentang data mana yang perlu dikategorikan untuk menjawab pertanyaan-pertanyaan ini. Di bawah ini, Anda akan menemukan templat yang bisa Anda gunakan untuk mengkategorikan data. Proses pertama mencakup data teks; yang kedua membahas data numerik yang perlu dikategorikan. Anda dapat menggunakan kedua petunjuk yang disarankan atau tidak sama sekali - semuanya terserah Anda.]

[Terlepas dari keputusan Anda untuk mengatasi pengkategorian, pastikan bahwa Anda secara lugas memberikan penjelasan tentang mengapa Anda membuat keputusan tersebut. Ingat: ini adalah pekerjaan Anda dan hanya Anda yang berhak membuat segala keputusan.]


In [None]:
# Tampilkan nilai data yang Anda pilih untuk pengkategorian



[Mari kita memeriksa nilai unik]

In [None]:
# Periksa nilai unik

[Kelompok utama apakah yang dapat Anda identifikasi berdasarkan nilai uniknya?]

[Kita akan mengkategorikan data kita berdasarkan topik ini.]


In [None]:
# Mari kita tulis sebuah fungsi untuk mengategorikan data berdasarkan topik umum


In [None]:
# Buat kolom yang memuat kategori dan hitung nilainya



[Jika Anda memutuskan untuk mengategorikan data numerik, Anda juga harus membuat kategori untuk data tersebut.]

In [None]:
# Lihat semua data numerik di kolom yang Anda pilih untuk pengkategorian


In [None]:
# Dapatkan kesimpulan statistik untuk kolomnya



[Tentukan rentang apa yang akan Anda gunakan untuk pengelompokan dan jelaskan alasannya.]

In [None]:
# Buat fungsi yang melakukan pengkategorian menjadi kelompok numerik yang berbeda berdasarkan rentang



In [None]:
# Buat kolom yang memuat kategori


In [None]:
# Hitung setiap nilai kategori untuk melihat pendistribusiannya


## Memeriksa hipotesis


**Apakah terdapat korelasi antara memiliki anak dengan probabilitas melakukan gagal bayar pinjaman?**

In [None]:
# Periksa data anak dan data gagal bayar pinjaman


# Hitung persentase gagal bayar berdasarkan jumlah anak



**Kesimpulan**

[Tulis kesimpulan Anda berdasarkan manipulasi dan pengamatan yang Anda lakukan.]


**Apakah terdapat korelasi antara status keluarga dengan probabilitas melakukan gagal bayar pinjaman?**

In [None]:
# Periksa data status keluarga dan data gagal bayar pinjaman



# Hitung persentase gagal bayar berdasarkan status keluarga



**Kesimpulan**

[Tulis kesimpulan Anda berdasarkan manipulasi dan pengamatan Anda.]


**Apakah terdapat korelasi antara tingkat pendapatan dengan probabilitas melakukan gagal bayar pinjaman?**

In [None]:
# Periksa data tingkat pendapatan dan data gagal bayar pinjaman



# Hitung persentase gagal bayar berdasarkan tingkat pendapatan



**Kesimpulan**

[Tulis kesimpulan Anda berdasarkan manipulasi dan pengamatan Anda.]

**Bagaimana tujuan kredit memengaruhi persentase gagal bayar?**

In [None]:
# Periksa persentase tingkat gagal bayar untuk setiap tujuan kredit dan lakukan penganalisisan



**Kesimpulan**

[Tulis kesimpulan Anda berdasarkan manipulasi dan pengamatan yang Anda lakukan.]


# Kesimpulan umum 

[Tuliskan kesimpulan Anda di bagian akhir ini. Pastikan Anda memasukkan semua kesimpulan penting yang telah Anda buat berkaitan dengan cara Anda memproses dan menganalisis data. Kesimpulan tersebut harus membahas nilai yang hilang, duplikat, dan kemungkinan alasan serta solusi untuk data bermasalah yang harus Anda tangani.]

[Tuliskan juga kesimpulan Anda mengenai pertanyaan-pertanyaan yang diajukan di sini.]
