# Membuat Dummy Dataset

Di sini akan dibuat sebuah dummy dataset yang nantinya akan digunakan untuk melakukan proses Classification dalam Machine Learning. Dummy dataset yang akan dibuat di sini adalah 'Dataset Pengajuan Pinjaman'. Dataset ini akan terdiri dari beberapa features dan sebuah target. Features yang ada pada dataset ini di antaranya adalah `id`, `jenisKelamin`, `umur`, `melampirkanKTP`, `penghasilanPerBulan`, `pengeluaranPerBulan`, dan `jumlahPinjaman`. Sedangkan target pada dataset ini adalah `pinjamanDiTerima`.

## Import Modules

Hal pertama yang dilakukan adalah mengimport beberapa modules yang akan digunakan, di antaranya adalah:
- pandas, untuk mengkonversi data dengan tipe dictionary menjadi dataframe
- numpy, untuk melakukan randomisasi data.

In [1]:
import pandas as pd
import numpy as np

## Features

Seperti yang telah disinggung di atas, pada dataset ini akan terdiri dari beberapa features yaitu `id`, `jenisKelamin`, `melampirkanKTP`, `penghasilanPerBulan`, `pengeluaranPerBulan`, dan `jumlahPinjaman`.

### `id`

Features ini menunjukkan nomor identitas dari seseorang yang akan mengajukan pinjaman. Features ini dihasilkan dengan cara melakukan generate data integer dari 1 hingga 2000.

In [2]:
id = [i for i in range(1, 2001)]

### `jenisKelamin`

Features ini menunjukkan jenis kelamin dari seseorang yang akan mengajukan pinjaman. Features ini dihasilkan dengan cara melakukan pengambilan secara acak dari jenis kelamin "pria" dan "wanita" dengan peletakkan kembali (random with replacement) yang dilakukan sebanyak 2000 kali.

In [3]:
jenisKelamin = [np.random.choice(['pria', 'wanita']) for i in range(2000)]

### `umur`

Features ini menunjukkan umur dari seseorang yang akan mengajukan pinjaman. Features ini dihasilkan dengan cara melakukan generate data integer secara random dengan rentang dari 18 tahun hingga 40 tahun.

In [4]:
umur = [np.random.randint(18, 40) for i in range(2000)]

### `sudahMenikah`

Features ini menunjukkan status pernikahan dari seseorang yang akan mengajukan pinjaman. Features ini dihasilkan dengan cara melakukan pengambilan secara acak dari status pernikahan yang bernilai "ya" atau "tidak" dengan peletakkan kembali (random with replacement) yang dilakukan sebanyak 2000 kali. Pengacakkan dilakukan sedemikian rupa agar lebih banyak status pernikahan yang bernilai "ya".

In [5]:
sudahMenikah = [np.random.choice(['tidak'] + ['ya'] * 10) for i in range(2000)]

### `melampirkanKTP`

Features ini menunjukkan apakah seseorang yang akan mengajukan pinjaman melampirkan KTP atau tidak. Features ini dihasilkan dengan cara melakukan pengambilan secara acak dari status melampirkan KTP yang bernilai "ya" atau "tidak" dengan peletakkan kembali (random with replacement) yang dilakukan sebanyak 2000 kali. Pengacakkan dilakukan sedemikian rupa agar lebih banyak status pernikahan yang bernilai "ya".

In [6]:
melampirkanKTP = [np.random.choice(['tidak'] + ['ya'] * 10) for i in range(2000)]

### `penghasilanPerBulan`

Features ini menunjukkan penghasilan per bulan dari seseorang yang akan mengajukan pinjaman. Features ini dihasilkan dengan cara melakukan generate data integer secara random dengan rentang dari 10 juta hingga 100 juta.

In [7]:
penghasilanPerBulan = [np.random.randint(10, 100) * 1_000_000 for i in range(2000)]

### `pengeluaranPerBulan`

Features ini menunjukkan pengeluaran per bulan dari seseorang yang akan mengajukan pinjaman. Features ini dihasilkan dengan cara melakukan generate data integer secara random dengan rentang dari 10 juta hingga 100 juta.

In [8]:
pengeluaranPerBulan = [np.random.randint(10, 100) * 1_000_000 for i in range(2000)]

### `jumlahPinjaman`

Features ini menunjukkan jumlah pinjaman dari seseorang yang akan mengajukan pinjaman. Features ini dihasilkan dengan cara melakukan generate data integer secara random dengan rentang dari 1 juta hingga 6 juta.

In [9]:
jumlahPinjaman = [np.random.randint(1, 6) * 1_000_000 for i in range(2000)]

## Target

Seperti yang telah disinggung di atas, pada dataset ini akan terdiri dari satu target yaitu `pinjamanDiTerima`.

### `pinjamanDiTerima`

Target ini menunjukkan status peminjaman dari seseorang yang akan mengajukan pinjaman. Features ini dihasilkan dengan cara sebagai berikut:

Peminjaman akan diterima jika memenuhi beberapa syarat, yaitu:
- Peminjam sudah menikah atau berusia minimal 21 tahun untuk wanita dan 25 tahun untuk pria.
- Peminjam melampirkan KTP.
- Jumlah pinjaman yang diajukan tidak boleh lebih dari penghasilan per bulan dikurangi pengeluaran perbulan.
Ketiga syarat harus dipenuhi, jika tidak maka peminjaman tidak akan diterima.

Nilai 0 berkorespondensi dengan nilai "tidak" (peminjaman ditolak) dan nilai 1 berkorespondensi dengan nilai "ya" (peminjaman diterima).

In [10]:
pinjamanDiTerima = []
for i in range(2000):
    if jenisKelamin[i] == 'pria':
        if (sudahMenikah[i] == 'ya' or umur[i] >= 25) and melampirkanKTP[i] == 'ya' and jumlahPinjaman[i] <= (penghasilanPerBulan[i] - pengeluaranPerBulan[i]):
            pinjamanDiTerima.append(1)
        else:
            pinjamanDiTerima.append(0)
    else:
        if (sudahMenikah[i] == 'ya' or umur[i] >= 21) and melampirkanKTP[i] == 'ya' and jumlahPinjaman[i] <= (penghasilanPerBulan[i] - pengeluaranPerBulan[i]):
            pinjamanDiTerima.append(1)
        else:
            pinjamanDiTerima.append(0)

## Menyusun Features dan Target Menjadi Dataset

Features dan target diatas belum lah berbentuk sebuah dataset. Untuk itu, perlu disusun terlebih dahulu menjadi dataset dengan bantuan `pandas.

In [11]:
df = pd.DataFrame(
    {
    'id' : id,
    'jenisKelamin' : jenisKelamin,
    'umur' : umur,
    'sudahMenikah' : sudahMenikah,
    'melampirkanKTP' : melampirkanKTP,
    'penghasilanPerBulan' : penghasilanPerBulan,
    'pengeluaranPerBulan' : pengeluaranPerBulan,
    'jumlahPinjaman' : jumlahPinjaman,
    'pinjamanDiTerima' : pinjamanDiTerima
}
)
df.head()

Unnamed: 0,id,jenisKelamin,umur,sudahMenikah,melampirkanKTP,penghasilanPerBulan,pengeluaranPerBulan,jumlahPinjaman,pinjamanDiTerima
0,1,wanita,30,ya,tidak,53000000,80000000,3000000,0
1,2,wanita,31,ya,ya,90000000,31000000,4000000,1
2,3,wanita,18,ya,ya,14000000,17000000,1000000,0
3,4,pria,23,ya,ya,97000000,74000000,3000000,1
4,5,pria,27,ya,ya,79000000,65000000,3000000,1


## Menyimpan Dataset

Langkah terakhir adalah menyimpan dataset yang telah dibuat. Dataset akan disimpan pada folder "dataset" dan akan diberi nama "datasetPinjaman.csv". Dataset disimpan dalam format csv. Setelah disimpan, dataset siap digunakan untuk Machine Learning.

In [12]:
df.to_csv('./dataset/datasetPinjaman.csv', index = False)