______

# Graded Assignment: Classification in Machine Learning

Kuis ini merupakan bagian dari proses penilaian Algoritma Training. Selamat atas selesainya materi Classification dalam Machine Learning. Kami akan melakukan penilaian berupa kuis untuk menguji praktek teknik pembuatan model regresi dan klasifikasi yang sudah Anda pelajari.

Pada quiz berikut, Anda akan diminta membuat model klasifikasi sebagai penilaian pemahaman mengenai materi yang sudah dipelajari sebelumnya.

## Credit Risk Analysis

Ketika bank menerima permohonan pinjaman, berdasarkan profil pemohon maka bank harus membuat keputusan apakah akan melanjutkan persetujuan pinjaman atau tidak. Dua jenis resiko terkait keputusan bank: 

- Jika pemohon memiliki risiko kredit yang baik, yaitu mungkin untuk membayar kembali pinjaman, maka tidak menyetujui pinjaman kepada orang tersebut mengakibatkan kerugian bisnis bagi bank
- Jika pemohon memiliki risiko kredit yang buruk, yaitu tidak mungkin untuk membayar kembali pinjaman, maka menyetujui pinjaman kepada orang tersebut mengakibatkan kerugian finansial bagi bank.

### Import data

Kali ini kita akan menggunakan data `credit_germany.csv` yang tersimpan pada folder `data_input`. Data ini merupakan data real dari suatu bank yang ada di German.

In [42]:
import pandas as pd

##  code here
# credit = 

**Data Description:**

- `Creditability` : Apakah peminjam memiliki risiko kredit yang buruk (0) atau kredit baik (1)
- `Account_Balance` : Kategori apakah peminjam memiliki akun bank
    - No account = tidak memiliki akun bank
    - Have account = memiliki akun dan balance pada bank
- `Duration_of_Credit_monthly` : Durasi pinjaman dalam bulan
- `Payment_Status_of_Previous_Credit` : Histori pembayaran dari kredit yang pernah diajukan sebelumnya
    - No_loan_history = Tidak memiliki riwayat pinjaman
    - Some_Problems = Terlambat bayar dan belum diselesaikan pembayarannya 
    - Paid_Up = Pernah terlambat bayar dan sudah diselesaikan pembayarannya 
    - No_Problems = Tidak ada masalah
- `Credit_Amount` : Jumlah nominal pinjaman yang diajukan
- `Length_of_current_employment` : Lama bekerja di tempat kerja sekarang dalam tahun
- `Guarantors` : Apakah terdapat penjamin pinjaman atau tidak
    - No = Tidak ada penjamin
    - Yes =  Ada penjamin
- `Duration_in_Current_address` : Durasi lama tinggal di tempat tinggal sekarang dalam tahun
- `Age_years` : Usia peminjam
- `Concurrent_Credits`: Tipe kredit yang sedang berjalan bersamaan
    - No_credit = Tidak ada kredit yang jalan bersamaan 
    - Dept_Stores = Credit terhadap department store 
    - Other_Bank = Credit terhadap bank lain
- `No_of_Credits_at_this_Bank`: Jumlah kredit yang sedang berjalan pada bank ini

Sebelum masuk pada tahap pembuatan model, kita akan melakukan EDA untuk mengetahui variabel prediktor yang perlu dimasukkan dalam model dan yang tidak.

### Wrangling Data

#### Mengubah tipe data

Sebelum melakukan perubahan tipe data, silakan cek terlebih dahulu jenis tipe datanya dengan menggunakan method `dtypes`/`info()`

In [43]:
# # list berisi nama kolom yang ingin diubah dalam format sama
# cat = 

# # Mengubah tipe data beberapa kolom
# credit[cat] = credit[cat].astype(______)

# # cek kembali tipe data


### Exploratory Data Analysis

Mari lakukan analisis korelasi antar kolom numerik pada dataset kita. Sebelumnya, pastikan bahwa Anda telah memilih kolom-kolom yang bersifat numerik untuk dimasukkan dalam perhitungan korelasi. 

Proses ini akan membantu kita memahami hubungan statistik antara variabel-variabel numerik dalam dataset, sehingga kita dapat mendapatkan wawasan yang lebih mendalam terkait dengan pola atau asosiasi yang mungkin ada di antara mereka.

In [44]:
# credit.corr(numeric_only=True)

**Soal 1: Mana dari berikut ini adalah pasangan variabel dengan korelasi tertinggi?**

- [ ] A. `Duration_of_Credit_monthly` dan `Credit_Amount`
- [ ] B. `Credit_Amount` dan `Length_of_current_employment`
- [ ] C. `Duration_in_Current_address` dan `No_of_Credits_at_this_Bank`
- [ ] D. `Age_years` dan `No_of_Credits_at_this_Bank`

###  Data Pre-Processing

Terdapat 2 hal yang biasanya dilakukan pada tahapan data pre-processing yaitu **Dummy Variable Encoding** dan juga **Cross Validation**

####  Dummy Variable Encoding 

Variabel yang kita miliki terdapat variabel dengan tipe data category, oleh karena itu kita perlu membuat dummy variabel terlebih dahulu. Untuk algoritma Logistic Regression, karena masih terdapat asumsi multicolinearity, maka yang akan dipakai adalah dummy variable. 
    
Mari lakukan metode tersebut dengan memanfaatkan fungsi berikut ini `pd.get_dummies()` dan mengisinya dengan beberapa parameter antara lain:

- `data`: dataset/dataframe yang ingin diubah menjadi numerikal
- `columns`: list kolom yang akan dilakukan dummy variable encoding
- `drop_first`: apakah ingin drop kolom pertama. Default False. Namun akan kita atur sebagai True agar kolom hasil dummies tidak redundan
- `dtype` = memasukan tipe data yang ingin di-isi

Alasan lain kenapa kita melakukan encoding: komputer tidak mengenali bahasa natural manusia seperti bahasa Inggris, Bahasa Indonesia, dll. Komputer hanya mengenal angka.

In [45]:
# # code here
# credit_enc = pd.get_dummies(data = _____, 
#                              columns = _____,
#                              drop_first = True,
#                              dtype =int)


### Train-Test Splitting

Berikut adalah langkah-langkah yang akan kita lakukan selanjutnya dalam proses ini: 

Pertama, kita akan mempersiapkan data dengan menentukan variabel `X` dan `y`. 

Selanjutnya, kita akan melakukan train-test splitting menggunakan fungsi `train_test_split()`, di mana kita akan mengalokasikan 20% dari data sebagai data uji. Dengan ketentuan sebagai berikut:
- **`random_state=123`** untuk memastikan reproduktivitas. 
- **`stratify = y`** untuk memastikan distribusi kelas yang seimbang dalam set data uji.

In [46]:
from sklearn.model_selection import train_test_split
# X = _____
# y = _____

# X_train, X_test, y_train, y_test = _____

**Soal 2: Mengapa kita melakukan train-test splitting pada data?**

- [ ] A. Agar model memiliki lebih banyak data untuk training
- [ ] B. Untuk menguji model pada data yang sama dengan yang digunakan untuk pelatihan
- [ ] C. Menghindari overfitting dan mengukur kinerja model pada data yang belum pernah dilihat
- [ ] D. Menyederhanakan proses analisis data


### Feature Scaling

Setelah itu, langkah selanjutnya yang perlu diperhatikan adalah memastikan bahwa skala data yang digunakan dalam model logistik regresi seragam. Hal ini penting karena perbedaan skala pada variabel-variabel dapat memengaruhi kinerja model. 

Oleh karena itu, kita akan melakukan proses scaling menggunakan metode `StandarScaler()`. 

Pastikan untuk menggunakan metode `fit_transform` pada data pelatihan (`X_train`). Selanjutnya, kita akan menerapkan transformasi menggunakan metode `transform` pada data uji (`X_test`) 

Dengan cara ini, kita dapat memastikan konsistensi skala data yang digunakan oleh model logistik regresi untuk hasil yang lebih akurat dan stabil.

In [47]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

In [48]:
# # transform
# X_train_scale = _____
# X_test_scale = _____

**Soal 3: Mengapa feature scaling di scikit-learn pada data train menggunakan `fit_transform` sedangkan pada data test menggunakan `transform`?**

- [ ] A. Untuk memastikan data test memiliki distribusi yang serupa dengan data train
- [ ] B. Agar skala fitur dihitung berdasarkan data train, dan kemudian diterapkan pada data test tanpa mengubah distribusi data test
- [ ] C. Karena transformasi yang berbeda diperlukan untuk data train dan test
- [ ] D. Ini adalah konvensi yang umum digunakan dalam pemrosesan data



### Model Fitting

Selanjutnya, mari kita lanjutkan dengan pembuatan model regresi logistik menggunakan fungsi `LogisticRegression()`. 

Setelah proses tersebut, kita akan melakukan fitting model pada dataset yang telah melalui tahap scaling.

In [49]:
from sklearn.linear_model import LogisticRegression

# # Definisikan untuk Inisialisasi model Logistic Regression.
# class_lr = LogisticRegression()

# # Fit (melatih) model dengan data pelatihan 
# class_lr.fit(_____)

### Model Prediction

Setelah berhasil membuat model, langkah berikutnya adalah melakukan prediksi pada dataset uji (`X_test_scale`) menggunakan fungsi `predict()`. Setelah mendapatkan hasil prediksi, kita akan menampilkan proporsi kelas dari hasil prediksi tersebut menggunakan fungsi `value_counts()`. Sebelumnya, perlu dilakukan transformasi hasil prediksi menjadi objek Series menggunakan fungsi `pd.Series()`. Dengan demikian, kita dapat dengan lebih mudah menganalisis distribusi kelas pada hasil prediksi model regresi logistik tersebut.

In [50]:
# # Prediksi data
# y_pred_class = _____

# # Menampilkan distribusi kelas hasil prediksi
# pd.Series(y_pred_class).value_counts()

**Soal 4: Bagaimana distribusi data hasil prediksi yang dihasilkan pada model `class_lr` kita untuk setiap kelas?**

- [ ] A. Kelas 0 = 168, Kelas 1 = 32 
- [ ] B. Kelas 0 = 182, Kelas 1 = 18
- [ ] C. Kelas 0 = 32, Kelas 1 = 168
- [ ] D. Kelas 0 = 18, Kelas 1 = 182

### Model Evaluation

Selain itu, untuk memastikan keefektifan dan kehandalan model yang telah dibuat, penting bagi kita untuk melakukan evaluasi model. Evaluasi ini dapat melibatkan pengukuran sejumlah metrik performa, seperti akurasi, presisi, dan recall. Untuk melakukan pengukuran ini, kita dapat memanfaatkan modul `metrics` dari pustaka scikit-learn dengan mengimpor `from sklearn import metrics`. Dengan menghitung nilai-nilai akurasi, presisi, dan recall, kita dapat memperoleh pemahaman yang lebih komprehensif tentang sejauh mana model kita dapat mengklasifikasikan data dengan benar dan efisien. Ini merupakan langkah penting dalam mengevaluasi kecanggihan model regresi logistik yang telah kita bangun.

In [51]:
# from sklearn import metrics

# # Menghitung akurasi
# accuracy_lr = metrics.accuracy_score(y_test, y_pred_class)

# # Menghitung presisi
# precision_lr = metrics.precision_score(y_test, y_pred_class)

# # Menghitung recall
# recall_lr = metrics.recall_score(y_test, y_pred_class)

In [52]:
# print(accuracy_lr)
# print(precision_lr)
# print(recall_lr)

**Soal 5: Sebagai seorang yang bekerja dalam analisis risiko kredit, metrik evaluasi mana yang paling relevan untuk menilai kemampuan model dalam mendeteksi kredit yang berpotensi bermasalah?**

   - [ ] A. Recall
   - [ ] B. Specificity
   - [ ] C. Accuracy
   - [ ] D. Precision
