**Inclass: Classification Model**
- Durasi: 7 hours
- _Last Updated_: Desember 2023

___

- Disusun dan dikurasi oleh tim produk dan instruktur [Algoritma Data Science School](https://algorit.ma).

# Classification in Machine Learning

In [None]:
import pandas as pd # preprocessing data
import math # math operations
%matplotlib inline 

pd.set_option('display.max_columns', 100) # set max columns display

# Introduction

* Klasifikasi bertujuan untuk memprediksi **target variable kategorik** seperti label/kelas
* Label/kelas yang dapat diprediksi antara lain berjenis 2 kelas (**binary**) atau >2 kelas (**multiclass**).

# Logistic Regression Concept

Logistic Regression merupakan salah satu metode klasifikasi yang konsepnya hampir mirip dengan regresi linear. Hanya saja, dalam logistic regression tidak menghitung secara spesifik nilai prediksi target variable, namun menghitung **kemungkinan/peluang** pada masing-masing kelas target.

- Linier regresion: y (numerik) -> **-inf, + inf**
- Logistic regression: y (peluang) -> **0, 1**

![](assets/data-science-programming-contrast-linear-logistic-regression.jpg)

📝 Hasil dari regresi logistik dapat digunakan untuk:
- keperluan interpretasi
- keperluan prediksi

❓ Bagaimana regresi logistik bekerja? 

Suatu regresi yang dapat menghasilkan nilai (-inf sd. +inf), lalu dikonversikan ke bentuk peluang (0 - 1)
  - nilai yg dihasilkan oleh algoritma logistic regression: log of odds
  - nilai dapat dikonversikan antara **log of odds** - **odds** - **peluang**:

<div>
<img src="assets/linear_vs_logistic_regression.png" width="700"/>
</div>

## Basic Intuition: Probability

* Pada dasarnya, ketika kita melakukan klasifikasi, kita mempertimbangkan **peluang**.

**Probability** : kemungkinan terjadi suatu kejadian dari seluruh kejadian yang ada.

$$P(A) = \frac{n}{S} $$ 

* $P(A)$ : peluang kejadian A
* $n$ : banyak kejadian A
* $S$ : total seluruh kejadian

💭❓ **Analytical Question**

Terdapat 100 data transaksi dari sebuah Bank, 10 diantaranya merupakan transaksi `fraud` (palsu), sedangkan sisanya sebanyak 90 adalah transaksi `not fraud`. Berapakah peluang kejadian transaksi `fraud`?

In [None]:
# probability fraud
p_fraud = 
p_fraud 

📝 **Note:**  Range dari probability : **0 - 1**

## Odds 

Ketika kita menebak suatu nilai dalam regresi, range nilai yang kita tebak adalah **$-\infty - \infty$**. Sedangkan dalam klasifikasi, range nilai yang kita tebak adalah **0 - 1**. Oleh karena itu, kita memerlukan suatu jembatan untuk bisa menghubungkan antara nilai numerik menjadi suatu nilai peluang. Jembatan tersebut disebut **Odds**.

**Odds** : perbandingan probability kejadian sukses (yang diamati) dibandingkan dengan probability kejadian tidak sukses (tidak diamati)

$$Odds = \frac{p}{1-p}$$

$p$ : merupakan probability kejadian

Jika ingin mengetahui odds dari kejadian 'yes', maka:

$$Odds(yes) = \frac{p(yes)}{1-p(yes)}$$

Jika ingin mengetahui odds dari kejadian 'no' maka:

$$Odds(no) = \frac{p(no)}{1-p(no)}$$

In [None]:
# odds fraud
odds_fraud = 
odds_fraud

> 📈 Interpretasi: Kemungkinan/probability transaksi sebagai fraud adalah **XX KALI** lebih mungkin dibandingkan diketahui sebagai not fraud

In [None]:
# odds not fraud
odds_not_fraud = 
odds_not_fraud

> 📈 Interpretasi: Kemungkinan jenis tanah diketahui sebagai not fraud adalah **XX KALI** lebih mungkin dibandingkan diketahui sebagai fraud

📝 **Note:**  Range dari odds : **0 - inf**

## Log of Odds

**Log of Odds** : suatu nilai odds yang di logaritmakan.

$$logit(p) = log(\frac{p}{1-p})$$

💭❓ Berapakah log of odds transaksi fraud?

In [None]:
# log of odds fraud
log_odds_fraud = math.log(...)
log_odds_fraud

 **💡Highlight Point:💡**
 
 - Untuk menginterpretasikan log of odds kedalam nilai odds -> `math.exp()`
 
 - Untuk menginterpretasikan log of odds kedalam probability -> $\frac{odds}{odds+1}$ atau 
 
```python
from scipy.special import expit
expit()
```

In [None]:
# example menginterpretasikan dari log of odds --> probability
from scipy.special import expit
expit(log_odds_fraud)

![](assets/prob_to_logofodds_sigmoid.png)

## Logistic Regression Modeling Workflow

Berikut adalah urutan *workflow* model Logistic Regression :

1. Mempersiapkan data
2. *Exploratory Data Analysis*
3. Data *Pre-Processing*
4. Membuat model logistic regression & interpretasi
5. Melakukan prediksi
6. Model evaluasi

## Study Case : Fraud Bank Account 

Berbagai penipuan yang marak terjadi melibatkan penggunaan rekening bank. Tentunya hal ini meresahkan dan menyebabkan adanya kerugian baik untuk nasabah maupun bank ini sendiri. Kerugian ini bisa berupa kerugian material sampai menurunnya kepercayaan masyarakat terhadap suatu bank.

Data yang akan kita gunakan saat ini merupakan data akun bank yang sudah disesuaikan untuk pembelajaran di workshop ini.

### Import data

Dalam pembelajaran kali ini kita akan menggunakan data `fraud_dataset.csv` yang tersimpan pada folder `data_input`. 

Data ini dapat dieksplorasi di luar kelas, tetapi untuk kepentingan pembelajaran kita hanya akan mengambil 11 variabel yang nantinya akan digunakan pada model. Silakan jalankan kode berikut ini:

In [None]:
import pandas as pd

fraud = pd.read_csv('data_input/fraud_dataset.csv')
col_used = ['income', 'name_email_similarity', 'intended_balcon_amount', 'zip_count_4w', 
            'credit_risk_score', 'phone_home_valid', 'phone_mobile_valid', 'has_other_cards', 
            'proposed_credit_limit', 'source', 'fraud_bool']
fraud = fraud[col_used]

fraud.head(3)

**Data Description:**

- `income` (numeric): _Annual income of the applicant (in decile form). Ranges between [0.1, 0.9]._
- `name_email_similarity` (numeric): _Metric of similarity between email and applicant’s name. Higher values represent higher similarity. Ranges between [0, 1]._
- `intended_balcon_amount` (numeric): _Initial transferred amount for application. Ranges between [−16, 114] (negatives are missing values)._
- `zip_count_4w` (numeric): _Number of applications within same zip code in last 4 weeks. Ranges between [1, 6830]._
- `credit_risk_score` (numeric): _Internal score of application risk. Ranges between [−191, 389]._
- `phone_home_valid` (binary): _Validity of provided home phone._
- `phone_mobile_valid` (binary): _Validity of provided mobile phone._
- `has_other_cards` (binary): _If applicant has other cards from the same banking company. _
- `proposed_credit_limit` (numeric): _Applicant’s proposed credit limit. Ranges between [200, 2000]._
- `source` (categorical): _Online source of application. Either browser (INTERNET) or app (TELEAPP)._
- `fraud_bool` (binary): _If the application is fraudulent or not._


Sebelum masuk pada tahap pembuatan model, kita akan melakukan EDA untuk mengetahui variabel prediktor yang perlu dimasukkan dalam model dan yang tidak.

### Wrangling Data

#### Mengubah tipe data

Sebelum melakukan perubahan tipe data, silakan cek terlebih dahulu jenis tipe datanya dengan menggunakan method `dtypes`/`info()`

In [None]:
# code here


❓ Kolom apa saja yang belum memliki tipe data yang tepat?

- ...
- ...

In [None]:
# list berisi nama kolom yang ingin diubah dalam format sama


# Mengubah tipe data beberapa kolom


# cek kembali tipe data


#### Cek Missing Value & Duplicate Data

Dalam pengecekan *missing values* disediakan fungsi `isna()` yang dapat mengecek ke setiap baris data dan menunjukan *logical value*. Untuk mempermudah pengecekannya, fungsi tersebut dapat digabungkan dengan fungsi `.sum()`.

Dalam pengecekan *nilai duplikat* disediakan sebuah fungsi `duplicated()` yang dapat mengecek ke setiap baris data dan menunjukan *logical value*. Untuk mempermudah pengecekannya, fungsi tersebut dapat digabungkan dengan fungsi `.any()`.

In [None]:
# cek missing value


In [None]:
# cek duplicate


### Exploratory Data Analysis (EDA)

**Analisis `describe()`**

Pada tahapan ini kita akan mencoba untuk melakkan analisis apakah terdapat sebuah hal yang menarik dari hasil fungsi `describe()` untuk masing-masing kelas target

💭 **Insight**:

**Analisis Korelasi**

In [None]:
import seaborn as sns
sns.heatmap(...., # nilai korelasi
            annot=True,   # anotasi angka di dalam kotak heatmap
            fmt=".3f",    # format 3 angka dibelakang koma 
            cmap='Reds'); # warna heatmap

###  Data Pre-Processing

Terdapat 2 hal yang biasanya dilakukan pada tahapan data pre-processing yaitu **Dummy Variable Encoding** dan juga **Cross Validation**

#### Dummy Variable Encoding 

Variabel yang kita miliki terdapat variabel dengan tipe data category, oleh karena itu kita perlu membuat dummy variabel terlebih dahulu. Untuk algoritma Logistic Regression, karena masih terdapat asumsi multicolinearity, maka yang akan dipakai adalah dummy variable. 
    
Mari lakukan metode tersebut dengan memanfaatkan fungsi berikut ini `pd.get_dummies()` dan mengisinya dengan beberapa parameter antara lain:

- `data`: data yang ingin diubah menjadi numerikal
- `columns`: list kolom yang akan dilakukan dummy variable encoding
- `drop_first`: apakah ingin drop kolom pertama. Default False. Namun akan kita atur sebagai True agar kolom hasil dummies tidak redundan
- `dtype` = memasukan tipe data yang ingin di-isi

In [None]:
# code here
fraud_enc = 

#### Cross Validation

*Cross Validation* adalah metode yang kita gunakan untuk mengetahui seberapa baik performa model kita memprediksi terhadap data baru.

Lantas, bagaimana cara mengetahui apakah model yang kita buat telah baik dalam memprediksi data baru? Di sinilah mengapa kita melakukan Train-test splitting. Kita membagi data kita menjadi 2 kelompok, yaitu data `train` dan `test`.

<img src="assets/test-train.png" width="600"/>

- Data `train`: Data yang model gunakan untuk training.

- Data `test`: Data untuk evaluasi model (Untuk melihat seberapa baik model memprediksi terhadap data yang tidak digunakan untuk training)

📌 **Analogi sederhana**

- Seorang siswa dapat dikatakan pintar ketika dapat menjawab benar soal-soal ujian yang tidak pernah dikerjakannya pada soal-soal latihan untuk persiapan ujian.
- Data `train` diibaratkan soal latihan, dan data `test` diibaratkan soal ujian. Adapun `model` kita diibaratkan sebagai siswa.


Kita dapat menggunakan fungsi `train_test_split` dengan beberapa parameter sebagai berikut.
- `arrays`: dataframe yang kita gunakan (dipisah , untuk yang prediktor dan target variable)
- `test_size`: jumlah persentase dari data yang akan digunakan sebagai data test
- `train_size`: jumlah persentase dari data yang akan digunakan sebagai data test (akan otomatis terisi jika `test_size` diberi nilai)
- `random_state`: nilai random number generator (RNG). Jika kita memasukkan suatu nilai integer untuk parameter ini maka akan menghasilkan hasil yang sama untuk nilai yang sama. Jika kita mengubah nilainya, maka hasilnya akan berbeda.
- `stratify`: memastikan pembagian di data train dan test memiliki proporsi target yang sama dengan data awal

> **💡 NOTES**: Biasanya data dibagi menjadi 80:20 atau 70:30 (train size:test size). Porsi yang besar selalu digunakan untuk training

In [None]:
# Total dimensi awal sebelum split


In [None]:
from sklearn.model_selection import train_test_split
import statsmodels.api as sm

In [None]:
# Tahapan 1 - Memisahkan prediktor dengan target
## prediktor


## target


In [None]:
# Tahapan 2 - Split dataset
X_train, X_test, y_train, y_test = train_test_split(..., # kolom prediktor
                                                   ..., # kolom target
                                                   test_size = ..., # 80% training and 20% test
                                                   random_state = 10,
                                                   stratify=...)

In [None]:
X_train.shape

❓ **Mengapa kita perlu mengunci sifat random yang ada?**

- Agar kita mendapatkan hasil antara data train dan data test yang sama 
- Ketika kita ingin melakukan adjustment/tunning pada model yang sudah ada, data yang akan dimasukan kembali ke model tersebut sama dengan model yang sebelumnya. Sehingga kita bisa melakukan komparasi yang apple to apple terhadap kedua model tersebut.

**Cek Proporsi Kelas Target**

Setelah melakukan cross validation, kita perlu memastikan bahwa proporsi kelas target kita sudah seimbang atau belum.

❓ **Mengapa kita harus mencari tau proporsi targetnya seimbang/tidak?**

- Proporsi yang seimbang penting untuk agar model dapat mempelajari karakteristik kelas positif maupun negatif secara seimbang
- Dalam kata lain, tidak hanya belajar dari satu kelas saja. Hal ini mencegah model dari *hanya baik memprediksi 1 kelas saja*

Dalam melakukan pengecekan, pandas sudah menyediakan sebuah fungsi `crosstab()`. Pada fungsi tersebut akan di-isi dengan 3 parameter yaitu

- `index`: parameter ini akan di-isi dengan target data train kita
- `columns`: parameter ini akan di-isi dengan target variable
- `normalize`: dapat di-isi dengan True untuk menunjukan hasil dalam bentuk persentase.

In [None]:
# Code here
pd.crosstab(index = ..., 
            columns = ..., 
            normalize = True).round(2)

Proporsi yang imbalance sebenarnya cukup subjektif dan tidak ada aturan bakunya. Akan tetapi ketika proporsinya targetnya *90%:10%* atau *95%:5%*, target variable tersebut akan dianggap tidak seimbang.

**Action Plan ketika datanya imbalance:**

- Tambah data real $\rightarrow$ memerlukan waktu
- Metode *downSampling* $\rightarrow$ Membuang observasi dari kelas mayoritas, sehingga seimbang.
- Metode *upSampling* $\rightarrow$ Duplikasi observasi dari kelas minoritas, sehingga seimbang.

Metode pada poin kedua dan ketiga di atas tidak akan kita pelajari di kelas, tetapi Anda bisa membaca dokumentasinya pada link berikut: [downSampling](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.RandomUnderSampler.html) dan [upSampling](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.RandomOverSampler.html).

### Model Fitting

Untuk membuat model logistic regression, kita bisa menggunakan fungsi `Logit()` dari package `statsmodels` atau `sm`.

In [None]:
# membuat model
model_logit = 

**Interpretasi Model**

Nilai intercept dan slope tidak bisa diinterpretasikan secara langsung karena nilainya masih berupa log of odds. Oleh karena itu, perlu dilakukan interpretasi menggunakan nilai odds. Untuk mengubah nilai log of odds menjadi odds bisa menggunakan fungsi `exp()` dari package `math`.    

In [None]:
import math
math.exp(...)

Hasil formula model yang diperoleh adalah sebagai berikut :

$$logit(y)= \beta_0 +\beta_1 \times x_1 + ... +\beta_n \times x_n$$

- **Interpretasi intercept/`const`**

- **Interpretasi variabel numerik**:

    -
    -

- **Interpretasi variabel kategorik**:

    -
    -

Interpretasi: ...

### Model Prediction

Ketika kita sudah berhasil membuat model, kita akan mencoba melakukan prediksi terhadap data *test* yang sudah kita persiapkan pada tahap *cross validation*

Dalam melakukan prediksi, kita bisa memanfaaatkan fungsi `predict()`. Dengan syntax sebagai berikut:

`<nama_model>.predict(<var_prediktor>)`

In [None]:
# code of predict value from model


Hasil prediksi yang dikeluarkan masih berupa probability dengan range 0-1. Untuk dapat mengubah nilai probability tersebut, kita bisa menetapkan threshold pada probability untuk masuk ke kelas 1 atau 0. Umumnya threshold yang digunakan yaitu 0.5. 

In [None]:
# change probability to predict class
pred_label = ___.apply(lambda x: 1 if x > 0.5 else 0)
pred_label.head()

### Model Evaluation

Setelah dilakukan prediksi menggunakan model, masih ada saja prediksi yang salah. Pada klasifikasi, kita mengevaluasi model berdasarkan **confusion matrix**:

- Penentuan kelas:
  + kelas positif: kelas yang lebih difokuskan 
  + kelas negatif: kelas yang tidak difokuskan
 
- Contoh kasus: 
  + Machine learning untuk deteksi pasien covid:
    * kelas positif: terdeteksi covid $\rightarrow$ Jangan sampai orang yang terkena covid dibiarkan bebas karena dapat menularkan ke orang banyak
    * kelas negatif: terdeteksi sehat
    
  + Machine learning untuk deteksi apakah seseorang bisa bayar pinjaman atau tidak
    * kelas positf: yang tidak bisa bayar $\rightarrow$ karna kita perlu berhati2 apakah nasabah tersebut bisa tidak bayar, kalo tidak bayar perusahaan bisa rugi. 
    * kelas negatif: yang bisa bayar

- Isi dari confusion matrix
    * TP (True Positive) = Ketika kita memprediksi kelas `positive`, dan benar bahwa data aktualnya `positive`
    * TN (True Negative) = Ketika kita memprediksi kelas `negative`, dan benar bahwa data aktualnya `negative`
    * FP (False Positive) = Ketika kita memprediksi kelas `positive`, namun data aktualnya `negative`
    * FN (False Negative) = Ketika kita memprediksi kelas `negative`, namun data aktualnya `positive`
    
![](assets/tnfp.PNG)

In [None]:
# confusion matrix sederhana (perbandingan antara pred label dengan data test)
pd.crosstab(pred_label, y_test)

* TP = ...
* TN = ...
* FN = ...
* FP = ...

4 metrics performa model: **Accuracy, Sensitivity/Recall, Precision, Specificity**

- **Accuracy**: seberapa tepat model kita memprediksi kelas target (secara global)   
- **Sensitivity**/ **Recall**: ukuran kebaikan model terhadap kelas `positif`   
- **Specificity**: ukuran kebaikan model terhadap kelas `negatif`   
- Pos Pred Value/**Precision**: seberapa presisi model memprediksi kelas positif  

### Accuracy

Seberapa baik model kita menjelaskan kelas target (baik positif maupun negatif). Dipakai ketika kelas positif dan negatif sama pentingnya atau ketika proporsi kelas seimbang.

$$
Accuracy = \frac{TP + TN}{TP + TN + FP + FN}
$$

In [None]:
# nilai akurasi


Dalam bisnis/real-case, tak selamanya kita hanya mementingkan metric accuracy. Sering kali harus memilih antara meninggikan **recall/precision**. Hal ini tergantung pada kasus bisnis/efek yang ditimbulkan dari hasil prediksi tersebut.

### Recall / Sensitivity

Seberapa banyak yang **benar diprediksi positif** dari yang **re**alitynya (aktualnya) positif.

![](assets/recall.png)

$$
Recall = \frac{TP}{TP + FN}
$$

In [None]:
# nilai recall


### Precision

Seberapa banyak yang **benar diprediksi positif** dari yang di**pre**diksi positif.

![](assets/precision.png)

$$
Precision = \frac{TP}{TP + FP}
$$

In [None]:
# nilai precision


**Cara Cepat**

Selain melakukan perhitungan manual, kita juga dapat memanfaatkan fungsi yang sudah disediakan oleh library sklearn dengan syntax 

`*_score(y_true, y_pred)`

In [None]:
from sklearn.metrics import recall_score, precision_score, accuracy_score

print(f'Accuracy score: {accuracy_score(y_test, pred_label)}')
print(f'Recall score: {recall_score(y_test, pred_label)}')
print(f'Precision score: {precision_score(y_test, pred_label)}')


Ketika tidak puas dengan hasil model performance diatas, yang bisa dilakukan adalah:

1. Tunning model (membuat model baru dengan kombinasi prediktor yang lain)
2. Menambahkan data
3. Melakukan penggeseran threshold
4. Menggunakan metode yang lain

### Asumsi Logistic Regression

Asumsi Logistic Regression :

* **No Multicollinearity**: antar prediktor tidak saling berkorelasi. Untuk melakukan pengecekannya sama seperti dalam linear regression yaitu menggunakan nilai VIF. 

  + apabila ada prediktor yang terindikasi multikolinearity, kita bisa menggunakan salah satu variabel saja atau membuat variabel baru yang men-summary dari kedua variabel tersebut (mean)
  +  dari VIF kita ingin variabel kita memiliki VIF < 10
  
* **Independence of Observations**: antar observasi saling independen & tidak berasal dari pengukuran berulang (repeated measurement).

* **Linearity of Predictor & Log of Odds**: cara interpretasi mengacu pada asumsi ini. untuk variabel numerik, peningkatan 1 nilai akan menaikan log of odds (peluang).

# K-Nearest Neighbour Algorithm

Metode k-NN akan mengkasifikasi data baru dengan membandingkan karakteristik data baru (data test) dengan data yang ada (data train). Kedekatan karakteristik tersebut diukur dengan Euclidean Distance yaitu pengukuran jarak. Kemudian akan dipilih k tetangga terdekat dari data baru tersebut, kemudian ditentukan kelasnya menggunakan majority voting.

### Karakteristik k-NN

- tidak ada asumsi
- dapat memprediksi multiclass
- baik untuk prediktor numerik (karena mengklasifikasikan berdasarkan jarak), tidak baik untuk prediktor kategorik
- robust: performa nya bagus -> error nya kecil
- tidak interpretable

## Data Cleansing

Kita akan menggunakan data yang sama dengan metode sebelumnya, tetapi kali ini kita akan menggunakan data tanpa kategorikal sama sekali.

In [None]:
fraud_knn = 

fraud_knn.head()

## Cross Validation

Gunakan metode train-test splitting dengan proporsi dan random_state yang sudah kita gunakan pada kasus sebelumnya.

In [None]:
# prediktor
X = 
# target
y = 

# Split dataset
X_train, X_test, y_train, y_test = train_test_split(..., # kolom prediktor
                                                   ..., # kolom target
                                                   test_size = ..., # 80% training and 20% test
                                                   random_state = 10,
                                                   stratify = ...)

## Data Preprocessing

**Feature Scalling**

🔎 Scaling: menyamaratakan range variable prediktor

Scaling bisa menggunakan **min-max normalization atau z-score standarization**

1.  **Min-max normalization** --> bekerja dengan mentransformasi fitur sehingga nilainya berada dalam rentang 0 hingga 1.

> Formula: $x_{new}=\frac{(x-min(x))}{(max(x)-min(x))}$

- Nilai fitur yang dinormalisasi secara efektif mengomunikasikan seberapa jauh, dalam persentase, nilai asli berada di sepanjang rentang semua nilai fitur *x*.
- digunakan ketika tau angka pasti min dan max nya. misalnya nilai ujian matematika pasti nilai min-max nya 0 - 100.

2. **z-score standardization** mengurangi fitur x dengan rata-rata dan dibagi dengan standar deviasi dari fitur.

> Formula: $x_{new}=\frac{(x-\bar x)}{std(x)}$ 

- digunakan ketika tidak diketahui angka min dan max pastinya. misalnya temperature bisa dari kisaran -inf s.d +inf



🔻 Menormalisasi menjadi z-score:

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

In [None]:
# subset kolom numerik
cols = 

In [None]:
# transform


Data prediktor discaling menggunakan z-score standarization. Data test juga harus discaling menggunakan parameter dari data train (karena menganggap data test adalah unseen data).

Untuk data test:
- diperlakukan sebagai data unseen
- ketika ingin discaling prediktornya harus menggunakan informasi mean dan sd dari data train

## Training Model

Untuk membuat model K-NN, kita akan memanfaatkan library `KNeighborsClassifier` yang berada pada `sklearn.neighbors`. Tetapi sebelumnya kita harus menentukan dulu jumlah tetangga yang harus kita perhitungkan.

### Choosing an appropriate *k*

Berikut adalah intuisi dasar pemilihan nilai K optimal:

- Jangan terlalu besar: pemilihan kelas hanya berdasarkan kelas yang dominan dan mengabaikan data kecil yang ternyata penting.
- Jangan terlalu kecil: rentan mengklasifikasikan data baru ke kelas outlier.
- Penentuan k optimum biasanya menggunakan akar dari jumlah data train kita: `sqrt(nrow(data))`

In [None]:
math.sqrt(...)

k-NN akan menghitung jumlah kelas pada tetangga terdekat suatu data dan kelas terbanyak inilah akan menjadi hasil klasifikasi data kita. Bila hasil majority voting seri, maka kelas akan dipilih secara random. Maka dari itu, untuk meminimalisir seri ketika majority voting:

+ k harus ganjil bila jumlah kelas target genap
+ k harus genap bila jumlah kelas target ganjil
+ k tidak boleh angka kelipatan jumlah kelas target

Nilai hasil perhitungan di atas perlu dibulatkan berdasarkan arahan ini. Mari kita gunakan nilainya pada pembuatan model k-NN.

In [None]:
from sklearn.neighbors import KNeighborsClassifier

model_knn = KNeighborsClassifier(...)

## Model prediction
Sama seperti model sebelumnya, model yang sudah dipersiapkan untuk melakukan prediksi pada data test yang sudah dipersipakan dengan menggunakan fungsi `predict()`.

In [None]:
knn_pred = 


### Model Evaluation

In [None]:
# Hasil evaluasi KNN
print(f'Accuracy score: {accuracy_score(..., ...)}')
print(f'Recall score: {recall_score(..., ...)}')
print(f'Precision score: {precision_score(..., ...)}')

# Logistic Regression & k-NN Comparation

![](assets/Karakter.png)

# Glossary & Additional Information

<details>
    <summary>Click once on <font color="red"><b>this text</b></font> to hide/unhide additional information in Summary</summary>
    
**[Optional] Other Information in Summary**

1. Tabel 1, sisi kiri menyimpan informasi dasar dari model

| Variable | Description | 
| :--- | :--- | 
| Dep. Variable  | Dependent variable atau target variabel (Y) | 
| Model | Model logistic regression| 
| Method | Metode yang digunakan untuk membuat model logistic regression: Maximum Likelihood Estimator | 
| No. Observations| Jumlah observasi (baris) yang digunakan ketika membuat model regresi linier | 
| DF Residuals | Degrees of freedom error/residual (jumlah observasi/baris - parameter) |
| DF Model  | Degrees of freedom model (jumlah prediktor) | 
| Covariance type | tipe nonrobust berarti tidak ada penghapusan data untuk menghitung kovarian antar fitur. Kovarian menunjukkan bagaimana dua variabel bergerak terhadap satu sama lain (+ atau -, tidak menghitung kekuatannya) | 
    
    
<br> 
<br>  

2. Tabel 1, sisi kanan menyimpan informasi kebaikan model

| Variable | Description | 
| :--- | :--- | 
| Pseudo R-squared  | Goodness of fit. Rasio dari log-likelihood null model dibandingkan dengan full model. | 
| Log-likelihood  | [Conditional probability](https://en.wikipedia.org/wiki/Conditional_probability) bahwa data yang digunakan cocok/fit dengan model. Semakin besar, semakin fit model terhadap datanya. range -inf - +inf  |
| LL-Null | nilai dari log-likelihood model tanpa prediktor (intercept saja) | 
| LLR p-value   | nilai p -value dari apakah model yang kita buat lebih baik daripada model tanpa prediktor (intercept saja)| 


<br> 
<br> 

3. Tabel 2 menyimpan informasi dari koefisien regresi

| Variable | Description | 
| :--- | :--- | 
| **coef**   | Estimasi koefisien | 
| std err | Estimasi selisih nilai sampel terhadap populasi | 
| z | Statistik hitung dari z-test (uji parsial) | 
|**P > \|z\|**  | P-value dari z-test | 
| [95.0% Conf. Interval]  | Confidence Interval (CI) 95%. |

    
In statistics, maximum likelihood estimation (MLE) is a method of estimating the parameters of an assumed probability distribution, given some observed data. This is achieved by maximizing a likelihood function so that, under the assumed statistical model, the observed data is most probable.
    
<br> 
<br> 
    
    
    
Recall from Practical Statistic:
    
* $\alpha$:
  + tingkat signifikansi / tingkat error
  + umumnya 0.05
* $1-\alpha$: tingkat kepercayaan (misal alpha 0.05, maka kita akan percaya terhadap hasil analisis sebesar 95%)
* $p-value$:
  + akan dibandingkan dengan alpha untuk untuk mengambil keputusan
  + peluang data sampel berada pada bagian sangat ekstrim/berbeda signifikan dengan keadaan normal.
  
Pengambilan keputusan:

* Jika $p-value$ < $\alpha$, maka tolak $H_0$ / terima $H_1$
* Jika $p-value$ > $\alpha$, maka gagal tolak / terima $H_0$
    
</details>