# Live Session 12
## Classification 1
#### By Ika Nurfitriani (PYTN-KS10-008)

Di pertemuan ini akan membahas classification bagian 1. Terdapat beberapa hal yang akan dipelajari yaitu konsep classification, logistic regression & implementasinya, serta KNN & implementasinya.

# Classification
***
Classification adalah area yang sangat penting dalam supervised machine learning karena sejumlah besar masalah supervised machine learning yang penting termasuk dalam area ini. Classification atau Klasifikasi adalah area supervised machine learning yang mencoba memprediksi kelas atau kategori mana dari suatu entitas, berdasarkan fitur-fiturnya.

Sifat dependent variables membedakan masalah regression dan classification. Masalah regression memiliki keluaran yang berkelanjutan dan biasanya tidak terbatas. Contohnya saat kita memperkirakan gaji sebagai fungsi dari pengalaman dan tingkat pendidikan. Di sisi lain, masalah classification memiliki keluaran diskrit dan terbatas yang disebut kelas atau kategori. Misalnya memprediksi apakah seorang karyawan akan dipromosikan atau tidak (benar atau salah). 

Ada 2 jenis masalah klasifikasi:
- Binary or Binomial Classification: 2 kelas untuk dipilih (biasanya 0 dan 1, True dan False, atau Positive dan Negative)
- Multiclass or Multinomial Classification: Tiga atau lebih kelas untuk dipilih. 

### Kapan kita membutuhkan Klasifikasi?
Kita dapat menerapkan klasifikasi di banyak bidang sains dan teknologi. Misalnya, *text classification algorithms* digunakan untuk memisahkan email yang bukan spam dan spam serta komentar positif dan negatif. Atau contoh lain yaitu *Image recognition* misal apakah suatu gambar menggambarkan wajah manusia atau bukan. Contoh lainnya yaitu aplikasi medis, klasifikasi biologis, penilaian kredit dan banyak lagi.

## Logistic Regression Overview
Linear Regression sangat berguna saat kita mencoba memprediksi nilai keluaran continuous dari linear relationship. Tetapi nilai keluaran Logistic Regression berada diantara 0 dan 1, karena itu output continuous value yang tidak berada dalam kisaran antara 0 dan 1 tidak berfungsi dengan Logistic Regression.

Linear regression menggunakan pengukuran statistik seperti **R2** dan **p-value** untuk memahami kinerja model dan variable yang melatih model.
- R2 digunakan untuk menunjukkan apakah ada korelasi antara var dependen dan var independen tertentu.
- P-value digunakan untuk menentukan apakah R2 signifikan secara statistik.
- Fungsi biaya dari regresi linear adalah Mean Squared Error

Cara kerja Logistic Regression ialah memprediksi probabilitas sampel kita termasuk dalam satu klasifikasi versus klasifikasi lainnya. Nilai keluaran dalam logistic regression adalah klasifikasi bernomor, tetapi sebelum klasifikasi diberikan, keluaran yang AKTUAL adalah probabilitas numerik dalam rentang 0 sampai 1. Lalu diberikan klasifikasi 1 atau 0, kemudian algoritma akan membulatkan nilai untuk memberikan klasifikasi 0 adalah kelas negatif dan 1 adalah kelas positif.


## Types of Logistic Regression
1. Binary Logistic Regression: Variabel dependen hanya memiliki dua kemungkinan hasil / kelas. Contoh: Male or Female
2. Multinomial Logistic Regression: Variabel dependen hanya memiliki 2 kemungkinan hasil / kelas 3 atau lebih tanpa urutan. Contoh: Predicting food quality (Good, Great, and Bad).
3. Ordinal Logistic Regression: Variabel dependen hanya memiliki 2 atau 3 atau lebih kemungkinan hasil / kelas dengan pengurutan. Contoh: Star rating from 1 to 5

## Math Prerequisites
Sigmoid Function adalah fungsi matematika yang memliki karakteristik kurva berbentuk "S" dan memiliki nilai yang sangat dekat dengan 0 atau 1 di sebagian besar domainnya sehingga cocok untuk aplikasi dalam metode classification. Kita akan sering menemukan natural logarithm yang dilambangkan dgn **ln** bukan **log**. Dalam python *math.log(x)* dan *numpy.log(x)* mewakil natural logarithm dari x.

## Methodology
Logistic regression adalah linear classifier, jadi akan menggunakan fungsi linear *f(x) = b0 + b1x1 + ... + brxr*, juga disebut **logit**. Variabel b0, b1, ..., br adalah **estimators** dari regression coefficients yang disebut juga **predicted weights** atau **coefficients**.

Logistic regression menentukan bobot prediksi terbaik *b0, b1, ..., br* sedemikian rupa sehingga fungsi p(x) sedekat mungkin dengan actual responses *yi, i=1, ..., n* dimana n adalah jumlah observasi. Proses perhitungan bobot terbaik menggunakan observasi yang tersedia disebut **model training** atau **fitting**.

Untuk mendapatkan bobot terbaik, biasanya kita memaksimalkan **Log-Likelihood Function (LLF)** untuk semua observasi *i = 1, ..., n*. Metode ini disebut **maximum likelihood estimation**.

## Classification Performance
Binary classification memiliki 4 kemungkinan jenis hasil:
1. True Negatives: correctly predicted negatives (zeros)
2. True Positives: correctly predicted positives (ones)
3. False Negatives: incorrectly predicted negatives (zeros)
4. False Positives: incorrectly predicted positives (ones)

Indikator **classification accuracy** paling jelas adalah rasio jumlah prediksi yang benar dengan jumlah total prediksi (atau observasi). Berikut adalah indikator lain dari binary classifiers:
- **The positive predictive value**: The ratio of the number of true positives to the sum of the numbers of true and false positives.
- **The negative predictive value**: The ratio of the number of true negatives to the sum of the numbers of true and false negatives.
- **The sensitivity** (recall or true positive rate): The ratio of the number of true positives to the number of actual positives.
- **The specificity** (or true negative rate): The ratio of the number of true negatives to the number of actual negatives.

## Single-Variate Logistic Regression
**Single-Variate Logistic Regression** adalah kasus logistic regression yang paling jelas dimana hanya ada satu variabel independen (atau fitur), yaitu x = x.

## Multi-Variate Logistic Regression
Multi-Variate Logistic Regression memiliki lebih dari satu variabel masukan.

### 5 langkah implementasi Machine Learning
- Import library yang dibutuhkan
- Siapkan datanya (70% - 80%) effort
  - Data Cleansing
  - EDA
  - Feature Engineering / Extraction
- Siapkan algoritma machine learning
- Training machine learning
- Gunakan algoritma machine learning
  - Evaluasi
  - Prediksi

In [1]:
# Step 1: Import library
from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [2]:
# Step 2: Siapkan dataset -> menjadikan data sebagai matriks
iris = load_iris()
X = iris.data
y = iris.target

print(f"Ukuran matriks x : {X.shape}")
print(f"Ukuran label x : {y.shape}")

Ukuran matriks x : (150, 4)
Ukuran label x : (150,)


In [3]:
X[:5]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2]])

In [4]:
# SPLIT DATA
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=46)

In [5]:
# Keterangan
iris.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [6]:
# Step 3: Siapkan algoritma ML
model = KNeighborsClassifier()

In [7]:
# Step 4: Training model
model.fit(X_train, y_train)

KNeighborsClassifier()

In [8]:
# Contoh penggunaan seed
import numpy as np

np.random.seed(2)
np.random.random(10)

array([0.4359949 , 0.02592623, 0.54966248, 0.43532239, 0.4203678 ,
       0.33033482, 0.20464863, 0.61927097, 0.29965467, 0.26682728])

In [9]:
# Step 5: Gunakan model
data_baru = [[2.5, 1.1, 5.4, 3.3]]
model.predict(data_baru)

array([2])

In [10]:
# Test / Uji
y_pred = model.predict(X_test)

# Evaluasi dengan akurasi
accuracy_score(y_test, y_pred)

0.9333333333333333