# SESI 12 - Classification 1
Nama : Syaima Radestya <br>
Kode Peserta : PYTN-KS10-011 <br>
Program : Introduction to Python for Data Science

# Classification
***
Classification adalah area yang sangat penting dalam supervised machine learning yang mencoba memprediksi kelas atau kategori mana dari suatu entitas, berdasarkan fitur-fiturnya. Sifat dependen variables membedakan masalah regression dan classification. Masalah regression memiliki keluaran yang berkelanjutan dan biasanya tidak terbatas. Contohnya adalah saat kita memperkirakan gaji sebagai fungsi dari pengalaman dan tingkat pendidikan. Di sisi lain, masalah classification memiliki keluaran diskrit dan terbatas yang disebut kelas atau kategori. Misalnya memprediksi apakah seorang karyawan akan dipromosikan atau tidak (benar atau salah) adalah masalah klasifikasi. <br> <br>

Ada 2 jenis masalah klasifikasi:
- Binary / binomial classification: exactly 2 classes to choose between (usually 0 and 1, true or false, positive or negative)
- Multiclass or multinomial classification: three or more classes of the outputs to choose from

## When Do You Need Classification? 
Kita dapat menerapkan klasifikasi dibanyak bidang sains dan teknologi. Misalnya, text classification algorithms digunakan untuk memisahkan email yang spam dan bukan, klasifikasi biologis, image recognition, dan masih banyak lagi. <br>

## Logistic Regression Overview
Linear regression menggunakan pengukuran statistik seperti R2 dan p-value untuk memahami kinerja model dan variable yang melatih model.
- R2 used to indicate if there is a correlation between the dependent var and a particular independent var.
- P-value is used to determine if R2 is statistically significance
- The cost function of linear regression is Mean Squared Error 

Cara kerja Logistic Regression yaitu memprediksi probabilitas sampel kita termasuk dalam satu klasifikasi versus klasifikasi lainnya. Nilai keluaran dalam logistic regression adalah klasifikasi bernomor, tetapi sebelum klasifikasi diberikan, keluaran yang AKTUAL adalah probabilitas numerik dalam rentang 0 sampai 1. <br> <br>

Types of Logistic Regression
1.	Binary Logistic Regression: var dependen hanya memiliki 2 kemungkinan hasil / kelas.
Contoh: male or female
2.	Multinomial Logistic Regression: var dependen hanya memiliki 2 kemungkinan hasil / kelas 3 atau lebih tanpa urutan.
Contoh: predicting food quality (good, great, and bad)
3.	Ordinal Logistic Regression: var dependen hanya memiliki 3 atau lebih kemungkinan hasil / kelas dengan pengurutan.
Contoh: star rating from 1 to 5

### Math Prerequisites 
Sigmoid Function, yaitu fungsi matmatika yg memliki karakteristik kurva berbentuk "S". Kita akan sering menemukan natural logarithm yang dilambangkan dgn ln bukan log. Dalam python math.log(x) dan numpy.log(x) mewakil natural logarithm dari x.

### Methodology
Logistic regression adalah linear classifier, jadi menggunakan fungsi linear logit. Logistic regression menentukan bobot prediksi terbaik b0, b1, ..., br sedemikian rupa sehingga fungsi p(x) sedekat mungkin dengan actual responses yi, i=1, ..., n dimana n adalah jumlah observasi. Proses ini disebut model training atau fitting. <br>

Untuk mendapatkan bobot terbaik biasanya kita memaksimalkan Log-Likelihood Function (LLF) utk semua observasi i = 1, ..., n. Metode ini disebut maximum likelihood estimation.

## Classification Performance
Binary classification memiliki 4 kemungkinan jenis hasil:
1.	True Negatives: corectly predicted negatives (zeros)
2.	True Positives: corectly predicted positives (ones)
3.	False Negatives: incorectly predicted negatives (zeros)
4.	False Positives: incorectly predicted positives (ones)

Indikator lain dari binary classifiers adalah sebagai berikut:
- The positive predicted value: ratio of the number of true positives to the sum of the number of true and false positives
- The negative predicted value: ratio of the number of true negatives to the sum of the numbers of true and false negatives
- The sensitivity (recall / true positif rate): ratio of the number of true positives to the number of actual positives
- The specificity (true negatif rate): ratio of the number of true negatives to the number of actual negatives

### Single-Variate Logistic Regression
yaitu kasus logistic regression yang paling jelas dimana hanya ada satu var independen (atau fitur), yaitu x = x.

### Multi-Variate Logistic Regression
Multi-Variate Logistic Regression memiliki lebih dari satu variabel masukan.


### 5 langkah implementasi Machine Learning

- Import library yang dibutuhkan
- Siapkan datanya (70% - 80%) effort
    - Data Cleansing
    - EDA
    - Feature Engineering / Extraction
- Siapkan algoritma machine learning
- Training machine learning
- Gunakan algoritma machine learning
    - Evaluasi
    - Prediksi

In [30]:
# step 1 : import library
from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [10]:
# step 2 : siapkan dataset -> menjadikan data sebagai matriks
iris = load_iris()
X = iris.data
y = iris.target

print(f"Ukuran matriks x : {X.shape}")
print(f"Ukuran label x : {y.shape}")

Ukuran matriks x : (150, 4)
Ukuran label x : (150,)


In [11]:
X[:5]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2]])

In [16]:
# SPLIT DATA

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=46)

In [12]:
# hanya keterangan
iris.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [13]:
# step 3 : Siapkan algoritma ML

model = KNeighborsClassifier()

In [17]:
# step 4 : training model
model.fit(X_train, y_train)

KNeighborsClassifier()

In [26]:
# hanya contoh penggunaan seed
import numpy as np

np.random.seed(2)
np.random.random(10)

array([0.4359949 , 0.02592623, 0.54966248, 0.43532239, 0.4203678 ,
       0.33033482, 0.20464863, 0.61927097, 0.29965467, 0.26682728])

In [29]:
# step 5 : gunakan model
data_baru = [[2.5, 1.1, 5.4, 3.3]]
model.predict(data_baru)

array([2])

In [31]:
# test / uji
y_pred = model.predict(X_test)

# evaluasi dengan akurasi
accuracy_score(y_test, y_pred)

0.9333333333333333