# WEEK 3 : MACHINE LEARNING WORKFLOW & DATA PREPROCESSING

Sumber : 
- https://www.youtube.com/watch?v=smNnhEd26Ek&ab_channel=IndonesiaBelajar
- https://www.youtube.com/watch?v=tiREcHrtDLo&ab_channel=IndonesiaBelajar

## WORKFLOW

### Load Sample Dataset Irit Dataset

In [1]:
from sklearn.datasets import load_iris

iris = load_iris()

X = iris.data
y = iris.target

### Splitting Dataset : Training & Testing Set

Setelah melakukan load dataset, langkah selanjutnya adalah membagi dataset / splitting dataset ini menjadi 2 bagian yang terdiri dari Training Set dan Testing Set 

In [2]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,
                                                   y,
                                                   test_size=0.4,
                                                   random_state=1)

Disini testing set memiliki proporsi 40% sedangkan untuk training setnya adalah 60%. 

### Training Model

- Pada Scikit Learn, model machine learning dibentuk dari class yang dikenal dengan istilah estimator
- Setiap estimator akan mengimplementasikan dua method utama, yaitu method fit() dan predict()
- Method fit() biasanya digunakan untuk melakukan training model
- Method predict() digunakan untuk melakukan estimasi/prediksi dengan memanfaatkan trained model

Pada tahap ini, saya menggunakan KNN sebagai machine learning model. Model ini akan saya training dengan memanfaatkan training set yang sudah dipersiapkan sebelumnya.

In [3]:
from sklearn.neighbors import KNeighborsClassifier

model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)

KNeighborsClassifier(n_neighbors=3)

### Evaluasi Model

Pada tahap sebelumnya yaitu splitting dataset, saya sudah membagi dataset menjadi 2 bagian yaitu training set dan testing set. Training set digunakan untuk melakukan proses training model, sedangkan testing set digunakan untuk melakukan proses evaluasi/testing performa dari model yang sudah ditraining sebelumnya.

Cara untuk melakukan evaluasi model adalah :
- Import accuracy_score
- Langkah selanjutnya, saya akan melakukan prediksi terhadap nilai features yang ada di dalam testing dataset. Kemudian hasil prediksinya ditampung ke dalam variable y_predict
- Pada tahap ini, kita akan membandingkan nilai target yang terdapat pada variable y_test, dan dibandingkan dengan nilai prediksi yang ditampung dalam variable y_predict. 
- Sebenarnya proses evalusi ini terdiri dari berbagai macam cara, tetapi saat ini saya menggunakan accuracy score. Kemudian nilai akurasinya saya tampung ke dalam variable accuracy

In [4]:
from sklearn.metrics import accuracy_score

y_predict = model.predict(X_test)
accuracy = accuracy_score(y_test, y_predict)
print(f'Accuracy:{accuracy}')

Accuracy:0.9833333333333333


### Pemanfaatan Trained Model 

Model yang telah ditraining akan digunakan untuk melakukan prediksi terhadap data baru. Pada data baru hanya terdapat nilai features dan tidak memiliki nilai target. Pada tahap ini, saya akan menggunakan model yang sudah ditraining sebelumnya untuk memprediksi nilai target dari data baru yang berisi sekumpulan nilai features.

Pertama, saya bentuk dataset yang baru yang ditampung dalam variable data_baru yang terdiri dari 2 baris dan setiap barisnya memiliki 4 nilai features.
Hasil output dari prediksi yang telah dilakukan adalah array([1,2]), ini berarti pada instance 1 diprediksi memiliki nilai target 1 dan untuk instance 2 diprediksi memiliki nilai target 2.

In [5]:
data_baru = [[5, 5, 3, 2],
            [2, 4, 3, 5 ]]
preds = model.predict(data_baru)
preds

array([1, 2])

#### Proses untuk Memanggil Target Names

In [6]:
pred_species = [iris.target_names[p] for p in preds]
print(f'Hasil Prediksi: {pred_species}')

Hasil Prediksi: ['versicolor', 'virginica']


### Dump & Load Trained Model 

#### Dumping Model Machine Leaning menjadi file joblib

Pada tahap ini, saya akan melakukan proses joblib. 
Pertama-tama, saya import terlebih dahulu joblibnya, kemudian saya melakukan proses dump pada model yang sudah ditraining sebelumnya ke dalam suatu file joblib yaitu iris_classifier_knn.joblib

In [7]:
import joblib

joblib.dump(model, 'iris_classifier_knn.joblib')

['iris_classifier_knn.joblib']

#### Loading Model Machine Learning dari file joblib

Untuk melakukan deployment machine learning model ini, maka hal yang perlu dilakukan adalah menempatkan file joblib yaitu iris_classifier_knn.joblib ke dalam production server. Pada production server, kita akan load file joblib ini untuk menjadi machine learning model yang siap digunakan. Setelah diload, maka production_model ini bisa digunakan untuk memprediksi data-data baru yang ditemui di production.

In [8]:
production_model = joblib.load('iris_classifier_knn.joblib')

## Data Preprocessing dengan Scikit-Learn

### Sample Data

Pada tahap ini, hal yang perlu dilakukan adalah mengimport numpy karena sample datanya akan digenerate sebagai numpy array. Kemudian import module preprocessing dari sklearn. 

Dapat dilihat bahwa, sample data dami ini memiliki 4 instance dan masing-masing instance memiliki 3 nilai features. Dataset ini ditampung kedalam variable yaitu sample_data.

In [9]:
import numpy as np
from sklearn import preprocessing

sample_data = np.array([[2.1, -1.9, 5.5],
                       [-1.5, 2.4, 3.5],
                       [0.5, -7.9, 5.6],
                       [5.9, 2.3, -5.8]])
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

Untuk melihat dimensi dari sample datanya dapat menggunakan method shape. Dapat dilihat dari outputnya, bahwa nilai baris/instancenya adalah 4 dan nilai features/kolomnya adalah 3. 

In [10]:
sample_data.shape

(4, 3)

### Binarisation

Binarisation ini bertujuan untuk menghasilkan suatu data yang terdiri dari 2 nilai numerik saja, yaitu 0 dan 1. 

In [11]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

Pada tahap binarisation terdapat method threshold yang artinya setiap nilai yang lebih kecil atau sama dengan 0.5 akan dikonversikan menjadi nilai 0, sedangkan setiap nilai yang lebih besar 0.5 akan dikonversikan menjadi nilai 1. 

In [12]:
preprocessor = preprocessing.Binarizer(threshold=0.5)
binarised_data = preprocessor.transform(sample_data)
binarised_data

array([[1., 0., 1.],
       [0., 1., 1.],
       [0., 0., 1.],
       [1., 1., 0.]])

### Scaling

Teknik scaling bertujuan untuk menghasilkan suatu data numerik yang berada dalam rentang skala tertentu.

In [13]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

Pada tahap ini, saya akan menggunakan teknik MinMaxScaler dimana terdapat parameter feature_range yang membutuhkan 2 data bertipe tuple. Disini saya memberikan nilai 0 sebagai nilai terkecil dari skala yang baru dan nilai 1 sebagai nilai terbesar dari skala yang baru. 

Kemudian object scaler yang ditampung dalam variable preprocessor ini akan saya fit terhadap sample data yang saya miliki. Kemudian setelah dilakukan proses fit, maka scaler ini bisa digunakan untuk melakukan proses tranformasi data terhadap sample data. Hasil dari transform data ini akan saya tampung dalam variable scaled_data.

In [14]:
preprocessor = preprocessing.MinMaxScaler(feature_range=(0,1))
preprocessor.fit(sample_data)
scaled_data = preprocessor.transform(sample_data)
scaled_data

array([[0.48648649, 0.58252427, 0.99122807],
       [0.        , 1.        , 0.81578947],
       [0.27027027, 0.        , 1.        ],
       [1.        , 0.99029126, 0.        ]])

Pada proses dibawah ini menjelaskan bahwa proses fit dan transform dikenakan pada data yang sama.

In [15]:
scaled_data = preprocessor.fit_transform(sample_data)
scaled_data

array([[0.48648649, 0.58252427, 0.99122807],
       [0.        , 1.        , 0.81578947],
       [0.27027027, 0.        , 1.        ],
       [1.        , 0.99029126, 0.        ]])

### L1 Normalisation : Least Absolute Deviations

Teknik Normalisation ini bertujuan untuk melakukan normalisasi terhadap data numerik yang kita miliki.

In [16]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

Pemanggilan data preprocessing normalize ini akan menghasilkan data yang sudah ternormalisasi yang tertampung pada variable l1_normalised_data

In [17]:
l1_normalised_data = preprocessing.normalize(sample_data,norm='l1')
l1_normalised_data 

array([[ 0.22105263, -0.2       ,  0.57894737],
       [-0.2027027 ,  0.32432432,  0.47297297],
       [ 0.03571429, -0.56428571,  0.4       ],
       [ 0.42142857,  0.16428571, -0.41428571]])

### L2 Normalisation: Least Squares

In [18]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

Perbedaan normalisation Least Absolute Deviations dengan Least Squares adalah pada parameter norm. Pada least absolute deviations, parameter norm berisi 'l1' sedangkan pada least squares, parameter norm berisi 'l2'.
- l1 : Least Absolute Deviations
- l2 : Least Squares

In [19]:
l2_normalised = preprocessing.normalize(sample_data, norm='l2')
l2_normalised

array([[ 0.33946114, -0.30713151,  0.88906489],
       [-0.33325106,  0.53320169,  0.7775858 ],
       [ 0.05156558, -0.81473612,  0.57753446],
       [ 0.68706914,  0.26784051, -0.6754239 ]])