# Machine Learning Workflow

## Persiapan Dataset

**Melakukan load dataset Iris.**

In [4]:
from sklearn.datasets import load_iris

iris = load_iris()

X = iris.data
y = iris.target

**Splitting Dataset**

Splitting dataset yaitu membagi dataset menjadi dua bagian yaitu Training Set dan Testing Set.

In [8]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.4,
                                                    random_state=1)

4 Parameter yang terdapat pada function train_test_split terdiri dari:<br>
* X = Sekumpulan nilai features.
* Sekumpulan nilai target
* Ukuran dari testing set yaitu 0.4, artinya proporsi dari testing yaitu 40% dari total keseluruhan dataset dan training set nya memiliki bobot 60%.
* Untuk proses pengacakan menggunakan random_state.

Function train_test_split akan menghasilkan 4 kumpulan nilai yang ditampung ke dalam 4 variabel yaitu X_train, X_test, y_train, dan y_test.

## Training Model

Setelah dataset dibagi menjadi dua bagian yaitu training set dan test set, langkah berikutnya yaitu **menentukan model machine learning yang akan digunakan**.

* Pada Scikit Learn, model machine learning dibentuk dari class yang dikenal dengan istilah **estimator**.

* Setiap estimator akan mengimplementasikan dua method utama yaitu `fit()` dan `predict()`.

* Method `fit()` digunakan untuk melakukan training model.

* Method `predict()` digunakan untuk melakukan estimasi atau prediksi dengan memanfaatkan trained model.

Pada contoh dibawah, akan menggunakan KNN atau K Nearest Neighbors Classifer sebagai machine learning model.

In [10]:
from sklearn.neighbors import KNeighborsClassifier

model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)

## Evaluasi Model

Pada evaluasi model dibawah, akan menggunakan accuracy sebagai metrics nya. Ada beberapa pilihan metrics, tetapi pada contoh ini akan menggunakan accuracy.

In [13]:
from sklearn.metrics import accuracy_score

y_pred = model.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print(f'Accuracy: {acc}')

Accuracy: 0.9833333333333333


## Pemanfaatan Trained Model

Setelah trained model dinilai cukup baik berdasarkan hasil evaluasi, maka model yang telah di training dapat digunakan untuk memprediksi data baru. <br>

Pada data baru dibawah, terdapat sekumpulan nilai features tetapi **tidak** memiliki nilai target. <br>

Dengan trained model diatas, dapat dimanfaatkan untuk memprediksi nilai target dari kumpulan nilai features yang ada.

In [14]:
data_baru = [[5, 5, 3, 2],
             [2, 4, 3, 5]]

preds = model.predict(data_baru)
preds

array([1, 2])

In [15]:
pred_species = [iris.target_names[p] for p in preds]
print(f'Hasil prediksi: {pred_species}')

Hasil prediksi: ['versicolor', 'virginica']


## Dump & Load Trained Model

Trained model yang sudah siap, pada akhirnya akan di deploy dalam production. Maka, trained model harus di ekspor atau dump sebagai file model. Module yang akan digunakan dibawah adalah `joblib`.

### Dumping Model Machine Learning menjadi file `joblib`

In [16]:
import joblib

joblib.dump(model, 'iris_classifier_knn.joblib')

['iris_classifier_knn.joblib']

### Loading Model Machine Learning dari file `joblib`

In [17]:
production_model = joblib.load('iris_classifier_knn.joblib')

# Data Preprocessing

## Sample Data

In [21]:
import numpy as np
from sklearn import preprocessing

sample_data = np.array([[2.1, -1.9, 5.5],
                        [-1.5, 2.4, 3.5],
                        [0.5, -7.9, 5.6],
                        [5.9, 2.3, -5.8]])

sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

In [22]:
sample_data.shape

(4, 3)

## Binarisation

Teknik data preprocessing pertama yaitu Binarisation. Tujuan utama dari teknik ini adalah untuk menghasilkan suatu data yang terdiri dari dua (2) nilai numerik saja yaitu 0 dan 1.

In [23]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

Misalnya pada kasus ini, dari dataset yang telah dibuat, terdapat kebutuhan untuk mengkonversi setiap nilai numerik yang lebih besar dari `0.5 menjadi 1` dan `sisanya dikonvesi menjadi 0`.

In [24]:
preprocessor = preprocessing.Binarizer(threshold=0.5)
binarised_data = preprocessor.transform(sample_data)
binarised_data

array([[1., 0., 1.],
       [0., 1., 1.],
       [0., 0., 1.],
       [1., 1., 0.]])

## Scaling

Teknik data preprocessing yang kedua yaitu Scaling. Tujuan utama dari teknik ini adalah untuk menghasilkan angka numerik dari rentang angka tertentu.

In [25]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

Misalnya pada kasus ini, dari dataset yang telah dibuat, terdapat kebutuhan untuk mengkonversi setiap nilai numerik yang terdapat pada sample_data menjadi rentang dari 0 sampai dengan 1.

In [26]:
preprocessor = preprocessing.MinMaxScaler(feature_range=(0, 1))
preprocessor.fit(sample_data)
scaled_data = preprocessor.transform(sample_data)
scaled_data

array([[0.48648649, 0.58252427, 0.99122807],
       [0.        , 1.        , 0.81578947],
       [0.27027027, 0.        , 1.        ],
       [1.        , 0.99029126, 0.        ]])

Proses fitting dan transform pada scikit learn dapat disatukan menggunakan method `fit_transform`.

In [27]:
scaled_data = preprocessor.fit_transform(sample_data)
scaled_data

array([[0.48648649, 0.58252427, 0.99122807],
       [0.        , 1.        , 0.81578947],
       [0.27027027, 0.        , 1.        ],
       [1.        , 0.99029126, 0.        ]])

## Normalisation

Tujuan utama dari teknik ini adalah untuk melakukan normalisasi pada data numerik yang terdapat pada sample_data.

### L1 Normalisation : Least Absolute Deviations

In [28]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

In [30]:
l1_normalised_data = preprocessing.normalize(sample_data, norm='l1')
l1_normalised_data

array([[ 0.22105263, -0.2       ,  0.57894737],
       [-0.2027027 ,  0.32432432,  0.47297297],
       [ 0.03571429, -0.56428571,  0.4       ],
       [ 0.42142857,  0.16428571, -0.41428571]])

### L2 Normalisation : Least Squares

In [31]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

In [32]:
l2_normalised_data = preprocessing.normalize(sample_data, norm='l2')
l2_normalised_data

array([[ 0.33946114, -0.30713151,  0.88906489],
       [-0.33325106,  0.53320169,  0.7775858 ],
       [ 0.05156558, -0.81473612,  0.57753446],
       [ 0.68706914,  0.26784051, -0.6754239 ]])