# 03 Mengenal Machine Learning Workflow dengan Scikit Learn

## Persiapan Dataset

### Load Sample Dataset: Iris Dataset

**Iris Dataset** adalah kumpulan dataset yang menampilkan data observasi 3 spesies anggrek dengan jumlah observasi tiap spesies yaitu sebanyak 50 observasi. Kemudian diperkenalkan oleh ahli statistik, ahli eugenis, dan ahli biologi **Ronald Fisher** tahun 1936 yang digunakan sebagai contoh analisis diskriminan linear.

Source : https://bookdown.org/moh_rosidi2610/Rcmdr-book/summarize.html
Source : https://en.wikipedia.org/wiki/Iris_flower_data_set

In [1]:
from sklearn.datasets import load_iris

iris = load_iris()

X = iris.data
y = iris.target

#### Splitting Dataset: Training & Testing Set

Splitting Dataset akan displit ke Training dan Testing Set yang telah tersedia di scikitlearn untuk melakukan splitting Training & Testing Set

In [2]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.4,
                                                    random_state=1)

Untuk melakukan splitting seperti diatas lakukan from sklearn.model_selection import train_test_split. Berikutnya lakukan proses train_test_split yang ditampung dalam variabel X_train, X_test, y_train, y_test dengan 4 parameter yaitu :

- X sebagai kumpulan **features**.
- y sebagai kumpulan nilai **target**.
- test_size=0.4 sebagai ukuran dari **testing set** sebesar 0.4 yang memiliki proporsi 40% dari keseluruhan Dataset. Sementara proporsi **training set** memiliki sebesar 60%.
- random_state=1 sebgai proses pengacakan 1

## Training Model

- Pada Scikit Learn, model machine learning dibentuk dari class yang dikenal dengan istilah **estimator**.
- Setiap estimator akan mengimplementasikan dua method utama, yaitu `fit()` dan `predict()`.
- Method `fit()` digunakan untuk melakukan training model.
- Method `predict()` digunakan untuk melakukan estimasi/prediksi dengan memanfaatkan trained model.

In [3]:
from sklearn.neighbors import KNeighborsClassifier

model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)

KNeighborsClassifier(n_neighbors=3)

Tahap selanjutnya akan menggunakan KNeighborsClassifier sebagai `Machine Learning Model`. Model ini difungsikan untuk memanfaatkan training set.


- Untuk membentuk Object dari Class KNeighborsClassifier lakukan `model = KNeighborsClassifier(n_neighbors=3)` dengan memberikan nilai 3 yang ditampung dalam variabel `model`

- Model tersebut akan ditraining dalam method `model.fit(X_train, y_train)` yang berisi sekumpulan nilai X untuk nilai `features` dan y untuk nilai `target` dalam training set

## Evaluasi Model

Sebelumnya sudah melakukan pembagian atas `Training Dataset` yaitu **Training Set** dan **Testing Set**.
- `Testing Set` digunakan untuk melakukan proses training model.
- `Testing Set` digunakan untuk melakukan proses evaluasi atau testing performa dari model yang sudah ditraining sebelumnya.

Terdapat beberapa `metrics` untuk melakukan evaluasi dan kali ini menggunakan `acuracy` sebagai metricnya.

In [4]:
from sklearn.metrics import accuracy_score

y_pred = model.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print(f'Accuracy: {acc}')

Accuracy: 0.9833333333333333


Setelah melakukan import dengan `from sklearn.metrics import accuracy_score`, berikutnya akan melakukan prediksi (`predict`) dari accuracy dengan `y_pred = model.predict(X_test)` dan ditampung ke variabel acc `acc = accuracy_score(y_test, y_pred)`

## Pemanfaatan Trained Model

Setelah Trained Model menghasilkan hasil yang cukup baik, maka model yang akan di trained dapat digunakan untuk melakukan prediksi (`predict`) terhadap data baru yang hanya memiliki nilai **featrures** tetapi tidak memiliki nilai **traget** seperti script dibawah ini

In [5]:
data_baru = [[5, 5, 3, 2], 
             [2, 4, 3, 5]]

preds =  model.predict(data_baru)
preds

array([1, 2])

`data_baru` row `[5, 5, 3, 2]` diprediksi memiliki nilai `1` dan row kedua `[2, 4, 3, 5]` diprediksi memiliki nilai `2`

Selanjutnya dengan nilai `1` dan `2` perlu untuk dikonfirmasi dengan `target_names` seperti script dibawah.

In [6]:
pred_species = [iris.target_names[p] for p in preds] 
print(f'Hasil Prediksi: {pred_species}')

Hasil Prediksi: ['versicolor', 'virginica']


Untuk data_baru pertama `[5, 5, 3, 2]` diprediksi masuk kedalam spesifikasi iris versi `versicolor`. Sedangkan untuk insert yang kedua dengan nilai features `[2, 4, 3, 5]` diprediksi masuk kedalam spesifikasi iris versi `virginica`.

## Dump & Load Trained Model

#### Dumping Model Machine Learning menjadi file `joblib`

`joblib` adalah modul python yang berguna untuk menyediakan fungsionalitas pemrograman paralel.

Source : https://www.codepolitan.com/5-modul-python-yang-wajib-anda-coba

In [7]:
import joblib

joblib.dump(model, 'iris_classifier_knn.joblib')

['iris_classifier_knn.joblib']

`joblib.dump(model, 'iris_classifier_knn.joblib')` proses dari `joblib.dump` ini membutuhkan 2 parameter. Parameter pertama ada dumb yaitu `model` dan parameter kedua adalah file joblib yaitu `'iris_classifier_knn.joblib'`. Setelah melaukan demo script diatas akan muncul file baru dengan nama file `iris_classifier_knn.joblib`.

#### Loading Model Machine Learning dari file `joblib`

Tahap selanjutnya kita akan load file `joblib` Machine Learning Model yang siap untuk digunakan, yang ditampung ke dalam variabel `production_model` dengan script dibawah ini.

In [8]:
production_model = joblib.load('iris_classifier_knn.joblib')