# SKLearn 03 - *Machine Learning Workflow* dengan *Scikit-Learn*

## Persiapan *Dataset*

### *Load Dataset*
- Kita akan menggunakan iris dataset dengan mengimport `load_iris` dari `sklearn.datasets`
- Memanggil iris dataset dengan `load_iris()` yang akan ditampung oleh variabel `iris`
- Membuat variable `X` dan `y` yang akan menampung `iris.data` dan `iris.target`

In [2]:
from sklearn.datasets import load_iris

iris = load_iris()

X = iris.data
y = iris.target

### *Splitting Dataset: Training & Testing Set*

Sebelum melakukan proses training model, kita akan membagi dataset menjadi 2 bagian yaitu **training set** (*untuk melakukan proses training model*) dan **testing set** (*untuk melakukan proses evaluasi atau testing performa dari model yang sudah ditraining*) secara acak.
- Mengimport function `train_test_split` dari `sklearn.model_selection`
> from sklearn.model_selection import train_test_split
- Melakukan splitting dataset dengan memanggil function `train_test_split()` yang disertai dengan 4 parameter, yaitu:
    - Parameter pertama berupa featuresnya yaitu `X`
    - Parameter pertama berupa targetnya yaitu `y`
    - Paramter ketiga yang akan merepresentasikan ukuran dari testing sizenya (0<=test_size<=1). Misalkan `test_size = 0.4`, berarti proporsi dari test-setnya adalah 40% dan train-setnya adalah 60%.
    - Parameter keempat yaitu random state number yang bertujuan untuk menghasilkan proses pengacakan yang konsisten sehingga kita dapat melakukan replikasi. Pada studi kasus ini, kita akan menentukan `random_state = 1`.
- Menampung hasil dari `train_test_split()` ke dalam 4 variabel yaitu:
    - X_train menampung features untuk training set
    - X_test menampung features untuk testing set
    - y_train menampung target untuk training set
    - y_test menampung target untuk testing set

In [3]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size = 0.4,
                                                    random_state = 1)

## *Training Model*

- Tahapan selanjutnya adalah menentukan model machine learning yang akan kita gunakan
- Pada Scikit Learn, model machine learning dibentuk dari class yang dikenal dengan istilah ***estimator***.
- Setiap estimator akan mengimplementasikan dua method utama, yaitu **`fit()`** dan **`predict()`**. 
- Method **`fit()`** digunakan untuk melakukan training model.
- Method **`predict`** digunakan untuk melakukan esitimasi atau prediksi dengan memanfaatkan trained model.

Untuk kasus kali ini, kita akan mengguunakan **KNeighborsClassifier** sebagai machine learning model.
- Mengimport **KNeighborsClassifier** dari **sklearn.neighbors**
> `from sklearn.neighbors import KNeighborsClassifier`
- Membentuk object dari KNeighborsClassifier dengan menyertakan 1 buah parameter yaitu **`n_neighbors`** untuk menspesifikasikan banyak neighborsnya. Pada kasus kali ini, kita akan menentukan nilai n_neighborsnya adalah 3. Object yang terbentuk akan ditampung oleh variabel **model**.
> `model = KNeighborsClassifier(n_neighbors=3)`
- Object model yang terbentuk akan ditraining menggunakan method **`fit()`** dengan menyertakan 2 parameter.
    - `X_train` yang berisi sekumpulan nilai features untuk training set.
    - `y_train` yang berisi sekumpulan nilai target untuk training set.
> `model.fit(X_train, y_train)`

In [4]:
from sklearn.neighbors import KNeighborsClassifier

model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)

KNeighborsClassifier(n_neighbors=3)

## Evaluasi Model

Untuk melakukan evaluasi atau testing performa dari model yang telah ditraining sebelumnya, terdapat beberapa metrics yang dapat kita gunakan. Disini kita akan menggunakan **accuracy** sebagai metricsnya. 

- Mengimport metrics **accuracy_score** dari **sklearn.metrics**.
> `from sklearn.metrics import accuracy_score`
- Melakukan prediksi terhadap nilai features yang ada di testing dataset yaitu `X_test` dengan memanggil **`model.predict()`** yang hasilnya akan ditampung oleh variabel **y_pred**.
> `y_pred = model.predict(X_test)`
- Membandingkan nilai target pada testing dataset yaitu **y_test** dengan nilai target yang dihasilkan dari proses prediksi sebelumnya yaitu **y_pred**.
> `acc = accuracy_score(y_test, y_pred)`
- Menampilkan accuracy_score. Untuk kasus kali ini, accuracy_score yang dihasilkan adalah 0.9833333333333333 atau 98%.
> `print(f'Accuracy: {acc}')`

In [5]:
from sklearn.metrics import accuracy_score

y_pred = model.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print(f'Accuracy: {acc}')

Accuracy: 0.9833333333333333


## Pemanfaatan *Trained Model*
Setelah trained model dinilai cukup baik berdasarkan hasil evaluasi, maka kita dapat menggunakan model yang telah ditraining tersebut untuk melakukan prediksi terhadap data baru.
- Membuat dataset baru yang terdiri atas sekumpulan nilai features. Dataset yang dibuat terdiri dari dua baris yang setiap barisnya terdiri dari empat nilai features sesuai dengan banyak features yang dimiliki oleh dataset model.
> `data_baru = [ [5, 5, 3, 2], [2, 4, 3, 5] ]`
- Melakukan prediksi terhadap nilai features data_baru dengan memanggil **`model.predict()`** yang hasilnya akan ditampung oleh variabel **preds**.
> `preds = model.predict(data_baru)`
- Menampilkan hasil prediksi dari data_baru yang akan menghasilkan `array([1, 2])`. Artinya bahwa untuk baris pertama dengan nilai features `[5, 5, 3, 2]` diprediksi memiliki nilai target 1 dan baris kedua dengan nilai features `[2, 4, 3, 5]` diprediksi memiliki nilai target 2.

In [6]:
data_baru = [[5, 5, 3, 2], 
             [2, 4, 3, 5]]

preds = model.predict(data_baru)
preds

array([1, 2])

- Untuk mengetahui target names dari hasil prediksi, kita dapat memanggil **`[iris.target_names[p] for p in preds] `** yang akan menghasilkan `['versicolor', 'virginica']` yang artinya bahwa untuk baris pertama dengan nilai features [5, 5, 3, 2] diprediksi masuk ke dalam species versicolor dan baris kedua dengan nilai features [2, 4, 3, 5] diprediksi masuk ke dalam species virginica.

In [7]:
pred_species = [iris.target_names[p] for p in preds] 
print(f'Hasil Prediksi: {pred_species}')

Hasil Prediksi: ['versicolor', 'virginica']


## *Dump & Load Trained Model*

### *Dumping Model Machine Learning* menjadi file `joblib`
- Trained model yang sudah siap akan kita export sebagai suatu file model. Untuk melakukan hal tersebut, kita dapat menggunakan modul **`joblib`**.
- Langkah pertama yang harus dilakukan adalah melakukan import joblib
> `import joblib`
- Melakukan proses dumping model dengan memanggil `joblib.dump()` yang disertai oleh 2 parameter.
    - Parameter pertama yaitu trained model yang akan kita dumping.
    - Parameter kedua yaitu nama file yang akan dihasilkan dari proses dumping tersebut.
> `joblib.dump(model, 'iris_classifier_knn.joblib')`

In [8]:
import joblib

joblib.dump(model, 'iris_classifier_knn.joblib')

['iris_classifier_knn.joblib']

### *Loading Model Machine Learning* dari file `joblib`
- Kita akan me-load file joblib yang dihasilkan sebelumnya menjadi machine learning model dengan memanggil **`joblib.load()`** yang diikuti oleh 1 parameter berupa nama file yang akan diload.
> `joblib.load('iris_classifier_knn.joblib')`
- Machine Learning model tersebut akan ditampung oleh variabel `production_model`
> `production_model = joblib.load('iris_classifier_knn.joblib')`

In [9]:
production_model = joblib.load('iris_classifier_knn.joblib')