# 03 Machine Learning Workflow dengan Scikit Learn

## Persiapan Dataset

### Load Sample Dataset: Iris Dataset

In [1]:
from sklearn.datasets import load_iris

iris = load_iris()

X = iris.data
y = iris.target

Code diatas merupakan proses import dan sekaligus persiapan dataset dengan menggunakan dataset yang telah disediakan oleh scikitlearn yaitu menggunakan iris dataset

### Splitting Dataset: Training & Testing Set

In [2]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.4,
                                                    random_state=1)

Code diatas merupakan proses splitting dataset yang dibagi menjadi training set dan testing set. Train test split ini akan menampilkan 4 kumpulan nilai yang harus kita tampung kedalam 4 buah variable yaitu X_train, X_test, y_train, y_test.

## Training Model

* Pada Scikit Learn, model machine learning dibentuk dari class yang dikenal dengan istilah **estimator**
* Setiap estimator akan mengimplementasikan dua method utama, yaitu fit() dan predict().
* Method fit() digunakan untuk melakukan training model.
* Method predict() digunakan untuk melakukan estimasi/prediksi dengan memanfaatkan trained model.

In [3]:
from sklearn.neighbors import KNeighborsClassifier

model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)

KNeighborsClassifier(n_neighbors=3)

Code diatas menggunakan KNeighborsClassifier sebagai machine learning model. Parameter n_neighbors digunakan untuk proses pembentukan objek model, parameter ini dibutuhkan karena objek model yang akan dibentuk ini berasal dari KNeighborsClassifier dimana diperlukan untuk menspesifikasikan jumlah neighbors nya.

## Evaluasi Model

In [4]:
from sklearn.metrics import accuracy_score

y_pred = model.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print(f'Accuracy: {acc}')

Accuracy: 0.9833333333333333


Code diatas menggunakan sccuracy sebagai metrics. setelah proses import selesai selanjutnya adalah melakukan prediksi terhadap nilai features yang ada didalam testing dataset.

## Pemanfaatan Trained Model

In [5]:
data_baru = [[5, 5, 3, 2], 
             [2, 4, 3, 5]]

preds =  model.predict(data_baru)
preds

array([1, 2])

Berbeda dengan testing set, pada data baru hanya memiliki sekumpulan nilai features tetapi tidak memiliki nilai target.
Dataset terdiri dari 2 row/baris, dimana setiap baris terbagi dalam 4 nilai features.
Hasil prediksi nya didapatkan [1, 2] artinya nilai yang pertama dengan nilai features [5, 5, 3, 2] ini diprediksi memiliki nilai target 1 sedangkan untuk nilai yang kedua dengan nilai features [2, 4, 3, 5] ini diprediksi untuk memiliki nilai target 2.

In [6]:
pred_species = [iris.target_names[p] for p in preds] 
print(f'Hasil Prediksi: {pred_species}')

Hasil Prediksi: ['versicolor', 'virginica']


Code diatas bisa dikatakan bahwa untuk data yang pertama dengan nilai features [5, 5, 3, 2] ini diprediksi masuk kedalam klasifikasi spesies iris *versicolor* sedangkan untuk daya yang kedua dengan nilai features [2, 4, 3, 5] ini diprediksi masuk kedalam kategori spesies iris *virginica*.

## Dump & Load Trained Model

### Dumping Model Machine Learning menjadi file joblib

In [7]:
import joblib

joblib.dump(model, 'iris_classifier_knn.joblib')

['iris_classifier_knn.joblib']

Train model perlu kita export/dump sebagai suatu file model menggunakan joblib. Joblib.dump membutuhkan 2 parameter yaitu trained model yang perlu kita dumb dan nama file joblib.

### Loading Model Machine Learning dari file joblib

In [8]:
production_model = joblib.load('iris_classifier_knn.joblib')

Maching learning model ditampung dalam nilai production_model. Lalu production_model dapat digunakan untuk memprediksi data baru yang ditemui di production.