# 03 Machine Learning Workflow dengan Scikit Learn

## Persiapan Iris Dataset

### Load Sample Dataset: Iris Dataset

- Persiapan dataset adalah fase yang sangat krusial dalam machine learning yang membutuhkan paling banyak waktu dan upaya

In [1]:
from sklearn.datasets import load_iris

iris = load_iris()

X = iris.data
y = iris.target

### Splitting Dataset: Training & Testing Set

- Dibagi menjadi dua bagian, yaitu `training` & `testing` set

In [2]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.4,
                                                    random_state=1)

## Training Model

- Pada Scikit Learn, model machine learning dibentuk dari class yang dikenal dengan istilah *estimator*.
- Setiap estimator akan mengimplementasikan dua method utama, yaitu `fit()` dan `predict()`.
- Method `fit()` digunakan untuk melakukan training model.
- Method `predict()` digunakan untuk melakukan estimasi/prediksi dengan memanfaatkan trained model.
    - Kasus di bawah menggunakan `KNeighborsClassifier` sebagai machine learning model dengan memanfaatkan training set yang sudah dipersiapkan sebelumnya

In [6]:
from sklearn.neighbors import KNeighborsClassifier

model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)

KNeighborsClassifier(n_neighbors=3)

## Evaluasi Model

- Mengukur nilai accurancy dari model di atas

In [7]:
from sklearn.metrics import accuracy_score

y_pred = model.predict(X_test)
acc = accuracy_score(y_test, y_pred) # target
print(f'Accurancy: {acc}')

Accurancy: 0.9833333333333333


## Pemanfaatan Trained Model

- Setelah trained model dinilai cuku baik berdasarkan hasil evaluasi maka model yang telah ditraining dapat digunakan untuk melakukan prediksi terhadap data baru.
- Pada data baru hanya memiliki sekumpulan nilai features tetapi tidak memiliki nilai target, oleh karena itu kita akan memanfaatkan model yang sudah di training sebelumnya untuk melakukan prediksi nilai target dari sekumpulan nilai features yang ada.
    - Pada instance 1 diprediksi memiliki nilai target 1
    - Pada instance 2 diprediksi memiliki nilai target 2

In [8]:
data_baru = [[5, 5, 3, 2], # instance 1
             [2, 4, 3, 5]] # instance 2

preds = model.predict(data_baru)
preds

array([1, 2])

- Melakukan proses untuk memanggil target names yang kita mappingkan dengan nilai hasil prediksi di atas
    - Pada instance 1 diprediksi masuk ke dalam klasifikasi spesies iris versicolor
    - Pada instance 2 diprediksi masuk ke dalama klasifikasi spesies iris virginica

In [9]:
pred_species = [iris.target_names[p] for p in preds]
print(f'Hasil Prediksi: {pred_species}')

Hasil Prediksi: ['versicolor', 'virginica']


## Dump & Load Trained Model

### Dumping Model Machine Learning menjadi file `joblib`

- Trained model akan diekspor atau didump sebagai file `joblib`

In [10]:
import joblib

joblib.dump(model, 'iris_classifier_knn.joblib')

['iris_classifier_knn.joblib']

### Loading Model Machine Learning dari file `joblib`

In [12]:
production_model = joblib.load('iris_classifier_knn.joblib')