# 03 Machine Learning Workflow dengan Scikit Learn

## Persiapan Dataset

#### Load Sample Dataset: Iris Dataset

In [1]:
from sklearn.datasets import load_iris

iris = load_iris()

X = iris.data
y = iris.target

- Variabel X untuk menampung nilai features
- Variabel y untuk menampung nilai target

#### Splitting Dataset: Training & Testing Set

In [2]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.4,
                                                    random_state=1)

- Parameter X adalah sekumpulan nilai features
- Parameter y adalah sekumpulan nilai target
- Parameter test adalah ukuran dari testing set
- test_size=0.4 berarti testing set memiliki 40% dari total keseluruhan dataset
- training set akan menempati proporsi 60%
- random_state=1 digunakan untuk proses pengacakan

## Training Model

- Pada Scikit Learn, model machine learning dibentuk dari class yang dikenal dengan istilah estimator.
- Setiap estimator akan mengimplementasikan dua method utama, yaitu fit() dan predict().
- Method fit() digunakan untuk melakukan training model.
- Method predict() digunakan untuk melakukan estimasi/prediksi dengan memanfaatkan trained model.

In [4]:
from sklearn.neighbors import KNeighborsClassifier

model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)

KNeighborsClassifier(n_neighbors=3)

- KNeighborsClassifier sebagai Machine Learning Model
- objek model ditraining dengan menggunakan method fit (model.fit)

## Evaluasi Model

In [5]:
from sklearn.metrics import accuracy_score

y_pred = model.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print(f'Accuracy: {acc}')

Accuracy: 0.9833333333333333


- accuracy sebagai matrix untuk proses evaluasi
- variabel y_pred menampung hasil prediksi
- Proses evaluasi membandingkan nilai target yang terdapat pada variabel y_test dibandingkan dengan nilai prediksi yang ditampung ke dalam variabel y_pred

## Pemanfaatan Trained Model

In [6]:
data_baru = [[5, 5, 3, 2], 
             [2, 4, 3, 5]]

preds =  model.predict(data_baru)
preds

array([1, 2])

- Terdiri dari 2 baris
- Setiap baris terbagi dalam 4 nilai feature
- variabel preds untuk menampung hasil prediksi
- Baris 1 diprediksi memiliki nilai target 1
- Baris 2 diprediksi memiliki nilai target 2

In [7]:
pred_species = [iris.target_names[p] for p in preds] 
print(f'Hasil Prediksi: {pred_species}')

Hasil Prediksi: ['versicolor', 'virginica']


- Baris 1 diprediksi masuk dalam kategori versicolor
- Baris 2 diprediksi masuk dalam kategori verginica

## Dump & Load Trained Model

#### Dumping Model Machine Learning menjadi file joblib

In [8]:
import joblib

joblib.dump(model, 'iris_classifier_knn.joblib')

['iris_classifier_knn.joblib']

- Proses joblib membutuhkan 2 parameter
- Parameter pertama adalah train model yang akan di dump
- Parameter kedua adalah nama file joblib
- Selanjutnya menempatkan file joblib ke server yang ada di production

#### Loading Model Machine Learning dari file joblib

In [9]:
production_model = joblib.load('iris_classifier_knn.joblib')