# 03 - Machine Learning Workflow dengan Scikit Learn

## Persiapan Dataset

### Load Sample Dataset : Iris Dataset

In [1]:
from sklearn.datasets import load_iris

iris = load_iris()

X = iris.data
y = iris.target

### Splitting Dataset : Training and Testing Set
- Dataset akan displit menjadi Training dan Testing yang difasilitasi oleh Scikit Learn.
- Parameter 1 = Sekumpulan nilai featurenya.
- Parameter 2 = Sekumpulan nilai targetnya.
- Parameter 3 = Ukuran dari Testing setnya yang bernilai 0.4 yang berarti testing set akan memiliki proporsi 40% dari total keseluruah dataset dan sisanya akan menempati pada Training set.
- Parameter 4 = Untuk proses pengacakan.

In [9]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.4,
                                                    random_state=1)

## Training Model
- Model machine learning dibentuk dari class yang dikenal istilah estimator.
- estimator memilik dua method yaitu `fit()` dan `predict()`
- `fit()` untuk melakukan training model.
- `predict()` untuk melakukan estimasi/prediksi dengan memanfaatkan trained model.

In [10]:
from sklearn.neighbors import KNeighborsClassifier

model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)

KNeighborsClassifier(n_neighbors=3)

## Evaluasi model
- Training set digunakan untuk melakukan Training model
- Testing set digunakan untuk melakukan evaluasi atau testing performa dari model yang kita training sebelumnya.
- Matrix yang akan digunakan untuk melakukan evaluasi yaitu `accuracy_score`.
- nilai akurasi dari model kita adalah 98% karena hasil nya yaitu 0.983333333

In [11]:
from sklearn.metrics import accuracy_score

y_pred = model.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print(f'Accuracy: {acc}')

Accuracy: 0.9833333333333333


## Pemanfaatan Trained Model
- Setelah Trained model dinilai cukup baik maka model yang telah ditrained ini dapat digunakan prediksi pada data baru.
- Pada data baru hanya memiliki nilai feature.
- data baru terdiri dari 2 baris dimana setaip barisnya terbagi dalam 4 nilai feature.
- konteks dataset iris memang terdapat 4 buah features.
- lalu data baru akan dilakukan prediksi.
- dari hasil prediksi memiliki arti untuk baris 1 diprediksi memiliki nilai target 1 dan baris ke 2 diprediksi memiliki target 2.

In [12]:
data_baru = [[5, 5, 3, 2], 
             [2, 4, 3, 5]]

preds =  model.predict(data_baru)
preds

array([1, 2])

In [13]:
pred_species = [iris.target_names[p] for p in preds] 
print(f'Hasil Prediksi: {pred_species}')

Hasil Prediksi: ['versicolor', 'virginica']


## Dump & Load Trained Model
- untuk Mengeksport atau kita dump menjadi satu file model.

### Dumping Model Machine Learning menjadi File `Joblib`

In [None]:
import joblib

joblib.dump(model, 'iris_classifier_knn.joblib')

### Loading Model Machine Learning menjadi File `Joblib`

In [None]:
production_model = joblib.load('iris_classifier_knn.joblib')