# Machine Learning Workflow dengan Scikit Learn
## Persiapan Dataset
### Load Sample Dataset: Iris Dataset
Rangkuman dan pembelajaran dikutip dari sumber: https://www.youtube.com/watch?v=tiREcHrtDLo

In [1]:
from sklearn.datasets import load_iris

iris = load_iris()

X = iris.data
y = iris.target

- Dataset ditampung dalam variable iris.
- Nilai features ditampung dalam variable x.
- Nilai target ditampung dalam variable y.

### Splitting Dataset: Training & Testing Set

In [2]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.4,
                                                    random_state=1)

- x sebagai sekumpulan nilai features.
- y sebagai sekumpulan nilai target.
- test_size sebagai ukuran testing set (kasus saat ini 0.4, berarti testing set memiliki proposi 40% dari total keseluruhan dataset sedangkan training set memiliki proposi 60%).
- random_state yang digunakan yaitu 1.

## Training Model
- Pada Scikit Learn, model machine learning dibentuk dari class yang dikenal dengan istilah estimator
- Setiap estimator akan mengimplementasikan dua method utama, yaitu fit() dan predict()
- Method fit() digunakan untuk melakukan training model
- Method predict() digunakan untuk melakukan estimasi/prediksi dengan memanfaatkan trained model


KneighborsClassifier sebagai Machine Learning Model

In [3]:
from sklearn.neighbors import KNeighborsClassifier

model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)

KNeighborsClassifier(n_neighbors=3)

- Proses pembentukan objek ini membutuhkan sebuah parameter yaitu n_neighbors. Parameter ini dibutuhkan karena objek yang ingin dibentuk berasal dari K-Nearest Neighbors Classifier dan perlu mengspesifikasikan jumlah tetangganya. 
- Objek model yang terbentuk akan ditampung pada varible model.
- Model tersebut akan ditraining dengan menggunakan method fit().
- Proses training akan menggunakan training set (x_train, y_train).
- Model yang sudah ditraining = trained model.

## Evaluasi Model

Testing set digunakan untuk melakukan proses evaluasi atau testing performa dari model yang ditraining sebelumnya.

In [4]:
from sklearn.metrics import accuracy_score

y_pred = model.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print(f'Accuracy: {acc}')

Accuracy: 0.9833333333333333


- Accuracy_score merupakan salah satu metrics untuk melakukan proses evaluasi dari suatu model.
- Tahap ini melakukan prediksi terhadap nilai features(x_test) yang ada dalam testing dataset. 
- Hasil prediksi ditampung dalam variable y_pred.
- Proses evaluasi akan membandingan nilai target (y_test) dengan nilai prediksi (y_pred) menggunakan accuracy_score. 
- Nilai accuracy ditampung dalam variable acc.
- Dalam kasus ini accuracy yang didapatkan 0.9833333333333333 yang berarti nilai accuracy dari model ini adalah 98% (sangat baik).

## Pemanfaatan Trained Model

Jika trained model dinilai cukup baik berdasarkan hasil evaluasi, maka model yang di training tersebut dapat digunakan untuk memprediksi data baru. 

In [5]:
data_baru = [[5, 5, 3, 2], 
             [2, 4, 3, 5]]

preds =  model.predict(data_baru)
preds

array([1, 2])

- Data baru hanya memiliki sekumpulan nilai features namun tidak untuk nilai target. Maka dimanfaatkanlah trained model sebelumnya untuk melakukan prediksi dari sekumpulan nilai features yang ada. 
- Dataset terdiri dari 2 row/baris, dimana setiap baris terbagi dalam 4 nilai features.
- Akan menghasilkan array([1, 2]) dimana baris pertama memiliki prediksi nilai target 1 dan baris kedua memiliki prediksi nilai target 2.

In [6]:
pred_species = [iris.target_names[p] for p in preds] 
print(f'Hasil Prediksi: {pred_species}')

Hasil Prediksi: ['versicolor', 'virginica']


- Perlu dikonfirmasi oleh target namesnya, maka dilakukan proses untuk memanggil target names yang dimapping dengan hasil prediksi.

Seperti pada catatan Week 02
- Index 1 = versicolor
- Index 2 = virginica


## Dump & Load Trained Model
### Dumping Model Machine Learning menjadi file joblib

Dumpling dan Loading menggunakan joblib.

In [7]:
import joblib

joblib.dump(model, 'iris_classifier_knn.joblib')

['iris_classifier_knn.joblib']

- Joblib.dump membutuhkan 2 parameter yaitu trained model yang perlu kita dumb dan nama file joblib.
- Hasil = file iris_classifier_knn.joblib.

### Loading Model Machine Learning dari file joblib

In [8]:
production_model = joblib.load('iris_classifier_knn.joblib')

- Ketika sudah joblib.load maka dihasilkan maching learning model.
- Maching learning model ditampung dalam nilai production_model.
- Lalu production_model dapat digunakan untuk memprediksi data baru yang ditemui di production.