# TUTORIAL 03:
## Workflow dengan Scikit-Learn

### Load Sample DatasetL: Iris Dataset

In [16]:
from sklearn.datasets import load_iris
iris = load_iris()
x = iris.data
y = iris.target

### Splitting Dataset: Training and Testing Set

In [17]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.4, random_state = 1)

### Training Model
Training disebut juga sebagai calibrasi. Dimana disetiap pengulangannya nilai dari parameter-parameter akan diubah untuk mengecilkan nilai error. 
Tahap ini dilakukan saat pembuatan model. 
- Pada Scikit-Learn, model machine learning dibentuk dari class yang dikenal dengan istilah **estimator**. 
- Setiap estimator akan mengimplementasikan dua method utama, **yaitu fit()** dan **predict()**.
- Method **fit()** digunakan untuk melakukan **training model**. 
- Method **predict()** digunakan untuk melakukan **estimasi / prediksi** dengan memanfaatkan trained model.

In [18]:
from sklearn.neighbors import KNeighborsClassifier # Menggunakan lazy learning method - K Nearest Neighbour (KNN)untuk mengklasifikasikan features
model = KNeighborsClassifier(n_neighbors = 3)      # Set jumlah neighbours, dimana kita mencoba untuk set neighbours adalah 3
model.fit(x_train, y_train)

KNeighborsClassifier(n_neighbors=3)

### Evaluasi Model
Evaluasi model atau cross validasi adalah tahapan yang dilakukan saat pembuatan model, dimana di tahap ini kita mengimitasi testing set. Pengujian diberhentikan apabila nilai dari error meningkat. 
- Testing digunakan untuk **proses evaluasi performa** dari model yang sudah ditraining sebelumnya. 

In [19]:
from sklearn.metrics import accuracy_score 
y_pred = model.predict (x_test)
acc    = accuracy_score (y_test, y_pred) # Membandingkan nilai target pada y_test dengan nilai prediksi pada y_pred
print(f'Accuracy: {acc}')                # Nilai akurasi yang diperoleh adalah 98.3% dimana dinilai sangat akurat

Accuracy: 0.9833333333333333


### Pemanfaat Trained Model
**Menggunakan trained model untuk memprediksi data baru**. Pada variable data_baru dibawah, disebutkan bahwa kita hanya memiliki nilai features, tapi tidak ada nilai target. Kita menggunakan sistem trained sebelumnya untuk mengklasifikasikan model tersebut. 

In [20]:
data_baru = [[2, 2, 3, 2],
             [2, 4, 3, 5]]

preds = model.predict(data_baru)       # Memprediksi nilai target dari nilai features
preds                                  

array([1, 2])

In [21]:
pred_species = [iris.target_names[i] for i in preds] # Memanggil jenis bunga berdasarkan klasifikasi angka
print(f'Hasil prediksi dari dataset tersebut adalah: {pred_species}')

Hasil prediksi dari dataset tersebut adalah: ['versicolor', 'virginica']


### Dump & Load Trained Model
**Dumping model** machine learning menjadi file dengan menggunakkan joblib. Dumping digunakan untuk **menyimpan machine learning kedalam satu file**, dimana kita memanggil file tersebut kembali. 


In [22]:
import joblib 
joblib.dump(model, 'iris_classifier_knn.joblib')

['iris_classifier_knn.joblib']

**Loading model** machine learning dari file joblib. **Memanggil file machine learning** dan menyimpannya pada satu variable. 

In [23]:
production_model = joblib.load('iris_classifier_knn.joblib')