# Persiapan Dataset

## Import Sample Iris Dataset
* Kita akan menggunakan iris dataset dengan mengimport load_iris dari sklearn.datasets
* Memanggil iris dataset dengan load_iris() yang akan ditampung oleh variabel iris
* variabel X akan menapung iris.data sedangkan y akan menapung iris.target

In [3]:
from sklearn.datasets import load_iris

iris = load_iris()

X = iris.data
y = iris.target

## Splitting Dataset : Training & Testing Set

In [4]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.4,
                                                    random_state=1)

## Training Model

* Pada Scikit Learn, model machine learning di bentuk dari class yang dikenal dengan istilah __estimator__.
* Setiap estimator akan mengimplementasikan dua method utama, yaitu *fit()* dan *predict()*.
* Method *fit()* digunakan untuk melakukan training model.
* Method *predict()* digunakan untuk melakukan estimasi/prediksi dengan memanfaatkan trained model.

Kita akan menggunakan KNeighboresClassifier sebagai machine learning model, model ini akan kita trainee dengan memanfaatkan training set yang sudah di persiapkan sebelumnya

* Pertama mengimport modelnya yang dimana model machine learning yang digunakan adalah KNeighboresClassifier
* Lalu akan membentukn objek dari klass KNeighboresClassifier 
	- proses pembentukan objek membutuhkan satu parameter yaitu n_neighbors karena objek model yang akan dibentuk berasal dari KNeighboresClassifier yang mana akan menspesifikasikan jumlah tetangganya dalam kasus ini akan di set jumlah neighbors nya 3
	- Objek model yang terbentuk akan di tampung ke dalam variable model 
	- Lalu objek model akan ditraining dengan menggukanakan metode fit proses training ini yang akan memanfaatkan traing set maka kita akan memanggil X_train dan y_train
	- X_train = berisi sekumpulan nilai feautures untuk training set
	- y_train = berisi sekumpulan nilai target untuk training set
		

In [7]:
from sklearn.neighbors import KNeighborsClassifier

model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)

KNeighborsClassifier(n_neighbors=3)

# Evakuasi Model

Untuk melakukan proses evaluasi terdapat beberapa matriks yang dapat digunakan salah satunya adalah accuracy 
* langkah pertama yang dapat kita lakukan adalah dengan mengimport martics accuracy_score dari sklearn.metricks 
* lalu kita akan melakukan prediksi terhadap nilai feautures yang ada didalam testing dataset dengan memanggil model.predict(X_test) lalu hasil nya akan di tampung di y_pred 
* pada proses evaluasi ini akan membandingkan nilai target yang terdapat dalam variable y_tes dibandingkan dengan nilai prediksi yang ditampung ke dalam variable y_pred 
* Menampilkan accuracy_score. untuk kali ini accuracy score yang dihasilkan adalah 98% atau 0.9833333333333333

In [9]:
from sklearn.metrics import accuracy_score

y_pred = model.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print(f'Accuracy: {acc}')

Accuracy: 0.9833333333333333


## Pemanfaatan Trained Model

Setelah mendapatkan hasil evaluasi yang cukup baik maka model yang sudah ditraining ini dapat di gunakan untuk melakukan prediksi terhdap data baru. Dengan menggunakan model yang sudah ditraining sebelumnya kita dapat melakukan prediksi nilai target dari sekumpulan nilai feautures yang ada.

* Membuat dataset baru yang terdiri dari sekumpulan nilai feautures.
* Melakukan prediksi terhadap nilai features data_baru dengan memanggil model.predict() yang hasilnya akan ditampung oleh variabel preds.

* Menampilkan hasil prediksi dari data_baru yang akan menghasilkan array([1, 2]). Artinya bahwa untuk baris pertama dengan nilai features [5, 5, 3, 2] diprediksi memiliki nilai target 1 dan baris kedua dengan nilai features [2, 4, 3, 5] diprediksi memiliki nilai target 2.

In [10]:
data_baru = [[5, 5, 3, 2],
             [2, 4, 3, 5]]

preds = model.predict(data_baru)
preds

array([1, 2])

* Untuk mengetahui target name dari hasil prediksi maka kita memanggil [iris.target_names[p] for p in preds] yang menghasilkan ['versicolor', 'virginica']

In [11]:
pred_species = [iris.target_names[p] for p in preds]
print(f'Hasil Prediksi: {pred_species}')

Hasil Prediksi: ['versicolor', 'virginica']


## Dump & Load Trained Model

- Trained model yang sudah siap akan kita export menjadi suatu file model dengan menggunakan modul joblib 
- Proses dumping model dengan cara memanggil joblib.dump() yang di sertai 2 parameter
    * Yang pertama yaitu trained model yang akan di dumping 
    * yang kedua yaitu nama file yang akan dihasilkan dari proses dumping terdebut

In [12]:
import joblib

joblib.dump(model, 'iris_classifier_knn.joblib')

['iris_classifier_knn.joblib']

- kita akan meload file joblib yang dihasilkan sebelumnya menjadi machine learning dengan menggunakan joblib.load() yang di ikuti oleh nama file yang akan di load

In [14]:
production_model = joblib.load('iris_classifier_knn.joblib')