# 03 Machine Learning Workflow dengan Scikit Learn

## Persiapan Dataset

Rangkuman Pembelajaran dikutip dari https://www.youtube.com/watch?v=tiREcHrtDLo

#### Load Sample Dataset: Iris Dataset

In [3]:
from sklearn.datasets import load_iris

iris = load_iris()

X = iris.data
y = iris.target

Untuk melakukan Load pada Sample Dataset pada Iris Dataset : 
1. Pertama-tama kita perlu melakukan import load_iris dari sklearn.datasets
2. Kemudian kita panggil load_iris dengan menampungnya di satu variabel yaitu iris
3. Berikutnya kita akan extract beberapa nilai features dan nilai target 
4. Nilai features kita tampung ke dalam variabel x
5. Nilai target kita tampung ke dalam variabel y

#### Splitting Dataset: Training & Testing Set

In [2]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.4,
                                                    random_state=1)

- Parameter pertama yakni x merupakan sekumpulan nilai features.
- Parameter kedua yakni y merupakan sekumpulan nilai target.
- Parameter ketiga yakni test_size merupakan ukuran testing set (saat ini terlihat test_sizenya bernilai 0.4, berarti testing set memiliki proposi 40% dari total keseluruhan dataset sedangkan training set memiliki proposi 60%).
- Parameter keempat yakni random_state yang akan digunakan yaitu 1.

## Training Model

- Pada Scikit Learn, model machine learning dibentuk dari class yang dikenal dengan istilah **estimator**.
- Setiap estimator akan mengimplementasikan dua method utama, yaitu `fit()` dan `predict()`.
- Method `fit()` digunakan untuk melakukan training model.
- Method `predict()` digunakan untuk melakukan estimasi/prediksi dengan memanfaatkan trained model.

Teknik yang digunakan dalam Training Model adalah dengan Machine Learning yakni pendekatan K Nearest Neighbors

In [4]:
from sklearn.neighbors import KNeighborsClassifier

model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=3, p=2,
                     weights='uniform')

- Pembentukan objek ini membutuhkan sebuah parameter yaitu n_neighbors. Parameter ini dibutuhkan karena objek yang ingin dibentuk berasal dari Klasifikasi K-Nearest Neighbors dan jumlah tetangganya perlu dispesifikasikan.
- Objek model yang terbentuk akan ditampung dalam variabel model.
- Model akan ditraining dengan method fit().
- Proses training akan menggunakan training set (x_train, y_train).
- Model yang sudah ditraining menjadi trained model.

## Evaluasi Model

Testing Set digunakan untuk melakukan proses evaluasi atau testing performa dari model yang ditraining sebelumnya.

In [4]:
from sklearn.metrics import accuracy_score

y_pred = model.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print(f'Accuracy: {acc}')

Accuracy: 0.9833333333333333


- Accuracy_score merupakan salah satu metrics untuk melakukan proses evaluasi dari suatu model.
- Tahap ini melakukan prediksi terhadap nilai features(x_test) yang ada dalam testing dataset.
- Hasil prediksi akan ditampung dalam variable y_pred.
- Proses evaluasi akan membandingan nilai target (y_test) dengan nilai prediksi (y_pred) menggunakan accuracy_score.
- Nilai accuracy ditampung dalam variable acc.
- Dalam kasus ini accuracy yang diperoleh 0.9833333333333333 yang berarti nilai accuracy dari model ini adalah 98% dan kesimpulannya nilai dari accuracynya sangat baik.

## Pemanfaatan Trained Model

Jika trained model dinilai cukup baik berdasarkan hasil evaluasi, maka model yang di training tersebut dapat digunakan untuk memprediksi data baru.

In [5]:
data_baru = [[5, 5, 3, 2], 
             [2, 4, 3, 5]]

preds =  model.predict(data_baru)
preds

#model.predict merupakan method untuk mempredict data barunya

array([1, 2])

- Data baru hanya memiliki sekumpulan nilai features namun tidak untuk nilai target. Maka dimanfaatkanlah trained model sebelumnya untuk melakukan prediksi dari sekumpulan nilai features yang ada.
- Dataset terdiri dari 2 instances/row/baris, dimana setiap baris terbagi dalam 4 nilai features.
- nilai pertama adalah [5,5,3,2]
- nilai kedua adalah [2,4,3,5] 
- Dataset tersebut akan menghasilkan array([1, 2]) dimana baris pertama memiliki prediksi nilai target 1 dan baris kedua memiliki prediksi nilai target 2.
- Nilai 1 dan 2 perlu dikonfirmasikan dengan target namesnya. 

In [6]:
pred_species = [iris.target_names[p] for p in preds] 
print(f'Hasil Prediksi: {pred_species}')

#variabel penampung pred_species berfungsi memanggil target names yang kita mappingkan dengan nilai hasil prediksi. 

Hasil Prediksi: ['versicolor', 'virginica']


Kesimpulan Hasil Prediksi
Array 1 / Data pertama [5,5,3,2] diprediksi merupakan klasifikasi iris spesies versicolor
Array 2 / Data kedua [2,4,3,5] diprediksi merupakan klasifikasi iris spesies virginica

## Dump & Load Trained Model

#### Dumping Model Machine Learning menjadi file `joblib`

In [5]:
import joblib

joblib.dump(model, 'iris_classifier_knn.joblib')

['iris_classifier_knn.joblib']

Proses joblib.dump membutuhkan 2 parameter : 
1. Parameter Pertama adalah model yang merupakan train model yang akan kita dump
2. Parameter kedua adalah nama file joblibnya

Setelah dieksekusi maka akan terbentuk file bernama iris_classifier_knn dengan format file joblib.

#### Loading Model Machine Learning dari file `joblib`

In [6]:
production_model = joblib.load('iris_classifier_knn.joblib')

Hasil dari load adalah Machine Learning model yang sudah kita training sebelumnya. 