## SKLearn 03 | Machine Learning Workflow dengan Scikit Learn | Belajar Machine Learning Dasar

# 03 Machine Learning Workflow dengan Scikit Learn

Materi Pembelajaran dikutip dari sumber: https://www.youtube.com/watch?v=tiREcHrtDLo

## Persiapan Dataset

### Load Sample Dataset: Iris Dataset

In [1]:
from sklearn.datasets import load_iris

iris = load_iris()
# untuk memanggil dataset yang ditampung dalam variable bernama iris

X = iris.data
y = iris.target

### Splitting Dataset: Training & Testing Set

In [2]:
from sklearn.model_selection import train_test_split
# untuk melakukan splitting untuk training dan testing set pada dataset iris

X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.4,
                                                    random_state=1)

# parameter pertama adalah sekumpulan features
# parameter kedua adalah sekumpulan nilai targetnya
# parameter ketiga adalah ukuran untuk testing setnya, dan untuk kasus kali ini adalah 0.4 artinya testing set akan memiliki 40% dari keseluruhan total dataset
# parameter keempat untuk melakukan random set agar tetap konsisten

## Training Model

   + Pada Scikit Learn, model machine learning dibentuk dari class yang dikenal dengan istilah __estimator.__
   + Setiap estimator akan mengimplementasikan dua method utama, yaitu fit() dan predict().
   + Method fit() digunakan untuk melakukan training model.
   + Method predict() digunakan untuk melakukan estimasi/prediksi dengan 
     memanfaatkan trained model.

In [3]:
from sklearn.neighbors import KNeighborsClassifier
# untuk import model / estimator class

model = KNeighborsClassifier(n_neighbors=3)
# untuk membentuk objek dari KNeighborsClassifier

model.fit(X_train, y_train)

KNeighborsClassifier(n_neighbors=3)

Membentuk Objek dari KNeighborsClassifier

+ Untuk membentuk objek dari KNeighborsClassifier membutuhkan 1 buah parameter yaitu n_neighbors yang berasal dari    KNeighborsClassifier
+ Dan parameternya harus ditentukan jumlah neighborsnya, untuk kasus kali ini jumlahnya adalah 3
+ Objek yang telah terbentuk akan ditampung dalam variable model

Objek model yang telah dibentuk akan ditraining menggunakan method fit. Proses training akan memanfaatkan training set, karena itu dipanggil X_train dan y_train

+ X_train = berisi sekumpulan nilai features untuk training set
+ y_train = berisi sekumpulan nilai target untuk training set

Setelah model dijalankan maka dikenal sebagai train model / model yang telah di training

## Evaluasi Model

In [4]:
from sklearn.metrics import accuracy_score
# metrics yang digunakan kali ini adalah accuracy
# untuk melakukan evaluasi, maka perlu mengimport accuracy_score

y_pred = model.predict(X_test)
# untuk melakukan prediksi terhadap nilai features yang ada didalam testing dataset
# hasil dari prediksi yang dilakukan ditampung dalam variable y_pred

acc = accuracy_score(y_test, y_pred)
print(f'Accuracy: {acc}')

Accuracy: 0.9833333333333333


+ Accuracy_score untuk melakukan evaluasi
+ Hasil nilai dari accuracy akan ditampung dalam variable acc
+ Dalam kasus ini accuracy yang didapatkan adalah 0.9833333333333333 artinya nilai accuracy model ini ialah 98% (sangat baik)
+ Proses evaluasi akan membandingkan nilai target (y_test) dengan nilai prediksi (y_pred) dengan menggunakan accuracy_score

## Pemanfaatan Trained Model

Trained model dinilai cukup baik berdasarkan hasil evaluasi, maka model yang telah di training dapat digunakan untuk memprediksi data baru.

In [5]:
data_baru = [[5, 5, 3, 2],
             [2, 4, 3, 5]]
# untuk membentuk dataset baru

preds = model.predict(data_baru)
preds 
#  untuk memanggil / menampilkan hasil

array([1, 2])

+ Data baru hanya memiliki sekumpulan nilai features tetapi tidak memiliki nilai target. Karena itu dimanfaatkan trained model sebelumnya untuk melakukan prediksi nilai target dari sekumpulan nilai features yang ada.
+ Dataset terdiri dari 2 row / baris, dimana setiap instance atau baris terbagi dalam 4 nilai features.
+ Akan menghasilkan array([1, 2]) dimana baris pertama memiliki prediksi nilai target 1 dan baris kedua memiliki prediksi nilai target 2.

In [6]:
pred_species = [iris.target_names[p] for p in preds]
print(f'Hasil Prediksi: {pred_species}')

Hasil Prediksi: ['versicolor', 'virginica']


+ Nilai target 1 dan 2 perlu dikonfirmasi dengan target namesnya, perlu melakukan proses untuk memanggil target names yang dimapping dengan hasil prediksi.
+ Index 1 : versicolor
+ Index 2 : virginica

## Dump & Load Trained Model

### Dumping Model Machine Learning menjadi file joblib

In [7]:
import joblib
# perlu di import dahulu untuk menggunakannya

joblib.dump(model, 'iris_classifier_knn.joblib')
# untuk melakukan proses dumping / loading model machine learning

['iris_classifier_knn.joblib']

+ joblib.dump membutuhkan 2 parameter yaitu trained model yang perlu di dump dan nama file joblib
+ Hasil : file iris_classifier_knn.joblib

### Loading Model Machine Learning dari file joblib

In [8]:
production_model = joblib.load('iris_classifier_knn.joblib')
# untuk memanggil file joblib yang diinginkan menggunakan joblib.load() dan diikuti dengan nama file joblib yang ingin di load

+ Ketika sudah di load maka dihasilkan machine learning model
+ Machine learning model ditampung dalam variable production_model
+ production_model dapat digunakan untuk memprediksi data baru yang ditemui di production