# SKLearn 03 | Machine Learning Workflow dengan Scikit-Learn | Belajar Machine Learning Dasar

##  03 Machine Learning Workflow dengan Scikit-Lear

### Persiapan Dataset

#### Load Sample Dataset : Iris Dataset

In [4]:
from sklearn.datasets import load_iris

iris = load_iris()
# untuk memanggil dataset iris yang ditampung didalam variable bernama iris

X = iris.data
y = iris.target

#### Splitting Dataset: Training & Testing Set

In [6]:
from sklearn.model_selection import train_test_split
# untuk melakukan spliting untuk training dan testing set pada dataset iris

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=1)
# parameter pertama adalah kumpulan features
# parameter kedua adalah kumpulan nilai taretnya
# parameter ketiga adalah ukuran untuk testing setnya, dan kali ini besarnya adalah 0.4 artinya testing setnya akan mengambil 40% dari total dataset
# parameter keempat adalah untuk melakukan random setnya agar konsisten

### Training Model

Setelah membentuk testing dan training set, kemudian menentukan model machine learning yang akan digunakan.

* Pada Scikit Learn, model machine learning dibentuk dari class yang dikenal dengan istilah estimator.
* Setiap estimator akan mengimplementasikan dua method utama, yaitu fit() dan predict().
* Method fit() digunakan untuk melakukan training model.
* Method predict() digunakan untuk melakukan estimasi/prediksi dengan memanfaatkan trained model (model yang sudah di training sebelumnya).

In [8]:
from sklearn.neighbors import KNeighborsClassifier
# untuk mengimport modelnya / estimator classnya
# yang akan digunakan kali ini adalah KNeighborsClassifier sebagai machine learning modelnya

model = KNeighborsClassifier(n_neighbors=3)
# untuk membentuk objek dari KNeighborsClassifier

model.fit(X_train, y_train)

KNeighborsClassifier(n_neighbors=3)

Membentuk Objek pada KNeighborsClassifier
* Untuk membentuk objek menggunakan KNeighborsClassifier membutuhkan 1 buah parameter, yaitu n_neighbors karena berasal dari KNeighborsClassifier 
* Dan parameternya harus ditentukan jumlah neighborsnya, disini ditentukan jumlahnya adalah 3
* Setelah objek model terbentuk akan ditampung dalam variable model

Objek model yang telah terbentuk ditraining menggunakan method fit. Proses training akan dilakukan menggunakan training set, karena itu dibutuhkan X_train dan y_train
* X_train = berisi sekumpulan nilai features untuk training set
* y_train = berisi sekumpulan nilai target untuk training set

Setelah model dijalankan maka model tersebut akan dikenal sebagai train model / model yang telah di training

### Evaluasi Model

In [9]:
from sklearn.metrics import accuracy_score
# metrics yang kali ini akan digunakan adalah accuracy
# digunakan untuk melakukan evaluasi, mengimport accuracy_score

y_pred = model.predict(X_test)
# untuk melakukan prediksi terhadap nilai features terhadap nilai yang terdapat pada testing set
# hasil dari prediksi yang dilakukan akan ditampung dalam variable y_pred

acc = accuracy_score(y_test, y_pred)
# untuk memanggil accuracy_score untuk melakukan evaluasi
# hasil dari accuracynya ditampung dalam variable acc
# y_test merupakan nilai target yang terdapat pada testing set

print(f'Accuracy: {acc}')
# print nilai acc / accuracynya

Accuracy: 0.9833333333333333


Training set digunakan untuk melakukan proses training model, sedangkan testing set digunakan untuk melakukan proses evaluasi / testing performa dari model yang telah ditraining sebelumnya.

Untuk melakukan testing atau evaluasi terhadap suatu model terdapat beberapa metrics yang dapat digunakan yanng telah disediakan oleh sklearn. Proses evaluasi ini tujuannya adalah untuk membandingkan nilai target yang terdapat pada variable y_test dengan nilai prediksi yang terdapat pada variable y_test. Proses evaluasi dapat dilakukan dengan bebagai cara, namun disini cara evaluasinya menggunakan accuracy score.

### Pemanfaatan Trained Model

In [12]:
data_baru = [[5, 5, 3, 2], [2, 4, 3, 5]]
# membentuk dataset yang baru
# data baru terdiri dari 2 instace / 2 baris yang masing2 terdiri dari 4 buah features

preds =  model.predict(data_baru)
# untuk melakukan prediksi terhadap nilai features yang terdapat pada data baru
# hasil prediksi tersebut akan ditampung dalam variable preds

preds
# untuk memanggil / menampilkan hasilnya

array([1, 2])

Setelah train model dianggap cukup baik berdasarkan hasil dievaluasi, maka data tersebut dapat digunakan untuk melakukan prediksi terhadap data baru. Berbeda pada testing set, pada data baru hanya terdapat sekumpulan nilai features dan tidak terdapat data target. 

Untuk mendapatkan nilai target dari data baru maka dimanfaatkan training model yang sebelumnya terlah dievaluasi untuk melakukan prediksi terhadap nilai target dari sekumpulan nilai features yang ada. 

Penjelasan hasil dari prediksi nilai features data baru:
* index pertama artinya dari instace yang pertama [5,5,3,2] diprediksi akan memiliki nilai target yaitu 1
* index kedua artinya dari instance yang kedua [2,4,3,5] diprediksi akan memiliki nilai target yaitu 2

Setelah mendapatkan prediksi nilai target, maka nilai target yang didapatkan harus dikonfirmasikan dengan nilai target_names nya. Maka perlu dilakukan pemanggilan nilai target_names yang akan dimapingkan dengan nilai hasil prediksi nilai taget yang telah didapatkan.

In [13]:
pred_species = [iris.target_names[p] for p in preds] 
print(f'Hasil Prediksi: {pred_species}')

Hasil Prediksi: ['versicolor', 'virginica']


Hasil konfirmasi nilai prediksi dengan target_names:
* prediksi nilai target pertama dari nilai features / instace yang pertama [5,5,3,2] adalah masuk ke dalam kategori versicolor
* prediksi nilai target kedua dari nilai features / instace yang pertama [2,4,5,3] adalah masuk ke dalam kategori virginica

### Dump & Load Trained Model

Train model yang telah disiapkan akan di deploy pada production. Untuk keperluan itu maka trained model perlu di export / di dump sebagai suatu file model. Untuk melakukan itu dapat digunakan module joblib.

#### Dumping Model Machine Learning menjadi file joblib

In [14]:
import joblib
# harus diimport dulu untuk menggunakannnya 

joblib.dump(model, 'iris_classifier_knn.joblib')
# untuk melakukan proeses dumping / loading model machine learningnya

['iris_classifier_knn.joblib']

Proses untuk melakukan dumping dilakukan dengan method joblib.dump dan membutuhkan 2 parameter, yaitu:
* parameter pertama = train model yang akan di dump
* parameter kedua = nama file joblibnya (pada code diatas nama file joblibnya di set sebagai "iris_classifier_knn.joblib"

Setelah code dijalankan maka akan membentuk sebuah file baru dengan nama yang telah ditentukan sebelumnya pada parameter kedua. File terebut muncul sebagai hasil dumping yang telah dilakukan terhadap model.

Setelah itu proses deployment machine learning dapat dilakukan dengan mudah, dengan menempatkan file joblib yang telah dibuat dengan menempatkannya pada sever yang ada di production. 

#### Loading Model Machine Learning dari file joblib

Pada production server akan di load file joblib yang telah dibuat sebelumnya menjadi model machine learning yang siap digunakan.

In [18]:
production_model = joblib.load('iris_classifier_knn.joblib')
# untuk memanggil file joblib yang diinginkan menggunakan joblib.load diikuti dengan nama file joblib yang ingin di load
# hasilnya ditampung kedalam variable production_model

Setelah file joblib di load maka akan menghasilkan sebuah machine learning model yang sudah di training sebelumnya. Dan production model ini dapat digunakan untuk melakukan prediksi terhadap data-data baru yang ditemui di production.