# Persiapan Dataset

# Load Sample Dataset : Iris Dataset

In [25]:
from sklearn.datasets import load_iris

iris = load_iris()

X = iris.data
y = iris.target

Salah satu frase yang paling krusial dalam machine workflow adalah persiapan dataset. Ketika kita bekerja dengan real data di lapangan,fase ini membutuhkan paling banyak waktu dan effort. Dalam kasus ini, mari kita coba menyederhankan prosesnya dengan memanfaatkan sample dataset yang sudah disediakan oleh sklearn.

Setelah dataset pada code diatas kita load, selanjutnya kita akan membagi menjadi 2 bagian yang dikenal dengan istilah splitting dataset.

# Splitting Dataset : Training & Testing Set

In [26]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.4,
                                                    random_state=1)

Dataset diatas telah kami split dan menjadi 2 bagian yaitu training set dan testing set. SkLearn memfasilitasi kita dalam proses splitting, testing, dan training suatu dataset. Kita hanya mengimport modul dan memakai 4 parameter diatas, X sebagai parameter pertama adalah sekumpulan nilai features nya, Y sebagai parameter kedua adalah sekumpulan nilai targetnya, parameter ketiga yaitu test_size sebagai ukuran dari testing sizenya yang dalam hal ini adalah 0.4 yang berarti testing set kita akan memiliki proporsi 40% dari total keseluruhan dataset kita, sedangkan untuk training setnya akan menempati proporsi 60%. Selanjutnya untuk proses pengacakan kita gunakan random set number = 1. Train test split akan menghasilkan 4 kumpulan nilai yang harus ditampung kedalam 4 variable yaitu X_train, X_test, y_train, y_test.

# Training Model
- Pada Scikit Learn, model machine learning dibentuk dari class yang dikenal dengan istilah estimator
- Setiap estimator akan mengimplementasikan dua method utama, yaitu fit() dan predict()
- Method fit() digunakan untuk melakukan training model
- Method predict() digunakan untuk melakukan estimasi/prediksi dengan memanfaatkan trained model

# Kneighbors Classifier sebagai Machine Learning Model

In [27]:
from sklearn.neighbors import KNeighborsClassifier

model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)

KNeighborsClassifier(n_neighbors=3)

Code diatas adalah implementasi  dari kneighbors classifier yang didalamnya terdapat :
- Import modul kneighbors.
- Pembentukan objek dari class kneighbour yang membutuhkan satu buah parameter yaitu n_neighbour yang dibutuhkan karena objek model yang mau kita bentuk berasalah dari kneighbors classifier, dimana kita perlu memspesifikasikan jumlah neighbournya yang dalam kasus diatas bernilai = 3. Objek model yang terbentuk akan kita tampung dalam variabel model.
- Selanjutnya variabel model ini akan kita training dengan menggunakan method fit, yang proses trainingnya akan memaanfaatkan training set. Oleh karenannya kita memanggil x_train (berisi sekumpulan features untuk training set) dan y_train (berisi sekumpulan nilai target untuk training set)
- Ketika model menjalani proses training, maka model ini dikenal dengan istilah train model atau model yang sudah di training.

# Evaluasi Model

Testing set digunakan untuk melakukan proses evaluasi atau testing performa dari model yang ditraining sebelumnya.

In [28]:
from sklearn.metrics import accuracy_score

y_pred = model.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print(f'Accuracy: {acc}')

Accuracy: 0.9833333333333333


- Terdapat beberapa metrics yang bisa kita gunakan untuk melakukan prose evaluasi, yang dalam kasus ini kita menggunakan accuracy sebagai metriksnya.
- Pada code tersebut, sklearn sudah menyatakan sejumlah metriks untuk melakukan proses evaluasi dari sautu mode yang salah satunya adalah accuracy score.
- Pertama kita perlu mengimport modul sesuai code diatas.
- Selanjutnya, kita akan melakukan prediksi terhadap nilai features yang ada di dalam testing dataset.
- Memanggil "model.predict(X_test)" yang ditampung dalam variabel y_pred.
- Proses evaluasi ini pada dasarnya akan membandingkan nilai target yang terdapat dalam variable y_test dibandingkan dengan nilai prediksi yang ditampung kedalam y_pred.
- Proses pengukuran bisa bermacam-macam, tetpai kali ini akan di demokan dengan menggunakan accuracy score yang ditampung ke dalam variable acc.
- Dalam kasus ini accuracy yang didapatkan 0.9833333333333333 yang berarti nilai accuracy dari model ini adalah 98% (sangat baik).

# Pemanfaatan Trained Model

Jika trained model dinilai cukup baik berdasarkan hasil evaluasi, maka model yang di training tersebut dapat digunakan untuk memprediksi data baru.

In [29]:
data_baru = [[5, 5, 3, 2], #intance pertama 
             [2, 4, 3, 5]] #instace kedua

preds =  model.predict(data_baru)
preds

array([1, 2])

- Berbeda dengan tetsing set, pada data baru kita hanya memiliki sekumpulan nilai features, tetapi tidak memiliki nilai target.
- Pertama-tama kitaakan membentuk data set yang baru, dalam kasus ini dataset terdiri dari 2 instance atau row (baris) yang dimana setiap barisnya terbagi ke dalam 4 nilai features.
- Kita akan melakukan prediksi dengan cara memanggil train model lalu panggil method predict yang dikenakan terhadap "data_baru"
- Akan menghasilkan array([1, 2]) artinya untuk instace pertama dengan dimana baris pertama memiliki prediksi nilai target 1 dan baris kedua memiliki prediksi nilai target 2.

In [30]:
pred_species = [iris.target_names[p] for p in preds] 
print(f'Hasil Prediksi: {pred_species}')

Hasil Prediksi: ['versicolor', 'virginica']


Selanjutnya, kita akan melakukan proses pemanggilan target_names yang kita mappingkan dengan nilai hasil prediksi tersebut. Disini kita bisa menyimpulkan bahwa, untuk data pertama dengan nilai features (5, 5, 3, 2) ini diprediksi termasuk ke dalam klasifikasi species iris versicolor, sedangkan nilai features (2, 4, 3, 5) ini diprediksi termasuk ke dalam klasifikasi species iris virginica.

# Dumping & Load Trained Model

# Dumping Model Machine Learning menjadi file joblib

In [31]:
import joblib

joblib.dump(model, 'iris_classifier_knn.joblib')

['iris_classifier_knn.joblib']

- Untuk menggunakan joblib, kita harus mengimport joblibnya.
- Setelah joblib diimport, maka kita bisa memulai melakukan proses dumping atau loading model machine learning.
- Memanggil joblib.dump, proses ini memerlukan 2 parameter, parameter pertama adalah train model yang akan kita dump, parameter kedua adalah nama file joblibnya yang dalam kasus ini, di set sebagai 'iris_classifier_knn.joblib'.

# Loading Model Machine Learning dari file joblib

In [32]:
production_model = joblib.load('iris_classifier_knn.joblib')

- Begitu file joblib tersebut di load, maka akan dihasilkan suatu machine learning model yang sudah kita trainining sebelumnya. Dalam kasus kali ini, machine learning model ditampung ke dalam sautu variable yaitu 'production_model'.
- Selanjutnya, kita bisa memanfaatkan production model ini untuk melakukan prediksi terhadap data-data baru yang kita temui di production.

Untuk pembelajaran lebih lengkapnya jangan lupa untuk mengunjungi channel youtube indonesia belajar pada link "https://www.youtube.com/watch?v=tiREcHrtDLo"    

# "Banyak Belajar, Biar Bisa Bantu Banyak Orang"