# Machine Learning Workflow dengan Scikit-Learn

**Persiapan Dataset**

**Load Sample Dataset: Iris Dataset**

In [1]:
from sklearn.datasets import load_iris

iris = load_iris()

X = iris.data
y = iris.target

**Splitting Dataset: Training & Testing Set**
- Persiapan dataset untuk training model dibagi menjadi 2 secara random yaitu training set dan testing set.
- training set: untuk melakukan training model
- testings set: untuk melakukan proses evaluasi/ testing performa dari trained model
- Split dataset adalah membagi dataset dengan menggunakan function train_test_split()
- Parameter 1 adalah features, parameter 2 adalah target, parameter 3 merepresentasikan ukuran dari dataset, Parameter 4 berguna  untuk menghasilkan pengacakan
- Parameter pertama menampung features training set
- Parameter kedua menampung features testing set
- Parameter ketiga menampung target training set
- Parameter keempat menampung target testing set

In [2]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.4,
                                                    random_state=1)

# Training Model
- Pada SKLearn ini, model machine learning dibentuk dari class yang dikenal dengan istilah estimator yang mengimplementasikan dua method utama, yaitu fit() dan predict().

- Method fit() digunakan untuk melakukan training model.

- Method predict() digunakan untuk melakukan estimasi/prediksi dengan memanfaatkan trained model.

- Parameter n_neighbors berguna untuk menentukan jumlah neighbors.

- Fungsi fit() digunakan untuk mentraining model dengan 2 buah parameter , yaitu : features training set dan target taraining set.

In [3]:
from sklearn.neighbors import KNeighborsClassifier

model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)

KNeighborsClassifier(n_neighbors=3)

# Evaluasi Model
- Menggunakan accuracy sebagai metrics testing model yang telah ditraining.
- Fungsi model.predict() digunakan untuk memprediksi.
- Fungsi accuracy_score() digunakan untuk membandingkan.

In [4]:
from sklearn.metrics import accuracy_score

y_pred = model.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print(f'Accuracy: {acc}')

Accuracy: 0.9833333333333333


# Pemanfaatan Trained Model
- Trained model berfungsi untuk memprediksi data baru.
- Pada kasus kali ini nilai array pertama adalah 1 dan nilai array kedua adalah 2.
- Jika dikenakan iris.target_names maka akan muncul nama untuk array dengan nilai 1 dan 2, nilai 1 pada dataset yang digunakan memiliki nama versicolor dan virginica untuk yang bernilai 2.

In [5]:
data_baru = [[5, 5, 3, 2], 
             [2, 4, 3, 5]]

preds =  model.predict(data_baru)
preds

array([1, 2])

In [6]:
pred_species = [iris.target_names[p] for p in preds] 
print(f'Hasil Prediksi: {pred_species}')

Hasil Prediksi: ['versicolor', 'virginica']


# Dump & Load Trained Model
**Dumping Model Machine Learning menjadi file joblib**
- Trained model dapat kita export dengan menggunakan fungsi joblib.dump() yang memiliki 2 parameter : Parameter pertama mengindikasi model yang kita inginkan, sedangkan yang kedua mengindikasikan nama model tersebut.

In [7]:
import joblib

joblib.dump(model, 'iris_classifier_knn.joblib')

['iris_classifier_knn.joblib']

- Loading Model Machine Learning dari file joblib menggunakan joblib.load()

In [8]:
production_model = joblib.load('iris_classifier_knn.joblib')