## 03 Machine Learning Workflow dengan Scikit Learn

### Persiapan Dataset

#### Load Sample Dataset: Iris Dataset

In [1]:
from sklearn.datasets import load_iris

iris = load_iris()

X = iris.data
y = iris.target

untuk proses import : 
- from sklearn.datasets import load_iris
berikut kita akan load_iris()(kita akan tangpung dedalam variabel iris)
- Kita akan extrat sekumpulan nilai features dan sekumpulan nilai target dari dataset
untuk nilai features kita tampung ke dalam variable X dan nilai target kita tampung ke dalam variable y

#### Splitting Dataset: Training & Testing Set

In [2]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.4,
                                                    random_state=1)

#### Dari data set ini kita akan membagi menjadi 2 bagian:
__Training Set & Testing Set__
Proses dalam train_test_split (X, y, test_size=0.4, random_state=1) dengan memanggil function dan akan melewatkan 4 parameter
- Sekumpulan nilai featuresnya (X)
- Sekumpulan nilai targetnya (y)
- Ukuran dari testing setnya (test_size=0.4- untuk kasus kali ini adalah 0.4 berarti testing set akan memiliki proporsi 40% dari total keseluruhan dari dataset kita, sedangkan untuk training setnya akan menempati proporsi 60%)
- untuk perancakan(random_state=1).

train_test_split akan menghasilkan 4 kumpulan nilai yang harus kita tampung ke4 variable: 
- X_train, 
- X_test, 
- y_train, 
- y_test. 

### Training Model
+ Pada Scikit Learn, model machine learning dibentuk dari class yang dikenal dengan istilah estimator.
+ Setiap estimator akan mengimplementasikan dua method utama, yaitu fit() dan predict().
+ Method fit() digunakan untuk melakukan training model
+ Method predict() digunakan untuk melakukan estimasi/prediksi dengan memanfaatkan trained model.

In [3]:
from sklearn.neighbors import KNeighborsClassifier

model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)

KNeighborsClassifier(n_neighbors=3)

Kita akan menggunakan KNeighborsClassifier sebagai machine learning model, model ini akan kita training dengan memanfaatkan training set yang sudah kita persiapkan sebelumnya.
__Cara Mendemokan KNeighborsClassifier__
- from sklearn.neighbors import KNeighborsClassifier
- Objek dari class KNeighborsClassifier(n_neighbors=3)- proses pembentukan objek model ini pembentukan 1 parameter yaitu : n_neighbors, parameter ini dibutuhkan karena objek model yang mau dibentuk berasal dari __KNeighborsClassifier__ dimana kita harus menspesifikasi jumlah neighbors-nya untuk kasus kali ini kita set jumlah neighbors-nya adalah 3, objek model yang terbentuk akan ditampung kedalam variable model 
- Objek model akan kita training dengan menggunakan metode fit, proses training akan memanfaatkan training set makanya uang dipanggil adalah X_train, y_train. Dimana X_train berisi sekumpulan features untuk training set & y_train akan berisi sekumpulan nilai target untuk training set 

### Evaluasi Model

In [5]:
from sklearn.metrics import accuracy_score

y_pred = model.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print(f'Accuracy: {acc}')

Accuracy: 0.9833333333333333


__Cara Mendemokan accuracy_score__

- from sklearn.metrics import accuracy_score
- Prediksi terhadap nilai features yang ada didalam testing dataset, akan kita panggil model.predict(X_test) dan hasil prediksinya akan kita tampung kedalam variable y_pred
- accuracy_score(y_test, y_pred) nilai akurasinnya kita tampung kedama variale acc

### Pemanfaatan Trained Model

In [6]:
data_baru = [[5, 5, 3, 2], 
             [2, 4, 3, 5]]

preds =  model.predict(data_baru)
preds

array([1, 2])

__Cara mendemokan__
- data_baru - Terdiri dari 2 role/ 2 baris dimana setiap insert atau barisnya terbagi dalam 4 nilai features
- model.predict(data_baru) untuk melakukan prediksi/ memanggil model yang sudah kita lakukan berikutnya hasil prediksi akan kita tampung kedalam variable preds

In [7]:
pred_species = [iris.target_names[p] for p in preds] 
print(f'Hasil Prediksi: {pred_species}')

Hasil Prediksi: ['versicolor', 'virginica']


Untuk memanggil target names hasil prediksi diatas 
__Cara Demo__
- data pertama dengan nilai 5,5,3,2 ini diprediksi masuk kedalam klasifikasi species iris versicolor sedangkan untuk nilai kedua 2,4,3,5 ini diprediksi masuk kedalam kategori species iris virginica

### Dump & Load Trained Model

#### Dumping Model Machine Learning Menjadi file joblib

In [8]:
import joblib

joblib.dump(model, 'iris_classifier_knn.joblib')

['iris_classifier_knn.joblib']

__Cara Mendemokan__
- import joblib
- joblib.dump(model, 'iris_classifier_knn.joblib')- __Penjelasan terhadap 2 parameter__ parameter pertama adalah _model_ yang mau didump dan parameter kedua adalah _'iris_classifier_knn.joblib'_ 

#### Loading Model Machine Learning dari file joblib

In [10]:
production_model = joblib.load('iris_classifier_knn.joblib')

Dengan memanggil joblib.load('iris_classifier_knn.joblib') akan dibentuk suatu machine learning yang sudah kita training sebelumnya dan akan ditampung kedalam variable production_model

Kita dapat memanfaatkan production_model untuk melakukan prediksi terhadap data- data baru yang kita temui di production 