# Machine Learning Workflow

In [5]:
# persiapan train test
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.4,random_state=1)

In [None]:
# persiapan dataset
# menggunakan dataset iris
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data
y = iris.target

In [6]:
# Model machine learning pada module scikit learn dibentuk dengan class yang dikenal sebagai estimator.
# Estimator memiliki 2 method utama, yaitu "fit()" dan "predict()"
# Fit digunakan untuk melakukan training dari model ML.
# Predict digunakan untuk melakukan estimasi/prediksi dengan memanfaatkan trained model.
from sklearn.neighbors import KNeighborsClassifier
#training model yang sudah dibuat.
model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)

KNeighborsClassifier(n_neighbors=3)

In [8]:
# Evaluasi model yang sudah dibuat
from sklearn.metrics import accuracy_score
y_pred = model.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print(f'Accuracy: {acc}')

Accuracy: 0.9833333333333333


In [9]:
# Pemanfaatan trained model
data_baru = [[5,5,3,2],[2,4,3,5]]
preds = model.predict(data_baru)
preds

array([1, 2])

In [10]:
pred_species = [iris.target_names[p] for p in preds]
print(f'Hasil Prediksi: {pred_species}')

Hasil Prediksi: ['versicolor', 'virginica']


In [11]:
import joblib
joblib.dump(model, 'iris_classifier_knn.joblib')

['iris_classifier_knn.joblib']

In [13]:
production_model = joblib.load('iris_classifier_knn.joblib')

# Data Preprocessing dengan Scikit-Learn

In [3]:
# Persiapan sample data
import numpy as np
from sklearn import preprocessing

sample_data = np.array([[2.1,-1.9,5.5],
                        [-1.5, 2.4, 3.5], 
                        [0.5, -7.9,5.6],
                        [5.9,2.3,-5.8]])
sample_data



array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

In [4]:
sample_data.shape

(4, 3)

In [5]:
# Binarisation: Proses preprocessing yang bertujuan untuk menghasilkan suatu data yang terdiri dari 2 numerik saja yaitu 0 dan 1.
preprocessor = preprocessing.Binarizer(threshold=0.5)
binarised_data = preprocessor.transform(sample_data)
binarised_data

array([[1., 0., 1.],
       [0., 1., 1.],
       [0., 0., 1.],
       [1., 1., 0.]])

In [8]:
# Scaling: Proses preprocessing yang bertujuan untuk menghasilkan data dengan rentang nilai tertentu.
# Jika terdapat nilai diluar rentang tersebut, maka secara otomatis akan diubah nilainya ke batas rentangnya.
# Contoh 1, rentang yang ditetapkan adalah 0 dan 1, berarti jika terdapat nilai -0.5 maka nilai tersebut akan dibulatkan menjadi 0.
# Contoh 2, masih menggunakan rentang yang sama, yaitu 0 dan 1. Jika terdapat nilai 2 maka nilai tersebut akan dibulatkan menjadi 1.
preprocessor = preprocessing.MinMaxScaler(feature_range=(0,1))
preprocessor.fit(sample_data)
scaled_data = preprocessor.transform(sample_data)
scaled_data

array([[0.48648649, 0.58252427, 0.99122807],
       [0.        , 1.        , 0.81578947],
       [0.27027027, 0.        , 1.        ],
       [1.        , 0.99029126, 0.        ]])

In [12]:
# Cara lebih singkat untuk melakukan scaling.
preprocessor = preprocessing.MinMaxScaler(feature_range=(0,1))
scaled_data = preprocessor.fit_transform(sample_data)
scaled_data

array([[0.48648649, 0.58252427, 0.99122807],
       [0.        , 1.        , 0.81578947],
       [0.27027027, 0.        , 1.        ],
       [1.        , 0.99029126, 0.        ]])

In [13]:
# L1 Normalisation (Least Absolute Deviations)
l1_normalised_data = preprocessing.normalize(sample_data, norm ='l1')
l1_normalised_data

array([[ 0.22105263, -0.2       ,  0.57894737],
       [-0.2027027 ,  0.32432432,  0.47297297],
       [ 0.03571429, -0.56428571,  0.4       ],
       [ 0.42142857,  0.16428571, -0.41428571]])

In [15]:
# L2 Normalisation (Least Squares)
l2_normalised_data = preprocessing.normalize(sample_data, norm ='l2')
l2_normalised_data

array([[ 0.33946114, -0.30713151,  0.88906489],
       [-0.33325106,  0.53320169,  0.7775858 ],
       [ 0.05156558, -0.81473612,  0.57753446],
       [ 0.68706914,  0.26784051, -0.6754239 ]])