# Scikit Learn 03: Machine Learning Workflow dengan Scikit Learn

In [2]:
#Load Iris Dataset
from sklearn.datasets import load_iris

iris = load_iris()

X = iris.data #nilai features
y = iris.target #nilai target

In [3]:
#Splitting Dataset: Training & Testing Set; Membagi dataset menjadi dua bagian
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,#nilai featuers
                                                    y, #nilai target
                                                    test_size=0.4, #kumpulan testing set, 0.4= memiliki porsi 40% dari total keseluruhan dataset, training set: 60%
                                                    random_state=1) #Proses pengacakan dengan random state number

In [4]:
#Training set
from sklearn.neighbors import KNeighborsClassifier
#estimator di sini menggunakan KNeighborsClassifier
#model machine learning dibentuk dari class "estimator", mengimplementasikan 2 method utama: fit() dan predict().
model = KNeighborsClassifier(n_neighbors=3)#membentuk objek model dari KNeighborsClassifier. Paramenternya satu buah yaitu jumlah neighbors/tetangganya
model.fit(X_train, y_train)#method fit() digunakan untuk melakukan training model.Object model yang terbentuk ditampung ke variabel model.Proses training memanfaatkan training set lalu menjadi trained model.

In [5]:
#Testing set, evaluasi performa dari model yang ditraining. Matrix untuk training salah satunya dengan accuracy_score
from sklearn.metrics import accuracy_score

#X_test: nilai feature, y_test: nilai target
y_pred = model.predict(X_test)#melakukan prediksi terhadap nilai features yang ada dalam testing dataset dengan model.predict(X_test)
acc = accuracy_score(y_test, y_pred)#proses evaluasi membandingkan nilai evaluasi yang terdapat dalam y_test dengan y_pred
print(f'Accuracy: {acc}')

Accuracy: 0.9833333333333333


In [6]:
#memiliki nilai features tapi tidak memiliki nilai target
#data baru terdiri dari dua instance atau dua baris, setiap baris terbagi dalam 4 nilai features untuk konteks dataset iris
data_baru = [[5, 5, 3, 2], 
             [2, 4, 3, 5]]

preds =  model.predict(data_baru)#mempredisi kemunculan nilai target yang mana dari setiap instance
preds

array([1, 2])

In [7]:
pred_species = [iris.target_names[p] for p in preds] 
print(f'Hasil Prediksi: {pred_species}')#proses untuk memanggil target namesyang dimapping dengan nilai pred_species untuk menentukan ketepatan prediksi.

Hasil Prediksi: ['versicolor', 'virginica']


In [8]:
#trend model yang sudah siap akan di employ di production, trend model perlu didump menjadi file model
import joblib

joblib.dump(model, 'iris_classifier_knn.joblib')

['iris_classifier_knn.joblib']

In [9]:
#di server yang ada di production diload file machine learning model iris_classifier_knn.joblib yang sudah dibuat untuk siap digunakan
production_model = joblib.load('iris_classifier_knn.joblib')

# Scikit-Learn 04: Data Preprocessing dengan Scikit-Learn

In [10]:
#persiapan sample dataset yang akan digenerate sebagai numpy array features
import numpy as np
from sklearn import preprocessing

sample_data = np.array([[2.1, -1.9, 5.5], 
                        [-1.5, 2.4, 3.5], 
                        [0.5, -7.9, 5.6],
                        [5.9, 2.3, -5.8]])

sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

In [11]:
sample_data.shape#melihat jumlah kolom dan features dari array sample dataset

(4, 3)

Binarisation. Tujuan utama teknik ini untuk menghasilkan suatu data yang teridi dari 2 angka numerik: 0 dan 1

In [12]:
sample_data#dataset ini terdiri adri sekumpulan nilai floating point yang beragam.

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

In [13]:
#Gunakan method Binarizer untuk misalnya mengkonversikan setiap nilai numerik yang lebih besar dari nilai 0.5 menjadi 1 dan sisanya jadi 0
preprocessor = preprocessing.Binarizer(threshold=0.5)#membentuk objek binarizer. Nilai yang kurang dari 0.5 akan menjadi nilai 0, yang lebih besar dari 0.5 akan dikonversikan dg nilai 1
binarised_data = preprocessor.transform(sample_data)#melakukan transformasi
binarised_data

array([[1., 0., 1.],
       [0., 1., 1.],
       [0., 0., 1.],
       [1., 1., 0.]])

Scaling

In [14]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

In [15]:
preprocessor = preprocessing.MinMaxScaler(feature_range=(0, 1))#nilai berbentuk tuple, nilai 0 nilai terkecil dan nilai 1 nilai terbesar dari skala yang baru
preprocessor.fit(sample_data)#fit terhadap sample data
scaled_data = preprocessor.transform(sample_data)
scaled_data

array([[0.48648649, 0.58252427, 0.99122807],
       [0.        , 1.        , 0.81578947],
       [0.27027027, 0.        , 1.        ],
       [1.        , 0.99029126, 0.        ]])

In [16]:
scaled_data = preprocessor.fit_transform(sample_data)#menggunakan method ini untuk melakukan fit dan transform sekaligus dikenakan pada data yang sama.
scaled_data

array([[0.48648649, 0.58252427, 0.99122807],
       [0.        , 1.        , 0.81578947],
       [0.27027027, 0.        , 1.        ],
       [1.        , 0.99029126, 0.        ]])

L1 Normalisation: Least Absolute Deviations

In [17]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

In [18]:
l1_normalised_data = preprocessing.normalize(sample_data, norm='l1')#norm l1 berasosiasi dengan normalisasi list absolute deviation. Ini menghasilkan data yang dinormalisasi
l1_normalised_data

array([[ 0.22105263, -0.2       ,  0.57894737],
       [-0.2027027 ,  0.32432432,  0.47297297],
       [ 0.03571429, -0.56428571,  0.4       ],
       [ 0.42142857,  0.16428571, -0.41428571]])

L2 Normalisation: Least Squares

In [19]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

In [20]:
l2_normalised_data = preprocessing.normalize(sample_data, norm='l2')#menghasilkan data yang sudah ternormalisasi
l2_normalised_data

array([[ 0.33946114, -0.30713151,  0.88906489],
       [-0.33325106,  0.53320169,  0.7775858 ],
       [ 0.05156558, -0.81473612,  0.57753446],
       [ 0.68706914,  0.26784051, -0.6754239 ]])