# 04 Data Preprocessing dengan Scikit-Learn

# Sample Data

In [35]:
import numpy as np
from sklearn import preprocessing

sample_data = np.array([
    [2.1, -1.9, 5.5],
    [-1.5, 2.4, 3.5],
    [0.5, -7.9, 5.6],
    [5.9, 2.3, -5.8],
])

sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

In [36]:
sample_data.shape

(4, 3)

# Binarisation

Binarisation adalah proses mengubah nilai numerik menjadi nilai biner (0 atau 1) berdasarkan ambang batas tertentu. Ini berguna untuk mengubah fitur numerik menjadi fitur kategorikal.

In [37]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

In [38]:
preprocessor = preprocessing.Binarizer(threshold=0.5)
binarised_data = preprocessor.fit_transform(sample_data)
binarised_data

array([[1., 0., 1.],
       [0., 1., 1.],
       [0., 0., 1.],
       [1., 1., 0.]])

# Scaling

Tujuan dari scaling adalah untuk mengubah skala fitur sehingga memiliki rentang yang sama. Ini penting untuk algoritma yang sensitif terhadap skala fitur, seperti K-Nearest Neighbors (KNN) dan Support Vector Machines (SVM).

In [39]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

In [40]:
preprocessor = preprocessing.MinMaxScaler(feature_range=(0, 1))
preprocessor.fit(sample_data)
scaled_data = preprocessor.transform(sample_data)
scaled_data

array([[0.48648649, 0.58252427, 0.99122807],
       [0.        , 1.        , 0.81578947],
       [0.27027027, 0.        , 1.        ],
       [1.        , 0.99029126, 0.        ]])

In [41]:
scaled_data = preprocessor.fit_transform(sample_data)
scaled_data

array([[0.48648649, 0.58252427, 0.99122807],
       [0.        , 1.        , 0.81578947],
       [0.27027027, 0.        , 1.        ],
       [1.        , 0.99029126, 0.        ]])

# L1 Normalisation: Least Absolute Deviations (LAD)

L1 normalisation, atau Least Absolute Deviations (LAD), adalah teknik normalisasi yang mengubah fitur sehingga jumlah nilai absolutnya menjadi 1. Ini berguna untuk mengurangi pengaruh outlier dalam data.

In [42]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

In [43]:
l1_normalised_data = preprocessing.normalize(sample_data, norm='l1')
l1_normalised_data

array([[ 0.22105263, -0.2       ,  0.57894737],
       [-0.2027027 ,  0.32432432,  0.47297297],
       [ 0.03571429, -0.56428571,  0.4       ],
       [ 0.42142857,  0.16428571, -0.41428571]])

# L2 Normalisation: Least Squares (LS)

L2 normalisation, atau Least Squares (LS), adalah teknik normalisasi yang mengubah fitur sehingga jumlah kuadratnya menjadi 1. Ini berguna untuk mengurangi pengaruh outlier dan memastikan bahwa fitur memiliki skala yang sama.

In [44]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

In [45]:
l2_normalised_data = preprocessing.normalize(sample_data, norm='l2')
l2_normalised_data

array([[ 0.33946114, -0.30713151,  0.88906489],
       [-0.33325106,  0.53320169,  0.7775858 ],
       [ 0.05156558, -0.81473612,  0.57753446],
       [ 0.68706914,  0.26784051, -0.6754239 ]])