### Sample Data

In [2]:
import numpy as np
from sklearn import preprocessing

sample_data = np.array([[2.1, -1.9, 5.5],
                      [-1.5, 2.4, 3.5],
                      [0.5, -7.9, 5.6],
                      [5.9, 2.3, -5.8]])

sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

dataset ini bisa dipandang sebagai dataset dengan 3 features.

In [5]:
sample_data.shape # dimensi dataset

(4, 3)

### Binarisation
untuk menghasilkan suatu data yng terdiri dari 2 nilai numerik saja yaitu 0 dan 1.

In [6]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

In [7]:
preprocessor = preprocessing.Binarizer(threshold = 0.5)
pinarised_data = preprocessor.transform(sample_data)
pinarised_data

array([[1., 0., 1.],
       [0., 1., 1.],
       [0., 0., 1.],
       [1., 1., 0.]])

Misalkan disini dihadapkan pada kondisi untuk mengkonversikan nilai yang **lebih** dari 0.5 menjadi 1 dan sisanya menjadi 0 dengan class `Binarizer`

### Scaling
untuk menghasilkan data numerik yang berada dalam rentang skala tertentu.

In [13]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

dataset terdiri dari floating point dari rentang -7.9 sebagai nilai terkecil hingga 5.9 sebagai nilai terbesar.

Misalkan disini dihadapkan pada kondisi untuk mengkonversikan sekumpulan nilai numerik ini ke dalam rentang mulai dari 0 sampai dengan 1 dengan class `Scaler`

In [14]:
preprocessor = preprocessing.MinMaxScaler(feature_range = (0, 1)) # object scaler
preprocessor.fit(sample_data) # scaler di fit pada data
scaled_data = preprocessor.transform(sample_data)
scaled_data

array([[0.48648649, 0.58252427, 0.99122807],
       [0.        , 1.        , 0.81578947],
       [0.27027027, 0.        , 1.        ],
       [1.        , 0.99029126, 0.        ]])

terlihat nilai terkecil adalah 0 dan nilai terbesar adalah 1.

In [15]:
# Cara lain karna proses fitting dan transform dikenakan pada data yang sama
scaled_data = preprocessor.fit_transform(sample_data)
scaled_data

array([[0.48648649, 0.58252427, 0.99122807],
       [0.        , 1.        , 0.81578947],
       [0.27027027, 0.        , 1.        ],
       [1.        , 0.99029126, 0.        ]])

### L1 Normalisasi: Least Absolute Deviations
bekerja dengan memastikan bahwa jumlah nilai absolut adalah 1 dalam setiap baris.

In [16]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

In [17]:
L1_normalised_data = preprocessing.normalize(sample_data, norm = 'l1')
L1_normalised_data

array([[ 0.22105263, -0.2       ,  0.57894737],
       [-0.2027027 ,  0.32432432,  0.47297297],
       [ 0.03571429, -0.56428571,  0.4       ],
       [ 0.42142857,  0.16428571, -0.41428571]])

 Fungsi `normalize` membutuhkan dua paramater yaitu data dan norm. Kasus ini norm diberi nilai 'l1' yang akan berasosiasi dengan normalisasi : Least Absolute Deviations.

### L2 Normalisation: Least Squares
bekerja dengan memastikan bahwa jumlah kuadrat adalah 1.

In [18]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

In [19]:
l2_normalised_data = preprocessing.normalize(sample_data, norm = 'l2')
l2_normalised_data

array([[ 0.33946114, -0.30713151,  0.88906489],
       [-0.33325106,  0.53320169,  0.7775858 ],
       [ 0.05156558, -0.81473612,  0.57753446],
       [ 0.68706914,  0.26784051, -0.6754239 ]])