# TUTORIAL 04:
## Data Preprocessing dengan Scikit-Learn

### Load Sample Dataset:

In [1]:
import numpy as np 
from sklearn import preprocessing

In [6]:
sample_data = np.array([[2.1, -1.9, 5.5],
                        [-1.5, 2.4, 3.5],
                        [0.5, -7.9, 5.6],
                        [5.9, 2.3, -5.8]])

sample_data.shape       # sample_data diatas bisa dilihat sebagai data features, dimana terdapat 3 features

(4, 3)

### Binarization
Tujuan utama dari teknik ini adalah untuk **menghasilkan suatu data yang terdiri dari 2 numerik** saja, **yaitu 0 dan 1**. Metode Binarizer mempunyai parameter **threshold** dimana nilai threshold akan menjadi acuan apakah data numerik pada sample_data dimasukan ke kategori 0 atau 1.

In [7]:
preprocessor = preprocessing.Binarizer(threshold = 0.5) # Apabila nilai diatas 0.5 maka diassign ke 1, jika dibawah maka diassign ke nilai 0.
binarised_data = preprocessor.transform(sample_data)
binarised_data

array([[1., 0., 1.],
       [0., 1., 1.],
       [0., 0., 1.],
       [1., 1., 0.]])

### Scaling
Tujuan utama dari teknik ini adalah untuk **menghasilan suatu data yang berada pada rentang tertentu**. Metode Scaling mempunyai parameter **MinMaxScaler** dimana kita harus **menginput range nilai minimum dan maximum** dari data kita. 

In [8]:
preprocessor_scaling = preprocessing.MinMaxScaler(feature_range=(0,1))
scaled_data = preprocessor_scaling.fit_transform(sample_data)
scaled_data

array([[0.48648649, 0.58252427, 0.99122807],
       [0.        , 1.        , 0.81578947],
       [0.27027027, 0.        , 1.        ],
       [1.        , 0.99029126, 0.        ]])

### L1 Normalization: Least Absolute Deviation
Tujuan utama dari teknik ini adalah **untuk menormalisasi dataset yang kita miliki**. Metode normalisasi ini mempunyai parameter **Normalize** dimana kita harus **menginput sample_data dan normalisasi** yang kita inginkan. **L1** mempunyai korelasi dengan cara perhitungan **Least Absolute Deviation**.

In [9]:
L1_normalized_data = preprocessing.normalize(sample_data, norm='l1')  # L1 berhubungan dengan Least Absolute Deviation
L1_normalized_data

array([[ 0.22105263, -0.2       ,  0.57894737],
       [-0.2027027 ,  0.32432432,  0.47297297],
       [ 0.03571429, -0.56428571,  0.4       ],
       [ 0.42142857,  0.16428571, -0.41428571]])

### L2 Normalization: Least Squares 
Cara kedua untuk mengnormalisasi dataset yang kita punya adalah dengan menggunakan **normalisasi L2 atau Least Squrares**. 


In [10]:
L2_normalized_data = preprocessing.normalize(sample_data, norm='l2')  # L2 berhubungan dengan Least Square.
L2_normalized_data

array([[ 0.33946114, -0.30713151,  0.88906489],
       [-0.33325106,  0.53320169,  0.7775858 ],
       [ 0.05156558, -0.81473612,  0.57753446],
       [ 0.68706914,  0.26784051, -0.6754239 ]])