## Data Preprocessing dengan Scikit-Learn

### Sample Dataset

In [1]:
import numpy as np
from sklearn import preprocessing

sample_data = np.array([[2.1, -1.9, 5.5], 
                        [-1.5, 2.4, 3.5], 
                        [0.5, -7.9, 5.6],
                        [5.9, 2.3, -5.8]])

sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

Proses Import
- import numpy as np
from sklearn import preprocessing
Hasil Demo
- Terdapat 3 features - Dataset yang terbentuk ini kita tampung ke dalam variable sample_data.

In [2]:
sample_data.shape

(4, 3)

-untuk lebih jelasnya lagi kita bisa menampilkan dimensi dari dataset dengan memanggil sample_data.shape

### Binarisation

In [3]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

In [4]:
preprocessor = preprocessing.Binarizer(threshold=0.5)
binarised_data = preprocessor.transform(sample_data)
binarised_data

array([[1., 0., 1.],
       [0., 1., 1.],
       [0., 0., 1.],
       [1., 1., 0.]])

__Cara Mendemokan__
- preprocessing.Binarizer(threshold=0.5) akan menghasilkan objek Binarizer yang kemudian ditampung kedalam variable preprocessor 
- preprocessor.transform(sample_data) hasil transfromnya akan ditamnpung kedalam variable binarised_data

### Scaling

In [5]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

In [6]:
preprocessor = preprocessing.MinMaxScaler(feature_range=(0, 1))
preprocessor.fit(sample_data)
scaled_data = preprocessor.transform(sample_data)
scaled_data

array([[0.48648649, 0.58252427, 0.99122807],
       [0.        , 1.        , 0.81578947],
       [0.27027027, 0.        , 1.        ],
       [1.        , 0.99029126, 0.        ]])

__Cara Mendemokan__
- preprocessing.MinMaxScaler(feature_range=(0, 1)),(feature_range=(0, 1) akan membutuhkan data bertipe tupple yang akan memuat 2 nilai, nilai kali ini disave sebagai 0 & 1, 0 akan diidentasikan nilai terkecil yang batu dan nilai tersebasar akan diidentasikan skala nilai terbesar nanti dan akan ditampungkan kedalam variable preprocessor
- preprocessor.fit(sample_data) bisa kita gunakan untuk proses transformasi data 
- scaled_data = preprocessor.transform(sample_data) hasil tersebut akan ditampung kedalam scaled_data

In [8]:
scaled_data = preprocessor.fit_transform(sample_data)
scaled_data

array([[0.48648649, 0.58252427, 0.99122807],
       [0.        , 1.        , 0.81578947],
       [0.27027027, 0.        , 1.        ],
       [1.        , 0.99029126, 0.        ]])

preprocessor.fit_transform(sample_data) dan ini akan ditampung ke dalam variable scaled_data

### L1 Normalisation: Least Absolute Deviations

Referensi: https://en.wikipedia.org/wiki/Least_absolute_deviations

In [9]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

In [10]:
l1_normalised_data = preprocessing.normalize(sample_data, norm='l1')
l1_normalised_data

array([[ 0.22105263, -0.2       ,  0.57894737],
       [-0.2027027 ,  0.32432432,  0.47297297],
       [ 0.03571429, -0.56428571,  0.4       ],
       [ 0.42142857,  0.16428571, -0.41428571]])

preprocessing.normalize(sample_data, norm='l1') akan ditampung kedalam vaariable l1_normalised_data

### L2 Normalisation: Least Squares

Referensi: https://en.wikipedia.org/wiki/Least_squares

In [11]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

In [None]:
l2_normalised_data = preprocessing.normalize(sample_data, norm='l2')
l2_normalised_data

preprocessing.normalize(sample_data, norm='l2') akan ditampung kedalam variable l2_normalised_data