## SKLearn 04 | Data Preprocessing dengan Scikit Learn | Belajar Machine Learning Dasar

## 04 Data Preprocessing dengan Scikit Learn

Materi Pembelajaran dikutip dari sumber: https://www.youtube.com/watch?v=smNnhEd26Ek

## Sample Data

+ Dataset digenerate dalam np.array yang merupakan dataset features
+ Terdapat 4 instance / jumlah baris
+ Terbagi dalam 3 features
+ Data features ditampung dalam variable sample_data

In [1]:
import numpy as np
# untuk import numpy

from sklearn import preprocessing 
# untuk import modul processing

sample_data = np.array([[2.1, -1.9, 5.5],
                        [-1.5, 2.4, 3.5],
                        [0.5, -7.9, 5.6],
                        [5.9, 2.3, -5.8]])
# dataset dummy yang digunakan untuk pembelajaran kali ini

sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

Untuk menampilkan dimensi dataset

In [2]:
sample_data.shape

(4, 3)

Shape(4, 3) yaitu 4 merupakan instance / baris dan 3 merupakan features

## Binarisation

Tujuan utama teknik binarisation untuk menghasilkan suatu data yang terdiri dari 2 nilai numerik saja yaitu 0 dan 1

In [3]:
sample_data
# untuk menampilkan isinya

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

+ Untuk mengkonversi setiap nilai features menjadi nilai 0 atau 1 (> 0.5 menjadi 1, < 0.5 menjadi 0) menggunakan Binarizer.
+ Membentuk terlebih dahulu objek binarizer dengan memanggil processing. Binarizer (dengan parameter threshold).
+ Lalu melakukan proses transformasi terhadap sample data

In [4]:
preprocessor = preprocessing.Binarizer(threshold=0.5)
# untuk membuat objek binarisation

binarised_data = preprocessor.transform(sample_data)
# untuk transformasi sample dataset yang dimiliki

binarised_data
# untuk menampilkan isinya

array([[1., 0., 1.],
       [0., 1., 1.],
       [0., 0., 1.],
       [1., 1., 0.]])

+ Threshold = 0.5
+ Terlihat 5.5 menjadi 1 karena sample > 0.5
+ Terlihat -7.9 menjadi 0 karena sample < 0.5
+ Terlihat 0.5 menjadi 0 karena sample == 0.5

## Scaling
Tujuan utama teknik scaling untuk menghasilkan data numerik yang berada dalam rentang skala tertentu
   + Terdapat -7.9 sebagai nilai terkecil dan 5.9 sebagai nilai terbesar

In [5]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

+ Menkonversi sekumpulan nilai numerik ke dalam rentang nilai dari 0 sampai 1 dengan menggunakan scaling
+ Menggunakan scaling sederhana yaitu MinMaxScaler

In [6]:
preprocessor = preprocessing.MinMaxScaler(feature_range=(0, 1))
# untuk memanggil MinMaxScaler untuk membuat objek scaler

preprocessor.fit(sample_data)
# untuk melakukan fit objek scaler dengan dataset

scaled_data = preprocessor.transform(sample_data)
# untuk melakukan transformasi data

scaled_data
# untuk menghasilkan hasil datanya

array([[0.48648649, 0.58252427, 0.99122807],
       [0.        , 1.        , 0.81578947],
       [0.27027027, 0.        , 1.        ],
       [1.        , 0.99029126, 0.        ]])

+ 0 = nilai terkecil dalam skala baru
+ 1 = nilai terbesar dalam skala baru
+ Setelah di transform, nilai terkecil yaitu 0 dan nilai terbesar yaitu 1

Proses fitting dan transform dapat disatukan dengan cara memanfaatkan method fit_transform.

In [7]:
scaled_data = preprocessor.fit_transform(sample_data)
scaled_data

array([[0.48648649, 0.58252427, 0.99122807],
       [0.        , 1.        , 0.81578947],
       [0.27027027, 0.        , 1.        ],
       [1.        , 0.99029126, 0.        ]])

## L1 Normalisation: Least Absolute Deviations

__Referensi:__ https://en.wikipedia.org/wiki/Least_absolute_deviations

Tujuan utama dari teknik ini untuk melakukan normalisasi terhadap data numerik yang dimiliki.

L1 Normalisation menerapkan Least Absolute Deviations

In [8]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

+ preprocessing.normalized membutuhkan 2 parameter, yaitu sample data dan norm
+ norm diberi nilai String 'l1' yang akan berasosiasi dengan normalisasi yang menerapkan Least Absolute Deviations

In [9]:
l1_normalised_data = preprocessing.normalize(sample_data, norm='l1')
# untuk melakukan normalisasi menggunakan L1

l1_normalised_data
# untuk menampilkan hasilnya

array([[ 0.22105263, -0.2       ,  0.57894737],
       [-0.2027027 ,  0.32432432,  0.47297297],
       [ 0.03571429, -0.56428571,  0.4       ],
       [ 0.42142857,  0.16428571, -0.41428571]])

## L2 Normalisation: Least Squares

__Referensi:__ https://en.wikipedia.org/wiki/Least_squares

L2 Normalisation menerapkan Least Squares

In [10]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

+ preprocessing.normalized membutuhkan 2 parameter, yaitu sample data dan norm
+ norm diberi nilai String 'l2' yang akan berasosiasi dengan normalisasi yang menerapkan Least Squares

In [11]:
l2_normalised_data = preprocessing.normalize(sample_data, norm='l2')
# untuk melakukan normalisasi menggunakan L2

l2_normalised_data
# untuk menampilkan hasilnya

array([[ 0.33946114, -0.30713151,  0.88906489],
       [-0.33325106,  0.53320169,  0.7775858 ],
       [ 0.05156558, -0.81473612,  0.57753446],
       [ 0.68706914,  0.26784051, -0.6754239 ]])