# 04 Data Preprocessing dengan Scikit-Learn

Rangkuman Pembelajaran diambil dari https://www.youtube.com/watch?v=smNnhEd26Ek

## Sample Dataset

In [1]:
import numpy as np
from sklearn import preprocessing

sample_data = np.array([[2.1, -1.9, 5.5], 
                        [-1.5, 2.4, 3.5], 
                        [0.5, -7.9, 5.6],
                        [5.9, 2.3, -5.8]])

sample_data

#dataset dibentuk sebagai numpy Array.

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

Pada kasus ini, pada variabel tampung sample_data terdapat data set Dummy untuk digunakan sebagai kasus pembelajaran. 

Dataset yang dihasilkan  
array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])
dapat kita pandang sebagai dataset features dengan jumlah instances/baris yang berjumlah 4 dan terbagi dalam 3 features/kolom. Features ditampung dalam variabel sample_data. 

In [2]:
sample_data.shape

(4, 3)

sample_data.shape berfungsi melihat dimensi dari dataset kita. 
Hasilnya menunjukkan (4,3) yang berarti jumlah instancesnya ada 4 dan jumlah featuresnya ada 3. 

## Binarisation

Teknik Data Preprocessing 1 

In [None]:
Tujuan dari Teknik Binarisation adalah untuk menghasilkan suatu data yang terdiri dari dua nilai numerik saja yaitu 0 dan 1.

In [3]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

In [4]:
preprocessor = preprocessing.Binarizer(threshold=0.5)
binarised_data = preprocessor.transform(sample_data)
binarised_data

array([[1., 0., 1.],
       [0., 1., 1.],
       [0., 0., 1.],
       [1., 1., 0.]])

preproceesing.Binarizer(threshold=0.5) berfungsi untuk membentuk objek dan kita juga akan menyertakan satu buah parameter (threshold=0.5) dan kita akan menampungnya kedalam sebuah variabel yakni preprocessor. 

preprocessor.transform(sample_data) berfungsi untuk melakukan transformasi terhadap sample_data yang telah kita buat. Hasil transformasi kita tambung kedalam variabel binarised_data. 

Hasil dari transform menghasilkan dataset yang hanya terdiri dari 2 nilai yaitu 0 dan 1. Batasannya ditentukan oleh nilai threshold. Dalam kasus ini kita menggunakan nilai threshold 0.5 yang artinya setiap nilai kurang dari (<) atau kurang dari sama dengan (<=) 0.5 akan dikonversi menjadi nilai 0. Sedangkan untuk nilai yang lebih dari (>) 0.5 akan dikonversi menjadi nilai 1.

## Scaling

Teknik Data Preprocessing 2

Tujuan dari teknik data scaling adalah untuk menghasilkan suatu data numerik yang berada dalam rentang skala tertentu.

In [5]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

In [6]:
preprocessor = preprocessing.MinMaxScaler(feature_range=(0, 1))
preprocessor.fit(sample_data)
scaled_data = preprocessor.transform(sample_data)
scaled_data

#parameter feature_range membutuhkan data bertipe tuple yang akan memuat dua nilai. 

array([[0.48648649, 0.58252427, 0.99122807],
       [0.        , 1.        , 0.81578947],
       [0.27027027, 0.        , 1.        ],
       [1.        , 0.99029126, 0.        ]])

Pemanggilan preprocessing.MinMaxScaler(feature_range=(0, 1)) akan membentuk objek scaler yang kita tampung kedalam objek preprocessor. Setelah proses tersebut makan akan dilakukan proses fit. Caranya adalah dengan memanggil fungsi preprocessor.fit(sample_data). Setelah scalernya telah di fit terhadap sample_data kita maka scaler dapat digunakan untuk melakukan proses transformasi data. 

Untuk melakukan proses transformasi kita gunakan preprocessor.transform(sample_data) yang ditampung dalam variabel variabel scaled_data. 

Kesimpulan yang didapat:
Proses MinMaxScaler digunakan untuk mengubah skala nilai terkecil dan nilai terbesar dari dataset yang kita miliki ke skala tertentu. 

In [7]:
scaled_data = preprocessor.fit_transform(sample_data)
scaled_data

array([[0.48648649, 0.58252427, 0.99122807],
       [0.        , 1.        , 0.81578947],
       [0.27027027, 0.        , 1.        ],
       [1.        , 0.99029126, 0.        ]])

scaled_data = preprocessor.fit_transform(sample_data), dalam method ini menunjukkan bahwa proses fitting dan transform dikenakan pada data yang sama (sample_data). method ini menggabungkan proses fitting dan transform (1x pemanggilan). 

## L1 Normalisation: Least Absolute Deviations 

Referensi: [https://en.wikipedia.org/wiki/Least_absolute_deviations](https://en.wikipedia.org/wiki/Least_absolute_deviations)

Teknik Data Preprocessing ke 3

Tujuan dari teknik ini adalah untuk melakukan normalisasi terhadap data numerik yang kita miliki. 

In [8]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

In [9]:
l1_normalised_data = preprocessing.normalize(sample_data, norm='l1')
l1_normalised_data

array([[ 0.22105263, -0.2       ,  0.57894737],
       [-0.2027027 ,  0.32432432,  0.47297297],
       [ 0.03571429, -0.56428571,  0.4       ],
       [ 0.42142857,  0.16428571, -0.41428571]])

preprocessing.normalize membutuhkan dua parameter : 
    1. Parameter pertama adalah datanya atau sample datanya
    2. Parameter kedua adalah parameter norm

Pemanggilan preprocessing.normalize akan menghasilkan data yang ternormalisasi. Data yang sudah dinormalisasi kita tampung kedalam l1_normalised_data. 

## L2 Normalisation: Least Squares

Referensi: [https://en.wikipedia.org/wiki/Least_squares](https://en.wikipedia.org/wiki/Least_squares)

Teknik Data Preprocessing ke 4

In [10]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

In [11]:
l2_normalised_data = preprocessing.normalize(sample_data, norm='l2')
l2_normalised_data

array([[ 0.33946114, -0.30713151,  0.88906489],
       [-0.33325106,  0.53320169,  0.7775858 ],
       [ 0.05156558, -0.81473612,  0.57753446],
       [ 0.68706914,  0.26784051, -0.6754239 ]])

preprocessing.normalize membutuhkan dua parameter : 
    1. Parameter pertama adalah datanya atau sample datanya
    2. Parameter kedua adalah parameter norm

Pemanggilan preprocessing.normalize akan menghasilkan data yang ternormalisasi. Data yang sudah dinormalisasi kita tampung kedalam l2_normalised_data. Untuk kasus ini data yang ternormalisasi berbentuk Least Squares. 