# 04 Data Preprocessing dengan Scikit-Learn

## Sample Dataset

Pada tahap `Sample Dataset` terlebih dahulu kita untuk mempersiapkan `sample_data` yang akan di olah.

Pertama-tama kita perlu untuk melakukan import `numpy` sebagai `np` karena Dataset akan digeneralisasikan sebagai `numpy array`.
Selanjutnya untuk melakukan `Preprocessing` kita perlu untuk melakukan `from sklearn import preprocessing`.

In [1]:
import numpy as np
from sklearn import preprocessing

sample_data = np.array([[2.1, -1.9, 5.5], 
                        [-1.5, 2.4, 3.5], 
                        [0.5, -7.9, 5.6],
                        [5.9, 2.3, -5.8]])

sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

Dataset yang dihasil dapat kita pandang dengan Dataset **Features** mengacu pada materi yang sudah dijelaskan sebelumnya yang terbagi atas tiga Dataset.

Untuk lebih jelasnya lagi kita dapat memanggil dimensi dari `sample_data` dengan `sample_data.shape`.

In [2]:
sample_data.shape

(4, 3)

- `(4, 3)` merepresentasikan bahwa jumlah barisnya ada 4 dan jumlah kolom atau Featuresnya ada 3

## Binarisation

**Binarization** adalah suatu proses data numerik yang terdiri dari 2 nilai yaitu `0` dan `1`.

Tahap berikutnya kita akan coba untuk menampilkan data (`sample_data`) yang sudah kita tampung sebelumnya.

In [3]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

- Nilai yang ditampilkan oleh `sample_data` dapat diubah dengan 2 nilai yaitu `0` dan `1` menggunakan `preprocessing.Binarizer` seperti script dibawah yang menyertakan 1 buah parameter yaitu `threshold=0.5` dengan nilai `0.5`.
- Tahap selanjutnya kita akan melakukan transformasi nilai dengan `preprocessor.transform(sample_data)` yang ditampung dalam variabel `binarised_data`.

In [4]:
preprocessor = preprocessing.Binarizer(threshold=0.5)
binarised_data = preprocessor.transform(sample_data)
binarised_data

array([[1., 0., 1.],
       [0., 1., 1.],
       [0., 0., 1.],
       [1., 1., 0.]])

Untuk nilai yang ditampilkan hanya memiliki 2 nilai saja yaitu `0` dan `1` dengan pemahaman bahwa nilai yang dibawah `0.5` akan menjadi nilai `0` dan nilai yang diatas `0.5` akan menjadi nilai `1` dari hasil **Binarization** `sample_data`.

- Nilai `>0.5` = `1`
- Nilai `<0.5` = `0`
- Nilai `=0.5` = `0`

## Scaling

Tujuan utama dari teknik `Scaling` ini adalah untuk menghasilkan data numerik yang berada rentang skala tertentu. Untuk melakukan teknik Scaling kita akan menggunakan `sample_data` yang sudah kita buat sebelumnya.

In [5]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

- Untuk melakukan teknik `Scaling` kita dapat menggunakan bebeapa cara, salah satunya adalah dengan melakukan `preprocessing.MinMaxScaler` yang diberi sebuah parameter `(feature_range=(0, 1)` dengan nilai `0` yang diindikasikan nilai terkecil dari skala baru & `1` yang diindikasikan nilai terbesar dari skala baru dan ditampung dalam sebuah variabel yaitu `preprocessor`.

- Selanjutnya kita akan melakukan `fit` terhadap parameter `sample_data` caranya dengan `preprocessor.fit(sample_data)`.

- Setelah melakukan `fit`, maka `Scaler` ini dapat kita gunakan untuk `transformasi` data dengan melakukan `scaled_data = preprocessor.transform(sample_data)` yang ditampung dalam variabel `scaled_data` dengan parameter `sample_data`.

- Nilai terbesar adalah `1`

- Nilai terkecil adalah `0`

Dengan script dibawah ini.

In [6]:
preprocessor = preprocessing.MinMaxScaler(feature_range=(0, 1))
preprocessor.fit(sample_data)
scaled_data = preprocessor.transform(sample_data)
scaled_data

array([[0.48648649, 0.58252427, 0.99122807],
       [0.        , 1.        , 0.81578947],
       [0.27027027, 0.        , 1.        ],
       [1.        , 0.99029126, 0.        ]])

Proses `fit` dan `transform` dapat dilakukan dengan sederhana dengan data atau parameter yang sama yang ditampung ke dalam variabel `scaled_data`, caranya dapat melihat script dibawah ini

`scaled_data = preprocessor.fit_transform(sample_data)`

In [7]:
scaled_data = preprocessor.fit_transform(sample_data)
scaled_data

array([[0.48648649, 0.58252427, 0.99122807],
       [0.        , 1.        , 0.81578947],
       [0.27027027, 0.        , 1.        ],
       [1.        , 0.99029126, 0.        ]])

## L1 Normalisation: Least Absolute Deviations 


Tujuan utama dari Normalization ini adalah untuk menormalkan data numerik yang kita miliki.

`Least absolute deviations (LAD)`, also known as least absolute errors (LAE), least absolute value (LAV), least absolute residual (LAR), sum of absolute deviations, or the L1 norm condition, is a statistical optimality criterion and the statistical optimization technique that relies on it. Similar to the least squares technique, it attempts to find a function which closely approximates a set of data. In the simple case of a set of (x,y) data, the approximation function is a simple "trend line" in two-dimensional Cartesian coordinates.

Referensi: [https://en.wikipedia.org/wiki/Least_absolute_deviations](https://en.wikipedia.org/wiki/Least_absolute_deviations)

In [8]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

Untuk melakukan `Normalization` kita akan menggunakan `sample_data` yang akan kita olah atau dinormalisasikan dengan cara `preprocessing.normalize` yang memiliki 2 parameter `(sample_data, norm='l1')` yang ditampung di variabel `l1_normalised_data` :

- Parameter pertama adalah `sample_data` sebagai data numerik yang akan diubah.
- Parameter kedua adalah `norm=l1` sebagai **Least Absolute Deviations**

Dapat melihat script dibawah ini.

In [9]:
l1_normalised_data = preprocessing.normalize(sample_data, norm='l1')
l1_normalised_data

array([[ 0.22105263, -0.2       ,  0.57894737],
       [-0.2027027 ,  0.32432432,  0.47297297],
       [ 0.03571429, -0.56428571,  0.4       ],
       [ 0.42142857,  0.16428571, -0.41428571]])

## L2 Normalisation: Least Squares


The method of `least squares` is a standard approach in regression analysis to approximate the solution of overdetermined systems (sets of equations in which there are more equations than unknowns) by minimizing the sum of the squares of the residuals made in the results of every single equation.

The most important application is in data fitting. The best fit in the least-squares sense minimizes the sum of squared residuals (a residual being: the difference between an observed value, and the fitted value provided by a model). When the problem has substantial uncertainties in the independent variable (the x variable), then simple regression and least-squares methods have problems; in such cases, the methodology required for fitting errors-in-variables models may be considered instead of that for least squares.

Least-squares problems fall into two categories: linear or ordinary least squares and nonlinear least squares, depending on whether or not the residuals are linear in all unknowns. The linear least-squares problem occurs in statistical regression analysis; it has a closed-form solution. The nonlinear problem is usually solved by iterative refinement; at each iteration the system is approximated by a linear one, and thus the core calculation is similar in both cases.

Referensi: [https://en.wikipedia.org/wiki/Least_squares](https://en.wikipedia.org/wiki/Least_squares)

Sebelum melakukan `Normalization (L2): Least Squares` kita akan memerlukan `sample_data`

In [10]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

Setelah kita sudah melakukan `sample_data` selanjutnya kita akan melakukan `preprocessing.normalize` dengan menyertakan 2 parameter yaitu `(sample_data, norm='l2')` yang ditampung kedalam sebuah variabel `l2_normalised_data`.

- `l2_normalised_data = preprocessing.normalize(sample_data, norm='l2')`
- Parameter yang pertama mengacu pada `sample_data`
- Parameter yang kedua yaitu `norm=l2` sebagai Normalization `Least Squares`

`l2_normalised_data = preprocessing.normalize(sample_data, norm='l2')`

In [11]:
l2_normalised_data = preprocessing.normalize(sample_data, norm='l2')
l2_normalised_data

array([[ 0.33946114, -0.30713151,  0.88906489],
       [-0.33325106,  0.53320169,  0.7775858 ],
       [ 0.05156558, -0.81473612,  0.57753446],
       [ 0.68706914,  0.26784051, -0.6754239 ]])