# SKLearn 04 - *Data Preprocessing* dengan *Scikit-Learn*

## *Sample Dataset*
- Dataset akan digenerate sebagai numpy array, sehingga kita perlu melakukan import **numpy**
> `import numpy as np`
- Mengimport modul **preprocessing** dari sklearn
> `from sklearn import preprocessing`
- Kali ini kita akan membuat dataset yang terdiri dari 4 baris, dimana setiap baris memiliki 3 features.
> `sample_data = np.array([[2.1, -1.9, 5.5], [-1.5, 2.4, 3.5], [0.5, -7.9, 5.6], [5.9, 2.3, -5.8]])`
- Menampilkan dataset yang ditampung oleh **sample_data**
> `sample_data`

In [1]:
import numpy as np
from sklearn import preprocessing

sample_data = np.array([[2.1, -1.9, 5.5], [-1.5, 2.4, 3.5], [0.5, -7.9, 5.6], [5.9, 2.3, -5.8]])
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

- Memanggil `sample_data.shape` untuk mnampilkan dimensi dari dataset `sample_data`. Pemanggilan ini akan menghasilkan **`(4, 3)`** yang berarti bahwa dataset tersebut memiliki 4 baris dan 3 kolom atau features.

In [2]:
sample_data.shape

(4, 3)

## *Binarisation*
Teknik ***binarisation*** bertujuan untuk menghasilkan suatu data yang terdiri dari 2 nilai numerik saja, yaitu 0 dan 1.
- Menampilkan dataset `sample_data` 
> `sample_data`

In [3]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

Dataset `sample_data` memiliki nilai floating-point yang beragam. Pada studi kasus kali ini, kita diminta untuk mengkonversi semua nilai pada `sample_data` menjadi 0 atau 1 dengan ketentuan bahwa **untuk setiap nilai yang lebih besar dari 0.5 akan dikonversi menjadi 1 dan untuk sisanya akan dikonversi menjadi 0**.
- Membentuk object binarizer dengan nilai parameter thresholdnya yaitu 0.5. *Nilai parameter threshold=0.5 berarti bahwa untuk `nilai yang lebih kecil atau sama dengan` 0.5 akan dikonversi menjadi `0` dan untuk `nilai yang lebih besar dari` 0.5 akan dikonversi menjadi `1`*. Object binarizer tersebut akan ditampung oleh variabel `preprocessor`. 
> `preprocessor = preprocessing.Binarizer(threshold=0.5)`
- Melakukan transform terhadap `sample_data` dengan memanggil `preprocessor.transform()` dan hasil tranformasinya akan ditampung oleh variabel `binarised_data`
> `binarised_data = preprocessor.transform(sample_data)`

In [4]:
preprocessor = preprocessing.Binarizer(threshold=0.5)
preprocessor
binarised_data = preprocessor.transform(sample_data)
binarised_data

array([[1., 0., 1.],
       [0., 1., 1.],
       [0., 0., 1.],
       [1., 1., 0.]])

## *Scaling*
Tujuan dari teknik ***scaling*** adalah untuk menghasilkan data numerik yang berada dalam rentang skala tertentu.
- Menampilkan dataset `sample_data`
> `sample_data`

In [5]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

Dataset `sample_data` terdiri atas nilai floating point dengan rentang nilai **-7.9 sampai dengan 5.9**. Pada studi kasus kali ini, kita diminta untuk mengkonversi nilai numerik tersebut ke dalam rentang nilai **0 sampai dengan 1**.
- Pada kesempatan kali ini, kita akan menggunakan scaling jenis `MinMaxScaler`.
> `preprocessor = preprocessing.MinMaxScaler(feature_range=(0, 1))`
- Object scaler yang dihasilkan akan kita fit terhadap `sample_data`.
> `preprocessor.fit(sample_data)`
- Melakukan transform terhadap `sample_data` dengan memanggil `preprocessor.transform()` dan hasil tranformasinya akan ditampung oleh variabel `scaled_data`.
> `scaled_data = preprocessor.transform(sample_data)`

In [6]:
preprocessor = preprocessing.MinMaxScaler(feature_range=(0, 1))
preprocessor.fit(sample_data)
scaled_data = preprocessor.transform(sample_data)
scaled_data

array([[0.48648649, 0.58252427, 0.99122807],
       [0.        , 1.        , 0.81578947],
       [0.27027027, 0.        , 1.        ],
       [1.        , 0.99029126, 0.        ]])

- Kita dapat menyatukan proses fitting dan transform pada dataset yang sama secara sekaligus dengan memanggil method `fit_transform()`.
> `scaled_data = preprocessor.fit_transform(sample_data)`

In [7]:
scaled_data = preprocessor.fit_transform(sample_data)
scaled_data

array([[0.48648649, 0.58252427, 0.99122807],
       [0.        , 1.        , 0.81578947],
       [0.27027027, 0.        , 1.        ],
       [1.        , 0.99029126, 0.        ]])

## *L1 Normalization: Least Absolute Deviations*
Tujuan dari teknik ***normalization*** adalah untuk melakukan normalisasi terhadap data numerik yang kita miliki. 
- Menampilkan dataset `sample_data`
> `sample_data`

In [8]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

- Memanggil `preprocessing.normalize()` yang disertai oleh 2 parameter.
    - Parameter pertama adalah dataset yang akan dilakukan normalisasi.
    - Parameter kedua adalah jenis normalisasi yang akan dikenakan ke dataset. Kali ini kita akan melakukan L1 Normalization, sehingga kita akan menentukan parameternya adalah `norm='l1'`.
> `l1_normalised_data = preprocessing.normalize(sample_data, norm='l1')`

In [9]:
l1_normalised_data = preprocessing.normalize(sample_data, norm='l1')
l1_normalised_data

array([[ 0.22105263, -0.2       ,  0.57894737],
       [-0.2027027 ,  0.32432432,  0.47297297],
       [ 0.03571429, -0.56428571,  0.4       ],
       [ 0.42142857,  0.16428571, -0.41428571]])

## *L2 Normalization: Least Squares*
- Menampilkan dataset `sample_data`
> `sample_data`

In [10]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

- Memanggil `preprocessing.normalize()` yang disertai oleh 2 parameter.
    - Parameter pertama adalah dataset yang akan dilakukan normalisasi.
    - Parameter kedua adalah jenis normalisasi yang akan dikenakan ke dataset. Kali ini kita akan melakukan L2 Normalization, sehingga kita akan menentukan parameternya adalah `norm='l2'`.
> `l2_normalised_data = preprocessing.normalize(sample_data, norm='l2')`

In [11]:
l2_normalised_data = preprocessing.normalize(sample_data, norm='l2')
l2_normalised_data

array([[ 0.33946114, -0.30713151,  0.88906489],
       [-0.33325106,  0.53320169,  0.7775858 ],
       [ 0.05156558, -0.81473612,  0.57753446],
       [ 0.68706914,  0.26784051, -0.6754239 ]])