**Normalisasi Data**

Normalization adalah salah satu teknik yang dipakai dalam data preparation. Tujuan dari normalisasi adalah mengubah nilai-nilai dari sebuah fitur ke dalam skala yang sama. Normalization memungkinkan kenaikan performa dan stabilitas dari sebuah model machine learning.

| Nama | Gaji       | Umur |
| :--- | :--------- | :--- |
| A    | 12.000.000 | 33   |
| B    | 35.000.000 | 45   |
| C    | 4000000    | 23   |
| D    | 6500000    | 26   |
| E    | 9000000    | 29   |

Contoh dari normalization adalah ketika kita memiliki dataset seperti di atas yang memiliki fitur umur dengan skala 23 sampai 45 tahun dan fitur gaji dengan skala 4.000.000 sampai 35.000.000. Di sini kita melihat bahwa fitur gaji sekitar satu juta kali lebih besar dari fitur umur dan menunjukkan kedua fitur ini berada pada skala yang sangat jauh berbeda.

Ketika membangun model seperti regresi linear, fitur gaji akan sangat mempengaruhi prediksi dari model karena nilainya yang jauh lebih besar daripada umur, walaupun tidak berarti fitur tersebut jauh lebih penting dari fitur umur.

Salah satu contoh dari normalization adalah min-max scaling di mana nilai-nilai dipetakan ke dalam skala 0 sampai 1. SKLearn menyediakan library untuk normalization

In [1]:
from sklearn.preprocessing import MinMaxScaler

data = [[12000000, 33],
        [35000000, 45],
        [4000000, 23],
        [6500000, 26],
        [9000000, 29]]

scaler = MinMaxScaler()
scaler.fit(data)

ModuleNotFoundError: No module named 'sklearn'

Sampai pada fungsi fit() ini, komputer baru menghitung nilai minimum dan maksimum pada tiap kolom dan belum melakukan operasi scaler pada data. Terakhir kita panggil fungsi transform() yang akan mengaplikasikan scaler pada data, sebagai berikut.

In [None]:
print(scaler.transform(data))

[[0.25806452 0.45454545]
 [1.         1.        ]
 [0.         0.        ]
 [0.08064516 0.13636364]
 [0.16129032 0.27272727]]


Setiap nilai dari kolom gaji dan umur telah dipetakan pada skala yang sama seperti di bawah ini.
| Nama | Gaji       | Umur       |
| :--- | :--------- | :--------- |
| A    | 0.25806452 | 0.45454545 |
| B    | 1          | 1          |
| C    | 0          | 0          |
| D    | 0.08064516 | 0.13636364 |
| E    | 0.16129032 | 0.27272727 |

Untuk informasi lebih detail tentang Min Max Scaler, silakan kunjungi [tautan](https://scikit-learn.org/0.16/modules/generated/sklearn.preprocessing.MinMaxScaler.html) berikut.

**Standardization**
Standardization adalah proses konversi nilai-nilai dari suatu fitur sehingga nilai-nilai tersebut memiliki skala yang sama, $Z$ score adalah metode paling populer untuk standarsisasi di mana setiap nilai pada sebuah atribut numerik akan dikurangi dengan rata-rata dan di bagi dengan standart deviasi dari seluruh nilai pada sebuah proses kolom attribut.

$z = \frac{value - mean}{standard deviation}$

Fungsi standardisasi itu serupa dengan normallization. Keduanya berfungsi menyamakan skala nilai dari tiap atribut pada data. SKLearn menyediakan library untuk mengaplikasikan standart scaler pada data

| Nama | Gaji       | Umur |
| :--- | :--------- | :--- |
| A    | 12.000.000 | 33   |
| B    | 35.000.000 | 45   |
| C    | 4000000    | 23   |
| D    | 6500000    | 26   |
| E    | 9000000    | 29   |

Pada cell pertama akan meimport library **preprocessing** dari **scikit learn** lalu membuat data dummy sesuai dengan tabel di atas

In [None]:
from sklearn import preprocessing
data_n = data

Selanjutnya kita buat object scaler dan panggil fungsi fit dari scaler pada data. Fungsi fit memiliki fungsi untuk menghitung rata-rata dan deviasi standar dari setiap kolom atribut untuk kemudian dipakai pada fungsi transform

In [None]:
scaler_n = preprocessing.StandardScaler().fit(data_n)

Terakhir panggil fungsi transform untuk mengaplikasikan standard scaler pada data.
Untuk melihat hasil kita cukup panggil objek scaler yang telah kita buat

In [None]:
data_n = scaler.transform(data_n)
data_n

array([[0.25806452, 0.45454545],
       [1.        , 1.        ],
       [0.        , 0.        ],
       [0.08064516, 0.13636364],
       [0.16129032, 0.27272727]])