# Data Preparation with Normalization and Standardization
Dalam data preparation bukan hanya konversi data kategorik menjadi numerik, tetapi ada beberapa teknik lain dalam data preparation seperti **Outlier Removal**, **Normalization**, dan **Standardization**.

## Outlier Removal
Dalam statistika outlier biasanya nilai yang jauh berbeda dari kumpulan nilai lainnya dan bisa saja mengacaukan hasil analisis. Munculnya outlier disebabkan oleh beberapa hal, seperti kesalahan dalam pengumpulan data atau nilai. Kita perlu mengidentifikasi dan memproses outlier karena hal ini bagian penting dalam persiapan data pada Machine Learning. Cara termudah untuk mengecek apakah terdapat outlier dalam data dapat dilakukan visualisasi.

## Normalization
Tehnik kedua adalah normalisasi, dimana sebuah data diubah nilai-nilainya menjadi skala yang sama.

In [1]:
# Contoh data yang dapat dinormalisasi
import pandas as pd

# Data
data = {
    'Nama': ['A', 'B', 'C', 'D', 'E'],
    'Gaji': [12000000, 35000000, 4000000, 6500000, 9000000],
    'Umur': [30, 50, 23, 24, 29]
}

# Membuat dataframe dari data
df = pd.DataFrame(data)

# Menampilkan tabel
print(df)

  Nama      Gaji  Umur
0    A  12000000    30
1    B  35000000    50
2    C   4000000    23
3    D   6500000    24
4    E   9000000    29


Bisa dilihat bahwa kolom umur memiliki skala 23 sampai 50 dan kolom gaji memiliki skala 4.000.000 sampai 35.000.000. Bisa dilihat gaji memiliki skala sekitar satu juta kali lebih besar dari umur. Mengartikan bahwa ada skala yang sangat jauh berbeda pada kedua kolom tersebut. Ketika kita membangun model regresi linear, gaji akan mempengaruhi prediksi dari model karena nilai yang jauh lebih besar daripada umur. Salah satu contoh dari Normalization adalah **MinMaxScalling** dimana nilai diubah ke skala 0 sampai 1 menggunakan library SKLearn.

In [2]:
from sklearn.preprocessing import MinMaxScaler

In [3]:
data = [
    [12000000, 30], 
    [35000000, 45],
    [4000000, 23],
    [6500000, 26],
    [9000000, 29],
]

In [4]:
scaler = MinMaxScaler()
scaler.fit(data)

In [5]:
'''
Pada fungsi fit diatas mesin baru menghitung nilai minimun dan maksimum pada 
setiap kolom dan belum melakukan operasi scaller pada data. Cara mengaplikasian scaler kedalam data
dengan memanggil fungsi transform()
'''
scaler.transform(data)

array([[0.25806452, 0.31818182],
       [1.        , 1.        ],
       [0.        , 0.        ],
       [0.08064516, 0.13636364],
       [0.16129032, 0.27272727]])

# Standardization
Sebuah proses dimana nilai-nilai dikonversi dari suatu fitur sehingga nilai-nilai tersebut memiliki skala yang sama adalah Standardization. Z score adalah metode yang sering digunakan untuk Standardization dimana setiap nilai pada atribut numerik akan dikurangi rata-rata dan dibagi dengan standar deviasi dari seluruh nilai pada sebuah kolom.

In [6]:
'''
Fungsi Standardization serupa dengan normalization, kedua berfungsi menyamakan skala nilai dari tiap atribut pada data.
Library SKLearn sudah menyediakan pengaplikasian Standardization.
'''
from sklearn import preprocessing

In [7]:
scaler_standardization = preprocessing.StandardScaler().fit(data)
scaler_standardization

In [9]:
data_standard = scaler_standardization.transform(data)
data_standard

array([[-0.11638732, -0.07889275],
       [ 1.94277296,  1.89342606],
       [-0.83261698, -0.9993082 ],
       [-0.60879521, -0.60484444],
       [-0.38497344, -0.21038067]])