## Apa itu Data Scaling ?

__Data scaling__ adalah proses mentranformasi nilai dari beberapa kolom/variabel numerik ke dalam <i>range</i> yang mirip. 

Saat mengolah data, bukan hal yang jarang terjadi jika rentang nilai antara variabel tersebut sangat jauh. Misalnya umur yang normalnya hanya berkisar di bawah 100 dan gaji yang kebanyakan bernilai puluhan ribu, ratusan ribu atau jutaan rupiah. 

Perbedaan <i>range</i> yang jauh tersebut dapat mempengaruhi hasil akurasi model <i>machine learning</i>. Karena itu, sebelum dilakukan proses <i>modeling</i> perlu melakukan <i>scaling</i> data agar hasil model <i>machine learning</i> menjadi lebih akurat, misalnya dengan mengubahnya ke dalam <i>range</i> 0 sampai 1.

## Load dataset

Dataset yang digunakan dalam praktek kali ini adalah dataset __Iris__ yang sudah tersedia di <i>library</i> Scikit-Learn sehingga dapat langsung me-<i>load</i>-nya.

Ada 4 fitur di dalam dataset Iris, yaitu <code>sepal length (cm)</code>, <code>sepal width (cm)</code>, <code>petal length (cm)</code>, dan <code>petal width (cm)</code>. Cara mengaksesnya dengan menggunakan <code>.data</code>. Sedangkan kolom target berupa bilangan 0, 1, dan 2 yang merepresentasikan __'Iris-Setosa'__, __'Iris-Versicolor'__, dan __'Iris-Virginica'__ yang merupakan jenis bunga Iris. Cara mengakses target gunakan <code>.target</code>.

In [None]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['class'] = pd.Series(iris.target)
df.sample(10)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),class
50,7.0,3.2,4.7,1.4,1
36,5.5,3.5,1.3,0.2,0
147,6.5,3.0,5.2,2.0,2
6,4.6,3.4,1.4,0.3,0
17,5.1,3.5,1.4,0.3,0
13,4.3,3.0,1.1,0.1,0
139,6.9,3.1,5.4,2.1,2
121,5.6,2.8,4.9,2.0,2
89,5.5,2.5,4.0,1.3,1
120,6.9,3.2,5.7,2.3,2


Semua fitur sudah bertipe numerik, jadi langsung lakukan <i>scaling</i> data.

## Simple Feature Scaling

Metode yang pertama adalah dengan __simple feature scaling__. Metode ini terbilang yang paling sederhana karena hanya membagi setiap data dengan nilai maksimum di kolom tersebut.

Mari terapkan pada dataframe <code>df</code>. <i>Scaling</i> dilakukan hanya pada data fitur, bukan target. Karena itu harus menghapus target terlebih dahulu, baru kemudian setelah proses <i>scaling</i> selesai dapat disatukan lagi untuk proses <i>modeling</i>.

In [None]:
# Menghapus kolom 'class'

df_fitur = df.drop(['class'], axis=1)
df_fitur.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Setelah hapus kolom <code>class</code> dan menyimpannya di variabel baru bernama <code>df_fitur</code>, langsung terapkan <i>simple feature scaling</i> seperti di bawah ini.

In [None]:
# Menerapkan simple feature scaling

df_fitur_scaling = df_fitur / df_fitur.max()

lihat hasilnya.

In [None]:
# Menampilkan dataframe hasil scaling

df_fitur_scaling.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,0.64557,0.795455,0.202899,0.08
1,0.620253,0.681818,0.202899,0.08
2,0.594937,0.727273,0.188406,0.08
3,0.582278,0.704545,0.217391,0.08
4,0.632911,0.818182,0.202899,0.08


Terihat dari output di atas, sekarang nilai dari fitur pada dataframe sudah berubah berkisar antara <b>0</b> sampai <b>1</b>.

## Data Normalization

Metode selanjutnya yaitu <i>data normalization</i> atau normalisasi data. Di Scikit-Learn dapat menggunakan method <code>normalize()</code> untuk normalisasi data. atau dapat juga menggunakan <code>MinMaxScaler</code>.

### normalize()

<code>normalize()</code> ada di dalam <i>library</i> sklearn.preproccessing dan akan menghasilkan nilai antara 0 dan 1. Jadi jangan lupa untuk impor dahulu <i>library</i>-nya. 

Gunakan <code>df_fitur</code> di atas untuk praktek ini. Sebelumnya, mari lihat dataframe <code>df_fitur</code>.

In [None]:
# Menampilkan dataframe df_fitur

df_fitur.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Selanjutnya kita normalisasi <code>df_fitur</code> menggunakan <code>normalize</code>. Hasil dari <code>normalize</code> berupa array, karena itu harus mentranformasinya menjadi dataframe.

In [None]:
from sklearn.preprocessing import normalize

# Normalisasi data
norm = normalize(df_fitur)

# Transformasi array menjadi dataframe 
df_fitur_norm = pd.DataFrame(data=norm, columns=df_fitur.columns)

Sekarang lihat hasilnya.

In [None]:
# Menampilkan dataframe hasil normalisasi

df_fitur_norm.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,0.803773,0.551609,0.220644,0.031521
1,0.828133,0.50702,0.236609,0.033801
2,0.805333,0.548312,0.222752,0.034269
3,0.80003,0.539151,0.260879,0.034784
4,0.790965,0.569495,0.22147,0.031639


### MinMaxScaler

Selanjutnya untuk normalisasi data juga menggunakan <code>MinMaxScaler</code>. Cara kerjanya setiap nilai pada sebuah fitur dikurangi dengan nilai minimum fitur tersebut, kemudian dibagi dengan rentang nilai atau nilai maksimum dikurangi nilai minimum dari fitur tersebut.

Di Python, dapat dengan mudah melakukannya dengan <i>library</i> Scikit-Learn.

In [None]:
from sklearn.preprocessing import MinMaxScaler

# Normalisasi dengan min max scaler
minmax = MinMaxScaler()
minmax_scaler = minmax.fit_transform(df_fitur)

# Tranformasi array menjadi dataframe
df_fitur_minmax = pd.DataFrame(data=minmax_scaler, columns=df_fitur.columns)

lihat hasilnya.

In [None]:
# Menampilkan dataframe hasil normalisasi dengan MinMaxScaler

df_fitur_minmax.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,0.222222,0.625,0.067797,0.041667
1,0.166667,0.416667,0.067797,0.041667
2,0.111111,0.5,0.050847,0.041667
3,0.083333,0.458333,0.084746,0.041667
4,0.194444,0.666667,0.067797,0.041667


## Data Standardization

<i>Data standardization</i> mengacu pada pergeseran distribusi setiap fitur agar memiliki rata-rata 0 dan standar deviasi 1. 

Konsepnya adalah masing-masing nilai pada fitur dikurangi dengan miu <code>(µ)</code> yang merupakan nilai rata-rata fitur, kemudian dibagi dengan sigma <code>(σ)</code> yang merupakan standar deviasi.

Di Python, melakukan standarisasi data menggunakan <code>scale</code> dan <code>StandarScaler</code> dari Scikit-Learn.

### scale

masih menggunakan dataframe <code>df_fitur</code>.

In [None]:
from sklearn.preprocessing import scale

# Normalisasi data
scale = scale(df_fitur)

# Transformasi array menjadi dataframe 
df_fitur_scale = pd.DataFrame(data=scale, columns=df_fitur.columns)

Sekarang lihat hasilnya.

In [None]:
# Menampilkan dataframe hasil standarisasi dengan scale

df_fitur_scale.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,-0.900681,1.019004,-1.340227,-1.315444
1,-1.143017,-0.131979,-1.340227,-1.315444
2,-1.385353,0.328414,-1.397064,-1.315444
3,-1.506521,0.098217,-1.283389,-1.315444
4,-1.021849,1.249201,-1.340227,-1.315444


### StandarScaler

Cara lain untuk standarisasi data adalah dengan menggunakan <code>StandardScaler</code> dari <code>Scikit-Learn</code>.

In [None]:
from sklearn.preprocessing import StandardScaler

# Standarisasi dengan min max scaler
standard = StandardScaler()
standard_scaler = standard.fit_transform(df_fitur)

# Tranformasi array menjadi dataframe
df_fitur_standard = pd.DataFrame(data=standard_scaler, columns=df_fitur.columns)

lihat hasilnya.

In [None]:
# Menampilkan dataframe hasil standarisasi dengan StandardScaler

df_fitur_standard.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,-0.900681,1.019004,-1.340227,-1.315444
1,-1.143017,-0.131979,-1.340227,-1.315444
2,-1.385353,0.328414,-1.397064,-1.315444
3,-1.506521,0.098217,-1.283389,-1.315444
4,-1.021849,1.249201,-1.340227,-1.315444


Banyak yang mengenal semua metode di atas adalah metode normalisasi data. Jadi, tidak perlu bingung jika ada yang mengatakan normalisasi data dengan StandarScaler misalnya.



---


Semoga Bermanfaat dan jangan lupa main-main kesini: <a href="https://nurpurwanto.github.io/">**nurpurwanto**</a> Terimakasih.

---


