# Sample Dataset

In [1]:
import numpy as np
from sklearn import preprocessing

sample_data = np.array([[2.1, -1.9, 5.5], 
                        [-1.5, 2.4, 3.5], 
                        [0.5, -7.9, 5.6],
                        [5.9, 2.3, -5.8]])

sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

* import numpy sebagai np karena datasetnya kita generate sebagai np.array
* modul preprocessing dengan memanggil "from sklearn import preprocessing"

Hasil Dataset:
* jumlah instances = 4 (jumlah baris)
* jumlah features = 3 (jumlah kolom)

dataset yang terbentuk ditampung ke dalam variable yg kita beri nama "sample_data"

In [None]:
sample_data.shape

* menampilkan dimensi dari dataset

# Binarisation

Tujuan binarisation adalah untuk menghasilkan suatu data yang terdiri dari dua nilai numerik saja yaitu 0 dan 1

In [None]:
sample_data

* Dataset ini terdiri dari sekumpulan nilai floating point yang cukup beragam
* Semisalnya memiliki kebutuhan untuk mengkonversi setiap nilai numerik yanglebih besar dari 0,5 menjadi 1 dan sisanya di konversikan menjadi 0
* Kebutuhan diatas bisa dipenuhi dengan memanfaatkan kelas "binarizer"

In [None]:
preprocessor = preprocessing.Binarizer(threshold=0.5)
binarised_data = preprocessor.transform(sample_data)
binarised_data

* Bentuk object binarizer dengan memanggil "preprocessing.Binarizer" dan menyertakan satu buah parameter "threshold" diset di "0,5" kemudian di tampung di variabel "prepocessor"
* Mengenakan proses transformasi terhadap sample data yang kita miliki dengan cara memanggil "preprocessor.transform" lalu panggil sample dataset nya "(sample_data)" kemudian ditampung di variabel "binarised_data"
* Untuk nilai yang sama persis dengan nilai threshold maka akan dikonversi ke nilai "0"
* Sederhananya,nilai "1" akan kita peroleh dari suatu nilai yang lebih besar nilai thresholdnya dan sisanya akan dikonversikan menjadi nilai "0"

# Scaling

In [None]:
Tujuan scaling adalah untuk menghasilkan suatu data numerik yang berada dalam rantang skala tertentu

In [None]:
sample_data

* Data tersebut terdiri dari sekumpulan nilai floating point dengan rentang nilai,mulai dari -7,9 sebagai nilai terkecil sampai 5,9 sebagai nilai terbesar
*  semisalnya memiliki kebutuhan untuk mengkonversikan sekumpulan nilai numerik ini ke dalam rentang nilai mulai dari 0 sampai dengan 1
* Kebutuhan diatas bisa dipenuhi dengan memanfaatkan kelas "scaler"

In [None]:
preprocessor = preprocessing.MinMaxScaler(feature_range=(0, 1))
preprocessor.fit(sample_data)
scaled_data = preprocessor.transform(sample_data)
scaled_data

*Scalling sederhana*

* Panggil preprocessing.MinMaxScaler menyertakan satu parameter penting yaitu "feature_range" akan membutuhkan data yang bertipe tuple yang akan memuat dua nilai
* Kasus ini nilainya kita set sebagai 0 dan 1.nilai 0 ini akan mengindikasikan nilai terkecil dari skala yang baru dan nilai 1 ini mengindikasikan nilai terbesar dari skala yang baru nanti
* Begitu kita memanggil "preprocessing.MinMaxScaler" dengan nilai (feature_range=(0, 1)) maka akan terbentuk objek scaler yang kita tampung ke dalam variabel "preprocesor"
* Selanjutnya objek scaler ini akan kita fit terhadap sample data yang kita miliki caranya memanggil "preprocessor.fit" lalu kita masukkan (sample_data) sebagai parameternya
* Setelah scallernya kita fit terhadap sample data kita maka scaller ini bisa kita gunakan untuk melakukan proses transformasi data
* Untuk kasus kita kali ini transformasi datanya juga akan kita kenakan pada sample data yang kita miliki tadi.oleh karena itu kita panggil "preprocessor.transform" alu kita masukkan (sample_data) nya.hasil dari proses transformasi data ini kita tampung ke dalam variable "scaled_data"

*Kesimpulan*
* Proses minmaxscaler digunakan untuk mengubah skala nilai terkecil dan nilai terbesar dari data set yang kita miliki ini ke skala tertentu

* Proses fitting dan transformasinya dikenakan terhadap data set yang sama yaitu sample_data
* Dalam scikit learn,proses ini bisa kita satukan dengan memanfaatkan method fit.transform (dengan cara seperti dibawah ini)

In [None]:
scaled_data = preprocessor.fit_transform(sample_data)
scaled_data

* Panggil objek preprocessornya atau objek scalernya lalu kita panggil method "fit.transform" lalu kita sertakan sample data sebagai parameternya
* Proses fitting dan transformasi dikenakan pada data yang sama
* Selanjutnya hasil dari proses transformasinya kita akan tampung ke variable "scaled_data"

# L1 Normalisation: Least Absolute Deviations

Tujuan teknik ini adalah untuk melakukan normalisasi terhadap data numerik yang kita miliki

In [None]:
sample_data

* Pada kasus normalisation pertama ini kita akan menerapkan "Least Absolute Deviations"

In [None]:
l1_normalised_data = preprocessing.normalize(sample_data, norm='l1')
l1_normalised_data

* Pertama kita panggil "preprocessing" lalu kita ikuti dengan ".normalize",nah "preprocessing.normalize" ini membutuhkan dua parameter,parameter adalah datanya atau sample datanya lalu parameter kedua adalah parameter "norm" pada kasus ini parameter normnya kita beli nilai string 'l1',normalisasi 'l1' ini akan berasosasi dengan normalisasi yang menerapkan "Least Absolute Deviations"
* Pemanggilan fungsi "preprocessing.normalize" ini akan menghasilkan data yang ternomalisasi dan data yang sudah ternomalisasi akan kita tampung ke dalam variabel "l1_normalised_data"

Check referensi di https://en.wikipedia.org/wiki/Least_absolute_deviations

# L2 Normalisation: Least Squares

In [None]:
sample_data

In [None]:
l2_normalised_data = preprocessing.normalize(sample_data, norm='l2')
l2_normalised_data

* Pertama kita panggil "preprocessing" lalu kita ikuti dengan ".normalize",nah "preprocessing.normalize" ini membutuhkan dua parameter,parameter adalah datanya atau sample datanya lalu parameter kedua adalah parameter "norm" pada kali ini parameter normnya kita beli nilai 'l2',normalisasi 'l1' ini akan berasosasi dengan normalisasi yang menerapkan "Least Squares"
* Pemanggilan fungsi "preprocessing.normalize" ini akan menghasilkan data yang ternomalisasi dan data yang sudah ternomalisasi akan kita tampung ke dalam variabel "l2_normalised_data"

Check referensi di https://en.wikipedia.org/wiki/Least_squares