# SKLearn 04 | Data Preprocessing dengan Scikit-Learn | Belajar Machine Learning Dasar

## Sample Dataset

Dalam pembelajaran sebelumnya, dapat diketahui bahwa fase mempersiapkan dataset adalah tahapan yang paling membutuhkan waktu dan  banyak effort dalam suatu project data science / machine learning.

Untuk mempersiapkan sample datasetnya diperlukan untuk mengimport numpy terlebih dahulu karena data yang akan digunakan akan di generate sebagai numpy array. Setelah mengimport numpy barulah akan dilakukan import untuk modul preprocessing. 

Pada sklearn sudah disediakan beberapa teknik data preprocessing yang umum ditemu, dan disini akan dipelajari beberapa diantaranya. 

In [1]:
import numpy as np
# untuk import numpy

from sklearn import preprocessing
# untuk melakukan import modul preprocessing

sample_data = np.array([[2.1, -1.9, 5.5], 
                        [-1.5, 2.4, 3.5], 
                        [0.5, -7.9, 5.6],
                        [5.9, 2.3, -5.8]])
# dataset dummy yang digunakan untuk pembelajaran kali ini

sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

Jika diperhatikan, dataset dummy yang telah kita masukkan bisa dibilang adalah dataset features yang memiliki 4 instance (baris) dan juga terbagi dalam 3 features (kolom). Dan dataset ini ditampung dalam variable sample_data.

In [2]:
sample_data.shape
# untuk menampilkan dimensi dari dataset

(4, 3)

.shape digunakan untuk menunjukkan dimensi yang dimiliki oleh dataset yang ada pada variable sample_data. Disini dapat dilihat dengan lebih jelas bahwa hasilnya adalah (4, 3) yang berarti bahwa dataset tersebut memiliki 4 baris dan 3 kolom. 

## Mempelajari Data Preprocessing

### 1. Binarisation

    Tujuan utama = untuk menghasilkan suatu data yang terdiri dari 2 nilai numeric saja, yaitu 0 & 1.
    
    Pertama-tama akan dilakukan pemanggilan terhadap dataset yang telah dibentuk sebelumnya (sample_data) untuk menampilkan kembali data yang ada.

In [4]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

    Dataset yang dimiliki terdiri dari sekumpulan floating point beragam. Andaikan kita butuh untuk mengkonversi setiap 
    nilai numeric yang lebih besar dari 0.5 menjadi 1 dan sisanya dikonversikan menjadi 0. Dengan kebutuhan tersebut kita dapat menggunakan class Binarizer. 
    
   **Cara menggunakannya :**
   
    1. Membantuk Objek Binarisationnya terlebih dahulu.
       Caranya dapat dengan memanggil preprocessing.Binarizer yang diikuti 1 buah parameter yaitu parameter threshold yang   
       nilainya di set di 0.5
       Jika sudah dijalankan maka akan menghasilkan sebuah objek binarizer yang akan ditampung dalam variable preprocessor.
       
    2. Melakukan proses transformasi terhadap sample data yang dimiliki yaitu sample_data. 
       Caranya dapat dengan memanggil preprocessor (objek binarizer yang tadi telah dibuat) .transform, kemudian diikuti 
       oleh sample ataset yang akan dilakukan transformasi.
       Dan hasil dari transformasi tersebut akan ditampung ke dalam variable binarysed_data.
       

In [6]:
preprocessor = preprocessing.Binarizer(threshold=0.5)
# untuk membuat objek binarisationnya

binarised_data = preprocessor.transform(sample_data)
# untuk melakukan transformasi sample dataset yang dimiliki

binarised_data
# menampilkan isinya

array([[1., 0., 1.],
       [0., 1., 1.],
       [0., 0., 1.],
       [1., 1., 0.]])

    Hasil dari binarisation ini hanya terdiri dari 2 nilai yaitu 1 & 0. 
    
    Dimana batasannya ditentukan dari nilai threshold yang telah ditentukan sebelumnya, dimana nilainya adalah 0.5,
    yang berarti :
    Setiap nilai yang <= 0.5 akan dikonversikan menjadi 0.
    Setiap nilai yang > 0.5 akan dikonversikan menjadi 1. 
    Dan untuk nilai-nilai yang sama dengan nilai thresholdnya maka akan dikonversikan menjadi nilai 0.
    
    Hasil dari binarisation juga dapat diartikan sebagai :
    Nilai 1 dapat diperoleh dari nilai-nilai pada dataset yang memiliki nilai lebih besar (>) dari nilai thresholdnya. 
    Sedangkan nilai 0 dapat diperoleh dari nilai-nilai pada dataset yang memiliki  nilai lebih kecil / sama dengan (<=) 
    nilai thresholdnya.

### 2. Scaling

    Tujuan utama = untuk menghasilkan suatu data numeric yang berada dalam rentang skala tertentu.
    
    Pertama-tama akan dilakukan pemanggilan terhadap dataset yang telah dibentuk sebelumnya (sample_data) untuk menampilkan kembali data yang ada.

In [7]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

    Dataset yang dimiliki terdiri dari sekumpulan floating point beragam. Dapat dilihat bahwa rentang nilai yang terdapat 
    pada sample dataset yang telah dibentuk adalah mulai dari nilai -7.9 sebagai nilai yang terkecil sampai dengan 
    nilai 5.9 sebgai nilai yang terbesar. 
    
    Misalkan kali ini dibutuhkan untuk mengkonversikan sekumpulan nilai numeric yang terdapat dalam dataset ke dalam rentang nilai mulai dari 0 sampai dengan 1. Untuk memenuhi kebutuhan tersebut dapat memanfaatkan class Scaler. Teknik Scaling sendiri memiliki berbagai macam, namum kali ini akan digunakan teknik yang paling sederhana yaitu MinMaxScaler.
    
   **Cara menggunakannya :**

    1. Memanggil preprocessing.MinMaxScaler yang disertakan juga 1 parameter penting yaitu feature_range.
       Parameter feature_range membutuhkan data yang bertipe tupple, yang akan memiliki 2 nilai.
       Nilai tupple yang dibutuhkan oleh feature_range adalah nilai Min / nilai terkecil dari skala yang baru, dan 
       nilai Max / nilai terbesar dari skala yang baru. 
       
       Kali ini nilai tupple yang di set adalah 0 & 1, nilai 0 mengindikasikan nilai terkecil sedangkan nilai 1
       mengindikasikan nilai terbesar.
       
       Begitu memanggil preprocessing.MinMaxScaler maka akan terbentuk sebuah objek scaler baru yang ditampung dalam 
       variable preprocessor.

    2. Objek scaler yang telah terbentuk akan di fit terhadap sample data yang dimiliki, dengan menggunakan 
       preprocessor.fit kemudian memasukan sample data (dataset yang dimiliki) sebagai parameternya.
       
    3. Setelah objek scaler yang dimiliki di fit, maka objek scaler dapat dilakukan untuk melakukan transformasi data.
       Transformasi data kali ini akan dikenakan pada sample data yang dimiliki tadi.
       Proses transformasi data dapat dilakukan dengan memanggil preprocessor.transform disertai 1 parameter yaitu
       dataset yang akan dimasukan (sample data).
       Kemudian hasil transformasi data yang telah dilakukan akan ditampung dalam variable scaled_data.
       

In [10]:
preprocessor = preprocessing.MinMaxScaler(feature_range=(0, 1))
# memanggil MinMaxScaler untuk membuat objek scaler

preprocessor.fit(sample_data)
# untuk melakukan fit objek scaler dengan dataset

scaled_data = preprocessor.transform(sample_data)
# untuk melakukan transformasi data 

scaled_data
# untuk menampilkan hasil datanya

array([[0.48648649, 0.58252427, 0.99122807],
       [0.        , 1.        , 0.81578947],
       [0.27027027, 0.        , 1.        ],
       [1.        , 0.99029126, 0.        ]])

    Dari hasil dapat dilihat bahwa sekarang nilai terkecilnya adalah 0 dan nilai terbesarnya adalah 1. 
    Dan nilai-nilai tersebut merupakan hasil dari transformasi dari sample data yang dimiliki.
    
    Jadi dapat disimpulkan bahwa MinMaxScaler digunakan untuk mengubah skala nilai terkecil dan nilai terbesar dari dataset
    yang dimiliki menjadi skala tertentu.

    Jika dilihat, dapat disadari bahwa dalam proses fitting dan juga transformasi dikenakan pada data yang sama yaitu
    sample_data. Pada sklearn proses ini dapat disederhanakan (disatukan) dengan menggunakan method .fit_transform.
        
    Cara penggunaaannya seperti:

In [9]:
scaled_data = preprocessor.fit_transform(sample_data)
scaled_data

array([[0.48648649, 0.58252427, 0.99122807],
       [0.        , 1.        , 0.81578947],
       [0.27027027, 0.        , 1.        ],
       [1.        , 0.99029126, 0.        ]])

    Langkah untuk melakukan proses fit dan transform dengan digabungkan adalah:
    Panggil preprocessor.fit_transform untuk melakukan proses fit dan transform, kemudian method tersebut diikuti dengan
    1 buah parameter yaitu dataset yang inginkan (dalam contoh yang digunakan adalah sample_data).
    Setelah itu hasilnya akan ditampung dalam variable scaled_data.

### Normalisation

#### L1 Normalisation: Least Absolute Deviations

       Tujuan utama = untuk melakukan normalisasi terhadap data numeric yang dimiliki.
    
    Pertama-tama akan dilakukan pemanggilan terhadap dataset yang telah dibentuk sebelumnya (sample_data) untuk menampilkan kembali data yang ada.

In [11]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

    Pada Normalisation pertama akan diterapkan Least Absolute Deviations.

    Referensi: https://en.wikipedia.org/wiki/Least_absolute_deviations
    
   **Cara menggunakannya :**
   
    Memanggil preprocessing.normalize, hal ini membutuhkan 2 parameter yaitu: 
    Parameter pertama = data / sample datanya
    Parameter kedua = norm, pada kasus ini parameter normnya diberikan nilai String "l1". 
    Normalisasi l1 ini akan berasosiasi dengan normalisasi yang menerapkan Least Absolute Deviations.
       
    Pemanggilan fungsi preprocessing.normalize akan menghasilkan data yang tenormalisasi dan datanya akan ditampung dalam
    variable l1_normalised_data.

In [12]:
l1_normalised_data = preprocessing.normalize(sample_data, norm='l1')
# untuk melakukan normalisasi, dengan menggunakan l1

l1_normalised_data
# untuk menampilkan hasilnya

array([[ 0.22105263, -0.2       ,  0.57894737],
       [-0.2027027 ,  0.32432432,  0.47297297],
       [ 0.03571429, -0.56428571,  0.4       ],
       [ 0.42142857,  0.16428571, -0.41428571]])

#### L2 Normalisation: Least Squares

    Referensi: https://en.wikipedia.org/wiki/Least_squares
    
    Pertama-tama akan dilakukan pemanggilan terhadap dataset yang telah dibentuk sebelumnya (sample_data) untuk menampilkan kembali data yang ada.

In [13]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

    Pada Normalisation kedua akan diterapkan Least Squares.
    
    Cara menggunakannya :

    Memanggil preprocessing.normalize, hal ini membutuhkan 2 parameter yaitu: 
    Parameter pertama = data / sample datanya
    Parameter kedua = norm, pada kasus ini parameter normnya diberikan nilai String "l2". 
    Normalisasi l2 ini akan berasosiasi dengan teknik Least Squares.

    Pemanggilan fungsi preprocessing.normalize akan menghasilkan data yang tenormalisasi dan datanya akan ditampung dalam
    variable l2_normalised_data.

In [14]:
l2_normalised_data = preprocessing.normalize(sample_data, norm='l2')
# untuk melakukan normalisasi, dengan menggunakan l2

l2_normalised_data
# untuk menampilkan hasilnya

array([[ 0.33946114, -0.30713151,  0.88906489],
       [-0.33325106,  0.53320169,  0.7775858 ],
       [ 0.05156558, -0.81473612,  0.57753446],
       [ 0.68706914,  0.26784051, -0.6754239 ]])

Proses L1 & L2 Normalisation merupakan proses normalisasi sederhana yang ada pada teknik normalisation pada data.