# Data Processing dengan Sckit-Learn

# Sample Data

Dalam sesi kali ini, kita akan berkenalan dengan beberapa teknik data preprocessing. Modul Sklearn telah menyediakan sejumlah teknik data preprocessing yang umum ditemui. Pada kali ini, kita akan mencoba mempelejari beberapa diantaranya

In [18]:
import numpy as np
from sklearn import preprocessing

sample_data = np.array([[2.1, -1.9, 5.5], 
                        [-1.5, 2.4, 3.5], 
                        [0.5, -7.9, 5.6],
                        [5.9, 2.3, -5.8]])

sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

In [19]:
sample_data.shape

(4, 3)

- Mengimport numpy as np.
- Modul preprocessing bisa kita import dengan memanggil 'from sklearn import preprocessing'.
- Terdapat beberapa dataset yang sudah di generate dalam kasus ini.
- Dataset tersebut dibentuk sebagai numpy array, data set ini bisa kita pandang sebagai dataset features.
- Jumlah instance bernilai 4 atau 4 baris.
- Dataset tersebut terbagi dalam 3 features.
- Dataset ditampung ke dalam variable 'sample_data'.
- Kita juga bisa menampilkan dimensi dari dataset tersebut dengan memanggil method 'sample_data.shape' yang dimana shapenya adalah (4, 3) yang berarti jumlah instance atau baris bernilai 4 dan jumlmah kolom atau feature nya bernilai 3.

# Teknik Data Preproscessing

# Binarisation

Tujuan utama dari teknik tersebut untuk menghasilkan suatu data yang terdiri dari 2 nilai numerik saja yaitu 0 dan 1.

In [20]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

- Dataset tersebut terdiri sekumpulan nilai floating point yang beragam.
- Untuk mengkonversikan setiap nilai numerik yang lebih besar dari 0.5 menjadi 1 dan sisanya menjadi 0.
- Kebutuhan semacam ini, bisa kita penuhi dengan memanfaatkan class binarizer.

In [21]:
preprocessor = preprocessing.Binarizer(threshold=0.5)
binarised_data = preprocessor.transform(sample_data)
binarised_data

array([[1., 0., 1.],
       [0., 1., 1.],
       [0., 0., 1.],
       [1., 1., 0.]])

- Membentuk objek binarizernya dan menyertakan parameter threshold yang dalam kasus ini adalah 0.5.
- Selanjutnya, kita akan mengenakan proses transformasi terhadap sample data yang kita miliki dengan memanggil code 'binarised_data = preprocessor.transform(sample_data)'.
- Menampilkan isinya 'binarised_data' yang menampillkan suatu dataset yang terdiri dari 2 nilai yaitu 1 dan 0, yang batasannya ditentukan oleh nilai threshlod yang benilai 0,5 artinya setiao nilai yang lebih kecil atau sama dengan 0.5 akan dikonversikan menjadi nilai = 0.

# Scaling

Tujuan utama dari teknik ini adalah untuk menghasilkan suatu data numerik yang berada dalam rentan skala tertentu

In [22]:
sample_data

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

- Dataset terdiri dari sekumpulan nilai floating point dengan rentan nilai mulai dari -7.9 sebagai nilai terkecil sampai dengan nilai 5.9 sebagai nilai terbesarnya.
- Mengkonversikan sekumpulan nilai numerik ke dalam rentan nilai mulai dari 0 sampai 1 yang akan memanfaatkan class scaler.
- Teknik scalling yang digunakan dalam kasus ini yaitu MinMaxScaler.

In [23]:
# Cara 1
preprocessor = preprocessing.MinMaxScaler(feature_range=(0, 1))
preprocessor.fit(sample_data)
scaled_data = preprocessor.transform(sample_data)
scaled_data

array([[0.48648649, 0.58252427, 0.99122807],
       [0.        , 1.        , 0.81578947],
       [0.27027027, 0.        , 1.        ],
       [1.        , 0.99029126, 0.        ]])

- Nilai 0 (nol) akan menginidikasikan nilai terkecil dari skala yang baru.
- Nilai 1 (satu) akan mengidentifikasikan nilai terbesar dari skala yang baru

In [24]:
# Cara 2
scaled_data = preprocessor.fit_transform(sample_data)
scaled_data

array([[0.48648649, 0.58252427, 0.99122807],
       [0.        , 1.        , 0.81578947],
       [0.27027027, 0.        , 1.        ],
       [1.        , 0.99029126, 0.        ]])

Proses fitting dan proses transformasinya dikenakasn terhadap data yang sama yaitu sample data. Dalam SkLean, proses ini bisa kita satukan dengan memanfaatkan method fit transform (bisa dilihat pada code diatas). Kalau kita perhatikan keduanya menghasilkan hasil yang sama, yang membedakan pada cara pertama pada proses fitting dan transform terpisah atau dikerjakan dengan menggunakan 2 method yang berbeda, sedangkan pada cara yang kedua, proses fitting dan transformasi datanya dilakukan dengan menggunakan satu kali pemanggilan method yaitu method fit transform.

# L1 Normalisation: Least Absolute Deviations

Referensi: https://en.wikipedia.org/wiki/Least_absolute_deviations. Tujuan utama dalam teknik ini adalah untuk melakukan normalisasi terhadap data numerik yang dimiliki.

In [25]:
sample_data
# Sebelum Normalisasi

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

In [26]:
l1_normalised_data = preprocessing.normalize(sample_data, norm='l1')
l1_normalised_data
# Sesudah melakukan Normalisasi

array([[ 0.22105263, -0.2       ,  0.57894737],
       [-0.2027027 ,  0.32432432,  0.47297297],
       [ 0.03571429, -0.56428571,  0.4       ],
       [ 0.42142857,  0.16428571, -0.41428571]])

- Preprocessing normalize akan membutuhkan 2 parameter. Parameter pertama adalah data atau sample datannya. Parameter kedua adalah parameter norm.
- Pada kasus kali ini, parameter norm bernilai strings 'l1', normalisasi l1 ini akan berasosiasi dengan normalisasi yang menerapkan list absolute deviations
- Pemanggilan fungsi preprocessing normalize ini akan menghasilkan data yang ternormalisasi yang ditunjukan pada code diatas.

# L2 Normalisation: Least Squares

Referensi: https://en.wikipedia.org/wiki/Least_squares. L2 Normalisation menerapkan Least Squares.

In [27]:
sample_data
# Sebelum Normalisasi

array([[ 2.1, -1.9,  5.5],
       [-1.5,  2.4,  3.5],
       [ 0.5, -7.9,  5.6],
       [ 5.9,  2.3, -5.8]])

In [28]:
l2_normalised_data = preprocessing.normalize(sample_data, norm='l2')
l2_normalised_data
# Sesudah Normalisasi kedua

array([[ 0.33946114, -0.30713151,  0.88906489],
       [-0.33325106,  0.53320169,  0.7775858 ],
       [ 0.05156558, -0.81473612,  0.57753446],
       [ 0.68706914,  0.26784051, -0.6754239 ]])

- Memanggil fungsi 'preprocessing.normalize(sample_data, norm='l2')'.
- Parameter pertama adalah sample datanya dan parameter kedua adalah parameter norm, yang pada kasus ini diberi nilai 'l2'.
- Normalisasi l2 akan berasosiasi dengan teknik 'Least Squares'.
- Pemanggilan fungsi preprocessing normalised ini akan menghasilkan data yang sudah ternormalisasi yang ditampung dalam variabel l2_normalised_data.

Untuk pembelajaran lebih lengkapnya jangan lupa untuk mengunjungi channel youtube "Indonesia Belajar" pada link "https://www.youtube.com/watch?v=smNnhEd26Ek"

# "Banyak Belajar, Biar Bisa Bantu Banyak Orang"