# Tujuan

1. Mahasiswa memahami tentang konsep ekstraksi fitur
2. Mahasiswa mampu melakukan perhitungan manual ekstraksi fitur
3. Mahasiswa mampu mengimplementasikan metode ekstraksi fitur

# Materi

## Fitur (_Feature_)

Dalam _machine learning_, agar setiap algoritma dapat melakukan pembelajaran dengan baik, diperlukan nilai-nilai yang dikenal dengan nama fitur. Fitur merupakan attribut, karakteristik, ciri, atau sesuatu yang spesial dari sebuah obyek (data) yang direpresentasikan dalam bentuk angka. Terdapat banyak cara untuk mendapatkan fitur dari sebuah data. Hal ini bergantung dengan data apa yang digunakan. Gambar 1 merupakan contoh dari berbagai macam fitur yang dapat dihasilkan dari berbagai macam data. Terkadang, algoritma _machine learning_ juga sensitif terhadap fitur yang digunakan. Beberapa algoritma akan menghasilkan model _machine learning_ yang baik dengan fitur tertentu. Itulah mengapa terdapat satu cabang keilmuan bernama _feature engineering_, dimana keilmuan ini berusaha untuk mendapatkan fitur yang tepat dari sebuah data untuk memaksimalkan hasil dari model _machine learning_.

![features example](assets/pic1.png)

Jumlah fitur yang merepresentasikan data juga mempengaruhi hasil model _machine learning_. Jika fitur yang digunakan hanya memiliki sedikit informasi terkait dengan data, maka model _machine learning_ juga tidak akan dapat melaksanakan tugasnya dengan baik. Sebaliknya, jika fitur terlalu banyak mengandung informasi atau fitur mengandung informasi yang tidak relevan, maka kondisi tersebut akan berdampat pada tingginya biaya komputasi yang dikeluarkan untuk melatih model _machine learning_. Selain itu, kondisi ini dapat berujung pada kondisi _overfitting_.

Sebagai contoh, kita akan melakukan predisik harga rumah. Terdapat beberapa karateristik (fitur) yang kita gunuakan, yaitu,

- Luas tanah
- Luas bangunan
- Jumlah kamar tidur
- Ukuran toren air

Berdasarkan karateristik atau fitur tersebut, maka fitur yang dapat digunakan untuk memprediksi harga rumah adalah luas tanah, luas bangunan, dan jumlah kamar Fitur ukuran toren air mungkin tidak akan kita gunakan. Hal ini dikarenakan, ukuran toren air secara umum tidak menjadi paramater utama jika masyarakat hendak membeli sebuah rumah.

## Ekstraksi Fitur (_Feature Extraction_)

Ekstraksi Fitur merupakan sebuah proses pengurangan dimensi dimana data awal yang berupa sekumpulan data mentah kemudian direduksi menjadi kelompok yang lebih mudah dikelola untuk diproses oleh komputer. Tidak hanya itu, pada proses ekstraksi fitur, akan dilakukan pemilihan dan pengkombinasian variabel dari data untuk menjadi fitur, namun tetap dapat merepresentasikan data tersebut.

![EEG feature extraction](assets/pic2.png)

Pada Gambar 2 terlihat bahwa data mentah yang digunakan adalah sinyal _electroencephalograph_ (EEG). Sinyal EEG  merupakan salah satu bentuk informasi dari otak manusia. Sinyal ini memiliki karakteristik berupa gelombang elektromagnetik. Namun pemrosesan sinyal EEG tidak mudah kadang terdapat noise saat perekaman data sehingga dibutuhkan ekstraksi fitur yang dapat merepresentasikan sinyal EEG. Setelah fitur didapat dilakukan
proses klasifikasi. Dari proses klasifikasi, dihasilkan prediksi pergerakan tangan ke kanan atau ke kiri.

## Penyekalaan Fitur (Feature Scaling)

Feature scaling adalah teknik untuk menstandarisasi fitur sehingga berada dalam rentang yang tetap. Hal ini dilakukan karena terdapat kemungkinan bahwa data diambil memiliki variabel dari berbagai macam domain. Variabel data mungkin memiliki satuan yang berbeda (misalnya meter, kaki, kilometer, dan jam) sehingga menyebabkan variabel-variabel tersebut memiliki skala yang berbeda.

Perbedaan skala antar variabel dapat meningkatkan kesulitan dalam pemodelan _machine learning_. Contohnya adalah nilai masukan yang besar (ratusan atau ribuan unit) dapat menghasilkan model yang cenderung terhadap nilai bobot yang besar. Model dengan nilai bobot yang besar sering kali tidak stabil, dan menganggap nilai yang lebih kecil sebagai nilai yang lebih rendah. Sehingga terdapat kemungkinan model tersebut memiliki performa yang buruk sehingga mengakibatkan error yang lebih tinggi.

_*Contoh*_
> Jika suatu algoritma tidak menggunakan metode penyekalaan fitur, algoritma dapat menganggap nilai 3000 meter lebih besar dari 5 km. Tentu saja hal tersebut tidak benar dan dapat mengakibatkan algoritma memberikan prediksi yang salah. Oleh karena itu, penyekalaan fitur digunakan untuk membuat nilai ke besaran yang sama. Dengan demikian diharapkan penyekalaan fitur dapat mengatasi performa yang buruk dari algoritma akibat skala variable yang berbeda.

Perbedaan skala untuk variabel ini tidak mempengaruhi semua algoritma _machine learning_. Contoh algoritma yang performanya terpengaruh perbedaan skala adalah algoritma-algoritma yang melakukan penjumlahan bobot variabel input seperti _linear regression_, _logistic regression_, and _artificial neural networks_, dan deep learning. Begitu juga algoritma yang menggunakan jarak antar data untuk melakukan prediksi seperti K-nearest neighbours (KNN) dan Support vector machines (SVM). Selain itu, algorimat berbasis non-linier seperti _decision tree_ dan _random forest_ juga tidak terpengaruh proses penyekalaan. Teknik penyekalaan fitur yang sering digunakan adalah **normalisasi** dan **standarisasi**.

### Normalisasi

Normalisasi adalah salah satu teknik penyekalaan fitur untuk menghasilkan nilai fitur yang berada dalam rentang baru, yaitu antara 0 dan 1. Persamaan berikut digunakan pada teknik normalisasi

$$ x' = {x - x_{min} \over x_{max} - x_{min}} $$

$ x’ $ adalah skala variabel dalam rentang baru, $ x $ adalah nilai data yang akan dinormalisasi, $ x_{max} $ adalah nilai maksimal dari variable, $ x_{min} $ adalah nilai minimal dari variable.

Sebagai contoh, pada sebuah data diketahui nilai minimum adalah -10 dan nilai maksimunya adalah 30. Jika data yang akan dinormalisasi adalah 18.8. Maka perhitungan normalisasinya adalah sebagai berikut,

$$ x' = (x - x_{min}) / (x_{max} - x_{min}) $$
$$ x' = (18.8 - (-10)) / (30 - (-10)) $$
$$ x' = 28.8 / 40 $$
$$ x' = 0.72 $$

Kode berikut merupakan implementasi normalisasi dengan menggunakan python.

In [1]:
def norm_data(data):
    '''
    Melakukan normalisasi data.

    Parameters:
        data (list) : Data yang akan dinormalisasi

    Returns:
        data (list) : Data hasil normalisasi
    '''

    data_max = max(data)
    data_min = min(data)
    data_len = len(data)

    for i in range(0, data_len):
        data[i] = (data[i] - data_min) / (data_max - data_min)
    
    return data

# Contoh Penggunaan

data = [10, 11, 12, 14, 16]
n_data = norm_data(data) # melakukan normalisasi
print(n_data)

[0.0, 0.16666666666666666, 0.3333333333333333, 0.6666666666666666, 1.0]


Selain mendefinisikan sendiri fungsi normalisasi, kita juga dapat menggunakan library **Scikit-learn**. Terdapat fungsi bernama [**MinMaxScaler**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html) yang juga menghasilkan hasil yang sama. Berikut merupakan contoh penggunaan fungsi MinMaxScaler

In [2]:
import numpy as np
from sklearn.preprocessing import MinMaxScaler

# Kita akan membentuk data 
# Hal ini dikarenakan, scikit-learn hanya menerima input
# dalam bentuk n-dimensional array
data = [
    [100, 0.0001],
    [50, 0.05],
    [30, 0.003]
]

# Ubah ke bentuk numpy n-dimensional array
data = np.asarray(data)
print(data)

# Mendefinisikan obyek MinMaxScaler
scaler = MinMaxScaler()
# Transformasikan data
scaled = scaler.fit_transform(data)
print(scaled)

[[1.e+02 1.e-04]
 [5.e+01 5.e-02]
 [3.e+01 3.e-03]]
[[1.         0.        ]
 [0.28571429 1.        ]
 [0.         0.05811623]]
