# Bab 4: Representing Data and Engineering Features (Representasi Data dan Rekayasa Fitur)

## 1. Tujuan
Bab ini membahas pentingnya representasi data yang tepat dan bagaimana melakukan rekayasa fitur untuk meningkatkan performa model machine learning. Teknik seperti encoding variabel kategorikal, binning, interaksi antar fitur, dan seleksi fitur akan dijelaskan secara rinci.

## 2. Implementasi Kode
Berikut adalah contoh implementasi teknik rekayasa fitur:


In [1]:
### 2.1 One-Hot Encoding (Encoding Variabel Kategorikal)
import pandas as pd

In [2]:
data = {
    'Kota': ['Bandung', 'Jakarta', 'Surabaya', 'Bandung', 'Jakarta'],
    'Harga': [100, 200, 150, 120, 250]
}
df = pd.DataFrame(data)
print("Data Asli:\n", df)

Data Asli:
        Kota  Harga
0   Bandung    100
1   Jakarta    200
2  Surabaya    150
3   Bandung    120
4   Jakarta    250


In [3]:
encoded_df = pd.get_dummies(df, columns=['Kota'])
print("Data setelah One-Hot Encoding:\n", encoded_df)

Data setelah One-Hot Encoding:
    Harga  Kota_Bandung  Kota_Jakarta  Kota_Surabaya
0    100          True         False          False
1    200         False          True          False
2    150         False         False           True
3    120          True         False          False
4    250         False          True          False


In [4]:
import numpy as np

In [5]:
# Data continuous
ages = [22, 25, 47, 35, 46, 55, 43, 50]

# Diskretisasi menjadi kelompok umur
bins = [20, 30, 40, 50, 60]
labels = ['20-30', '30-40', '40-50', '50-60']
age_bins = pd.cut(ages, bins=bins, labels=labels)
print("Kelompok umur:", age_bins)

Kelompok umur: ['20-30', '20-30', '40-50', '30-40', '40-50', '50-60', '40-50', '40-50']
Categories (4, object): ['20-30' < '30-40' < '40-50' < '50-60']


In [7]:
### 2.3 Interaksi Antar Fitur
from sklearn.preprocessing import PolynomialFeatures

In [8]:
# Dataset sederhana
X = np.array([[1, 2], [2, 3], [3, 4]])

# Membuat interaksi fitur
poly = PolynomialFeatures(degree=2, interaction_only=True, include_bias=False)
X_poly = poly.fit_transform(X)
print("Data asli:\n", X)
print("Data dengan interaksi fitur:\n", X_poly)

Data asli:
 [[1 2]
 [2 3]
 [3 4]]
Data dengan interaksi fitur:
 [[ 1.  2.  2.]
 [ 2.  3.  6.]
 [ 3.  4. 12.]]


In [9]:
### 2.4 Seleksi Fitur (Feature Selection)
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import SelectFromModel

# Dataset sederhana
X = [[0, 0, 1], [1, 0, 0], [0, 1, 1]]
y = [0, 1, 0]

# RandomForest untuk seleksi fitur
clf = RandomForestClassifier(n_estimators=10, random_state=0)
clf.fit(X, y)
model = SelectFromModel(clf, prefit=True)
X_new = model.transform(X)
print("Fitur yang dipilih:\n", X_new)

Fitur yang dipilih:
 [[0 1]
 [1 0]
 [0 1]]


## 3. Penjelasan Teoritis

### 3.1 Pentingnya Representasi Data
Representasi data yang baik memengaruhi kemampuan model untuk memahami pola. Representasi yang salah dapat mengurangi performa model meskipun algoritma yang digunakan sudah optimal.

### 3.2 Teknik Rekayasa Fitur
- **One-Hot Encoding**: Digunakan untuk mengubah data kategorikal menjadi representasi numerik tanpa urutan.
- **Binning**: Mengelompokkan data continuous ke dalam interval diskret untuk mengurangi sensitivitas terhadap outlier.
- **Interaksi Fitur**: Menggabungkan dua atau lebih fitur untuk menangkap hubungan yang tidak terlihat dari fitur individu.
- **Seleksi Fitur**: Memilih subset fitur yang paling relevan untuk meningkatkan efisiensi model.

## 4. Insight & Ringkasan
- Teknik rekayasa fitur seperti one-hot encoding dan binning sangat penting untuk menangani data kategorikal dan continuous.
- Interaksi antar fitur dapat meningkatkan kemampuan model dalam menangkap pola kompleks.
- Seleksi fitur membantu mengurangi dimensi data dan meningkatkan efisiensi.