<a href="https://colab.research.google.com/github/Abi-Lowkey/Introduction-to-Machine-Learning-with-Python-Books/blob/main/BAB%204/Bab_4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Bab 4: Representing Data and Engineering Features**

**1. Tujuan**

Bab ini bertujuan untuk membahas pentingnya representasi data yang tepat dalam konteks machine learning. Representasi data yang baik sangat penting untuk memastikan model dapat belajar dari data dengan efektif. Salah satu aspek utama dalam proses ini adalah rekayasa fitur (feature engineering), yang merujuk pada teknik-teknik yang digunakan untuk memodifikasi dan mengoptimalkan fitur yang ada dalam dataset agar model machine learning dapat menghasilkan prediksi yang lebih akurat.

Beberapa teknik rekayasa fitur yang akan dibahas di bab ini meliputi:

- Encoding variabel kategorikal: Mengubah variabel kategori (seperti warna, jenis kelamin, atau status) menjadi format numerik yang dapat digunakan oleh algoritma machine learning.
- Binning: Pembagian fitur numerik menjadi kategori yang lebih luas, yang dapat membantu dalam mengurangi noise atau menangani distribusi data yang tidak merata.
- Interaksi antar fitur: Membuat fitur baru berdasarkan kombinasi dua atau lebih fitur yang ada, untuk menangkap hubungan atau pola yang lebih kompleks dalam data.
- Seleksi fitur: Memilih subset fitur yang paling relevan untuk model, yang dapat membantu meningkatkan akurasi dan mengurangi kompleksitas model.

## 2. Implementasi Kode
Berikut adalah contoh implementasi teknik rekayasa fitur:


In [2]:
# Mengimpor pustaka pandas yang digunakan untuk manipulasi data di Python.
# Pandas menyediakan struktur data seperti DataFrame yang sangat berguna dalam analisis data.
import pandas as pd


In [3]:
# Membuat dictionary dengan data baru untuk kolom 'Kota' dan 'Harga'.
# 'Kota' berisi nama kota dan 'Harga' berisi nilai harga yang terkait.
data = {
    'Kota': ['Bali', 'Medan', 'Yogyakarta', 'Bali', 'Medan'],
    'Harga': [350, 450, 300, 400, 500]
}

# Mengonversi dictionary menjadi DataFrame menggunakan pandas.
df = pd.DataFrame(data)

# Menampilkan DataFrame yang telah dibuat.
print("Data Asli:\n", df)


Data Asli:
          Kota  Harga
0        Bali    350
1       Medan    450
2  Yogyakarta    300
3        Bali    400
4       Medan    500


In [4]:
# Menggunakan pd.get_dummies untuk melakukan One-Hot Encoding pada kolom 'Kota'
# Fungsi ini mengubah nilai kategorikal dalam kolom 'Kota' menjadi kolom-kolom baru dengan nilai 0 atau 1.
encoded_df = pd.get_dummies(df, columns=['Kota'])

# Menampilkan DataFrame yang sudah dikenakan One-Hot Encoding
print("Data setelah One-Hot Encoding:\n", encoded_df)


Data setelah One-Hot Encoding:
    Harga  Kota_Bali  Kota_Medan  Kota_Yogyakarta
0    350       True       False            False
1    450      False        True            False
2    300      False       False             True
3    400       True       False            False
4    500      False        True            False


In [5]:
# Mengimpor pustaka numpy yang digunakan untuk manipulasi array dan operasi numerik di Python.
# Numpy menyediakan struktur data array yang efisien dan operasi matematis untuk array tersebut.
import numpy as np


In [8]:
# Data continuous: Daftar usia individu dalam bentuk list
ages = [22, 25, 47, 35, 46, 55, 43, 50]

# Definisikan bins untuk mendiskretisasi data usia ke dalam kelompok umur
# Setiap bin mewakili rentang usia tertentu, misalnya 20-30, 30-40, dan seterusnya.
bins = [20, 30, 40, 50, 60]

# Menetapkan label untuk setiap bin, yang akan digunakan sebagai kategori untuk kelompok umur.
labels = ['20-30', '30-40', '40-50', '50-60']

# Fungsi pd.cut() digunakan untuk membagi data (usia) ke dalam kelompok umur berdasarkan bins yang ditentukan.
# Fungsi ini akan mengembalikan kategori atau label kelompok untuk setiap individu.
age_bins = pd.cut(ages, bins=bins, labels=labels)

# Menampilkan kelompok umur berdasarkan diskretisasi.
print("Kelompok umur:", age_bins)


Kelompok umur: ['20-30', '20-30', '40-50', '30-40', '40-50', '50-60', '40-50', '40-50']
Categories (4, object): ['20-30' < '30-40' < '40-50' < '50-60']


In [9]:
# Mengimpor PolynomialFeatures dari sklearn.preprocessing
# PolynomialFeatures digunakan untuk membuat fitur interaksi antar fitur, yaitu menambahkan fitur baru berdasarkan kombinasi dari fitur yang ada.
from sklearn.preprocessing import PolynomialFeatures


In [10]:
# Dataset sederhana dengan dua fitur
X = np.array([[1, 2], [2, 3], [3, 4]])

# Membuat interaksi fitur dengan PolynomialFeatures
# degree=2: Menghasilkan polinomial hingga derajat 2 (termasuk interaksi antar fitur)
# interaction_only=True: Hanya menghasilkan fitur interaksi, tanpa kuadrat dari fitur individual
# include_bias=False: Tidak menyertakan fitur bias (kolom 1 yang selalu bernilai 1)
poly = PolynomialFeatures(degree=2, interaction_only=True, include_bias=False)

# Menghitung fitur polinomial dan interaksi untuk X
X_poly = poly.fit_transform(X)

# Menampilkan data asli dan data dengan interaksi fitur
print("Data asli:\n", X)
print("Data dengan interaksi fitur:\n", X_poly)


Data asli:
 [[1 2]
 [2 3]
 [3 4]]
Data dengan interaksi fitur:
 [[ 1.  2.  2.]
 [ 2.  3.  6.]
 [ 3.  4. 12.]]


In [11]:
# Mengimpor RandomForestClassifier dan SelectFromModel dari sklearn
# RandomForestClassifier adalah algoritma ensemble yang digunakan untuk klasifikasi
# SelectFromModel digunakan untuk memilih fitur penting berdasarkan model yang telah dilatih
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import SelectFromModel

# Dataset sederhana dengan tiga fitur
X = [[0, 0, 1], [1, 0, 0], [0, 1, 1]]
y = [0, 1, 0]

# Membuat model RandomForest dengan 10 pohon keputusan
clf = RandomForestClassifier(n_estimators=10, random_state=0)

# Melatih model RandomForest pada data X dan y
clf.fit(X, y)

# Menggunakan SelectFromModel untuk memilih fitur yang penting berdasarkan model yang telah dilatih
# prefit=True berarti model sudah dilatih sebelumnya
model = SelectFromModel(clf, prefit=True)

# Mentransform data X untuk memilih hanya fitur yang dianggap penting oleh RandomForest
X_new = model.transform(X)

# Menampilkan fitur yang dipilih
print("Fitur yang dipilih:\n", X_new)


Fitur yang dipilih:
 [[0 1]
 [1 0]
 [0 1]]


**3. Penjelasan Teoritis**

**3.1 Pentingnya Representasi Data**
Representasi data adalah langkah pertama dalam membangun model machine learning yang efektif. Data harus dipersiapkan dengan cara yang sesuai agar model dapat belajar dari informasi yang ada. Tanpa representasi yang baik, model tidak dapat menangkap pola yang relevan, bahkan jika algoritma yang digunakan sudah optimal. Teknik rekayasa fitur sangat berperan dalam mengubah data ke bentuk yang lebih mudah dipahami oleh model.

**3.2 Teknik Rekayasa Fitur**
One-Hot Encoding: Teknik ini digunakan untuk mengonversi variabel kategorikal (seperti nama kota atau jenis kelamin) menjadi bentuk numerik. Misalnya, "Kota" dengan nilai "Bandung", "Jakarta", dan "Surabaya" diubah menjadi 3 kolom biner (0 atau 1). Teknik ini sangat berguna untuk model yang tidak dapat menangani data kategorikal langsung.

Binning: Untuk data numerik yang memiliki rentang nilai besar, teknik binning membantu dengan mengelompokkan nilai-nilai tersebut ke dalam interval tertentu (misalnya, kelompok umur). Hal ini dapat mengurangi efek noise atau outlier dalam data dan membuat model lebih stabil.

Interaksi Fitur: Teknik ini menggabungkan dua atau lebih fitur untuk menciptakan fitur baru yang lebih informatif. Interaksi antar fitur sering kali diperlukan untuk menangkap hubungan yang tidak dapat dilihat hanya dari fitur individu. Misalnya, kombinasi antara ukuran rumah dan lokasi mungkin memiliki dampak yang lebih signifikan daripada keduanya secara terpisah.

Seleksi Fitur: Seleksi fitur adalah teknik yang digunakan untuk memilih subset fitur yang paling relevan dari sekumpulan fitur yang ada. Dengan mengurangi jumlah fitur yang digunakan, kita dapat mempercepat pelatihan model, mengurangi risiko overfitting, dan meningkatkan interpretabilitas model.

**3.3 Hubungan dengan Algoritma Machine Learning**
Penerapan teknik rekayasa fitur yang tepat tidak hanya memperbaiki performa model tetapi juga mempermudah pemahaman dan interpretasi hasil model. Misalnya, setelah seleksi fitur dilakukan, kita bisa menggunakan model yang lebih sederhana dan lebih cepat, seperti Logistic Regression atau Decision Tree. Sebaliknya, bila terlalu banyak fitur yang tidak relevan atau berisik, model mungkin menjadi lebih kompleks dan berisiko mengalami overfitting.


**4. Insight & Ringkasan**
Representasi Data: Representasi yang baik sangat penting untuk keberhasilan model machine learning. Tanpa representasi yang sesuai, meskipun model yang digunakan kuat, hasilnya tidak akan maksimal.
Rekayasa Fitur: One-Hot Encoding, Binning, Interaksi antar Fitur, dan Seleksi Fitur adalah teknik yang sangat berguna dalam mempersiapkan data untuk algoritma machine learning. Mereka membantu dalam mengoptimalkan data sehingga model dapat belajar dengan cara yang lebih efisien dan efektif.
Seleksi Fitur dan Dimensionality Reduction: Seleksi fitur membantu dalam mengurangi kompleksitas model dan meningkatkan efisiensinya. Teknik ini sangat berguna ketika kita bekerja dengan data yang memiliki banyak fitur, namun beberapa di antaranya mungkin tidak relevan.