In [None]:
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import make_classification
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Feature Selection

Feature selection adalah proses memilih subset dari fitur-fitur yang relevan dari dataset.

Tujuan utama dari feature selection adalah untuk meningkatkan kinerja model dengan mengurangi dimensi fitur.

Reduksi dimensi fitur membantu dalam mengurangi overfitting, menghemat waktu komputasi, dan meningkatkan interpretasi model.

## Recursive Feature Elimination (RFE)

RFE adalah salah satu metode feature selection yang iteratif.

Algoritma RFE bekerja dengan menghapus fitur satu per satu dan memeriksa dampaknya terhadap performa model.

Langkah-langkah RFE:
1. Menggunakan model ML untuk menilai pentingnya setiap fitur.
2. Menghapus fitur dengan nilai penting terendah.
3. Mengulangi langkah 1 dan 2 hingga jumlah fitur yang diinginkan tercapai.

In [None]:
# EDA --> Ngeliat fitur apa sih yang paling penting? Understanding kita terhadap fitur

# Modelling berdasarkan fitur penting asumsi --> Best Model

# Feature Selection? Buktiin asumsi kita secara statistik, teknis

# Fitur yang antara EDA == Feature Selection dipake buat model yang benerannya

In [None]:
# Membuat dataset contoh
X, y = make_classification(n_samples=1000, n_features=20, n_informative=10, n_classes=2, random_state=42)

# Memisahkan data menjadi data latih dan data uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# jumlah kolom misal 20

best_n = 0
best_accuracy = 0

for n in range(1, 20):
  model = LogisticRegression()
  rfe = RFE(model, n_features_to_select=n)
  rfe.fit(X_train, y_train)

  selected_features = rfe.support_
  model.fit(X_train[:, selected_features], y_train)
  y_pred = model.predict(X_test[:, selected_features])
  accuracy = accuracy_score(y_test, y_pred)

  if accuracy > best_accuracy:
    best_n = n
    best_accuracy = accuracy

print(best_n)
print(best_accuracy)

7
0.835


In [None]:
# SEBELUM INI CARI BEST MODEL

In [None]:
# Menginisialisasi model Logistic Regression
model = LogisticRegression()

# Menginisialisasi RFE dengan model dan jumlah fitur yang ingin dipilih
rfe = RFE(model, n_features_to_select=best_n)

# Fitting RFE ke data latih
rfe.fit(X_train, y_train)

In [None]:
y_pred = rfe.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
print("Akurasi model setelah RFE:", accuracy)

Akurasi model setelah RFE: 0.835


In [None]:
# Menampilkan fitur yang terpilih
selected_features = rfe.support_
print("Fitur terpilih:", selected_features)

Fitur terpilih: [False False  True  True False  True False False False False  True False
  True False False False  True False  True False]


In [None]:
# X_train / X --> DIBUAT JADI DATAFRAME
# DATAFRAME SLICING YANG ISINYA CUMA selected_features
# DILIHAT KOLOMNYA

In [None]:
# Melatih model Logistic Regression dengan fitur terpilih
model.fit(X_train[:, selected_features], y_train)

# Memprediksi kelas untuk data uji
y_pred = model.predict(X_test[:, selected_features])

# Mengukur akurasi model
accuracy = accuracy_score(y_test, y_pred)
print("Akurasi model setelah RFE:", accuracy)

Akurasi model setelah RFE: 0.835


# Principal Component Analysis (PCA)

In [None]:
# Memuat dataset Iris
iris = load_iris()
X = iris.data # Features
y = iris.target

# Memisahkan data menjadi data latih dan data uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Standarisasi fitur-fitur
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [None]:
# Menginisialisasi PCA dengan 2 komponen
pca = PCA(n_components=2)

# Fitting PCA ke data latih dan transformasi data latih dan data uji
X_train_pca = pca.fit_transform(X_train_scaled) # 4 --> 2
X_test_pca = pca.transform(X_test_scaled) # 4 --> 2

In [None]:
# Inisialisasi dan pelatihan model Logistic Regression pada data yang sudah diproses PCA
model = LogisticRegression()
model.fit(X_train_pca, y_train)

# Memprediksi kelas untuk data uji
y_pred = model.predict(X_test_pca)

# Mengukur akurasi model
accuracy = accuracy_score(y_test, y_pred)
print("Akurasi model setelah PCA:", accuracy)

Akurasi model setelah PCA: 0.9
