In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import OneHotEncoder, Binarizer, PolynomialFeatures, StandardScaler
from sklearn.feature_selection import SelectKBest, f_regression
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

# 1. Representasi Data
# Membuat dataset sederhana dengan fitur kategori dan numerik
data = {
    'Kategori': ['A', 'B', 'A', 'C', 'B', 'C'],
    'Angka': [1, 2, 3, 4, 5, 6],
    'Target': [10, 15, 10, 25, 30, 35]
}
data_df = pd.DataFrame(data)

print("Dataset asli:")
print(data_df)

# 2. One-Hot Encoding untuk fitur kategori
encoder = OneHotEncoder(sparse_output=False)  # Ganti sparse=False dengan sparse_output=False
kategori_encoded = encoder.fit_transform(data_df[['Kategori']])
encoded_df = pd.DataFrame(kategori_encoded, columns=encoder.get_feature_names_out(['Kategori']))
data_encoded = pd.concat([data_df, encoded_df], axis=1).drop(columns=['Kategori'])

print("\nDataset setelah One-Hot Encoding:")
print(data_encoded)

# 3. Binning (Diskretisasi)
binarizer = Binarizer(threshold=3)
data_encoded['Angka_Bin'] = binarizer.fit_transform(data_encoded[['Angka']])

print("\nDataset setelah Binning:")
print(data_encoded)

# 4. Interaksi dan Polinomial
poly = PolynomialFeatures(degree=2, include_bias=False)
polynomial_features = poly.fit_transform(data_encoded[['Angka']])
poly_df = pd.DataFrame(polynomial_features, columns=poly.get_feature_names_out(['Angka']))
data_poly = pd.concat([data_encoded, poly_df], axis=1)

print("\nDataset setelah penambahan fitur polinomial:")
print(data_poly)

# 5. Standardisasi Data
scaler = StandardScaler()
data_poly[['Angka']] = scaler.fit_transform(data_poly[['Angka']])

print("\nDataset setelah Standardisasi:")
print(data_poly)

# 6. Seleksi Fitur menggunakan statistik univariat
X = data_poly.drop(columns=['Target'])
y = data_poly['Target']
X_new = SelectKBest(score_func=f_regression, k=3).fit_transform(X, y)

print("\nData setelah Seleksi Fitur (Top 3 Fitur):")
print(X_new)

# 7. Model sederhana untuk demonstrasi
# Split data
X_train, X_test, y_train, y_test = train_test_split(X_new, y, random_state=42)

# Menggunakan Decision Tree Classifier
model = DecisionTreeClassifier(random_state=42)
model.fit(X_train, y_train)
print("\nSkor model pada data uji:", model.score(X_test, y_test))

# Kesimpulan
print("\nKesimpulan:")
print("1. One-Hot Encoding mengubah fitur kategori menjadi representasi numerik yang dapat digunakan model machine learning.")
print("2. Binning membantu dalam mendiskretisasi nilai numerik untuk menyoroti pola tertentu.")
print("3. Fitur polinomial menambahkan kompleksitas yang berguna untuk model non-linear.")
print("4. Standardisasi memastikan semua fitur berada pada skala yang sama, menghindari dominasi fitur tertentu.")
print("5. Seleksi fitur meningkatkan efisiensi model dengan hanya mempertahankan fitur yang paling relevan.")


Dataset asli:
  Kategori  Angka  Target
0        A      1      10
1        B      2      15
2        A      3      10
3        C      4      25
4        B      5      30
5        C      6      35

Dataset setelah One-Hot Encoding:
   Angka  Target  Kategori_A  Kategori_B  Kategori_C
0      1      10         1.0         0.0         0.0
1      2      15         0.0         1.0         0.0
2      3      10         1.0         0.0         0.0
3      4      25         0.0         0.0         1.0
4      5      30         0.0         1.0         0.0
5      6      35         0.0         0.0         1.0

Dataset setelah Binning:
   Angka  Target  Kategori_A  Kategori_B  Kategori_C  Angka_Bin
0      1      10         1.0         0.0         0.0          0
1      2      15         0.0         1.0         0.0          0
2      3      10         1.0         0.0         0.0          0
3      4      25         0.0         0.0         1.0          1
4      5      30         0.0         1.0         0.0