In [1]:
# 02_data_preparation.ipynb

"""
Notebook ini berisi proses persiapan data:
- Memuat dataset
- Memisahkan fitur dan target
- Menangani nilai kosong (jika ada)
- Encoding dan normalisasi
- Split data training dan testing
"""

# Import libraries
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
import matplotlib.pyplot as plt
import seaborn as sns

# Load dataset
df = pd.read_csv("../data/generated/listrik_rumah.csv")
print("Data shape:", df.shape)
df.head()

# Cek missing values
print("\nMissing values:")
print(df.isnull().sum())

# Pisahkan fitur dan target
X = df.drop("konsumsi_listrik_kwh", axis=1)
y = df["konsumsi_listrik_kwh"]

# Identifikasi fitur numerik dan kategorikal
num_cols = X.select_dtypes(include=['int64', 'float64']).columns.tolist()
cat_cols = X.select_dtypes(include=['object']).columns.tolist()
print("\nNumerical Features:", num_cols)
print("Categorical Features:", cat_cols)

# Buat preprocessing pipeline
preprocessor = ColumnTransformer([
    ("num", StandardScaler(), num_cols),
    ("cat", OneHotEncoder(drop="first", sparse_output=False), cat_cols)
])

# Terapkan pipeline
pipeline = Pipeline([
    ("preprocessor", preprocessor)
])

# Bagi data latih dan uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Transformasi
X_train_scaled = pipeline.fit_transform(X_train)
X_test_scaled = pipeline.transform(X_test)

print("\nShape data latih setelah transformasi:", X_train_scaled.shape)
print("Shape data uji setelah transformasi:", X_test_scaled.shape)

# Simpan nama-nama fitur
feature_names_transformed = pipeline.named_steps["preprocessor"].get_feature_names_out()
print("\nContoh nama fitur setelah transformasi:")
print(feature_names_transformed[:10])


Data shape: (500, 5)

Missing values:
aktivitas                0
perangkat_listrik        0
waktu_hari               0
durasi_penggunaan_jam    0
konsumsi_listrik_kwh     0
dtype: int64

Numerical Features: ['durasi_penggunaan_jam']
Categorical Features: ['aktivitas', 'perangkat_listrik', 'waktu_hari']

Shape data latih setelah transformasi: (400, 14)
Shape data uji setelah transformasi: (100, 14)

Contoh nama fitur setelah transformasi:
['num__durasi_penggunaan_jam' 'cat__aktivitas_Memasak'
 'cat__aktivitas_Mencuci' 'cat__aktivitas_Menonton TV'
 'cat__aktivitas_Menyetrika' 'cat__aktivitas_Tidak Ada Aktivitas'
 'cat__perangkat_listrik_Kompor Listrik' 'cat__perangkat_listrik_Komputer'
 'cat__perangkat_listrik_Kulkas' 'cat__perangkat_listrik_Mesin Cuci']
