In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler

# Đọc dữ liệu
df = pd.read_csv("Data/powerconsumption.csv")
df['Datetime'] = pd.to_datetime(df['Datetime'])

print("✅ Đã đọc dữ liệu:")
print(df.head())


✅ Đã đọc dữ liệu:
             Datetime  Temperature  Humidity  WindSpeed  GeneralDiffuseFlows  \
0 2017-01-01 00:00:00        6.559      73.8      0.083                0.051   
1 2017-01-01 00:10:00        6.414      74.5      0.083                0.070   
2 2017-01-01 00:20:00        6.313      74.5      0.080                0.062   
3 2017-01-01 00:30:00        6.121      75.0      0.083                0.091   
4 2017-01-01 00:40:00        5.921      75.7      0.081                0.048   

   DiffuseFlows  PowerConsumption_Zone1  PowerConsumption_Zone2  \
0         0.119             34055.69620             16128.87538   
1         0.085             29814.68354             19375.07599   
2         0.100             29128.10127             19006.68693   
3         0.096             28228.86076             18361.09422   
4         0.085             27335.69620             17872.34043   

   PowerConsumption_Zone3  
0             20240.96386  
1             20131.08434  
2             

In [2]:
df['Hour'] = df['Datetime'].dt.hour
df['Day'] = df['Datetime'].dt.day
df['Month'] = df['Datetime'].dt.month
df['Weekday'] = df['Datetime'].dt.weekday

print("✅ Các đặc trưng thời gian đã được thêm:")
print(df[['Datetime', 'Hour', 'Day', 'Month', 'Weekday']].head())


✅ Các đặc trưng thời gian đã được thêm:
             Datetime  Hour  Day  Month  Weekday
0 2017-01-01 00:00:00     0    1      1        6
1 2017-01-01 00:10:00     0    1      1        6
2 2017-01-01 00:20:00     0    1      1        6
3 2017-01-01 00:30:00     0    1      1        6
4 2017-01-01 00:40:00     0    1      1        6


In [3]:
missing = df.isnull().sum()
print("📋 Giá trị thiếu:")
print(missing[missing > 0])

# Loại bỏ các dòng có giá trị thiếu
df = df.dropna()
print(f"✅ Đã loại bỏ dòng có giá trị thiếu. Số dòng còn lại: {len(df)}")


📋 Giá trị thiếu:
Series([], dtype: int64)
✅ Đã loại bỏ dòng có giá trị thiếu. Số dòng còn lại: 52416


In [4]:
features = ['Temperature', 'Humidity', 'WindSpeed', 
            'GeneralDiffuseFlows', 'DiffuseFlows', 
            'Hour', 'Day', 'Month', 'Weekday']
target = 'PowerConsumption_Zone1'  # Có thể thay đổi sang Zone2 hoặc Zone3

X = df[features]
y = df[target]

print("✅ Đã tách đặc trưng và mục tiêu:")
print("X shape:", X.shape)
print("y shape:", y.shape)


✅ Đã tách đặc trưng và mục tiêu:
X shape: (52416, 9)
y shape: (52416,)


In [5]:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print("✅ Đã chuẩn hóa dữ liệu:")
print("X_scaled shape:", X_scaled.shape)
print("Ví dụ:")
print(X_scaled[:5])


✅ Đã chuẩn hóa dữ liệu:
X_scaled shape: (52416, 9)
Ví dụ:
[[-2.10664461  0.35627749 -0.7989004  -0.69079687 -0.60308481 -1.66132477
  -1.67339374 -1.60174805  1.5       ]
 [-2.13157832  0.40129059 -0.7989004  -0.69072501 -0.60335854 -1.66132477
  -1.67339374 -1.60174805  1.5       ]
 [-2.14894594  0.40129059 -0.80017763 -0.69075527 -0.60323777 -1.66132477
  -1.67339374 -1.60174805  1.5       ]
 [-2.18196161  0.4334428  -0.7989004  -0.69064559 -0.60326998 -1.66132477
  -1.67339374 -1.60174805  1.5       ]
 [-2.21635293  0.4784559  -0.79975189 -0.69080822 -0.60335854 -1.66132477
  -1.67339374 -1.60174805  1.5       ]]
