In [31]:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error
import os
import matplotlib.pyplot as plt
import holidays  # Thêm thư viện holidays
import math  # Thêm để tính sin, cos

In [17]:
# Định nghĩa đường dẫn tương đối (thư mục hiện tại)
data_dir = "data" 

# Đường dẫn đến file tổng hợp
data_file = os.path.join(data_dir, "pjm_hourly_est.csv")

# Kiểm tra file có tồn tại không
if not os.path.exists(data_file):
    print(f"File không tồn tại: {data_file}")
else:
    print("File dữ liệu đã được tìm thấy:", data_file)

File dữ liệu đã được tìm thấy: data\pjm_hourly_est.csv


In [27]:
# Đọc file tổng hợp
df = pd.read_csv(data_file)

# Danh sách các cột thuộc tập train
train_columns = ['AEP', 'DAYTON', 'DOM', 'EKPC', 'FE', 'PJME', 'PJMW', 'PJM_Load']

# Tạo DataFrame cho tập train
train_data = df[['Datetime'] + train_columns].copy()

# Chuyển Datetime sang định dạng datetime
train_data['Datetime'] = pd.to_datetime(train_data['Datetime'])

# Chọn PJME làm mục tiêu (PJM_Load_MW)
train_data = train_data.rename(columns={'PJME': 'PJM_Load_MW'})

# Loại bỏ các hàng có giá trị NaN trong cột 'PJM_Load_MW'
train_data = train_data.dropna(subset=['PJM_Load_MW'])

# Điền giá trị thiếu trong các cột đặc trưng (nếu có)
train_data = train_data.fillna(method='ffill')

# Tạo thư mục data2 nếu chưa tồn tại
output_dir = "data2"
if not os.path.exists(output_dir):
    os.makedirs(output_dir)

# Lưu dữ liệu train vào data2/train.csv
train_data.to_csv(os.path.join(output_dir, "train.csv"), index=False)

print("Dữ liệu train đã tải và lưu vào data2/train.csv:")
print(train_data.head())

  train_data = train_data.fillna(method='ffill')


Dữ liệu train đã tải và lưu vào data2/train.csv:
                 Datetime  AEP  DAYTON  DOM  EKPC  FE  PJM_Load_MW    PJMW  \
32896 2002-12-31 01:00:00  NaN     NaN  NaN   NaN NaN      26498.0  5077.0   
32897 2002-12-31 02:00:00  NaN     NaN  NaN   NaN NaN      25147.0  4939.0   
32898 2002-12-31 03:00:00  NaN     NaN  NaN   NaN NaN      24574.0  4885.0   
32899 2002-12-31 04:00:00  NaN     NaN  NaN   NaN NaN      24393.0  4857.0   
32900 2002-12-31 05:00:00  NaN     NaN  NaN   NaN NaN      24860.0  4930.0   

       PJM_Load  
32896       NaN  
32897       NaN  
32898       NaN  
32899       NaN  
32900       NaN  


In [28]:
# Danh sách các cột thuộc tập test
test_columns = ['COMED', 'DEOK', 'DUQ', 'NI']

# Tạo DataFrame cho tập test
test_data = df[['Datetime'] + test_columns].copy()

# Chuyển Datetime sang định dạng datetime
test_data['Datetime'] = pd.to_datetime(test_data['Datetime'])

# Chọn COMED làm mục tiêu (PJM_Load_MW)
test_data = test_data.rename(columns={'COMED': 'PJM_Load_MW'})

# Loại bỏ các hàng có giá trị NaN trong cột 'PJM_Load_MW'
test_data = test_data.dropna(subset=['PJM_Load_MW'])

# Điền giá trị thiếu trong các cột đặc trưng (nếu có)
test_data = test_data.fillna(method='ffill')

# Tạo thư mục data2 nếu chưa tồn tại
output_dir = "data2"
if not os.path.exists(output_dir):
    os.makedirs(output_dir)

# Lưu dữ liệu test vào data2/test.csv
test_data.to_csv(os.path.join(output_dir, "test.csv"), index=False)

print("Dữ liệu test đã tải và lưu vào data2/test.csv:")
print(test_data.head())

  test_data = test_data.fillna(method='ffill')


Dữ liệu test đã tải và lưu vào data2/test.csv:
                  Datetime  PJM_Load_MW  DEOK     DUQ  NI
111765 2011-12-31 01:00:00       9970.0   NaN  1423.0 NaN
111766 2011-12-31 02:00:00       9428.0   NaN  1367.0 NaN
111767 2011-12-31 03:00:00       9059.0   NaN  1344.0 NaN
111768 2011-12-31 04:00:00       8817.0   NaN  1320.0 NaN
111769 2011-12-31 05:00:00       8743.0   NaN  1320.0 NaN


In [29]:
# Chuyển cột Datetime sang định dạng datetime
train_data['Datetime'] = pd.to_datetime(train_data['Datetime'])
test_data['Datetime'] = pd.to_datetime(test_data['Datetime'])

# Sắp xếp theo thời gian
train_data = train_data.sort_values('Datetime')
test_data = test_data.sort_values('Datetime')

# Xử lý giá trị thiếu (nếu còn)
train_data = train_data.ffill()
test_data = test_data.ffill()

print("Dữ liệu train sau khi tiền xử lý:")
print(train_data.head())
print("Dữ liệu test sau khi tiền xử lý:")
print(test_data.head())

Dữ liệu train sau khi tiền xử lý:
                 Datetime  AEP  DAYTON  DOM  EKPC  FE  PJM_Load_MW    PJMW  \
41630 2002-01-01 01:00:00  NaN     NaN  NaN   NaN NaN      30393.0  5038.0   
41631 2002-01-01 02:00:00  NaN     NaN  NaN   NaN NaN      29265.0  5038.0   
41632 2002-01-01 03:00:00  NaN     NaN  NaN   NaN NaN      28357.0  5038.0   
41633 2002-01-01 04:00:00  NaN     NaN  NaN   NaN NaN      27899.0  5038.0   
41634 2002-01-01 05:00:00  NaN     NaN  NaN   NaN NaN      28057.0  5038.0   

       PJM_Load  
41630       NaN  
41631       NaN  
41632       NaN  
41633       NaN  
41634       NaN  
Dữ liệu test sau khi tiền xử lý:
                  Datetime  PJM_Load_MW  DEOK     DUQ  NI
120499 2011-01-01 01:00:00       9631.0   NaN  1389.0 NaN
120500 2011-01-01 02:00:00       9273.0   NaN  1322.0 NaN
120501 2011-01-01 03:00:00       9011.0   NaN  1287.0 NaN
120502 2011-01-01 04:00:00       8741.0   NaN  1263.0 NaN
120503 2011-01-01 05:00:00       8694.0   NaN  1252.0 NaN


In [None]:
# Hàm trích xuất đặc trưng
def extract_features(df):
    df['Hour'] = df['Datetime'].dt.hour
    df['Day'] = df['Datetime'].dt.day
    df['Month'] = df['Datetime'].dt.month
    df['Year'] = df['Datetime'].dt.year
    df['DayOfWeek'] = df['Datetime'].dt.dayofweek
    return df

# Áp dụng trích xuất đặc trưng
train_data = extract_features(train_data)
test_data = extract_features(test_data)

print("Dữ liệu train sau khi trích xuất đặc trưng:")
print(train_data.head())
print("Dữ liệu test sau khi trích xuất đặc trưng:")
print(test_data.head())

In [32]:
# Khởi tạo đối tượng holidays cho Mỹ
us_holidays = holidays.US()

# Hàm trích xuất đặc trưng
def extract_features(df):
    # 1. Theo mùa
    def get_season(month):
        if month in [3, 4, 5]:
            return 'Spring'
        elif month in [6, 7, 8]:
            return 'Summer'
        elif month in [9, 10, 11]:
            return 'Fall'
        else:
            return 'Winter'
    
    df['Season'] = df['Datetime'].dt.month.apply(get_season)
    # Mã hóa Season thành số
    season_mapping = {'Spring': 0, 'Summer': 1, 'Fall': 2, 'Winter': 3}
    df['Season'] = df['Season'].map(season_mapping)

    # 2. Ngày lễ
    df['IsHoliday'] = df['Datetime'].dt.date.apply(lambda x: 1 if x in us_holidays else 0)

    # 3. Ngày cuối tuần
    df['IsWeekend'] = df['Datetime'].dt.dayofweek.apply(lambda x: 1 if x >= 5 else 0)

    # 4. Thời gian trong ngày
    def get_time_of_day(hour):
        if 5 <= hour < 12:
            return 'Morning'
        elif 12 <= hour < 17:
            return 'Afternoon'
        elif 17 <= hour < 22:
            return 'Evening'
        else:
            return 'Night'
    
    df['TimeOfDay'] = df['Datetime'].dt.hour.apply(get_time_of_day)
    # Mã hóa TimeOfDay thành số
    time_of_day_mapping = {'Morning': 0, 'Afternoon': 1, 'Evening': 2, 'Night': 3}
    df['TimeOfDay'] = df['TimeOfDay'].map(time_of_day_mapping)

    # 5. Chu kỳ thời gian (dùng sin và cos để biểu diễn giờ)
    df['SinHour'] = df['Datetime'].dt.hour.apply(lambda x: math.sin(2 * math.pi * x / 24))
    df['CosHour'] = df['Datetime'].dt.hour.apply(lambda x: math.cos(2 * math.pi * x / 24))

    return df

# Áp dụng trích xuất đặc trưng
train_data = extract_features(train_data)
test_data = extract_features(test_data)

print("Dữ liệu train sau khi trích xuất đặc trưng:")
print(train_data.head())
print("Dữ liệu test sau khi trích xuất đặc trưng:")
print(test_data.head())

Dữ liệu train sau khi trích xuất đặc trưng:
                 Datetime  AEP  DAYTON  DOM  EKPC  FE  PJM_Load_MW    PJMW  \
41630 2002-01-01 01:00:00  NaN     NaN  NaN   NaN NaN      30393.0  5038.0   
41631 2002-01-01 02:00:00  NaN     NaN  NaN   NaN NaN      29265.0  5038.0   
41632 2002-01-01 03:00:00  NaN     NaN  NaN   NaN NaN      28357.0  5038.0   
41633 2002-01-01 04:00:00  NaN     NaN  NaN   NaN NaN      27899.0  5038.0   
41634 2002-01-01 05:00:00  NaN     NaN  NaN   NaN NaN      28057.0  5038.0   

       PJM_Load  Season  IsHoliday  IsWeekend  TimeOfDay   SinHour   CosHour  
41630       NaN       3          1          0          3  0.258819  0.965926  
41631       NaN       3          1          0          3  0.500000  0.866025  
41632       NaN       3          1          0          3  0.707107  0.707107  
41633       NaN       3          1          0          3  0.866025  0.500000  
41634       NaN       3          1          0          0  0.965926  0.258819  
Dữ liệu test 

In [33]:
# Danh sách các đặc trưng
train_features = ['Season', 'IsHoliday', 'IsWeekend', 'TimeOfDay', 'SinHour', 'CosHour', 'AEP', 'DAYTON', 'DOM', 'EKPC', 'FE', 'PJMW', 'PJM_Load']
test_features = ['Season', 'IsHoliday', 'IsWeekend', 'TimeOfDay', 'SinHour', 'CosHour', 'DEOK', 'DUQ', 'NI']

# Chia dữ liệu thành X (đặc trưng) và y (mục tiêu)
X_train = train_data[train_features]
y_train = train_data['PJM_Load_MW']
X_test = test_data[test_features]
y_test = test_data['PJM_Load_MW']

print("X_train shape:", X_train.shape)
print("y_train shape:", y_train.shape)
print("X_test shape:", X_test.shape)
print("y_test shape:", y_test.shape)

X_train shape: (145366, 13)
y_train shape: (145366,)
X_test shape: (66497, 9)
y_test shape: (66497,)
