In [1]:
import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import calendar

# --- Set global Matplotlib parameters ---
plt.rcParams["font.family"] = "serif"
#plt.rcParams["text.usetex"] = True
plt.rcParams["text.latex.preamble"] = r"\usepackage{amsmath}"
plt.rcParams["figure.dpi"] = 1200
plt.rcParams["font.size"] = 20
plt.rcParams["axes.labelsize"] = 20
plt.rcParams["axes.titlesize"] = 20
plt.rcParams["legend.fontsize"] = 20
plt.rcParams["xtick.direction"] = "in"
plt.rcParams["ytick.direction"] = "in"
plt.rcParams["xtick.major.size"] = 5.0
plt.rcParams["xtick.minor.size"] = 3.0
plt.rcParams["ytick.major.size"] = 5.0
plt.rcParams["ytick.minor.size"] = 3.0
plt.rcParams["axes.linewidth"] = 1.5
plt.rcParams["legend.handlelength"] = 2.0

In [None]:
#Tạo thư mục lưu hình ảnh (figures).

# --- Load training data (Years 1 and 2) ---
train_df = pd.read_excel('./datasets/training.xlsx', sheet_name='Data')
train_df.to_csv('./datasets/training.csv', index=False)

# Create directory for saving figures if it doesn't exist
output_dir = "./figures"
if not os.path.exists(output_dir):
    os.makedirs(output_dir)

**Hourly GHI Variation**


**Year 1**

Mục tiêu

Phân tích sự biến thiên theo giờ của bức xạ mặt trời (GHI) trong năm đầu tiên ở Site-1, bằng cách:

Lấy mẫu 4 tháng đại diện cho 4 mùa (tháng 1 → mùa đông , 4 → mùa xuân, 7 → mùa hè, 8 → mùa thu).

Vẽ đường GHI theo giờ trong từng ngày của tháng.

Thêm “đường trung bình (centroid)” biểu diễn giá trị GHI trung bình mỗi giờ.

In [None]:
# --- Hourly GHI Variation (Year 1) ---
months = [4, # Mid-spring
          7, # Mid-summer
          8, # Mid-fall
          1] # Mid-winter

for month in months:
    # Lọc dữ liệu theo năm và tháng cụ thể (Year 1)
    filtered_df = train_df[(train_df["Year"] == 1) & (train_df["Month"] == month)]
    
    # Create a new figure for the current month
    plt.figure(figsize=(10, 6))
    
    # Lặp qua từng ngày trong tháng. Vẽ đường GHI theo giờ trong từng ngày
    for day in sorted(filtered_df["Day"].unique()):
        subset = filtered_df[filtered_df["Day"] == day]
        plt.plot(subset["Hour"], subset["Site-1 GHI"],
                 alpha=0.5, linestyle="-", marker="o", lw=1.0)

    # Tính “centroid” (đường trung bình): 
    # GHI trung bình cho mỗi giờ trong tất cả các ngày trong tháng
    centroid = filtered_df.groupby("Hour")["Site-1 GHI"].mean()
    plt.plot(centroid.index, centroid, color='black', lw=2.5, marker='D', linestyle='-', label="Centroid")

    plt.xlabel("Hour of the Day")
    plt.ylabel("GHI (Global Horizontal Irradiance)")
    plt.legend(loc="upper left")
    # plt.title(f"Hourly GHI Variation for {calendar.month_name[month]} (Year 1)")
    
    # Lưu biểu đồ dạng PDF vector chất lượng cao vào thư mục figures/.
    output_filename = os.path.join(output_dir, f"hourly_GHI_variation_{month}_Site_1_Year_1.pdf")
    plt.savefig(output_filename, format='pdf')
    
    # Display the plot
    # plt.show()
    plt.close()

| Tháng                  | Đặc trưng quan sát được             | Giải thích vật lý                 |
| ---------------------- | ----------------------------------- | --------------------------------- |
| **Tháng 1 (mùa đông)** | GHI thấp, khoảng 8h–17h có nắng yếu | Mặt trời thấp, ngày ngắn          |
| **Tháng 4 (mùa xuân)** | GHI tăng rõ, đỉnh khoảng 11h–13h    | Nhiệt độ và độ chiếu sáng tăng    |
| **Tháng 7 (mùa hè)**   | GHI cao nhất, kéo dài từ 6h–18h     | Ngày dài, mặt trời gần thiên đỉnh |
| **Tháng 8 (mùa thu)**  | GHI giảm nhẹ nhưng vẫn cao          | Bức xạ giảm dần khi sang thu      |


**Year 2**

In [4]:
# --- Hourly GHI Variation (Year 2) ---
months = [4, # Mid-spring
          7, # Mid-summer
          8, # Mid-fall
          1] # Mid-winter

for month in months:
    # Filter the DataFrame for Year 1 and the current month
    filtered_df = train_df[(train_df["Year"] == 2) & (train_df["Month"] == month)]
    
    # Create a new figure for the current month
    plt.figure(figsize=(10, 6))
    
    # Plot each day's hourly GHI variation on the same figure
    for day in sorted(filtered_df["Day"].unique()):
        subset = filtered_df[filtered_df["Day"] == day]
        plt.plot(subset["Hour"], subset["Site-1 GHI"],
                 alpha=0.5, linestyle="-", marker="o", lw=1.0)

    # Compute the plot the centroid: average GHI for each hour across all days in the month
    centroid = filtered_df.groupby("Hour")["Site-1 GHI"].mean()
    plt.plot(centroid.index, centroid, color='black', lw=2.5, marker='D', linestyle='-', label="Centroid")

    plt.xlabel("Hour of the Day")
    plt.ylabel("GHI (Global Horizontal Irradiance)")
    plt.legend(loc="upper left")
    # plt.title(f"Hourly GHI Variation for {calendar.month_name[month]} (Year 2)")
    
    # Save the figure before showing it
    output_filename = os.path.join(output_dir, f"hourly_GHI_variation_{month}_Site_1_Year_2.pdf")
    plt.savefig(output_filename, format='pdf')
    
    # Display the plot
    # plt.show()
    plt.close()

Nhận xét :

Các đồ thị GHI theo giờ trong ngày cho Year 2 (Site-1) thể hiện đặc điểm tương tự như Year 1, chứng minh tính chu kỳ theo mùa rõ rệt trong dữ liệu.

Tháng 1 (mùa đông): GHI thấp nhất, đỉnh khoảng 12–13h, biên độ dao động nhỏ do góc chiếu mặt trời thấp.

Tháng 4 (mùa xuân): GHI tăng mạnh, đồ thị có dạng parabol đối xứng — thể hiện cường độ nắng ổn định.

Tháng 7 (mùa hè): GHI đạt cực đại trong năm, kéo dài từ 6h–18h, với giá trị trung bình cao hơn hẳn các tháng khác.

Tháng 8 (mùa thu): Cường độ giảm nhẹ, nhưng vẫn duy trì dạng cong mượt đặc trưng cho thời kỳ sau đỉnh mùa hè.

Sự tương đồng về hình dạng giữa hai năm cho thấy mô hình bức xạ mặt trời ổn định, ít chịu ảnh hưởng của biến động khí hậu cực đoan, từ đó giúp tăng độ tin cậy cho các mô hình dự báo phụ tải điện phụ thuộc GHI.

**Temperature**


**Year 1**

In [5]:
# --- Hourly GHI Variation (Year 1) ---
months = [4, # Mid-spring
          7, # Mid-summer
          8, # Mid-fall
          1] # Mid-winter

for month in months:
    # Filter the DataFrame for Year 1 and the current month
    filtered_df = train_df[(train_df["Year"] == 1) & (train_df["Month"] == month)]
    
    # Create a new figure for the current month
    plt.figure(figsize=(10, 6))
    
    # Plot each day's hourly Temperature variation on the same figure
    for day in sorted(filtered_df["Day"].unique()):
        subset = filtered_df[filtered_df["Day"] == day]
        plt.plot(subset["Hour"], subset["Site-1 Temp"],
                 alpha=0.5, linestyle="-", marker="o", lw=1.0)
    
    # Compute the centroid: average Temperature for each hour across all days in the month
    centroid = filtered_df.groupby("Hour")["Site-1 Temp"].mean()
    
    # Plot the centroid with a distinct style
    plt.plot(centroid.index, centroid, color='black', lw=2.5, marker='D', linestyle='-', label="Centroid")
    
    plt.xlabel("Hour of the Day")
    plt.ylabel("Temperature")
    # plt.title(f"Hourly Temperature Variation for {calendar.month_name[month]} (Year 1)")
    
    # Place the legend inside the figure (upper right corner)
    plt.legend(loc="upper right")
    
    plt.tight_layout()
    
    # Save the figure before showing it
    output_filename = os.path.join(output_dir, f"hourly_temperature_variation_{month}_Site_1_Year_1.pdf")
    plt.savefig(output_filename, format='pdf')
    
    # Display the plot
    # plt.show()
    plt.close()

Biểu đồ biến thiên nhiệt độ theo giờ trong ngày tại Site-1 cho Year 1 cho thấy đặc điểm rõ ràng theo mùa:

Tháng 1 (mùa đông): Nhiệt độ thấp, dao động hẹp (~15–25°C), đỉnh khoảng 13–14h.

Tháng 4 (mùa xuân): Nhiệt độ tăng nhẹ, biên độ ngày–đêm rõ rệt hơn.

Tháng 7 (mùa hè): Cao nhất trong năm, với đỉnh nhiệt độ đạt cực đại khoảng 13–15h, sau đó giảm dần về tối.

Tháng 8 (mùa thu): Nhiệt độ bắt đầu giảm, nhưng vẫn duy trì dạng cong đặc trưng của chu kỳ ngày.

Đường trung bình (centroid) thể hiện quy luật nhiệt độ điển hình trong ngày, đồng thời giúp nhận ra các biến động nhỏ do thời tiết từng ngày.

**Electricty Load**

**Year 1**

In [6]:
for month in months:
    # Filter the DataFrame for Year 1 and the current month
    filtered_df = train_df[(train_df["Year"] == 1) & (train_df["Month"] == month)]
    
    # Create a new figure for the current month
    plt.figure(figsize=(10, 6))
    
    # Plot each day's hourly Electricity Load variation on the same figure
    for day in sorted(filtered_df["Day"].unique()):
        subset = filtered_df[filtered_df["Day"] == day]
        plt.plot(subset["Hour"], subset["Load"],
                 alpha=0.5, linestyle="-", marker="o", lw=1.0)
    
    # Compute the centroid: average Electricity Load for each hour across all days in the month
    centroid = filtered_df.groupby("Hour")["Load"].mean()
    
    # Plot the centroid with a distinct style
    plt.plot(centroid.index, centroid, color='black', lw=2.5, marker='D', linestyle='-', label="Centroid")
    
    plt.xlabel("Hour of the Day")
    plt.ylabel("Electricity Load")
    plt.title(f"Hourly Electricity Load Variation for {calendar.month_name[month]} (Year 1)")
    
    # Place the legend inside the figure (upper right corner)
    plt.legend(loc="upper right")
    
    plt.tight_layout()
    
    # Save the figure before showing it
    output_filename = os.path.join(output_dir, f"hourly_electricity_load_variation_{month}_Year_1.pdf")
    plt.savefig(output_filename, format='pdf')
    
    # Display the plot
    # plt.show()
    plt.close()

Vào buổi sáng (0–6 h), phụ tải thấp do nhu cầu sinh hoạt giảm.

Tăng nhanh từ 7–10 h, đạt cực đại vào buổi trưa hoặc đầu buổi tối.

Mùa hè (tháng 7) có đỉnh tải cao nhất, phản ánh ảnh hưởng mạnh của nhiệt độ và GHI đến nhu cầu điện.

**Electricity vs. GHI & Temperature**