# 电力负荷数据探索性分析

本notebook用于对电力负荷数据进行探索性分析，包括数据可视化、统计分析和特征工程等。

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import sys
import os

# 添加src目录到Python路径
sys.path.append('../src')

from data.data_loader import PowerLoadDataLoader
from data.preprocessing import PowerLoadPreprocessor
from utils.visualization import setup_visualization_style, plot_time_series, plot_correlation_matrix

# 设置可视化样式
setup_visualization_style()

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

## 1. 数据加载

In [None]:
# 创建数据加载器
loader = PowerLoadDataLoader()

# 加载数据
data = loader.load_data()

print("数据基本信息:")
print(f"数据形状: {data.shape}")
print(f"时间范围: {data['datetime'].min()} 到 {data['datetime'].max()}")
print()

print("数据前5行:")
print(data.head())
print()

print("数据统计信息:")
print(data.describe())

## 2. 数据可视化

In [None]:
# 绘制时间序列图
plot_time_series(data, 'datetime', 'load', title='电力负荷时间序列')

## 3. 数据预处理

In [None]:
# 创建预处理器
preprocessor = PowerLoadPreprocessor()

# 创建时间特征
data_with_time_features = preprocessor.create_time_features(data)

# 创建滞后特征
data_with_lag_features = preprocessor.create_lag_features(data_with_time_features)

# 创建滚动统计特征
processed_data = preprocessor.create_rolling_features(data_with_lag_features)

# 删除包含NaN的行
processed_data = processed_data.dropna().reset_index(drop=True)

print(f"处理后数据形状: {processed_data.shape}")
print()
print("处理后数据前5行:")
print(processed_data.head())

## 4. 特征相关性分析

In [None]:
# 选择数值型特征进行相关性分析
numeric_columns = processed_data.select_dtypes(include=[np.number]).columns
numeric_data = processed_data[numeric_columns]

# 绘制相关性矩阵
plot_correlation_matrix(numeric_data.head(1000), title='电力负荷特征相关性矩阵')

## 5. 特征重要性分析

In [None]:
# 这里可以添加特征重要性分析代码
print("特征重要性分析将在模型训练后进行...")