# データ探索

このノートブックでは、Signateの電力価格予測コンペティションのデータを探索的に分析します。

## 1. 環境設定とデータ読み込み

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

# プロジェクトのルートディレクトリを設定
PROJECT_ROOT = Path.cwd().parent

# データディレクトリのパスを設定
DATA_DIR = PROJECT_ROOT / "data"

# データ読み込み用の関数をインポート
from src.data_loader import load_data, preprocess_time, get_feature_groups, check_missing_values, check_outliers

### 1.1 データの読み込み

In [None]:
# データの読み込み
train_df, test_df, feature_desc = load_data(DATA_DIR)

print("訓練データの形状:", train_df.shape)
print("テストデータの形状:", test_df.shape)
print("\n特徴量の説明:")
print(feature_desc)

### 1.2 時間特徴量の前処理

In [None]:
# 時間特徴量の前処理
train_df = preprocess_time(train_df)
test_df = preprocess_time(test_df)

# 時間関連の特徴量を確認
time_features = [col for col in train_df.columns if col in ['hour', 'day_of_week', 'month', 'year']]
print("時間関連の特徴量:")
print(time_features)

## 2. 基本情報の確認

### 2.1 データの基本情報

In [None]:
# 訓練データの基本情報
print("訓練データの基本情報:")
train_df.info()

# 数値型の基本統計量
print("\n数値型の基本統計量:")
train_df.describe()

### 2.2 欠損値の確認

In [None]:
# 欠損値の確認
missing_values = check_missing_values(train_df, threshold=0.0)
print("欠損値を持つ特徴量:")
print(missing_values)

## 3. 時系列データの分析

### 3.1 時間帯ごとの傾向

In [None]:
# 時間帯ごとの平均価格
plt.figure(figsize=(12, 6))
train_df.groupby('hour')['price'].mean().plot(kind='line')
plt.title('時間帯ごとの平均電力価格')
plt.xlabel('時間')
plt.ylabel('平均価格')
plt.grid(True)
plt.show()

### 3.2 曜日別の傾向

In [None]:
# 曜日別の平均価格
plt.figure(figsize=(12, 6))
train_df.groupby('day_of_week')['price'].mean().plot(kind='bar')
plt.title('曜日別の平均電力価格')
plt.xlabel('曜日')
plt.ylabel('平均価格')
plt.grid(True)
plt.show()

### 3.3 月別の傾向

In [None]:
# 月別の平均価格
plt.figure(figsize=(12, 6))
train_df.groupby('month')['price'].mean().plot(kind='line')
plt.title('月別の平均電力価格')
plt.xlabel('月')
plt.ylabel('平均価格')
plt.grid(True)
plt.show()

## 4. 目的変数（電力価格）の分析

### 4.1 価格の分布

In [None]:
# 価格の分布
plt.figure(figsize=(12, 6))
sns.histplot(train_df['price'], kde=True)
plt.title('電力価格の分布')
plt.xlabel('価格')
plt.ylabel('頻度')
plt.grid(True)
plt.show()

### 4.2 時系列での価格変動

In [None]:
# 時系列での価格変動
plt.figure(figsize=(15, 6))
train_df.set_index('time')['price'].plot()
plt.title('電力価格の時系列変動')
plt.xlabel('時間')
plt.ylabel('価格')
plt.grid(True)
plt.show()

## 5. 特徴量の分析

### 5.1 特徴量のグループ化

In [None]:
# 特徴量のグループ化
feature_groups = get_feature_groups(train_df)
for group_name, features in feature_groups.items():
    print(f"\n{group_name}の特徴量:")
    print(features)

### 5.2 特徴量間の相関

In [None]:
# 特徴量間の相関
plt.figure(figsize=(15, 12))
correlation_matrix = train_df[feature_groups['price'] + feature_groups['load']].corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0)
plt.title('特徴量間の相関行列')
plt.show()

## 6. 外れ値の検出

In [None]:
# 外れ値の検出
outliers = check_outliers(train_df, feature_groups['price'])
print("外れ値を持つ特徴量:")
print(outliers)

## 7. 初期仮説の設定

### 7.1 特徴量と目的変数の関係性

以下の仮説を検証します：

1. 時間帯による価格変動
   - ピーク時間帯（朝・夕方）は価格が高くなる
   - 深夜は価格が低くなる

2. 曜日による価格変動
   - 平日は価格が高くなる
   - 週末は価格が低くなる

3. 季節による価格変動
   - 夏・冬は価格が高くなる（空調需要の影響）
   - 春・秋は価格が低くなる

4. 発電量と価格の関係
   - 再生可能エネルギー（太陽光・風力）の発電量が増えると価格が下がる
   - 火力発電の発電量が増えると価格が上がる

5. 気象条件と価格の関係
   - 気温が極端に高い/低いと価格が上がる
   - 風速が強いと価格が下がる（風力発電の影響）

6. 需要と価格の関係
   - 需要が増えると価格が上がる
   - 需要が減ると価格が下がる

### 7.2 重要な特徴量の特定

以下の特徴量が重要である可能性が高いと考えられます：

1. 時間関連
   - 時間帯（hour）
   - 曜日（day_of_week）
   - 月（month）

2. 発電関連
   - 太陽光発電量
   - 風力発電量
   - 火力発電量

3. 気象関連
   - 気温
   - 風速
   - 日射量

4. 需要関連
   - 総需要
   - 産業需要
   - 家庭需要