In [6]:
import pandas as pd
import json
from datetime import timedelta

# 定义文件列表和方法、地区映射
files_info = [
    ('ensemble_model_with_intervals_hk.csv', 'Ensemble', 'HK'),
    ('ensemble_model_with_intervals_jp.csv', 'Ensemble', 'JP'), 
    ('ensemble_model_with_intervals_us.csv', 'Ensemble', 'US'),
    ('forc_baseline_hk.csv', 'Constant', 'HK'),
    ('forc_baseline_jp.csv', 'Constant', 'JP'),
    ('forc_baseline_us.csv', 'Constant', 'US')
]

# 创建空的DataFrame来存储合并后的数据
combined_data = pd.DataFrame()

# 读取并合并所有CSV文件
for file_name, method, area in files_info:
    try:
        # 读取CSV文件
        df = pd.read_csv(file_name)
        
        # 添加method和area列
        df['method'] = method
        df['area'] = area
        
        # 合并数据
        combined_data = pd.concat([combined_data, df], ignore_index=True)
        
        print(f"成功处理: {file_name}")
        
    except Exception as e:
        print(f"处理文件 {file_name} 时出错: {e}")

combined_data['date'] = pd.to_datetime(combined_data['date'], errors='coerce')
combined_data['original_date'] = combined_data['date'] - pd.to_timedelta(combined_data['week_ahead'] * 7, unit='D')
# 保存为CSV文件
combined_data.to_csv('combined_data.csv', index=False)
# 转换为JSON并保存
combined_data.to_json('data.json', orient='records', indent=2)
print("已生成JSON文件: combined_data.json")

# 显示数据概览
print(f"\n数据概览:")
print(f"总记录数: {len(combined_data)}")
print(f"方法分布:\n{combined_data['method'].value_counts()}")
print(f"地区分布:\n{combined_data['area'].value_counts()}")

成功处理: ensemble_model_with_intervals_hk.csv
成功处理: ensemble_model_with_intervals_jp.csv
成功处理: ensemble_model_with_intervals_us.csv
成功处理: forc_baseline_hk.csv
成功处理: forc_baseline_jp.csv
成功处理: forc_baseline_us.csv
已生成JSON文件: combined_data.json

数据概览:
总记录数: 31230
方法分布:
method
Constant    28962
Ensemble     2268
Name: count, dtype: int64
地区分布:
area
HK    13131
US    11502
JP     6597
Name: count, dtype: int64
