In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [6]:

df = pd.read_excel(r'E:\大三\大三上\Optimization in Finance\Final Project\Portefolio\Season\Prediction.xlsx')

# Step 2: 转换日期
df['TradingDate'] = pd.to_datetime(df['TradingDate'])

# Step 3: 提取年份和季度，并生成季度序号（从2023-Q1开始为第1季度）
df['Year'] = df['TradingDate'].dt.year
df['Quarter'] = df['TradingDate'].dt.quarter
df['Quarter_Index'] = (df['Year'] - 2023) * 4 + df['Quarter']  # 假设2023-Q1是第1季度

print("✅ 已生成 Quarter_Index (2023-Q1 → 1, 2023-Q2 → 2, ...)")

# Step 4: 数据类型处理
df['Symbol'] = df['Symbol'].astype(str)
df['Predicted_ClosePrice'] = pd.to_numeric(df['Predicted_ClosePrice'], errors='coerce')

# Step 5: 每只股票每个季度只保留最后一个交易日的价格（即季度末价）
# 先按 Symbol 和 Quarter_Index 排序，然后去重保留最后一条
df = df.sort_values(['Symbol', 'TradingDate'])
df = df.drop_duplicates(subset=['Symbol', 'Quarter_Index'], keep='last')  # 取季度最后一天

# Step 6: 按股票分组计算季度收益率
all_returns = []

for symbol in df['Symbol'].unique():
    stock_df = df[df['Symbol'] == symbol].copy()
    stock_df = stock_df.sort_values('Quarter_Index')
    
    # 计算季度收益率（pct_change）
    returns = stock_df['Predicted_ClosePrice'].pct_change()

    result = pd.DataFrame({
        'Symbol': symbol,
        'Quarter_Index': stock_df['Quarter_Index'],
        'Quarterly_Return': returns.values
    })
    all_returns.append(result)

# 合并结果
final_df = pd.concat(all_returns, ignore_index=True)

# 保存到 Excel
final_df.to_excel('修正训练数据_季度收益率.xlsx', index=False)

print("✅ 完成！已保存季度收益率到 '修正训练数据_季度收益率.xlsx'")

✅ 已生成 Quarter_Index (2023-Q1 → 1, 2023-Q2 → 2, ...)
✅ 完成！已保存季度收益率到 '修正训练数据_季度收益率.xlsx'


In [7]:

# Step 1: 读取原始数据
df = pd.read_excel('修正训练数据_季度收益率.xlsx')  # 替换为你的文件名

# Step 2: 确保数据类型正确
df['Symbol'] = df['Symbol'].astype(str)
df['Quarterly_Index'] = df['Quarterly_Index'].astype(int)

# Step 3: 按 Symbol 和 Season_Index 重置索引，确保唯一性
df = df.drop_duplicates(subset=['Symbol', 'Quarterly_Index'], keep='last')

# Step 4: 转为宽格式（pivot）
wide_df = df.pivot(index='Quarterly_Index', columns='Symbol', values='Quarterly_Return')

# Step 5: 重置索引，使 Month_Index 成为普通列
wide_df = wide_df.reset_index()

# Step 6: 保存到新 Excel 文件
wide_df.to_excel('宽泛修正训练数据.xlsx', index=False)

print("✅ 宽格式数据已保存到 宽泛修正训练数据.xlsx")

✅ 宽格式数据已保存到 宽泛修正训练数据.xlsx


In [9]:
# 1. 读取 Excel 文件
file_path = "宽泛修正训练数据.xlsx"
df = pd.read_excel(file_path, header=None)  # 无标题行

# 2. 提取收益率数据：去掉第一列（时间点），只保留股票收益率
returns_df = df.iloc[1:, 1:]  # 所有行，从第2列开始

# 3. 检查形状
print("数据形状（时间点 × 股票数）:", returns_df.shape)

# 4. 计算样本协方差矩阵（按列：每列是一只股票）
cov_matrix = returns_df.cov()  # 默认 ddof=1，即样本协方差

print("协方差矩阵形状:", cov_matrix.shape)
print("协方差矩阵前5行5列:\n", cov_matrix.iloc[:5, :5])

# 5. （可选）保存协方差矩阵回 Excel
cov_matrix.to_excel("协方差矩阵_499x499.xlsx")
print("✅ 协方差矩阵已保存为 '协方差矩阵_499x499.xlsx'")

数据形状（时间点 × 股票数）: (7, 499)
协方差矩阵形状: (499, 499)
协方差矩阵前5行5列:
           1         2         3         4         5
1  0.011237  0.005690  0.009649  0.002781  0.002222
2  0.005690  0.018076  0.011021  0.002251  0.001063
3  0.009649  0.011021  0.023105  0.009146  0.005307
4  0.002781  0.002251  0.009146  0.010645 -0.001289
5  0.002222  0.001063  0.005307 -0.001289  0.004729
✅ 协方差矩阵已保存为 '协方差矩阵_499x499.xlsx'
