In [12]:
import pandas as pd

def calculate_monthly_returns(file_path):
    # 创建一个空字典，用于存储不同sheet页面的月度数据
    monthly_data_by_sheet = {}

    # 读取每个sheet页面并处理
    with pd.ExcelFile(file_path) as xls:
        for sheet_name in xls.sheet_names:
            print(f"正在处理 {sheet_name} sheet...")
            # 读取每个sheet页面的数据
            df = pd.read_excel(xls, sheet_name)
            print("读取数据后的前几行:")
            print(df.head())

            # 将日期列转换为日期时间类型
            df['日期'] = pd.to_datetime(df['日期'])
            print("转换日期列后的数据:")
            print(df.head())

            # 筛选出指定时间范围的数据
            start_date = pd.Timestamp('2019-01-01')
            end_date = pd.Timestamp('2024-02-29')  # 考虑到闰年
            df = df[(df['日期'] >= start_date) & (df['日期'] <= end_date)]
            print("筛选出指定时间范围后的数据:")
            print(df.head())

            # 按月分组并提取每个月最后一天的数据
            monthly_data = df.groupby(df['日期'].dt.to_period('M')).apply(lambda x: x[x['日期'] == x['日期'].max()])
            print("按月分组后的数据:")
            print(monthly_data.head())

            # 保留所需列并重置索引
            monthly_data = monthly_data[['日期', '单位净值(元)']]
            monthly_data.set_index(monthly_data['日期'].dt.to_period('M'), inplace=True)  # 将年月设置为索引
            monthly_data.index = monthly_data.index.to_timestamp()  # 将索引转换为时间戳格式
            monthly_data.drop(columns=['日期'], inplace=True)  # 删除原日期列
            print("设置日期为索引后的数据:")
            print(monthly_data.head())

            # 计算月度收益率
            monthly_data['上月净值'] = monthly_data['单位净值(元)'].shift(1)  # 获取上一个月的净值
            monthly_data['月度收益率'] = (monthly_data['单位净值(元)'] - monthly_data['上月净值']) / monthly_data['上月净值']
            print("计算月度收益率后的数据:")
            print(monthly_data.head())

            # 删除上月净值列
            monthly_data.drop(columns=['上月净值'], inplace=True)
            print("删除上月净值列后的数据:")
            print(monthly_data.head())

            # 将每个sheet页面的月度数据存储到字典中
            monthly_data_by_sheet[sheet_name] = monthly_data['月度收益率']

    return monthly_data_by_sheet

# 计算基金序列之间的协方差
def calculate_covariance_matrix(file_path):
    # 调用函数计算月度收益率
    monthly_returns_by_sheet = calculate_monthly_returns(file_path)

    # 合并为DataFrame
    df = pd.DataFrame(monthly_returns_by_sheet)

    # 计算协方差矩阵时保留公共日期部分
    covariance_matrix = df.corr()

    return covariance_matrix

# 调用函数并输出结果
file_path = '作业基金数据.xlsx'
monthly_returns_by_sheet = calculate_monthly_returns(file_path)
# 计算月度收益率的均值和标准差
for sheet_name, monthly_returns in monthly_returns_by_sheet.items():
    print(f"基金序列号: {sheet_name}")
    print("月度收益率均值:", monthly_returns.mean())
    print("月度收益率标准差:", monthly_returns.std())
    print()

covariance_matrix = calculate_covariance_matrix(file_path)
print("基金序列之间的协方差矩阵:")
print(covariance_matrix)


正在处理 005960.OF sheet...
读取数据后的前几行:
          代码       简称         日期  单位净值(元)
0  005960.OF  博时量化价值A 2018-06-26   1.0000
1  005960.OF  博时量化价值A 2018-06-27   1.0000
2  005960.OF  博时量化价值A 2018-06-28   1.0000
3  005960.OF  博时量化价值A 2018-06-29   1.0004
4  005960.OF  博时量化价值A 2018-07-02   1.0004
转换日期列后的数据:
          代码       简称         日期  单位净值(元)
0  005960.OF  博时量化价值A 2018-06-26   1.0000
1  005960.OF  博时量化价值A 2018-06-27   1.0000
2  005960.OF  博时量化价值A 2018-06-28   1.0000
3  005960.OF  博时量化价值A 2018-06-29   1.0004
4  005960.OF  博时量化价值A 2018-07-02   1.0004
筛选出指定时间范围后的数据:
            代码       简称         日期  单位净值(元)
128  005960.OF  博时量化价值A 2019-01-02   0.8596
129  005960.OF  博时量化价值A 2019-01-03   0.8563
130  005960.OF  博时量化价值A 2019-01-04   0.8738
131  005960.OF  博时量化价值A 2019-01-07   0.8840
132  005960.OF  博时量化价值A 2019-01-08   0.8834
按月分组后的数据:
                    代码       简称         日期  单位净值(元)
日期                                                 
2019-01 149  005960.OF  博时量化价值A 2019-01-31   0.8991
2019-

In [18]:
import pandas as pd

def calculate_monthly_returns(file_path):
    # 创建一个空字典，用于存储不同sheet页面的月度数据
    monthly_data_by_sheet = {}

    # 读取每个sheet页面并处理
    with pd.ExcelFile(file_path) as xls:
        for sheet_name in xls.sheet_names:
            # print(f"正在处理 {sheet_name} sheet...")
            # 读取每个sheet页面的数据
            df = pd.read_excel(xls, sheet_name)
            # print("读取数据后的前几行:")
            # print(df.head())

            # 将日期列转换为日期时间类型
            df['日期'] = pd.to_datetime(df['日期'])
            # print("转换日期列后的数据:")
            # print(df.head())

            # 筛选出指定时间范围的数据
            start_date = pd.Timestamp('2018-12-01')
            end_date = pd.Timestamp('2024-02-29')  # 考虑到闰年
            df = df[(df['日期'] >= start_date) & (df['日期'] <= end_date)]
            # print("筛选出指定时间范围后的数据:")
            # print(df.head())

            # 按月分组并提取每个月最后一天的数据
            monthly_data = df.groupby(df['日期'].dt.to_period('M')).apply(lambda x: x[x['日期'] == x['日期'].max()])
            # print("按月分组后的数据:")
            # print(monthly_data.head())

            # 保留所需列并重置索引
            monthly_data = monthly_data[['日期', '单位净值(元)']]
            monthly_data.set_index(monthly_data['日期'].dt.to_period('M'), inplace=True)  # 将年月设置为索引
            monthly_data.drop(columns=['日期'], inplace=True)  # 删除原日期列
            # print("设置日期为索引后的数据:")
            # print(monthly_data.head())

            # 计算月度收益率
            monthly_data['上月净值'] = monthly_data['单位净值(元)'].shift(1)  # 获取上一个月的净值
            monthly_data['月度收益率'] = (monthly_data['单位净值(元)'] - monthly_data['上月净值']) / monthly_data['上月净值']
            # print("计算月度收益率后的数据:")
            # print(monthly_data.head())

            # 删除上月净值列
            monthly_data.drop(columns=['上月净值'], inplace=True)
            # print("删除上月净值列后的数据:")
            # print(monthly_data.head())

            # 将每个sheet页面的月度数据存储到字典中
            monthly_data_by_sheet[sheet_name] = monthly_data['月度收益率']

    return monthly_data_by_sheet

# 计算基金序列之间的协方差
def calculate_covariance_matrix(file_path):
    # 调用函数计算月度收益率
    monthly_returns_by_sheet = calculate_monthly_returns(file_path)

    # 合并为DataFrame
    df = pd.DataFrame(monthly_returns_by_sheet)
    print(df)

    # 计算协方差矩阵时保留公共日期部分
    covariance_matrix = df.corr()

    return covariance_matrix

# 调用函数并输出结果
file_path = '作业基金数据.xlsx'
monthly_returns_by_sheet = calculate_monthly_returns(file_path)
# 计算月度收益率的均值和标准差
for sheet_name, monthly_returns in monthly_returns_by_sheet.items():
    print(f"基金序列号: {sheet_name}")
    print("月度收益率均值:", monthly_returns.mean())
    print("月度收益率标准差:", monthly_returns.std())
    print()

covariance_matrix = calculate_covariance_matrix(file_path)
print("基金序列之间的协方差矩阵:")
print(covariance_matrix)


基金序列号: 005960.OF
月度收益率均值: 0.005558680328667218
月度收益率标准差: 0.04483560117613314

基金序列号: 000008.OF
月度收益率均值: 0.006594566740407141
月度收益率标准差: 0.05657293402371166

         005960.OF  000008.OF
日期                           
2018-12        NaN        NaN
2019-01   0.036307   0.000883
2019-02   0.116005   0.186574
2019-03   0.081224   0.100513
2019-04  -0.026454  -0.040803
...            ...        ...
2023-10  -0.041242  -0.027211
2023-11  -0.007169   0.002753
2023-12  -0.021218  -0.019845
2024-01  -0.028782  -0.128104
2024-02   0.079996   0.130057

[63 rows x 2 columns]
基金序列之间的协方差矩阵:
           005960.OF  000008.OF
005960.OF   1.000000   0.848266
000008.OF   0.848266   1.000000
