In [3]:
import pandas as pd

# 数据类型定义
dtypes = {
    "Stkcd": "int32",
    "Opnprc": "float32",
    "Hiprc": "float32",
    "Loprc": "float32",
    "Clsprc": "float32",
    'PrevClsprc': 'float32',
}

# 加载数据
df_list = []
for i in range(1):  # 你的代码中range(1)，可根据需要调整
    df = pd.read_csv(f"../../data/TRD_Dalyr{i}.csv", dtype=dtypes)
    df_list.append(df)

df = pd.concat(df_list, axis=0, ignore_index=True)
df["Trddt"] = pd.to_datetime(df["Trddt"])  # 确保Trddt为datetime类型

# 预处理：生成前一天收盘价列
df = df.sort_values(['Stkcd', 'Trddt'])  # 按股票ID和交易日期排序
df['PrevClsprc'] = df.groupby('Stkcd')['Clsprc'].shift(1)  # 前一天收盘价

# 保存结果到新的CSV文件
output_path = "../../data/TRD_Dalyr_with_PrevClsprc.csv"
df.to_csv(output_path, index=False)
print(f"预处理后的数据已保存至：{output_path}")

# 可选：打印前几行验证结果
print("前几行数据（验证PrevClsprc）：")
print(df.head())

预处理后的数据已保存至：../../data/TRD_Dalyr_with_PrevClsprc.csv
前几行数据（验证PrevClsprc）：
   Stkcd      Trddt  Opnprc  Hiprc  Loprc  Clsprc  PrevClsprc
0      1 2020-02-19   15.10  15.37  15.08   15.24         NaN
1      1 2020-02-20   15.27  15.62  15.10   15.59       15.24
2      1 2020-02-21   15.49  15.72  15.45   15.58       15.59
3      1 2020-02-24   15.46  15.46  15.15   15.23       15.58
4      1 2020-02-25   15.00  15.13  14.78   15.04       15.23


In [4]:
df = pd.read_csv(f"../../data/TRD_Dalyr_with_PrevClsprc.csv", dtype=dtypes)
df.head()

Unnamed: 0,Stkcd,Trddt,Opnprc,Hiprc,Loprc,Clsprc,PrevClsprc
0,1,2020-02-19,15.1,15.37,15.08,15.24,
1,1,2020-02-20,15.27,15.62,15.1,15.59,15.24
2,1,2020-02-21,15.49,15.72,15.45,15.58,15.59
3,1,2020-02-24,15.46,15.46,15.15,15.23,15.58
4,1,2020-02-25,15.0,15.13,14.78,15.04,15.23
