# 查看量化因子数据内容

这个Jupyter Notebook程序用于加载并初步分析公司服务器上的量化因子数据文件（`.pkl`格式）。
你可以通过运行不同的代码块来了解数据的结构、包含的因子以及它们的基本统计信息。

## 1. 导入必要的库

首先，我们需要导入 `pandas` 库来处理数据，以及 `os` 库来处理文件路径。

In [1]:
import pandas as pd
import os

## 2. 定义文件路径并加载数据

在这里，我们指定了因子数据文件在服务器上的路径和文件名。
**请务必确认 `factor_data_path` 和 `file_name` 与你实际的文件位置和名称一致。**
然后，程序会尝试加载这个 `.pkl` 文件。

In [2]:
# 定义因子数据文件的路径和文件名
# 请确保这个路径与你在服务器上找到的路径一致
factor_data_path = '/public/data/factor_data'
file_name = 'BTCUSDT_15m_2020_2025_factor_data.pkl'

# 构建完整的文件路径
full_file_path = os.path.join(factor_data_path, file_name)

print(f"尝试加载文件: {full_file_path}")

try:
    # 使用 pandas.read_pickle 加载 .pkl 文件
    data = pd.read_pickle(full_file_path)

    print("\n文件加载成功！以下是数据的一些基本信息：")

except FileNotFoundError:
    print(f"错误: 文件 '{full_file_path}' 未找到。请检查路径和文件名是否正确。")
except Exception as e:
    print(f"加载文件时发生错误: {e}")

尝试加载文件: /public/data/factor_data/BTCUSDT_15m_2020_2025_factor_data.pkl

文件加载成功！以下是数据的一些基本信息：


## 3. 初步数据概览

文件加载成功后，我们可以先查看数据的前几行，了解整体结构，以及所有列的名称。

In [3]:
if 'data' in locals(): # 确保数据已成功加载
    # 1. 查看数据的前5行，了解整体结构
    print("\n--- 数据前5行 (data.head()) ---")
    print(data.head())

    # 2. 查看数据的列名，这些列名就是因子和原始数据（如'close', 'open'等）
    print("\n--- 所有列名 (data.columns) ---")
    print(data.columns.tolist())
else:
    print("数据未成功加载，无法进行初步概览。")


--- 数据前5行 (data.head()) ---
                         open_time      open      high       low     close  \
open_time                                                                    
2021-10-01 00:00:00  1633046400000  43799.49  43968.00  43694.42  43732.84   
2021-10-01 00:15:00  1633047300000  43732.84  43872.47  43662.01  43845.90   
2021-10-01 00:30:00  1633048200000  43845.95  44043.22  43811.40  43864.44   
2021-10-01 00:45:00  1633049100000  43863.97  43874.58  43637.43  43672.26   
2021-10-01 01:00:00  1633050000000  43671.50  43672.82  43401.99  43477.34   

                       volume     close_time      turnover  trade_count  \
open_time                                                                 
2021-10-01 00:00:00  5790.577  1633047299999  2.538197e+08        48953   
2021-10-01 00:15:00  2413.893  1633048199999  1.056570e+08        22457   
2021-10-01 00:30:00  5499.229  1633049099999  2.415322e+08        37929   
2021-10-01 00:45:00  3688.510  1633049999999  1.6

## 4. 查看数据基本统计信息

这一步可以帮助我们了解因子的数值分布（如均值、标准差、最小值、最大值等）。
为了避免输出过长，这里默认只展示原始程序中使用的部分因子以及 `close` 和 `target` 列的统计信息。
你可以根据需要调整 `data[['...'选择的列]]` 来查看其他列的统计信息。

In [4]:
if 'data' in locals():
    print("\n--- 数据基本统计信息 (data.describe()) ---")
    # 原始程序中选定的因子范围
    selected_factors_range = [f'c_chu0{i}' for i in range(37,52)]
    # 尝试选择这些因子以及 'close' 和 'target' 列进行描述性统计
    cols_to_describe = []
    for col in ['c_chu037', 'c_chu038', 'c_chu050', 'c_chu051', 'close', 'target'] + selected_factors_range:
        if col in data.columns and col not in cols_to_describe: # 避免重复添加
            cols_to_describe.append(col)

    if cols_to_describe:
        print(data[cols_to_describe].describe())
    else:
        print(data.describe()) # 如果特定因子不存在，则打印所有列的统计信息
else:
    print("数据未成功加载，无法查看统计信息。")


--- 数据基本统计信息 (data.describe()) ---
            c_chu037       c_chu038       c_chu050      c_chu051  \
count  128447.000000  128448.000000  128448.000000  1.284480e+05   
mean        0.574749     381.217293      41.338781  5.537084e-02   
std        12.090122     914.377443       7.217532  7.276333e-02   
min         0.000000       0.000000      16.166242  6.937664e-07   
25%         0.017731      46.926634      36.355084  1.363680e-02   
50%         0.059436     126.738018      41.076914  3.226977e-02   
75%         0.188994     342.997581      46.016098  6.780741e-02   
max      1615.789474   31514.814446      86.842105  2.176733e+00   

               close       c_chu039      c_chu040       c_chu041  \
count  128448.000000  128427.000000  1.284480e+05  128448.000000   
mean    47955.835964    5627.670413  3.250137e-04    8833.248960   
std     25373.877523    8540.765970  3.979754e-04   14906.968408   
min     15637.900000       0.040034  1.153809e-10       0.025000   
25%     267

## 5. 查看特定因子的详细内容

你可以指定任何你想深入了解的因子名称，来查看它的前几个值和独立的统计信息。

In [5]:
if 'data' in locals():
    # 替换 'c_chu037' 为任何你想查看的因子名称
    factor_to_inspect = 'c_chu037'

    if factor_to_inspect in data.columns:
        print(f"\n--- 因子 '{factor_to_inspect}' 的前10个值 ---")
        print(data[factor_to_inspect].head(10))

        print(f"\n--- 因子 '{factor_to_inspect}' 的统计信息 ---")
        print(data[factor_to_inspect].describe())
    else:
        print(f"\n注意: 因子 '{factor_to_inspect}' 未在数据中找到。请检查列名。")
else:
    print("数据未成功加载，无法查看特定因子内容。")


--- 因子 'c_chu037' 的前10个值 ---
open_time
2021-10-01 00:00:00    0.017220
2021-10-01 00:15:00    0.033483
2021-10-01 00:30:00    0.006009
2021-10-01 00:45:00    0.106135
2021-10-01 01:00:00    0.328047
2021-10-01 01:15:00    0.047701
2021-10-01 01:30:00    2.110639
2021-10-01 01:45:00    0.127041
2021-10-01 02:00:00    0.224630
2021-10-01 02:15:00    0.101159
Name: c_chu037, dtype: float64

--- 因子 'c_chu037' 的统计信息 ---
count    128447.000000
mean          0.574749
std          12.090122
min           0.000000
25%           0.017731
50%           0.059436
75%           0.188994
max        1615.789474
Name: c_chu037, dtype: float64


## 6. 确认原始程序中选定的因子

这一步会列出原始模型程序中使用的所有因子，并检查它们是否都存在于当前加载的数据中。

In [6]:
if 'data' in locals():
    # 原始程序中使用的 selected_factors
    selected_factors = [f'c_chu0{i}' for i in range(37,52)]
    print("\n--- 原始程序中选定的因子列表 ---")
    print(selected_factors)

    # 检查这些因子是否都在数据中
    missing_factors = [f for f in selected_factors if f not in data.columns]
    if missing_factors:
        print(f"\n警告: 以下选定因子在数据中缺失: {missing_factors}")
    else:
        print("\n所有选定因子都在数据中。")
else:
    print("数据未成功加载，无法确认选定因子。")


--- 原始程序中选定的因子列表 ---
['c_chu037', 'c_chu038', 'c_chu039', 'c_chu040', 'c_chu041', 'c_chu042', 'c_chu043', 'c_chu044', 'c_chu045', 'c_chu046', 'c_chu047', 'c_chu048', 'c_chu049', 'c_chu050', 'c_chu051']

所有选定因子都在数据中。


## 7. 进一步分析建议 (可选)

你可以取消注释下面的代码块，来进一步探索因子之间的相关性或它们的分布情况。
这需要安装 `matplotlib` 和 `seaborn` 库 (`pip install matplotlib seaborn`)。

In [7]:
# import matplotlib.pyplot as plt
# import seaborn as sns

# if 'data' in locals() and 'selected_factors' in locals() and all(f in data.columns for f in selected_factors):
#     print("\n--- 绘制选定因子的相关性热力图 (Heatmap) ---")
#     plt.figure(figsize=(12, 8))
#     sns.heatmap(data[selected_factors].corr(), annot=True, cmap='coolwarm', fmt=".2f")
#     plt.title('Selected Factors Correlation Matrix')
#     plt.show()

#     print("\n--- 绘制因子 'c_chu037' 的分布直方图 ---")
#     plt.figure(figsize=(10, 6))
#     sns.histplot(data['c_chu037'].dropna(), kde=True)
#     plt.title('Distribution of Factor c_chu037')
#     plt.xlabel('c_chu037 Value')
#     plt.ylabel('Frequency')
#     plt.show()
# else:
#     print("数据或选定因子未准备好，无法进行进一步可视化分析。")