In [3]:
from data_utils import export_data_for_inspection
if __name__ == "__main__":

    print("--- 开始执行数据导出任务 ---")
    export_data_for_inspection(column_to_inspect='grossprofit_margin')

    print("\n" + "="*50 + "\n")
    print("--- 所有导出任务已完成 ---")

from data_utils import export_wide_panel

if __name__ == "__main__":
    print("--- 开始执行“长表转宽表”导出任务 ---")
    export_wide_panel(value_column='grossprofit_margin')
    print("\n" + "="*50 + "\n")
    print("--- 所有面板数据导出任务已完成 ---")


--- 开始执行数据导出任务 ---
--- 准备导出用于检查的 'grossprofit_margin' 原始数据 ---
数据加载成功！
数据已准备和排序完毕。

--- 正在导出数据到Excel文件 ---

[成功] 数据已成功导出到: /Users/alan-hopiy/Documents/个人研究/基本面量化/grossprofit_margin_source_data_for_inspection.xlsx
请打开此文件进行检查。


--- 所有导出任务已完成 ---
--- 开始执行“长表转宽表”导出任务 ---
--- 准备将 'grossprofit_margin' 数据转换为宽表 ---
数据加载成功！

去重前的数据行数: 169650
去重后的数据行数: 102305

数据清洗与去重完成。

正在执行 pivot_table 操作...
宽表创建成功！

--- 正在导出宽表到Excel文件 ---

[成功] 已将宽表格式的数据导出到: /Users/alan-hopiy/Documents/个人研究/基本面量化/grossprofit_margin_wide_format.xlsx


--- 所有面板数据导出任务已完成 ---


In [9]:
import pandas as pd
import numpy as np
import os # 引入os模块来处理文件路径

# ==============================================================================
#  步骤 0: 从您指定的Excel文件路径加载数据
# ==============================================================================
print("--- 步骤 0: 从Excel文件加载准备好的毛利率宽表数据 ---")

file_path = '/Users/alan-hopiy/Documents/个人研究/基本面量化/grossprofit_margin_wide_format.xlsx'

try:
    df_gross_margin = pd.read_excel(file_path, index_col=0)
    print(f"成功从路径 '{file_path}' 加载数据！")
    print("数据预览：")
    print(df_gross_margin.head())

except FileNotFoundError:
    print(f"[错误] 文件未找到！请检查路径是否正确: {file_path}")
    df_gross_margin = pd.DataFrame()
except Exception as e:
    print(f"读取Excel文件时出错: {e}")
    df_gross_margin = pd.DataFrame()

# ==============================================================================
#  数据预处理与因子计算流程
# ==============================================================================

if not df_gross_margin.empty:
    print("\n--- 开始执行数据预处理和因子计算 ---")
    
    # --- 步骤 1: 数据充分性筛选 ---
    print("\n--- 步骤 1: 数据充分性筛选 ---")
    valid_counts = df_gross_margin.notna().sum(axis=1)
    MIN_PERIODS = 12
    df_filtered = df_gross_margin[valid_counts >= MIN_PERIODS]
    print(f"原始公司数量: {len(df_gross_margin)}")
    print(f"筛选后剩余公司数量: {len(df_filtered)}")

    if not df_filtered.empty:
        # --- 步骤 2: 极端值处理 (缩尾) ---
        print("\n--- 步骤 2: 极端值处理 (缩尾) ---")
        lower_bound = df_filtered.stack().quantile(0.01)
        upper_bound = df_filtered.stack().quantile(0.99)
        df_winsorized = df_filtered.clip(lower=lower_bound, upper=upper_bound)
        print(f"已对数据在 [{lower_bound:.2f}, {upper_bound:.2f}] 范围内进行缩尾处理。")

        # --- 步骤 3: 计算处理后数据的平均值 ---
        print("\n--- 步骤 3: 计算处理后数据的平均值 ---")
        average_gm = df_winsorized.mean(axis=1)
        
        # --- 步骤 4: Z-Score 标准化 ---
        print("\n--- 步骤 4: Z-Score 标准化 ---")
        z_scores_gm = (average_gm - average_gm.mean()) / average_gm.std()
        print("Z-Score 计算完成。")

        # ==============================================================================
        #  新增部分：步骤 5 - 导出最终结果到Excel
        # ==============================================================================
        print("\n--- 步骤 5: 导出Z-score因子值到Excel文件 ---")
        
        # 定义输出的文件夹路径和完整文件路径
        output_dir = '/Users/alan-hopiy/Documents/个人研究/基本面量化/'
        output_filename = 'factor_zscore_gross_margin.xlsx'
        output_path = os.path.join(output_dir, output_filename)
        
        try:
            # 确保输出文件夹存在
            os.makedirs(output_dir, exist_ok=True)
            
            # 将z_scores_gm这个Series转换为DataFrame并导出
            # z_scores_gm.to_frame()会把Series变成一列的DataFrame
            # 我们给这一列命名为 'z_score_gm'
            z_scores_gm.to_frame(name='z_score_gm').to_excel(output_path, index=True)
            
            print(f"\n[成功] 因子已成功导出到: {output_path}")
            
        except Exception as e:
            print(f"\n[失败] 文件导出失败: {e}")
        # ==============================================================================

    else:
        print("经过数据充分性筛选后，没有剩余的公司可供处理。")
else:
    print("数据加载失败或数据为空，未执行后续计算。")

--- 步骤 0: 从Excel文件加载准备好的毛利率宽表数据 ---
成功从路径 '/Users/alan-hopiy/Documents/个人研究/基本面量化/grossprofit_margin_wide_format.xlsx' 加载数据！
数据预览：
           2020-03-31  2020-06-30  2020-09-30  2020-12-31  2021-03-31  \
ts_code                                                                 
000002.SZ     31.2754     31.8089     29.9372     29.2454     20.4104   
000004.SZ     83.0721     75.8113     82.3844     75.2981     64.4097   
000006.SZ     47.8154     45.1503     44.6791     46.5920     50.0227   
000007.SZ     68.3681     70.4983     70.4095     72.1967     65.6321   
000008.SZ     42.3658     29.1090     35.6383     37.9026     45.3435   

           2021-06-30  2021-09-30  2021-12-31  2022-03-31  2022-06-30  \
ts_code                                                                 
000002.SZ     22.9403     22.0983     21.8245     18.8748     20.4649   
000004.SZ     59.1131     62.1143     56.0689     60.2062     59.9907   
000006.SZ     47.3055     45.7075     43.4295     46.9822     40.

In [14]:
# file: build_gross_margin_growth_factor.py

import pandas as pd
import numpy as np
import os

# 假设您的数据库连接信息在 config.py 文件中，我们需要用到其中的输出路径
try:
    import config
except ImportError:
    print("[警告] 无法找到配置文件 config.py。将使用当前目录作为输出目录。")
    # 定义一个默认的输出目录，以防config文件不存在
    class config:
        BASE_OUTPUT_DIR = '.'

def calculate_growth_with_penalty(row, target_years):
    """
    【通用版】成长率计算函数。
    - 只有当期初和期末指标都为正时，才计算CAGR。
    - 否则，只要涉及负值或零，就给予-0.99的惩罚性低分。
    - 自动寻找最接近的目标年份作为基期。
    """
    series = row.dropna()
    target_period = target_years * 4  # 假设为季度数据，一年4期
    
    if len(series) <= target_period:
        return np.nan
        
    latest_value = series.iloc[-1]
    base_value = np.nan
    
    lookback_periods = [target_period, target_period - 1, target_period + 1, target_period - 2]
    actual_period_in_quarters = np.nan
    for period in lookback_periods:
        if 0 < period < len(series):
            potential_base = row.iloc[-(period + 1)]
            if pd.notna(potential_base):
                base_value = potential_base
                actual_period_in_quarters = period
                break
            
    if pd.isna(base_value):
        return np.nan
        
    if base_value > 0 and latest_value > 0:
        num_years = actual_period_in_quarters / 4.0
        return (latest_value / base_value) ** (1 / num_years) - 1
    else:
        return -10

# ==============================================================================
#  步骤 1: 加载预处理好的毛利率面板数据
# ==============================================================================
print("--- 步骤 1: 加载预处理好的毛利率面板数据 ---")
input_dir = config.BASE_OUTPUT_DIR
input_path = os.path.join(input_dir, "grossprofit_margin_wide_format.xlsx")

try:
    gm_panel = pd.read_excel(input_path, index_col=0)
    print(f"成功加载文件，数据面板形状为: {gm_panel.shape}")
except FileNotFoundError:
    raise SystemExit(f"[错误] 输入文件未找到: {input_path}。请先运行之前的脚本生成此文件。")

# ==============================================================================
#  步骤 2: 计算多周期成长率 (带惩罚项)
# ==============================================================================
print("\n--- 步骤 2: 计算带质量惩罚的多周期毛利率成长率 ---")
results_df = pd.DataFrame(index=gm_panel.index)
for years in [2, 3, 4]:
    print(f"正在计算 {years}年期 CAGR...")
    col_name = f'gm_cagr_{years}yr_penalized'
    results_df[col_name] = gm_panel.apply(calculate_growth_with_penalty, axis=1, target_years=years)

# ==============================================================================
#  步骤 3: 独立对每个成长率因子进行Z-score打分
# ==============================================================================
print("\n--- 步骤 3: 独立进行Z-score打分 ---")
zscore_cols = []
for years in [2, 3, 4]:
    cagr_col = f'gm_cagr_{years}yr_penalized'
    zscore_col = f'gm_zscore_{years}yr_penalized'
    zscore_cols.append(zscore_col)
    
    mean = results_df[cagr_col].mean()
    std = results_df[cagr_col].std()
    
    results_df[zscore_col] = (results_df[cagr_col] - mean) / std
    print(f"完成 {zscore_col} 的计算。")
    
# ==============================================================================
#  步骤 4: 基于有效得分数量，筛选高质量公司
# ==============================================================================
print("\n--- 步骤 4: 基于有效得分数量，筛选高质量公司 ---")
MIN_VALID_SCORES = 2 
valid_score_counts = results_df[zscore_cols].count(axis=1)
results_df_filtered = results_df[valid_score_counts >= MIN_VALID_SCORES].copy()
print(f"筛选前公司数量: {len(results_df)}")
print(f"筛选后公司数量: {len(results_df_filtered)}")

# ==============================================================================
#  步骤 5: 对缺失的Z-score进行惩罚性填充
# ==============================================================================
print("\n--- 步骤 5: 对缺失的Z-score填充0值 (作为中性惩罚) ---")
results_df_filtered[zscore_cols] = results_df_filtered[zscore_cols].fillna(0)
print("缺失Z-score填充完成。")

# ==============================================================================
#  步骤 6: 合成得分，并对最终合成得分再次进行标准化
# ==============================================================================
print("\n--- 步骤 6: 合成得分并进行最终标准化 ---")
composite_avg = results_df_filtered[zscore_cols].mean(axis=1)

final_mean = composite_avg.mean()
final_std = composite_avg.std()
final_score_col = 'composite_gm_growth_score_final'
results_df_filtered[final_score_col] = (composite_avg - final_mean) / final_std
print("最终得分合成与标准化完成。")

# ==============================================================================
#  步骤 7: 排序并预览最终结果
# ==============================================================================
results_df_filtered.sort_values(by=final_score_col, ascending=False, inplace=True)
print("\n--- 最终毛利率成长性打分排名预览 (前10名) ---")
display_cols = [col for col in results_df_filtered.columns if 'cagr' not in col]
print(results_df_filtered[display_cols].head(10))

# ==============================================================================
#  步骤 8: 导出最终结果
# ==============================================================================
print("\n--- 步骤 8: 导出最终的因子得分文件 ---")
output_filename = "final_composite_gm_growth_scores.xlsx"
output_path = os.path.join(input_dir, output_filename)

try:
    results_df_filtered.to_excel(output_path, index=True)
    print(f"\n[成功] 已将最终的毛利率成长分导出到: {output_path}")
except Exception as e:
    print(f"\n[失败] 文件导出失败: {e}")

--- 步骤 1: 加载预处理好的毛利率面板数据 ---
成功加载文件，数据面板形状为: (5315, 20)

--- 步骤 2: 计算带质量惩罚的多周期毛利率成长率 ---
正在计算 2年期 CAGR...
正在计算 3年期 CAGR...
正在计算 4年期 CAGR...

--- 步骤 3: 独立进行Z-score打分 ---
完成 gm_zscore_2yr_penalized 的计算。
完成 gm_zscore_3yr_penalized 的计算。
完成 gm_zscore_4yr_penalized 的计算。

--- 步骤 4: 基于有效得分数量，筛选高质量公司 ---
筛选前公司数量: 5315
筛选后公司数量: 5210

--- 步骤 5: 对缺失的Z-score填充0值 (作为中性惩罚) ---
缺失Z-score填充完成。

--- 步骤 6: 合成得分并进行最终标准化 ---
最终得分合成与标准化完成。

--- 最终毛利率成长性打分排名预览 (前10名) ---
           gm_zscore_2yr_penalized  gm_zscore_3yr_penalized  \
ts_code                                                       
002458.SZ                 3.021682                 0.361579   
600615.SH                 2.975457                 0.265917   
600897.SH                 2.346806                 0.350093   
600608.SH                 1.222870                 0.742943   
000987.SZ                 1.460381                 0.874136   
002630.SZ                 1.395305                 0.861411   
603030.SH                 0.916608         