# 项目说明

从 `MEU_to_code/MEU_selected_with_relation_GT` 找到 `北京证券交易所上市公司持续监管指引第8号——股份减持和持股管理.xlsx`, 这是我们需要处理的 MEU Coding 任务.

将每一个 MEU 发送给 LLM 完成 coding 任务, 保存到 `MEU_to_code/MEU_code/raw_response/北京证券交易所上市公司持续监管指引第8号——股份减持和持股管理.xlsx`

之后再解析该回复, 保存到`MEU_to_code/MEU_code/北京证券交易所上市公司持续监管指引第8号——股份减持和持股管理.xlsx`

# MEU情况

In [1]:
import pandas as pd

# 读取Excel文件
file_path = "MEU_to_code/MEU_selected_with_relation_GT/北京证券交易所上市公司持续监管指引第8号——股份减持和持股管理.xlsx"
df = pd.read_excel(file_path)

# 统计各类别出现次数
type_counts = df['type'].value_counts()

# 计算比例
type_proportions = type_counts / len(df) * 100

# 打印结果
print("各类别统计结果:")
print(type_counts)
print("\n各类别比例(%):")
print(type_proportions)

各类别统计结果:
type
实际执行单元                    32
无法简单执行的兜底条款，倡议条款和模糊的条款    30
为简化模型暂不考虑的单元              29
在标准的数据格式下不需额外考虑           11
立法宗旨等法律基本信息                4
定义类条款                      1
Name: count, dtype: int64

各类别比例(%):
type
实际执行单元                    29.906542
无法简单执行的兜底条款，倡议条款和模糊的条款    28.037383
为简化模型暂不考虑的单元              27.102804
在标准的数据格式下不需额外考虑           10.280374
立法宗旨等法律基本信息                3.738318
定义类条款                      0.934579
Name: count, dtype: float64


In [2]:
MEU_to_code_df = df[df['type']=="实际执行单元"]
print(len(MEU_to_code_df))
MEU_to_code_df 

32


Unnamed: 0,MEU_id,subject,condition,constraint,contextual_info,relation,target,type,comments,note
8,MEU_4_1,上市公司大股东 | 董监高,计划通过本所集中竞价或大宗交易减持股份,应当及时通知公司，并在首次卖出的15个交易日前向本所报告并预先披露减持计划,,,,实际执行单元,,不考虑是否及时通知公司
14,MEU_4_7,上市公司大股东 | 董监高,披露减持计划,每次披露的减持计划中减持时间区间不得超过3个月,,,,实际执行单元,,三个月按照90个自然日计算
15,MEU_4_8,上市公司大股东 | 董监高,拟在3个月内通过集中竞价交易减持股份的总数超过公司股份总数1%,应当在首次卖出的30个交易日前预先披露减持计划,,,,实际执行单元,,
29,MEU_9_1,控股股东 | 实际控制人 | 董监高,公司上市时未盈利且处于实现盈利前阶段,自公司股票上市之日起2个完整会计年度内不得减持公开发行并上市前股份,,,,实际执行单元,,
31,MEU_9_3,董监高,在前款规定的2个完整会计年度期间内离职,应当继续遵守前款规定的减持限制,,refer_to,MEU_9_1,实际执行单元,,
32,MEU_10_1,上市公司大股东,因涉嫌与本上市公司有关的证券期货违法犯罪，在被中国证监会及其派出机构立案调查或者被司法机关立...,不得减持其所持有的本公司股份,,,,实际执行单元,,
33,MEU_10_2,上市公司大股东,因涉嫌与本上市公司有关的证券期货违法犯罪被中国证监会及其派出机构立案调查或者被司法机关立案侦...,不得减持其所持有的本公司股份,,,,实际执行单元,,
34,MEU_10_3,上市公司大股东,因涉及与本上市公司有关的违法违规，被本所公开谴责未满3个月,不得减持其所持有的本公司股份,,,,实际执行单元,,
35,MEU_10_4,上市公司大股东,因涉及证券期货违法，被中国证监会行政处罚且罚没款尚未足额缴纳，且不存在法律、行政法规另有规定...,不得减持其所持有的本公司股份,,,,实际执行单元,,
37,MEU_11_1,上市公司控股股东 | 实际控制人,上市公司因涉嫌证券期货违法犯罪，在被中国证监会及其派出机构立案调查或者被司法机关立案侦查期间,不得减持其所持有的本公司股份,,,,实际执行单元,,


# Prompt模板

## a. 普通任务 prompt

In [None]:
prompt_meu_coding_bse_08 = """
# 身份
你是一个精通法律的程序员. 擅长编写代码以检验特定案例对于特定法律要求的合规性. 

## MEU概念简述
MEU (Minimum Executable Unit) 是法律条文拆解出的最小合规单元，包含：
- MEU_id: MEU的编号, 通常为"MEU_n_k", 其中n是其所属的法条的编号, k是其在法条内部的编号
- subject: 责任主体（如"控股股东") 
- condition: 触发条件（如"减持股份")  
- constrain: 约束内容（如"提前15日公告") 
- contextual_info: 补充说明（如价格计算方式）


# 任务
你现在面临一个编写代码以检验某法律事件的合规性的任务, 你需要编写一个函数, 这个函数的输入是一个日频的pandas dataframe, 每一行是在某个交易日内公司的情况和股东的情况, 这个函数会检验该dataframe的每一行在某一个给定的法律最小可执行单元上的合规性, 标注在特定的列上, 并返回标注后的dataframe. 


# 更多要求
 - 你可以进行任意长度的思考, 然后用<CODE></CODE>包裹你的代码. 
 - 你需要按照下面这个框架编写代码: 
  - 1. 标记valid的subject(meu_n_k_subject); (复合subject的行标记为True, 不符合的为False)
  - 2. 标记valid的condition(meu_n_k_condition); (符合condition的行标记为True, 不符合的为False)
  - 3. 标记valid的constrain(meu_n_k_constrain); (符合constrain的行标记为True, 不符合的为False)
  - 4. 在dataframe中记录subject, condition和constrain的valid情况; 
 - 注意: 对于简单操作dataframe就可以处理的项目, 对三元组<subject, conditon, constrain>的检查是各自独立的, 你需要分别标记三元组的True和False. 并不是只对符合subject和condition进行检查. 对于需要调用llm_content_check()函数的项目, 只对符合<subject, conditon>的constrain进行检查. (本任务列表中没有需要用到llm_content_check()函数的项目)

# example
下面是一个例子:

## 输入
法律的最小可执行单元编号: MEU_4_1
法律的最小可执行单元内容: {{"subject": "上市公司大股东 | 董监高", "condition": "计划通过本所集中竞价或大宗交易减持股份", "constrain": "应当及时通知公司，并在首次卖出的15个交易日前向本所报告并预先披露减持计划", "contextual_info": NaN}}
必要的额外信息: NaN

## 输出
<CODE>
import pandas a pd

def check_meu_4_1(df):
    '''
    代码的注释要清晰, 展示你分别验证subject, condition和constrain的过程.
    "subject": "上市公司大股东 | 董监高", 
    "condition": "计划通过本所集中竞价或大宗交易减持股份", 
    "constrain": "应当及时通知公司，并在首次卖出的15个交易日前向本所报告并预先披露减持计划", 
    "contextual_info": NaN
    '''

    df = df.copy()

    df['meu_4_2_subject'] = False  # subject需要初始化为False
    df['meu_4_2_condition'] = False  # condition需要初始化为False
    df['meu_4_2_constrain'] = None  # constrain需要初始化为None
    
    # 标记valid的subject
    is_major_shareholder = (
        df['股东身份'].isin(['控股股东', '实际控制人', '持股5%以上股东']) |
        (df['持股比例'] >= 0.05)
    )
    is_director = df['股东身份'].isin(['董监高'])
    valid_subject = is_major_shareholder | is_director

    # 标记valid的condition
    valid_condition = df['减持方式'].isin(['竞价交易', '大宗交易'])

    # 标记valid的constrain
    # 注意constrain是独立检查的, 并非是只检查subject和condition都符合的行
    df['交易日差'] = (df['计划开始日'] - df['计划披露日']).dt.days
    has_plan = df['存在减持计划']
    valid_constrain = df['交易日差'] >= 15 & df['存在减持计划']
    
    # 标记各条件满足情况
    df.loc[valid_subject, 'meu_4_1_subject'] = True
    df.loc[valid_condition, 'meu_4_1_condition'] = True
    df.loc[valid_constrain, 'meu_4_1_constrain'] = True
    df.loc[~valid_constrain, 'meu_4_1_constrain'] = False
    
    return df

</CODE>
    
# 下面轮到你来完成这个任务
法律的最小可执行单元编号: {meu_id}
法律的最小可执行单元内容: {meu_content}
必要的额外信息: {note}


# 附加信息
## 你可以操作的dataframe的columns: 
['日期', '日收益率', '收盘价', '前收盘价', '上市日期', '发行价格', '净资产增长率', '净利润增长率', '净资产',
'净利润', '总股本', '每股净资产', '每股净利润', '公告类型', '公告日期', '复权因子', '收盘价减每股净资产',
'收盘价减每股净利润', '公司涉嫌证券期货违法犯罪事件', '持股比例', '持股数量', '股东身份', '减持方式', '拟减持原因',
'存在减持计划', '计划减持比例', '计划价格下限', '计划价格上限', '当日减持比例', '累计减持比例', '计划披露日',
'计划开始日', '计划结束日', '离任日期', '公司简称', '股东', '股东涉嫌证券期货违法犯罪事件']

## 其中: 
- 所有公司均为在本交易所上市的上市公司
- 所有日期相关的列都已经是pd.datetime格式, ['日期']列本身就是交易日, 不需要额外计算交易日, 但是自然日需要计算. 
- 所有价格的单位都是元而非万元, 千元或百万元; 所有的比例都是小数而非百分数
- 这是一个二维的面板数据, 根据['日期', '公司简称', '股东']可以定位到特定公司的特定股东在特定交易日的状态, 以及公司在该日的状态. 如果你要分公司和股东地考虑一些合规要求, 需要考虑按照 ['公司简称', '股东']分组并在组内完成. 
- 交易方式有['竞价交易', '大宗交易', '融券卖出'], 竞价交易包括集中竞价. 
- ['公司/股东涉嫌证券期货违法犯罪事件'] 有['被中国证监会及其派出机构立案调查', '中国证监会及其派出机构立案调查结束', '行政处罚决定作出', '被司法机关立案侦查', '司法机关立案侦查结束', '被本所公开谴责']
- ['股东身份'] 有 ['董监高', '离任董监高', '控股股东', '实际控制人', '持股5%以上股东', '普通股东'], 这些标签不会并列出现, 因此有时候董监高/离任董监高持股在5%以上但并没有标明'持股5%以上股东', 你需要从['持股比例']手动筛选. 
- ['存在减持计划']是一个布尔值，表示该股东当天是否有减持计划
- 假设公司上市发行价就是最早的非空的收盘价, 公司发行时的控股股东和实际控制人就是第一个非空的收盘价的同一天的控股股东和实际控制人. 
- ['持股比例'] 全部是公开上市前取得的股份. 不考虑承诺和限制出售的股份. 

"""


## b. 含有refer_to的prompt

需求: 自动多跳地把所有refer_to的target都直接呈现在prompt里面

In [None]:
prompt_meu_coding_bse_08_with_refer_to = """
# 身份
你是一个精通法律的程序员. 擅长编写代码以检验特定案例对于特定法律要求的合规性. 

## MEU概念简述
MEU (Minimum Executable Unit) 是法律条文拆解出的最小合规单元，包含：
- MEU_id: MEU的编号, 通常为"MEU_n_k", 其中n是其所属的法条的编号, k是其在法条内部的编号
- subject: 责任主体（如"控股股东") 
- condition: 触发条件（如"减持股份")  
- constrain: 约束内容（如"提前15日公告") 
- contextual_info: 补充说明（如价格计算方式）


# 任务
你现在面临一个编写代码以检验某法律事件的合规性的任务, 你需要编写一个函数, 这个函数的输入是一个日频的pandas dataframe, 每一行是在某个交易日内公司的情况和股东的情况, 这个函数会检验该dataframe的每一行在某一个给定的法律最小可执行单元上的合规性, 标注在特定的列上, 并返回标注后的dataframe. 


# 更多要求
 - 你可以进行任意长度的思考, 然后用<CODE></CODE>包裹你的代码. 
 - 你需要按照下面这个框架编写代码: 
  - 1. 标记valid的subject(meu_n_k_subject); (复合subject的行标记为True, 不符合的为False)
  - 2. 标记valid的condition(meu_n_k_condition); (符合condition的行标记为True, 不符合的为False)
  - 3. 标记valid的constrain(meu_n_k_constrain); (符合constrain的行标记为True, 不符合的为False)
  - 4. 在dataframe中记录subject, condition和constrain的valid情况; 
 - 注意: 对于简单操作dataframe就可以处理的项目, 对三元组<subject, conditon, constrain>的检查是各自独立的, 你需要分别标记三元组的True和False. 并不是只对符合subject和condition进行检查. 对于需要调用llm_content_check()函数的项目, 只对符合<subject, conditon>的constrain进行检查. (本任务列表中没有需要用到llm_content_check()函数的项目)

# example
下面是一个例子:

## 输入
法律的最小可执行单元编号: MEU_4_1
法律的最小可执行单元内容: {{"subject": "上市公司大股东 | 董监高", "condition": "计划通过本所集中竞价或大宗交易减持股份", "constrain": "应当及时通知公司，并在首次卖出的15个交易日前向本所报告并预先披露减持计划", "contextual_info": NaN}}
必要的额外信息: NaN

## 输出
<CODE>
import pandas a pd

def check_meu_4_1(df):
    '''
    代码的注释要清晰, 展示你分别验证subject, condition和constrain的过程.
    "subject": "上市公司大股东 | 董监高", 
    "condition": "计划通过本所集中竞价或大宗交易减持股份", 
    "constrain": "应当及时通知公司，并在首次卖出的15个交易日前向本所报告并预先披露减持计划", 
    "contextual_info": NaN
    '''

    df = df.copy()

    df['meu_4_2_subject'] = False  # subject需要初始化为False
    df['meu_4_2_condition'] = False  # condition需要初始化为False
    df['meu_4_2_constrain'] = None  # constrain需要初始化为None
    
    # 标记valid的subject
    is_major_shareholder = (
        df['股东身份'].isin(['控股股东', '实际控制人', '持股5%以上股东']) |
        (df['持股比例'] >= 0.05)
    )
    is_director = df['股东身份'].isin(['董监高'])
    valid_subject = is_major_shareholder | is_director

    # 标记valid的condition
    valid_condition = df['减持方式'].isin(['竞价交易', '大宗交易'])

    # 标记valid的constrain
    # 注意constrain是独立检查的, 并非是只检查subject和condition都符合的行
    df['交易日差'] = (df['计划开始日'] - df['计划披露日']).dt.days
    has_plan = df['存在减持计划']
    valid_constrain = df['交易日差'] >= 15 & df['存在减持计划']
    
    # 标记各条件满足情况
    df.loc[valid_subject, 'meu_4_1_subject'] = True
    df.loc[valid_condition, 'meu_4_1_condition'] = True
    df.loc[valid_constrain, 'meu_4_1_constrain'] = True
    df.loc[~valid_constrain, 'meu_4_1_constrain'] = False
    
    return df

</CODE>
    
# 下面轮到你来完成这个任务
法律的最小可执行单元编号: {meu_id}
法律的最小可执行单元内容: {meu_content}
必要的额外信息: {note}

你被分配的MEU coding任务存在refer_to关系, 你需要参考下面这个MEU的必要内容来完成你被安排的任务, 但你不需要直接执行下面的MEU: 
{refer_to}


# 附加信息
## 你可以操作的dataframe的columns: 
['日期', '日收益率', '收盘价', '前收盘价', '上市日期', '发行价格', '净资产增长率', '净利润增长率', '净资产',
'净利润', '总股本', '每股净资产', '每股净利润', '公告类型', '公告日期', '复权因子', '收盘价减每股净资产',
'收盘价减每股净利润', '公司涉嫌证券期货违法犯罪事件', '持股比例', '持股数量', '股东身份', '减持方式', '拟减持原因',
'存在减持计划', '计划减持比例', '计划价格下限', '计划价格上限', '当日减持比例', '累计减持比例', '计划披露日',
'计划开始日', '计划结束日', '离任日期', '公司简称', '股东', '股东涉嫌证券期货违法犯罪事件']

## 其中: 
- 所有公司均为在本交易所上市的上市公司
- 所有日期相关的列都已经是pd.datetime格式, ['日期']列本身就是交易日, 不需要额外计算交易日, 但是自然日需要计算. 
- 所有价格的单位都是元而非万元, 千元或百万元; 所有的比例都是小数而非百分数
- 这是一个二维的面板数据, 根据['日期', '公司简称', '股东']可以定位到特定公司的特定股东在特定交易日的状态, 以及公司在该日的状态. 如果你要分公司和股东地考虑一些合规要求, 需要考虑按照 ['公司简称', '股东']分组并在组内完成. 
- 交易方式有['竞价交易', '大宗交易', '融券卖出'], 竞价交易包括集中竞价. 
- ['公司/股东涉嫌证券期货违法犯罪事件'] 有['被中国证监会及其派出机构立案调查', '中国证监会及其派出机构立案调查结束', '行政处罚决定作出', '被司法机关立案侦查', '司法机关立案侦查结束', '被本所公开谴责']
- ['股东身份'] 有 ['董监高', '离任董监高', '控股股东', '实际控制人', '持股5%以上股东', '普通股东'], 这些标签不会并列出现, 因此有时候董监高/离任董监高持股在5%以上但并没有标明'持股5%以上股东', 你需要从['持股比例']手动筛选. 
- ['存在减持计划']是一个布尔值，表示该股东当天是否有减持计划
- 假设公司上市发行价就是最早的非空的收盘价, 公司发行时的控股股东和实际控制人就是第一个非空的收盘价的同一天的控股股东和实际控制人. 
- ['持股比例'] 全部是公开上市前取得的股份. 不考虑承诺和限制出售的股份. 

"""

## c. 含有exclude, should_include和only_include的模板

需求: 

含有exclude的项: 可以修改exclude的target的结果

含有only_include的项: 可以查询only_include的target的结果

含有should_include的项: 按照should_include的数量进行分裂? 

In [5]:
pass

## 附. 处理refer_to的信息

In [6]:
# excel_path = "MEU_to_code/MEU_selected_with_relation_GT/北京证券交易所上市公司持续监管指引第8号——股份减持和持股管理.xlsx"
# target_resolver_cache = pd.read_excel(excel_path)
# target_resolver_cache[_target_resolver_cache['MEU_id']=='MEU_18_3']

In [7]:
excel_path = "MEU_to_code/MEU_selected_with_relation_GT/北京证券交易所上市公司持续监管指引第8号——股份减持和持股管理.xlsx"
_target_resolver_cache = pd.read_excel(excel_path)
_target_resolver_cache

Unnamed: 0,MEU_id,subject,condition,constraint,contextual_info,relation,target,type,comments,note
0,MEU_1_1,,,,为规范北京证券交易所上市公司股东及董监高持股管理和减持股份行为，维护市场秩序，保护投资者合法...,,,立法宗旨等法律基本信息,,
1,MEU_2_1,上市公司股东 | 董监高,减持其持有的本公司股份,应当遵守法律法规、部门规章、本所业务规则及本指引的相关规定,,,,立法宗旨等法律基本信息,,
2,MEU_2_2,上市公司股东 | 董监高,对持股比例、持股数量、持股期限、减持方式、减持比例、减持价格等做出公开承诺,应当严格履行所做出的承诺,,,,为简化模型暂不考虑的单元,暂不考虑上市公司股东存在承诺的情况.,
3,MEU_2_3,上市公司股东 | 实际控制人 | 董监高,,不得通过任何方式或者安排规避本指引的规定,,,,无法简单执行的兜底条款，倡议条款和模糊的条款,,
4,MEU_3_1,大股东 | 董监高,减持股份,应当规范、理性、有序，充分关注上市公司及其中小股东的利益,,,,无法简单执行的兜底条款，倡议条款和模糊的条款,,
...,...,...,...,...,...,...,...,...,...,...
102,MEU_27_1,本所,上市公司及相关主体违反本指引相关规定,,可以对上市公司及相关责任主体采取工作措施、自律监管措施或纪律处分,,,无法简单执行的兜底条款，倡议条款和模糊的条款,,
103,MEU_27_2,本所,为防止市场发生重大波动，影响市场交易秩序或者损害投资者利益，防范市场风险,,可以有序引导减持，依规对违规减持行为、异常交易行为采取相应监管措施,,,无法简单执行的兜底条款，倡议条款和模糊的条款,,
104,MEU_27_3,本所,上市公司减持行为涉嫌违反法律法规,,可以报中国证监会查处,,,无法简单执行的兜底条款，倡议条款和模糊的条款,,
105,MEU_28_1,本所,,,本所负责解释本指引,,,立法宗旨等法律基本信息,,


In [None]:
import pandas as pd
import json
import re

# 缓存加载的Excel数据（避免重复读取）
_target_resolver_cache = None
_prompt_dict_cache = None  # 新增：用于缓存prompt_dict

def target_resolver(target_str: str) -> str:
    """优化版target解析器, 支持分号分隔的多MEU"""
    global _target_resolver_cache
    
    # 初始化缓存
    if _target_resolver_cache is None:
        excel_path = "MEU_to_code/MEU_selected_with_relation_GT/北京证券交易所上市公司持续监管指引第8号——股份减持和持股管理.xlsx"
        _target_resolver_cache = pd.read_excel(excel_path)
    
    df = _target_resolver_cache
    
    # 处理分号分隔的多MEU (新增核心逻辑)
    if ';' in target_str:
        meu_list = [s.strip() for s in target_str.split(';') if s.strip()]
        return "\n\n".join([_resolve_single_meu(meu, df) for meu in meu_list])
    
    # 原有单MEU处理
    return _resolve_single_meu(target_str, df)

def _resolve_single_meu(target_str: str, df: pd.DataFrame) -> str:
    """处理单个MEU或Law的解析"""
    # MEU_n_k 格式
    if re.match(r'MEU_\d+_\d+', target_str):
        target_row = df[df['MEU_id'] == target_str]
        if not target_row.empty:
            row = target_row.iloc[0]
            # 检查是否为需要忽略的类型
            if row['type'] in ["为简化模型暂不考虑的单元", "无法简单执行的兜底条款，倡议条款和模糊的条款"]:
                return ""
            result = _format_meu_info(row)
            if row['relation'] == 'refer_to' and pd.notna(row['target']):
                referred_content = target_resolver(row['target'])
                # 只有当被引用的内容不为空时才添加关联引用
                if referred_content.strip():
                    result += f"\n\n↳ 关联引用：{referred_content}"
            return result
        return f"未找到MEU条目：{target_str}"
    
    # Law_n 格式
    elif re.match(r'Law_\d+', target_str):
        law_num = re.match(r'Law_(\d+)', target_str).group(1)
        related_meus = df[df['MEU_id'].str.startswith(f'MEU_{law_num}_')]
        if not related_meus.empty:
            # 过滤掉需要忽略的类型
            filtered_meus = [
                row for _, row in related_meus.iterrows() 
                if row['type'] not in ["为简化模型暂不考虑的单元", "无法简单执行的兜底条款，倡议条款和模糊的条款"]
            ]
            return "\n\n".join([
                _format_meu_info(row) for row in filtered_meus
            ])
        return f"未找到Law_{law_num}相关MEU"
    
    # 其他格式
    return f"参考条目：{target_str}"

def _format_meu_info(row: pd.Series) -> str:
    """修复contextual_info字段的格式化函数"""
    return (
        f"【{row['MEU_id']}】\n"
        f"subject: {row['subject']}\n"
        f"condition: {row['condition'] or '无'}\n"
        f"constrain: {row['constrain'] or '无'}\n"
        f"contextual_info: {row['contextual_info'] or '无'}"
    )

def prepare_prompts(
    df: pd.DataFrame,
    base_template: str,
    refer_template: str,
    target_resolver: callable
) -> dict[str, str]:  # 现在返回字典而不是列表
    """
    生成以MEU_id为键的prompt字典
    
    参数：
    df: 原始数据框
    base_template: 基础模板
    refer_template: 带参考的模板
    target_resolver: 处理target的函数
    
    返回：
    以MEU_id为键，prompt字符串为值的字典
    """
    prompt_dict = {}
    
    for _, row in df[df['type'] == "实际执行单元"].iterrows():
        meu_id = row['MEU_id']
        # 构造基础参数
        params = {
            'meu_id': meu_id,
            'meu_content': json.dumps({
                "subject": row['subject'],
                "condition": row['condition'],
                "constrain": row['constrain'],
                "contextual_info": row['contextual_info']
            }, ensure_ascii=False),
            'note': row['note']
        }
        
        # 选择模板并填充参数
        if row['relation'] == 'refer_to':
            referred_content = target_resolver(row['target'])
            # 只有当被引用的内容不为空时才添加refer_to参数
            if referred_content.strip():
                params['refer_to'] = referred_content
                prompt_dict[meu_id] = refer_template.format(**params)
            else:
                prompt_dict[meu_id] = base_template.format(**params)
        else:
            prompt_dict[meu_id] = base_template.format(**params)
    
    return prompt_dict

In [9]:
# 生成prompt字典
if _prompt_dict_cache is None:
    _prompt_dict_cache = prepare_prompts(
        df=pd.read_excel("MEU_to_code/MEU_selected_with_relation_GT/北京证券交易所上市公司持续监管指引第8号——股份减持和持股管理.xlsx"),
        base_template=prompt_meu_coding_bse_08,
        refer_template=prompt_meu_coding_bse_08_with_refer_to,
        target_resolver=target_resolver
    )

# 从字典生成列表（保持原有代码兼容性）
prompt_list = list(_prompt_dict_cache.values())

# 打印包含refer_to的prompt
for i in prompt_list:
    if "refer_to" in i:
        print('--------------------------------------------------')
        print(i)

--------------------------------------------------

# 身份
你是一个精通法律的程序员. 擅长编写代码以检验特定案例对于特定法律要求的合规性. 

## MEU概念简述
MEU (Minimum Executable Unit) 是法律条文拆解出的最小合规单元，包含：
- MEU_id: MEU的编号, 通常为"MEU_n_k", 其中n是其所属的法条的编号, k是其在法条内部的编号
- subject: 责任主体（如"控股股东") 
- condition: 触发条件（如"减持股份")  
- constraint: 约束内容（如"提前15日公告") 
- contextual_info: 补充说明（如价格计算方式）


# 任务
你现在面临一个编写代码以检验某法律事件的合规性的任务, 你需要编写一个函数, 这个函数的输入是一个日频的pandas dataframe, 每一行是在某个交易日内公司的情况和股东的情况, 这个函数会检验该dataframe的每一行在某一个给定的法律最小可执行单元上的合规性, 标注在特定的列上, 并返回标注后的dataframe. 


# 更多要求
 - 你可以进行任意长度的思考, 然后用<CODE></CODE>包裹你的代码. 
 - 你需要按照下面这个框架编写代码: 1. 标记valid的subject(meu_n_k_subject); 2. 标记valid的condition(meu_n_k_condition); 3. 标记valid的constrain(meu_n_k_constrain); 4. 在dataframe中记录subject, condition和constrain的valid情况; 
 - 注意: 对于简单操作dataframe就可以处理的项目, 对三元组<subject, conditon, constrain>的检查是各自独立的, 你需要分别标记三元组的True和False. 并不是只对符合subject和condition进行检查. 对于需要调用llm_content_check()函数的项目, 只对符合<subject, conditon>的constrain进行检查. (本任务列表中没有需要用到llm_content_check()函数的项目)



In [10]:
len(prompt_list)

32

# 异步调用LLM

In [11]:
import asyncio
from tqdm.asyncio import tqdm_asyncio
import pandas as pd
import os
from utils.call_gpt import call_gpt_async 

async def process_prompts_async(
    prompt_list,
    output_file_path,
    max_concurrency=5,
):
    """
    异步处理prompt列表并保存结果到Excel文件
    
    参数：
    prompt_list: 提示词字符串列表
    output_file_path: 输出文件路径
    max_concurrency: 最大并行请求数（默认5）
    """
    
    # 确保输出目录存在
    os.makedirs(os.path.dirname(output_file_path), exist_ok=True)
    
    # 共享状态
    results = []
    failed_prompts = []
    semaphore = asyncio.Semaphore(max_concurrency)

    async def process_single_prompt(prompt):
        """处理单个提示词的异步任务"""
        async with semaphore:
            try:
                content, reasoning_content, api_usage = await call_gpt_async(
                    prompt=prompt,
                    api_key="35684824-1776-48b6-94fd-96c2e99d0724",
                    base_url="https://ark.cn-beijing.volces.com/api/v3",
                    model="ep-20250217153824-9xcbx", # deepseek-r1 671b
                    # model="ep-20250329012323-5qdxc", # deepseek-v3 250324
                    # temperature=0.6,
                )

                return {
                    "prompt": prompt,
                    "response": content,
                    "reasoning_content": reasoning_content,
                    "api_usage": api_usage
                }
            except Exception as e:
                failed_prompts.append(prompt)
                print(f"Error processing prompt: {str(e)}")
                return None

    # 创建所有任务
    tasks = [process_single_prompt(prompt) for prompt in prompt_list]
    
    # 执行并带进度条
    pbar = tqdm_asyncio(total=len(tasks), desc="Processing prompts")
    
    for future in asyncio.as_completed(tasks):
        result = await future
        if result:
            results.append(result)
        pbar.update()

    pbar.close()

    # 将结果转换为DataFrame并保存为Excel
    df = pd.DataFrame(results)
    df.to_csv(output_file_path, index=False)

    # 打印简要报告
    print(f"\nSuccess: {len(results)}")
    print(f"Failed: {len(failed_prompts)}")

    return failed_prompts


In [12]:
failed_prompts = await process_prompts_async(
    prompt_list,
    output_file_path="MEU_to_code/MEU_code/raw_response/北京证券交易所上市公司持续监管指引第8号——股份减持和持股管理.csv",
    max_concurrency=10
)

Processing prompts: 100%|██████████| 32/32 [15:23<00:00, 28.85s/it]  


Success: 32
Failed: 0





# 解析出代码并保存

In [13]:
import pandas as pd
import re

# 读取原始Excel文件
input_path = "MEU_to_code/MEU_code/raw_response/北京证券交易所上市公司持续监管指引第8号——股份减持和持股管理.csv"
df = pd.read_csv(input_path)

# 定义一个函数来提取<CODE>标签中的内容
def extract_code(text):
    if not isinstance(text, str):
        return ""
    
    # 处理<\CODE>的错误格式，统一替换为</CODE>
    text = text.replace('<\\CODE>', '</CODE>')
    
    # 使用正则表达式提取所有<CODE>...</CODE>之间的内容
    code_blocks = re.findall(r'<CODE>(.*?)</CODE>', text, re.DOTALL)
    
    # 将所有代码块合并，用两个换行符分隔
    return '\n\n'.join(code_blocks).strip()

# 应用函数提取代码
df['code'] = df['response'].apply(extract_code)

# 保存到新的Excel文件
output_path = "MEU_to_code/MEU_code/北京证券交易所上市公司持续监管指引第8号——股份减持和持股管理.xlsx"
df.to_excel(output_path, index=False)

print(f"处理完成，结果已保存到: {output_path}")

处理完成，结果已保存到: MEU_to_code/MEU_code/北京证券交易所上市公司持续监管指引第8号——股份减持和持股管理.xlsx


In [15]:
import pandas as pd
import re
import ast  # 用于安全地解析字符串表达式

def parse_api_usage(api_usage_str):
    """
    解析api_usage字符串，提取prompt_tokens和completion_tokens
    示例输入: "CompletionUsage(completion_tokens=515, prompt_tokens=1649, total_tokens=2164, ...)"
    """
    if not isinstance(api_usage_str, str) or not api_usage_str.startswith("CompletionUsage"):
        return pd.Series({'prompt_tokens': None, 'completion_tokens': None})
    
    try:
        # 安全地解析字符串为字典
        # 首先提取括号内的内容
        content = api_usage_str.split('(', 1)[1].rsplit(')', 1)[0]
        # 创建一个字典来保存键值对
        params = {}
        # 分割键值对
        for item in content.split(','):
            item = item.strip()
            if '=' in item:
                key, value = item.split('=', 1)
                key = key.strip()
                # 只处理我们需要的键
                if key in ['prompt_tokens', 'completion_tokens']:
                    # 尝试转换为整数
                    try:
                        params[key] = int(value)
                    except ValueError:
                        params[key] = None
        return pd.Series({
            'prompt_tokens': params.get('prompt_tokens'),
            'completion_tokens': params.get('completion_tokens')
        })
    except Exception as e:
        print(f"解析api_usage时出错: {e}")
        return pd.Series({'prompt_tokens': None, 'completion_tokens': None})

def enrich_response_with_original_info():
    """
    读取模型回复文件，并根据prompt_dict_cache的MEU_id从原始信息文件中获取额外信息，
    然后合并保存到原文件，同时解析api_usage提取token信息
    """
    # 读取模型回复文件
    response_path = "MEU_to_code/MEU_code/北京证券交易所上市公司持续监管指引第8号——股份减持和持股管理.xlsx"
    response_df = pd.read_excel(response_path)
    
    # 解析api_usage列
    token_info = response_df['api_usage'].apply(parse_api_usage)
    response_df = pd.concat([response_df, token_info], axis=1)
    
    # 读取原始信息文件
    info_path = "MEU_to_code/MEU_selected_with_relation_GT/北京证券交易所上市公司持续监管指引第8号——股份减持和持股管理.xlsx"
    info_df = pd.read_excel(info_path)
    
    # 统一constrain/constraint列名为constrain
    for col in info_df.columns:
        if col.lower() in ['constrain', 'constraint']:
            info_df.rename(columns={col: 'constrain'}, inplace=True)
    
    # 确保我们有prompt_dict_cache
    global _prompt_dict_cache
    if _prompt_dict_cache is None:
        raise ValueError("prompt_dict_cache未初始化，请先运行prepare_prompts函数")
    
    # 创建一个MEU_id到prompt的反向映射
    prompt_to_meu_id = {v: k for k, v in _prompt_dict_cache.items()}
    
    # 从prompt列提取MEU_id
    response_df['MEU_id'] = response_df['prompt'].map(prompt_to_meu_id)
    
    # 合并原始信息
    merged_df = response_df.merge(
        info_df[['MEU_id', 'subject', 'condition', 'constrain', 
                'contextual_info', 'relation', 'target', 'type', 'comments', 'note']],
        on='MEU_id',
        how='left'
    )
    
    # 重新排列列顺序
    columns_order = [
        'MEU_id', 'subject', 'condition', 'constrain', 'contextual_info',
        'relation', 'target', 'type', 'comments', 'note',
        'prompt_tokens', 'completion_tokens',
        'prompt', 'response', 'reasoning_content', 'api_usage', 'code'
    ]
    # 只保留存在的列
    columns_order = [col for col in columns_order if col in merged_df.columns]
    merged_df = merged_df[columns_order]
    
    # 保存回原文件
    merged_df.to_excel(response_path, index=False)
    print(f"处理完成，结果已保存到: {response_path}")

# 示例使用方式：
# 1. 首先确保已经初始化了prompt_dict_cache
# 2. 然后调用这个函数
enrich_response_with_original_info()

处理完成，结果已保存到: MEU_to_code/MEU_code/北京证券交易所上市公司持续监管指引第8号——股份减持和持股管理.xlsx


# 保存到ipynb方便查看

In [16]:
import pandas as pd
import nbformat
from nbformat.v4 import new_notebook, new_markdown_cell, new_code_cell
import re

# 读取Excel文件
input_path = "MEU_to_code/MEU_code/北京证券交易所上市公司持续监管指引第8号——股份减持和持股管理.xlsx"
df = pd.read_excel(input_path)

# 创建新的Notebook
notebook = new_notebook()

# 在最上方添加读取CSV文件的代码单元格
notebook.cells.append(new_code_cell("""# 读取模拟数据
import pandas as pd
df = pd.read_csv('data_simulation/data_generated/data_simulate_08.csv')
date_columns = ['日期', '上市日期', '公告日期', '计划披露日', '计划开始日', '计划结束日', '离任日期']
for col in date_columns:
    df[col] = pd.to_datetime(df[col])
df"""))

def extract_function_name(code):
    """
    从代码中提取函数名
    例如：从 'def check_meu_13_3(df):' 提取 'check_meu_13_3'
    """
    match = re.search(r'def\s+([a-zA-Z_]\w*)\s*\(', code)
    return match.group(1) if match else None

# 提取法条号(n)和MEU序号(k)用于排序
def extract_n(x):
    match = re.match(r'MEU_(\d+)_\d+', str(x))
    return int(match.group(1)) if match else 0

def extract_k(x):
    match = re.match(r'MEU_\d+_(\d+)', str(x))
    return int(match.group(1)) if match else 0

df['MEU_n'] = df['MEU_id'].apply(extract_n)
df['MEU_k'] = df['MEU_id'].apply(extract_k)

# 按法条号(n)和MEU序号(k)排序
df = df.sort_values(['MEU_n', 'MEU_k'])

# 遍历每个MEU（已排序）
current_n = None
for _, row in df.iterrows():
    # 如果法条号变化，添加一级标题
    if row['MEU_n'] != current_n:
        notebook.cells.append(new_markdown_cell(f"# Law Article {row['MEU_n']}"))
        current_n = row['MEU_n']
    
    # 添加二级标题（MEU编号）
    notebook.cells.append(new_markdown_cell(f"## {row['MEU_id']}"))
    
    # 创建MEU信息表格
    info_table = f"""
| 字段 | 内容 |
|------|------|
| subject | {row['subject'] or ''} |
| condition | {row['condition'] or ''} |
| constrain | {row['constrain'] or ''} |
| contextual_info | {row['contextual_info'] or ''} |
| note | {row['note'] or ''} |
| relation | {row['relation'] or ''} |
| target | {row['target'] or ''} |
| type | {row['type'] or ''} |
| comments | {row['comments'] or ''} |
| prompt_tokens | {row['prompt_tokens'] or ''} |
| completion_tokens | {row['completion_tokens'] or ''} |
"""
    notebook.cells.append(new_markdown_cell(info_table))
    
    # # 添加reasoning_content
    # if pd.notna(row['reasoning_content']):
    #     notebook.cells.append(new_markdown_cell("### 推理内容"))
    #     notebook.cells.append(new_markdown_cell(str(row['reasoning_content'])))
    
    # 添加代码单元格
    if pd.notna(row['code']):
        notebook.cells.append(new_markdown_cell("### 代码实现"))
        notebook.cells.append(new_code_cell(str(row['code'])))

        # 提取函数名并添加调用函数的代码单元格
        function_name = extract_function_name(str(row['code']))
        if function_name:
            notebook.cells.append(new_code_cell(f"df = {function_name}(df)\ndf"))
    
    # 添加分隔线
    notebook.cells.append(new_markdown_cell("---"))

# 保存Notebook文件
output_path = "MEU_to_code/MEU_code/view_ipynb/北京证券交易所上市公司持续监管指引第8号——股份减持和持股管理.ipynb"
with open(output_path, 'w', encoding='utf-8') as f:
    nbformat.write(notebook, f)

print(f"Jupyter Notebook已成功生成: {output_path}")

Jupyter Notebook已成功生成: MEU_to_code/MEU_code/view_ipynb/北京证券交易所上市公司持续监管指引第8号——股份减持和持股管理.ipynb
