# MEU情况

In [1]:
import pandas as pd

# 读取Excel文件
gt_excel_file_path = "MEU_to_code/MEU_selected_with_relation_GT/北京证券交易所上市公司持续监管指引第4号——股份回购.xlsx"
df = pd.read_excel(gt_excel_file_path)

# 统计各类别出现次数
type_counts = df['type'].value_counts()


# 打印结果
print("各类别统计结果:")
print(type_counts)

各类别统计结果:
type
实际执行单元                    19
无法简单执行的兜底条款，倡议条款和模糊的条款     5
立法宗旨等法律基本信息                4
Name: count, dtype: int64


In [2]:
MEU_to_code_df = df[df['type']=="实际执行单元"]
print(len(MEU_to_code_df))
MEU_to_code_df

19


Unnamed: 0,MEU_id,subject,condition,constraint,contextual_info,relation,target,confirmed,comments_relation,type,comments,note
9,MEU_4_1,上市公司,因维护公司价值及股东权益所必需回购股份的,应当符合以下条件之一：（一）公司股票收盘价格低于最近一期每股净资产；（二）连续20个交易日内...,,,,1,,实际执行单元,,
33,MEU_13_1,上市公司,实施竞价回购,应当符合公司股票上市已满6个月,,,,1,,实际执行单元,,假设公司股票上市日为最早的收盘价非空的日期
34,MEU_13_2,上市公司,实施竞价回购,应当符合公司最近1年无重大违法行为,,,,1,,实际执行单元,,
39,MEU_13_7,上市公司,因触及本指引第四条规定条件而启动回购并减少注册资本,不适用股票上市已满6个月的要求,,exclude,MEU_13_1,1,,实际执行单元,,
43,MEU_15_2,上市公司,,在回购股份方案中明确拟回购股份数量或者资金总额的上下限，且下限不得低于上限的50%,,,,1,,实际执行单元,,
44,MEU_16_1,上市公司,进行竞价回购,价格上限原则上不应高于董事会审议通过回购股份决议前30个交易日（不含停牌日）交易均价的200%,,refer_to,MEU_75_1,1,,实际执行单元,,"不考虑""原则上""的松弛条件"
57,MEU_18_7,上市公司,进行股份回购的申报,申报价格不得为公司股票当日交易涨幅限制的价格,,,,1,,实际执行单元,,假设当日涨跌幅限制为前日收盘价的正负10%
58,MEU_19_1,上市公司,实施竞价回购,实施期限不超过12个月,自董事会或股东大会（如须）审议通过回购股份决议之日起算,,,1,,实际执行单元,,
59,MEU_19_2,上市公司,因维护公司价值及股东权益所必需回购股份的，实施竞价回购,回购实施期限自股东大会或者董事会审议通过最终回购股份方案之日起不超过3个月,,,,1,,实际执行单元,,
62,MEU_21_2,上市公司,回购股份用于股权激励或者员工持股计划、转换上市公司发行的可转换为股票的公司债券、维护公司价值...,合计持有的本公司股份数不得超过本公司已发行股份总额的10%,,exclude,MEU_9_3,1,,实际执行单元,,


# Prompt模板

## a. 普通任务 prompt

In [3]:
prompt_meu_coding_bse_08 = """
# 身份
你是一个精通法律的程序员. 擅长编写代码以检验特定案例对于特定法律要求的合规性. 

## MEU概念简述
MEU (Minimum Executable Unit) 是法律条文拆解出的最小合规单元，包含：
- MEU_id: MEU的编号, 通常为"MEU_n_k", 其中n是其所属的法条的编号, k是其在法条内部的编号
- subject: 责任主体（如"控股股东") 
- condition: 触发条件（如"减持股份")  
- constraint: 约束内容（如"提前15日公告") 
- contextual_info: 补充说明（如价格计算方式）


# 任务
你现在面临一个编写代码以检验某法律事件的合规性的任务, 你需要编写一个函数, 这个函数的输入是一个日频的pandas dataframe, 每一行是在某个交易日内公司的情况和股东的情况, 这个函数会检验该dataframe的每一行在某一个给定的法律最小可执行单元上的合规性, 标注在特定的列上, 并返回标注后的dataframe. 


# 更多要求
 - 你可以进行任意长度的思考, 然后用<CODE></CODE>包裹你的代码. 
 - 你需要按照下面这个框架编写代码: 
  - 1. 标记valid的subject(meu_n_k_subject); (复合subject的行标记为True, 不符合的为False)
  - 2. 标记valid的condition(meu_n_k_condition); (符合condition的行标记为True, 不符合的为False)
  - 3. 标记valid的constraint(meu_n_k_constraint); (符合constraint的行标记为True, 不符合的为False)
  - 4. 在dataframe中记录subject, condition和constraint的valid情况; 
 - 注意: 对于简单操作dataframe就可以处理的项目, 对三元组<subject, conditon, constraint>的检查是各自独立的, 你需要分别标记三元组的True和False. 并不是只对符合subject和condition进行检查. 对于需要调用llm_content_check()函数的项目, 只对符合<subject, conditon>的constraint进行检查. 

# example
下面是一个例子:

## 输入
法律的最小可执行单元编号: MEU_4_1
法律的最小可执行单元内容: {{"subject": "上市公司大股东 | 董监高", "condition": "计划通过本所集中竞价或大宗交易减持股份", "constraint": "应当及时通知公司，并在首次卖出的15个交易日前向本所报告并预先披露减持计划", "contextual_info": NaN}}
必要的额外信息: NaN

## 输出
<CODE>
import pandas a pd

def check_meu_4_1(df):
    '''
    代码的注释要清晰, 展示你分别验证subject, condition和constraint的过程.
    "subject": "上市公司大股东 | 董监高", 
    "condition": "计划通过本所集中竞价或大宗交易减持股份", 
    "constraint": "应当及时通知公司，并在首次卖出的15个交易日前向本所报告并预先披露减持计划", 
    "contextual_info": NaN
    '''

    df = df.copy()

    df['meu_4_2_subject'] = False  # subject需要初始化为False
    df['meu_4_2_condition'] = False  # condition需要初始化为False
    df['meu_4_2_constraint'] = None  # constraint需要初始化为None
    
    # 标记valid的subject
    is_major_shareholder = (
        df['股东身份'].isin(['控股股东', '实际控制人', '持股5%以上股东']) |
        (df['持股比例'] >= 0.05)
    )
    is_director = df['股东身份'].isin(['董监高'])
    valid_subject = is_major_shareholder | is_director

    # 标记valid的condition
    valid_condition = df['减持方式'].isin(['竞价交易', '大宗交易'])

    # 标记valid的constraint
    # 注意constraint是独立检查的, 并非是只检查subject和condition都符合的行
    df['交易日差'] = (df['计划开始日'] - df['计划披露日']).dt.days
    has_plan = df['存在减持计划']
    valid_constraint = df['交易日差'] >= 15 & df['存在减持计划']
    
    # 标记各条件满足情况
    df.loc[valid_subject, 'meu_4_1_subject'] = True
    df.loc[valid_condition, 'meu_4_1_condition'] = True
    df.loc[valid_constraint, 'meu_4_1_constraint'] = True
    df.loc[~valid_constraint, 'meu_4_1_constraint'] = False
    
    return df

</CODE>
    
# 下面轮到你来完成这个任务
法律的最小可执行单元编号: {meu_id}
法律的最小可执行单元内容: {meu_content}
必要的额外信息: {note}


# 附加信息
## 你可以操作的dataframe的columns: 
[
# 基本信息
'日期', '公司简称', '公司法律情况', 

# 股票信息
'收盘价', '总股本', '日收益率', '前收盘价', '上市日期', '发行价格',
'净资产', '净利润', '每股净资产', '每股净利润', 

# 财务信息
'公告类型', '公告日期', '收盘价减每股净资产', '收盘价减每股净利润', 

# 回购行为
'存在回购方案', '决议通过日', '实施开始日', '实施截止日',
'回购方式', '回购用途', '回购数量上限', '回购数量下限', '资金总额上限', '资金总额下限', '要约期限', '要约价格',
'申报价格', '当日回购数量', '累计回购数量', '已使用资金', 

# 以集中竞价方式出售已回购的股份
'存在出售计划', '出售开始日', '出售截止日', '拟出售比例', '拟出售数量', '当日出售价格', '当日出售比例', '当日出售数量', '累计出售数量', '累计出售比例', '披露出售进展'
]

## 其中: 
- 这是一个二维的面板数据, 根据['日期', '公司简称']可以定位到特定公司在特定日期的状态. 数据已经按照公司简称和日期排序.  
- 所有公司均为在本交易所上市的上市公司
- 所有日期相关的列都已经是pd.datetime格式, ['日期']列本身就是交易日, 不需要额外计算交易日, 但如需自然日, 要另行计算. 
- 所有价格的单位都是元而非万元, 千元或百万元; 所有的比例都是小数而非百分数
- '公司法律情况'columns存在空值或者"重大违法行为"字符串
- ['存在回购方案', '存在出售计划']为布尔值, 表示当日是否存在股份回购方案或以集中竞价方式出售已回购股份的计划
- 关于股份回购行为
    '决议通过日'是董事会或者股东大会最终审议通过股份回购方案的日期), ['实施开始日', '实施截止日']是该方案披露的相关日期. 
    '回购方式'有['竞价回购', '要约回购']两种情况, '回购用途'有['维护公司价值及股东权益所必需', '股权激励或者员工持股计划', '转换上市公司发行的可转换为股票的公司债券'] 
    '累计回购数量'是在该回购方案执行期间的累计值. 
- 关于以集中竞价方式出售已回购的股份:
    '累计出售数量'是该出手计划期间的累计值. 


note:
 - 理论上你撰写合规检验代码所需要的数据都可以从一致的数据中得到, 对于没有直接对应的数据你需要自己计算得到, 不要简单地认为无法完成. 
 - 除非材料提供, 否则不要主动进行简化的假设. 如果你认为所给的信息不足以判断案例的合规性, 可以在函数的结尾进行注释说明. 但这种情况应该很少出现. 

"""


## b. 含有refer_to的prompt

需求: 自动多跳地把所有refer_to的target都直接呈现在prompt里面

In [4]:
prompt_meu_coding_bse_08_with_refer_to = """
# 身份
你是一个精通法律的程序员. 擅长编写代码以检验特定案例对于特定法律要求的合规性. 

## MEU概念简述
MEU (Minimum Executable Unit) 是法律条文拆解出的最小合规单元，包含：
- MEU_id: MEU的编号, 通常为"MEU_n_k", 其中n是其所属的法条的编号, k是其在法条内部的编号
- subject: 责任主体（如"控股股东") 
- condition: 触发条件（如"减持股份")  
- constraint: 约束内容（如"提前15日公告") 
- contextual_info: 补充说明（如价格计算方式）


# 任务
你现在面临一个编写代码以检验某法律事件的合规性的任务, 你需要编写一个函数, 这个函数的输入是一个日频的pandas dataframe, 每一行是在某个交易日内公司的情况和股东的情况, 这个函数会检验该dataframe的每一行在某一个给定的法律最小可执行单元上的合规性, 标注在特定的列上, 并返回标注后的dataframe. 


# 更多要求
 - 你可以进行任意长度的思考, 然后用<CODE></CODE>包裹你的代码. 
 - 你需要按照下面这个框架编写代码: 
  - 1. 标记valid的subject(meu_n_k_subject); (复合subject的行标记为True, 不符合的为False)
  - 2. 标记valid的condition(meu_n_k_condition); (符合condition的行标记为True, 不符合的为False)
  - 3. 标记valid的constraint(meu_n_k_constraint); (符合constraint的行标记为True, 不符合的为False)
  - 4. 在dataframe中记录subject, condition和constraint的valid情况; 
 - 注意: 对于简单操作dataframe就可以处理的项目, 对三元组<subject, conditon, constraint>的检查是各自独立的, 你需要分别标记三元组的True和False. 并不是只对符合subject和condition进行检查. 对于需要调用llm_content_check()函数的项目, 只对符合<subject, conditon>的constraint进行检查. 

# example
下面是一个例子:

## 输入
法律的最小可执行单元编号: MEU_4_1
法律的最小可执行单元内容: {{"subject": "上市公司大股东 | 董监高", "condition": "计划通过本所集中竞价或大宗交易减持股份", "constraint": "应当及时通知公司，并在首次卖出的15个交易日前向本所报告并预先披露减持计划", "contextual_info": NaN}}
必要的额外信息: NaN

## 输出
<CODE>
import pandas a pd

def check_meu_4_1(df):
    '''
    代码的注释要清晰, 展示你分别验证subject, condition和constraint的过程.
    "subject": "上市公司大股东 | 董监高", 
    "condition": "计划通过本所集中竞价或大宗交易减持股份", 
    "constraint": "应当及时通知公司，并在首次卖出的15个交易日前向本所报告并预先披露减持计划", 
    "contextual_info": NaN
    '''

    df = df.copy()

    df['meu_4_2_subject'] = False  # subject需要初始化为False
    df['meu_4_2_condition'] = False  # condition需要初始化为False
    df['meu_4_2_constraint'] = None  # constraint需要初始化为None
    
    # 标记valid的subject
    is_major_shareholder = (
        df['股东身份'].isin(['控股股东', '实际控制人', '持股5%以上股东']) |
        (df['持股比例'] >= 0.05)
    )
    is_director = df['股东身份'].isin(['董监高'])
    valid_subject = is_major_shareholder | is_director

    # 标记valid的condition
    valid_condition = df['减持方式'].isin(['竞价交易', '大宗交易'])

    # 标记valid的constraint
    # 注意constraint是独立检查的, 并非是只检查subject和condition都符合的行
    df['交易日差'] = (df['计划开始日'] - df['计划披露日']).dt.days
    has_plan = df['存在减持计划']
    valid_constraint = df['交易日差'] >= 15 & df['存在减持计划']
    
    # 标记各条件满足情况
    df.loc[valid_subject, 'meu_4_1_subject'] = True
    df.loc[valid_condition, 'meu_4_1_condition'] = True
    df.loc[valid_constraint, 'meu_4_1_constraint'] = True
    df.loc[~valid_constraint, 'meu_4_1_constraint'] = False
    
    return df

</CODE>
    
# 下面轮到你来完成这个任务
法律的最小可执行单元编号: {meu_id}
法律的最小可执行单元内容: {meu_content}
必要的额外信息: {note}

你被分配的MEU coding任务存在refer_to关系, 你需要参考下面这个MEU的必要内容来完成你被安排的任务, 但你不需要直接执行下面的MEU: 
{refer_to}


# 附加信息
## 你可以操作的dataframe的columns: 
[
# 基本信息
'日期', '公司简称', '公司法律情况', 

# 股票信息
'收盘价', '总股本', '日收益率', '前收盘价', '上市日期', '发行价格',
'净资产', '净利润', '每股净资产', '每股净利润', 

# 财务信息
'公告类型', '公告日期', '收盘价减每股净资产', '收盘价减每股净利润', 

# 回购行为
'存在回购方案', '决议通过日', '实施开始日', '实施截止日',
'回购方式', '回购用途', '回购数量上限', '回购数量下限', '资金总额上限', '资金总额下限', '要约期限', '要约价格',
'申报价格', '当日回购数量', '累计回购数量', '已使用资金', 

# 以集中竞价方式出售已回购的股份
'存在出售计划', '出售开始日', '出售截止日', '拟出售比例','拟出售数量', '当日出售价格', '当日出售比例', '当日出售数量', '累计出售数量', '累计出售比例', '计划内累计出售比例', '披露出售进展', 
]

## 其中: 
- 这是一个二维的面板数据, 根据['日期', '公司简称']可以定位到特定公司在特定日期的状态. 数据已经按照公司简称和日期排序.  
- 所有公司均为在本交易所上市的上市公司
- 所有日期相关的列都已经是pd.datetime格式, ['日期']列本身就是交易日, 不需要额外计算交易日, 但如需自然日, 要另行计算. 
- 所有价格的单位都是元而非万元, 千元或百万元; 所有的比例都是小数而非百分数
- '公司法律情况'columns存在空值或者"重大违法行为"字符串
- ['存在回购方案', '存在出售计划']为布尔值, 表示当日是否存在股份回购方案或以集中竞价方式出售已回购股份的计划
- 关于股份回购行为
    '决议通过日'是董事会或者股东大会最终审议通过股份回购方案的日期), ['实施开始日', '实施截止日']是该方案披露的相关日期. 
    '回购方式'有['竞价回购', '要约回购']两种情况, '回购用途'有['维护公司价值及股东权益所必需', '股权激励或者员工持股计划', '转换上市公司发行的可转换为股票的公司债券'] 


note:
 - 理论上你撰写合规检验代码所需要的数据都可以从一致的数据中得到, 对于没有直接对应的数据你需要自己计算得到, 不要简单地认为无法完成. 
 - 除非材料提供, 否则不要主动进行简化的假设. 如果你认为所给的信息不足以判断案例的合规性, 可以在函数的结尾进行注释说明. 但这种情况应该很少出现. 

"""

## c. 含有exclude, should_include和only_include的模板

需求: 

含有exclude的项: 可以修改exclude的target的结果

含有only_include的项: 可以查询only_include的target的结果

含有should_include的项: 按照should_include的数量进行分裂? 

In [5]:
pass

## 附. 处理refer_to的信息

In [6]:
# excel_path = "MEU_to_code/MEU_selected_with_relation_GT/北京证券交易所上市公司持续监管指引第4号——股份回购.xlsx"
# target_resolver_cache = pd.read_excel(excel_path)
# target_resolver_cache[_target_resolver_cache['MEU_id']=='MEU_18_3']

In [7]:
_target_resolver_cache = pd.read_excel(gt_excel_file_path)
_target_resolver_cache

Unnamed: 0,MEU_id,subject,condition,constraint,contextual_info,relation,target,confirmed,comments_relation,type,comments,note
0,MEU_1_1,,,,为了引导和规范上市公司回购股份行为，维护证券市场秩序，保护投资者和上市公司合法权益，明确股份...,,,1,,立法宗旨等法律基本信息,,
1,MEU_2_1,上市公司,以竞价方式回购股份,适用本指引,,,,1,,立法宗旨等法律基本信息,,
2,MEU_2_2,上市公司,以要约方式回购股份,适用本指引,,,,1,,立法宗旨等法律基本信息,,
3,MEU_2_3,上市公司,在符合本指引规定的情形下向特定对象回购股份,适用本指引,,,,1,,立法宗旨等法律基本信息,,
4,MEU_3_1,上市公司,回购股份,应当符合《公司法》《证券法》《回购规则》《上市规则》、本指引和公司章程的规定,,,,1,,无法简单执行的兜底条款，倡议条款和模糊的条款,,
...,...,...,...,...,...,...,...,...,...,...,...,...
268,MEU_74_1,,,,计算上市公司已回购股份占公司总股本比例时，总股本取值标准为最近一次公告的总股本数值，且不扣除...,,,1,,,,
269,MEU_75_1,,,,交易均价的计算方式为：董事会审议通过回购股份决议前30个交易日（不含停牌日）的股票交易总额除...,,,1,,,,
270,MEU_76_1,,,,本指引关于控股股东、实际控制人、持股5%以上股东、回购股份提议人、第一大股东的相关规定，适用...,,,1,,,,
271,MEU_77_1,,,,本指引由本所负责解释,,,1,,,,


In [8]:
import pandas as pd
import json
import re

# 缓存加载的Excel数据（避免重复读取）
_target_resolver_cache = None
_prompt_dict_cache = None  # 新增：用于缓存prompt_dict

def target_resolver(target_str: str) -> str:
    """优化版target解析器, 支持分号分隔的多MEU"""
    global _target_resolver_cache
    
    # 初始化缓存
    if _target_resolver_cache is None:
        _target_resolver_cache = pd.read_excel(gt_excel_file_path)
    
    df = _target_resolver_cache
    
    # 处理分号分隔的多MEU (新增核心逻辑)
    if ';' in target_str:
        meu_list = [s.strip() for s in target_str.split(';') if s.strip()]
        return "\n\n".join([_resolve_single_meu(meu, df) for meu in meu_list])
    
    # 原有单MEU处理
    return _resolve_single_meu(target_str, df)

def _resolve_single_meu(target_str: str, df: pd.DataFrame) -> str:
    """处理单个MEU或Law的解析"""
    # MEU_n_k 格式
    if re.match(r'MEU_\d+_\d+', target_str):
        target_row = df[df['MEU_id'] == target_str]
        if not target_row.empty:
            row = target_row.iloc[0]
            # 检查是否为需要忽略的类型
            if row['type'] in ["为简化模型暂不考虑的单元", "无法简单执行的兜底条款，倡议条款和模糊的条款"]:
                return ""
            result = _format_meu_info(row)
            if row['relation'] == 'refer_to' and pd.notna(row['target']):
                referred_content = target_resolver(row['target'])
                # 只有当被引用的内容不为空时才添加关联引用
                if referred_content.strip():
                    result += f"\n\n↳ 关联引用：{referred_content}"
            return result
        return f"未找到MEU条目：{target_str}"
    
    # Law_n 格式
    elif re.match(r'Law_\d+', target_str):
        law_num = re.match(r'Law_(\d+)', target_str).group(1)
        related_meus = df[df['MEU_id'].str.startswith(f'MEU_{law_num}_')]
        if not related_meus.empty:
            # 过滤掉需要忽略的类型
            filtered_meus = [
                row for _, row in related_meus.iterrows() 
                if row['type'] not in ["为简化模型暂不考虑的单元", "无法简单执行的兜底条款，倡议条款和模糊的条款"]
            ]
            return "\n\n".join([
                _format_meu_info(row) for row in filtered_meus
            ])
        return f"未找到Law_{law_num}相关MEU"
    
    # 其他格式
    return f"参考条目：{target_str}"

def _format_meu_info(row: pd.Series) -> str:
    """修复contextual_info字段的格式化函数"""
    return (
        f"【{row['MEU_id']}】\n"
        f"subject: {row['subject']}\n"
        f"condition: {row['condition'] or '无'}\n"
        f"constraint: {row['constraint'] or '无'}\n"
        f"contextual_info: {row['contextual_info'] or '无'}"
    )

def prepare_prompts(
    df: pd.DataFrame,
    base_template: str,
    refer_template: str,
    target_resolver: callable
) -> dict[str, str]:  # 现在返回字典而不是列表
    """
    生成以MEU_id为键的prompt字典
    
    参数：
    df: 原始数据框
    base_template: 基础模板
    refer_template: 带参考的模板
    target_resolver: 处理target的函数
    
    返回：
    以MEU_id为键，prompt字符串为值的字典
    """
    prompt_dict = {}
    
    for _, row in df[df['type'] == "实际执行单元"].iterrows():
        meu_id = row['MEU_id']
        # 构造基础参数
        params = {
            'meu_id': meu_id,
            'meu_content': json.dumps({
                "subject": row['subject'],
                "condition": row['condition'],
                "constraint": row['constraint'],
                "contextual_info": row['contextual_info']
            }, ensure_ascii=False),
            'note': row['note']
        }
        
        # 选择模板并填充参数
        if row['relation'] == 'refer_to':
            referred_content = target_resolver(row['target'])
            # 只有当被引用的内容不为空时才添加refer_to参数
            if referred_content.strip():
                params['refer_to'] = referred_content
                prompt_dict[meu_id] = refer_template.format(**params)
            else:
                prompt_dict[meu_id] = base_template.format(**params)
        else:
            prompt_dict[meu_id] = base_template.format(**params)
    
    return prompt_dict

In [9]:
# 生成prompt字典
if _prompt_dict_cache is None:
    _prompt_dict_cache = prepare_prompts(
        df=pd.read_excel(gt_excel_file_path),
        base_template=prompt_meu_coding_bse_08,
        refer_template=prompt_meu_coding_bse_08_with_refer_to,
        target_resolver=target_resolver
    )

# 从字典生成列表（保持原有代码兼容性）
prompt_list = list(_prompt_dict_cache.values())

# 打印包含refer_to的prompt
for i in prompt_list:
    if "refer_to" in i:
        print('--------------------------------------------------')
        print(i)

--------------------------------------------------

# 身份
你是一个精通法律的程序员. 擅长编写代码以检验特定案例对于特定法律要求的合规性. 

## MEU概念简述
MEU (Minimum Executable Unit) 是法律条文拆解出的最小合规单元，包含：
- MEU_id: MEU的编号, 通常为"MEU_n_k", 其中n是其所属的法条的编号, k是其在法条内部的编号
- subject: 责任主体（如"控股股东") 
- condition: 触发条件（如"减持股份")  
- constraint: 约束内容（如"提前15日公告") 
- contextual_info: 补充说明（如价格计算方式）


# 任务
你现在面临一个编写代码以检验某法律事件的合规性的任务, 你需要编写一个函数, 这个函数的输入是一个日频的pandas dataframe, 每一行是在某个交易日内公司的情况和股东的情况, 这个函数会检验该dataframe的每一行在某一个给定的法律最小可执行单元上的合规性, 标注在特定的列上, 并返回标注后的dataframe. 


# 更多要求
 - 你可以进行任意长度的思考, 然后用<CODE></CODE>包裹你的代码. 
 - 你需要按照下面这个框架编写代码: 
  - 1. 标记valid的subject(meu_n_k_subject); (复合subject的行标记为True, 不符合的为False)
  - 2. 标记valid的condition(meu_n_k_condition); (符合condition的行标记为True, 不符合的为False)
  - 3. 标记valid的constraint(meu_n_k_constraint); (符合constraint的行标记为True, 不符合的为False)
  - 4. 在dataframe中记录subject, condition和constraint的valid情况; 
 - 注意: 对于简单操作dataframe就可以处理的项目, 对三元组<subject, conditon, constraint>的检查是各自独立的, 你需要分别标记三元组的True和False. 并不是只对符合subject和c

In [10]:
len(prompt_list)

19

# 异步调用LLM

In [11]:
import asyncio
from tqdm.asyncio import tqdm_asyncio
import pandas as pd
import os
from utils.call_gpt import call_gpt_async 

async def process_prompts_async(
    prompt_list,
    output_file_path,
    max_concurrency=5,
):
    """
    异步处理prompt列表并保存结果到Excel文件
    
    参数：
    prompt_list: 提示词字符串列表
    output_file_path: 输出文件路径
    max_concurrency: 最大并行请求数（默认5）
    """
    
    # 确保输出目录存在
    os.makedirs(os.path.dirname(output_file_path), exist_ok=True)
    
    # 共享状态
    results = []
    failed_prompts = []
    semaphore = asyncio.Semaphore(max_concurrency)

    async def process_single_prompt(prompt):
        """处理单个提示词的异步任务"""
        async with semaphore:
            try:
                content, reasoning_content, api_usage = await call_gpt_async(
                    prompt=prompt,
                    api_key="35684824-1776-48b6-94fd-96c2e99d0724",
                    base_url="https://ark.cn-beijing.volces.com/api/v3",
                    model="ep-20250217153824-9xcbx", # deepseek-r1 671b
                    # model="ep-20250329012323-5qdxc", # deepseek-v3 250324
                    # temperature=0.6,
                )

                return {
                    "prompt": prompt,
                    "response": content,
                    "reasoning_content": reasoning_content,
                    "api_usage": api_usage
                }
            except Exception as e:
                failed_prompts.append(prompt)
                print(f"Error processing prompt: {str(e)}")
                return None

    # 创建所有任务
    tasks = [process_single_prompt(prompt) for prompt in prompt_list]
    
    # 执行并带进度条
    pbar = tqdm_asyncio(total=len(tasks), desc="Processing prompts")
    
    for future in asyncio.as_completed(tasks):
        result = await future
        if result:
            results.append(result)
        pbar.update()

    pbar.close()

    # 将结果转换为DataFrame并保存为Excel
    df = pd.DataFrame(results)
    df.to_csv(output_file_path, index=False)

    # 打印简要报告
    print(f"\nSuccess: {len(results)}")
    print(f"Failed: {len(failed_prompts)}")

    return failed_prompts


In [12]:
failed_prompts = await process_prompts_async(
    prompt_list,
    output_file_path="MEU_to_code/MEU_code/raw_response/北京证券交易所上市公司持续监管指引第4号——股份回购.csv"
    )

Processing prompts: 100%|██████████| 19/19 [13:29<00:00, 42.61s/it]


Success: 19
Failed: 0





# 解析出代码并保存

In [13]:
import pandas as pd
import re

# 读取原始Excel文件
input_path = "MEU_to_code/MEU_code/raw_response/北京证券交易所上市公司持续监管指引第4号——股份回购.csv"
df = pd.read_csv(input_path)

# 定义一个函数来提取<CODE>标签中的内容
def extract_code(text):
    if not isinstance(text, str):
        return ""
    
    # 处理<\CODE>的错误格式，统一替换为</CODE>
    text = text.replace('<\\CODE>', '</CODE>')
    
    # 使用正则表达式提取所有<CODE>...</CODE>之间的内容
    code_blocks = re.findall(r'<CODE>(.*?)</CODE>', text, re.DOTALL)
    
    # 将所有代码块合并，用两个换行符分隔
    return '\n\n'.join(code_blocks).strip()

# 应用函数提取代码
df['code'] = df['response'].apply(extract_code)

# 保存到新的Excel文件
output_path = "MEU_to_code/MEU_code/北京证券交易所上市公司持续监管指引第4号——股份回购.xlsx"
df.to_excel(output_path, index=False)

print(f"处理完成，结果已保存到: {output_path}")

处理完成，结果已保存到: MEU_to_code/MEU_code/北京证券交易所上市公司持续监管指引第4号——股份回购.xlsx


In [14]:
import pandas as pd
import re
import ast  # 用于安全地解析字符串表达式

def parse_api_usage(api_usage_str):
    """
    解析api_usage字符串，提取prompt_tokens和completion_tokens
    示例输入: "CompletionUsage(completion_tokens=515, prompt_tokens=1649, total_tokens=2164, ...)"
    """
    if not isinstance(api_usage_str, str) or not api_usage_str.startswith("CompletionUsage"):
        return pd.Series({'prompt_tokens': None, 'completion_tokens': None})
    
    try:
        # 安全地解析字符串为字典
        # 首先提取括号内的内容
        content = api_usage_str.split('(', 1)[1].rsplit(')', 1)[0]
        # 创建一个字典来保存键值对
        params = {}
        # 分割键值对
        for item in content.split(','):
            item = item.strip()
            if '=' in item:
                key, value = item.split('=', 1)
                key = key.strip()
                # 只处理我们需要的键
                if key in ['prompt_tokens', 'completion_tokens']:
                    # 尝试转换为整数
                    try:
                        params[key] = int(value)
                    except ValueError:
                        params[key] = None
        return pd.Series({
            'prompt_tokens': params.get('prompt_tokens'),
            'completion_tokens': params.get('completion_tokens')
        })
    except Exception as e:
        print(f"解析api_usage时出错: {e}")
        return pd.Series({'prompt_tokens': None, 'completion_tokens': None})

def enrich_response_with_original_info():
    """
    读取模型回复文件，并根据prompt_dict_cache的MEU_id从原始信息文件中获取额外信息，
    然后合并保存到原文件，同时解析api_usage提取token信息
    """
    # 读取模型回复文件
    response_path = "MEU_to_code/MEU_code/北京证券交易所上市公司持续监管指引第4号——股份回购.xlsx"
    response_df = pd.read_excel(response_path)
    
    # 解析api_usage列
    token_info = response_df['api_usage'].apply(parse_api_usage)
    response_df = pd.concat([response_df, token_info], axis=1)
    
    # 读取原始信息文件
    info_path = "MEU_to_code/MEU_selected_with_relation_GT/北京证券交易所上市公司持续监管指引第4号——股份回购.xlsx"
    info_df = pd.read_excel(info_path)
    
    # 确保我们有prompt_dict_cache
    global _prompt_dict_cache
    if _prompt_dict_cache is None:
        raise ValueError("prompt_dict_cache未初始化，请先运行prepare_prompts函数")
    
    # 创建一个MEU_id到prompt的反向映射
    prompt_to_meu_id = {v: k for k, v in _prompt_dict_cache.items()}
    
    # 从prompt列提取MEU_id
    response_df['MEU_id'] = response_df['prompt'].map(prompt_to_meu_id)
    
    # 合并原始信息
    merged_df = response_df.merge(
        info_df[['MEU_id', 'subject', 'condition', 'constraint', 
                'contextual_info', 'relation', 'target', 'type', 'comments', 'note']],
        on='MEU_id',
        how='left'
    )
    
    # 重新排列列顺序
    columns_order = [
        'MEU_id', 'subject', 'condition', 'constraint', 'contextual_info',
        'relation', 'target', 'type', 'comments', 'note',
        'prompt_tokens', 'completion_tokens',
        'prompt', 'response', 'reasoning_content', 'api_usage', 'code'
    ]
    # 只保留存在的列
    columns_order = [col for col in columns_order if col in merged_df.columns]
    merged_df = merged_df[columns_order]
    
    # 保存回原文件
    merged_df.to_excel(response_path, index=False)
    print(f"处理完成，结果已保存到: {response_path}")

# 示例使用方式：
# 1. 首先确保已经初始化了prompt_dict_cache
# 2. 然后调用这个函数
enrich_response_with_original_info()

处理完成，结果已保存到: MEU_to_code/MEU_code/北京证券交易所上市公司持续监管指引第4号——股份回购.xlsx


# 保存到ipynb方便查看

In [15]:
import pandas as pd
import nbformat
from nbformat.v4 import new_notebook, new_markdown_cell, new_code_cell
import re

def process_reasoning_content(content):
    """
    处理reasoning_content中的Markdown标题，将其注释掉
    只处理以#开头的标题行，保留其他格式
    """
    lines = content.split('\n')
    processed_lines = []
    for line in lines:
        # 检查是否是Markdown标题（以1-6个#开头，后跟空格）
        if re.match(r'^#{1,6}\s', line.strip()):
            processed_lines.append(f"<!-- {line} -->")  # 注释掉标题
        else:
            processed_lines.append(line)
    return '\n'.join(processed_lines)

def extract_function_name(code):
    """
    从代码中提取函数名
    例如：从 'def check_meu_13_3(df):' 提取 'check_meu_13_3'
    """
    match = re.search(r'def\s+([a-zA-Z_]\w*)\s*\(', code)
    return match.group(1) if match else None

# 读取Excel文件
input_path = "MEU_to_code/MEU_code/北京证券交易所上市公司持续监管指引第4号——股份回购.xlsx"
df = pd.read_excel(input_path)

# 创建新的Notebook
notebook = new_notebook()

# 在最上方添加读取CSV文件的代码单元格
notebook.cells.append(new_code_cell("""# 读取模拟数据
# 读取模拟数据
import pandas as pd
df = pd.read_csv('data_simulation/data_generated/data_simulate_10.csv')
date_columns = ["财务数据日期", "公告日期", "日期"]
for col in date_columns:
    df[col] = pd.to_datetime(df[col])
df"""))

# 提取法条号(n)和MEU序号(k)用于排序
def extract_n(x):
    match = re.match(r'MEU_(\d+)_\d+', str(x))
    return int(match.group(1)) if match else 0

def extract_k(x):
    match = re.match(r'MEU_\d+_(\d+)', str(x))
    return int(match.group(1)) if match else 0

df['MEU_n'] = df['MEU_id'].apply(extract_n)
df['MEU_k'] = df['MEU_id'].apply(extract_k)

# 按法条号(n)和MEU序号(k)排序
df = df.sort_values(['MEU_n', 'MEU_k'])

# 遍历每个MEU（已排序）
current_n = None
for _, row in df.iterrows():
    # 如果法条号变化，添加一级标题
    if row['MEU_n'] != current_n:
        notebook.cells.append(new_markdown_cell(f"# Law Article {row['MEU_n']}"))
        current_n = row['MEU_n']
    
    # 添加二级标题（MEU编号）
    notebook.cells.append(new_markdown_cell(f"## {row['MEU_id']}"))
    
    # 创建MEU信息表格
    info_table = f"""
| 字段 | 内容 |
|------|------|
| subject | {row['subject'] or ''} |
| condition | {row['condition'] or ''} |
| constraint | {row['constraint'] or ''} |
| contextual_info | {row['contextual_info'] or ''} |
| note | {row['note'] or ''} |
| relation | {row['relation'] or ''} |
| target | {row['target'] or ''} |
| type | {row['type'] or ''} |
| comments | {row['comments'] or ''} |
| prompt_tokens | {row['prompt_tokens'] or ''} |
| completion_tokens | {row['completion_tokens'] or ''} |
"""
    notebook.cells.append(new_markdown_cell(info_table))
    
    # # 添加reasoning_content
    # if pd.notna(row['reasoning_content']):
    #     notebook.cells.append(new_markdown_cell("### 推理内容"))
    #     processed_content = process_reasoning_content(str(row['reasoning_content']))
    #     notebook.cells.append(new_markdown_cell(processed_content))
    
    # 添加代码单元格
    if pd.notna(row['code']):
        notebook.cells.append(new_markdown_cell("### 代码实现"))
        notebook.cells.append(new_code_cell(str(row['code'])))
        
        # 提取函数名并添加调用函数的代码单元格
        function_name = extract_function_name(str(row['code']))
        if function_name:
            notebook.cells.append(new_code_cell(f"df = {function_name}(df)\ndf"))
    
    # 添加分隔线
    notebook.cells.append(new_markdown_cell("---"))

# 保存Notebook文件
output_path = "MEU_to_code/MEU_code/view_ipynb/北京证券交易所上市公司持续监管指引第4号——股份回购.ipynb"
with open(output_path, 'w', encoding='utf-8') as f:
    nbformat.write(notebook, f)

print(f"Jupyter Notebook已成功生成: {output_path}")

Jupyter Notebook已成功生成: MEU_to_code/MEU_code/view_ipynb/北京证券交易所上市公司持续监管指引第4号——股份回购.ipynb
