# 综合案例：政策/公告文本结构化提取

## 目标任务
提取发布日期、发布机构、政策标题、时间段、链接地址、关键词

In [1]:
import re

def extract_policy_info(text):
    patterns = {
        "date": r"\d{4}年\d{1,2}月\d{1,2}日",
        "org": r"(中国人民银行|财政部|证监会|银保监会|国家统计局|工业和信息化部|国家发展改革委)",
        "title": r"《([^《》]{5,50})》",
        "period": r"\d{4}[-—~～至]\d{4}年",
        "url": r"https?://[^\s，。、“”]+"
    }
    keywords_list = ["金融", "监管", "数据", "信息", "平台", "流通", "披露", "制度", "优化"]
    keyword_pattern = "|".join(keywords_list)

    results = {
        "date": re.findall(patterns["date"], text),
        "org": re.findall(patterns["org"], text),
        "title": re.findall(patterns["title"], text),
        "period": re.findall(patterns["period"], text),
        "url": re.findall(patterns["url"], text),
        "keywords": re.findall(keyword_pattern, text)
    }

    return results

In [2]:
sample_text = """
2024年12月15日，中国人民银行发布《金融科技发展规划（2022-2025年）》。
公告指出，将推动金融数据要素流通，强化信息披露制度建设。
中国证监会也在同期发布《关于加强平台金融监管的指导意见》。
详情参见：http://www.pbc.gov.cn/gongkaihangzhengbu/4712037/index.html。
"""

info = extract_policy_info(sample_text)

for key, val in info.items():
    print(f"{key}:", val)

date: ['2024年12月15日']
org: ['中国人民银行', '证监会']
title: ['金融科技发展规划（2022-2025年）', '关于加强平台金融监管的指导意见']
period: ['2022-2025年']
url: ['http://www.pbc.gov.cn/gongkaihangzhengbu/4712037/index.html']
keywords: ['金融', '金融', '数据', '流通', '信息', '披露', '制度', '平台', '金融', '监管']


## 可拓展方向
- 多格式日期匹配
- 批量处理公告集
- 区分政策类型
- 存储为 DataFrame 或 CSV