### PDF文档解析

In [3]:
import re
import pandas as pd
from typing import List, Union
from pathlib import Path
from tqdm import tqdm
from src.modules.document.pdf_parser_pymupdf import PdfParserUsingPyMuPDF
from src.modules.document.pdf_parser_pdfplumber import PdfParserUsingPdfPlumber

In [20]:
def cleanup_news(fnm: str, document: Union[str, List[str]]) -> dict:
    """
    清洗新闻
    """
    if isinstance(document, list):
        document = "".join(document)
    # 使用正则表达式提取标题、发布时间、发布人和内容
    title_match = re.search(r'本文档.*?仅允许在本次比赛中使用。\n(.*?)\n', document, re.MULTILINE | re.DOTALL)
    pub_time_match = re.search(r'(\d{4}-\d{2}-\d{2}|\d{4} 年\d{1,2} 月\d{1,2} 日)', document, re.MULTILINE | re.DOTALL)
    content_match = re.search(r'(\d{4}-\d{2}-\d{2}|\d{4} 年\d{1,2} 月\d{1,2} 日)[）\n]*(.*)', document, re.MULTILINE | re.DOTALL)
    author_match = re.search(r'(发布人|文章来源)：(.*?)(?=\n)', document, re.MULTILINE | re.DOTALL)
    author_match_delete = re.search(r'((发布人|文章来源)：.*?(?=\n))', document, re.MULTILINE | re.DOTALL)
    
    # 提取数据
    title = title_match.group(1).strip() if title_match else ""
    pub_time = pub_time_match.group(1).strip() if pub_time_match else ""
    content = content_match.group(2).strip() if content_match else ""
    author = author_match.group(2).strip() if author_match else ""
    author_match = author_match_delete.group(1).strip() if author_match else ""
    
    # 结果字典
    return {
        "文件名": fnm,
        "标题": title.replace("\n", "").replace(" ", ""),
        "内容": content.replace("\n", "").replace(" ", "").replace(author_match, ""),
        "发布时间": pub_time.replace("\n", "").replace(" ", ""),
        "发布人": author.replace("\n", "").replace(" ", "")
    }

# f = Path("dataset/A榜/A_document/AW09.pdf")
f = Path("dataset/A榜/A_document/AF17.pdf")
TEMP_NEWS_TEXT = "".join(PdfParserUsingPyMuPDF().parse(f))
# print([TEMP_NEWS_TEXT])
cleanup_news(f.name, TEMP_NEWS_TEXT)

# AF17.pdf -> bad case: 随着夏日的热浪逐渐攀2升02，4全-0球7-的26目光开始聚焦于巴黎——这座充满浪漫与
# TEMP_NEWS_TEXT = "".join(PdfParserUsingPdfPlumber().parse(f))

{'文件名': 'AF17.pdf',
 '标题': '联通世界燃情巴黎——中国联通创新优化产品提供贴心国际',
 '内容': '随着夏日的热浪逐渐攀升，全球的目光开始聚焦于巴黎——这座充满浪漫与艺术气息的城市，准备共同见证体育界的顶级盛宴。巴黎，这个历经数百年风雨的城市，因其悠久的历史、独特的文化和浓厚的艺术氛围，一直以来都是全球游客的梦幻目的地。每年夏季，巴黎不仅吸引了无数浪漫的情侣和蜜月旅行者，还吸引了大批体育迷和文化爱好者。今年的巴黎，更因其将举办一系列重要的国际体育赛事，而成为全球瞩目的焦点。为满足出境旅行客户，尤其是即将前往巴黎和欧洲观赛的体育迷们，对出境漫游流量服务在高品质、超优惠、按需订购、按需使用等方面的需求，中国联通全新推出“畅游欧洲，激情巴黎”出境漫游随心选活动。此次活动不仅是中国联通在全球市场中的又一次创新尝试，更是对广大用户的真挚回馈。无论是追求高品质网络体验的商务人士，还是希望随时分享旅行点滴的普通游客，都能通过这次活动找到适合自己的流量套餐。用户可以根据自己的旅行计划和使用习惯，自由选择不同的流量包，确保在整个旅程中都能享受到稳定高速的网络服务。此外，这次活动还特别注重用户的实际使用体验。为了确保用户在使用过程中不会遇到任何问题，中国联通提供了专业的客服支持，用户在遇到任何问题时，都可以随时联系中国联通的客服团队，获得及时的帮助和解答。这种贴心的服务，让用户在享受旅程的同时，也能感受到来自中国联通的关怀和支持。随心选择，畅享体育激情此次中国联通推出的“畅游欧洲，激情巴黎”出境漫游随心选活动，为用户提供了灵活多样的流量选择，无论是短途旅行还是长时间的欧洲漫游，都能找到合适的流量套餐。具体来说，本次活动提供了四种流量选择，分别是15元500MB、45元2GB、60元5GB和80元10GB，使用期限均为8天。这个活动特别为前往巴黎及其它欧洲热门城市的用户量身定制，确保用户在旅行期间享受高速稳定的网络服务。包内流量可以在欧洲十个国家共享使用，包括法国、英国、德国、意大利、西班牙、挪威、荷兰、瑞典、丹麦和俄罗斯。这种共享使用模式不仅满足了用户灵活、多样的流量消费需求，还提供了在多个国家旅行期间按需共享使用漫游流量的新体验，使用户在欧洲旅行期间不再受限于单一国家的流量限制。在活动期间，用户在8天内用完所订购的流量或到期后，可以根据后续的使用时间和流

In [35]:
def cleanup_report(fnm: str, document: Union[str, List[str]]) -> dict:
    """
    清洗报告
    # report_pattern
    report_pattern1 = '第一节重要提示[^\s]+本次利润分配方案尚需提交本公司股东大会审议。'
    report_pattern12 = '一重要提示[^\s]+股东大会审议。'
    report_pattern13 = '一、重要提示[^\s]+季度报告未经审计。'
    report_pattern2 = '本公司董事会及全体董事保证本公告内容不存在任何虚假记载、[^\s]+季度财务报表是否经审计□是√否'
    report_pattern3 = '中国联合网络通信股份有限公司（简称“公司”）董事会审计委员会根据相关法律法规、[^\s]+汇报如下：'
    report_pattern = report_pattern1+'|'+report_pattern12+'|'+report_pattern13+'|'+report_pattern2+'|'+report_pattern3
    text = re.sub( report_pattern,'',text)
    """
    if isinstance(document, list):
        document = "".join(document)
    
    return {
        "文件名": fnm,
        "标题": "",
        "内容": document.replace("\n", " "),
        "发布时间": "",
        "发布人": ""
    }

f = Path("dataset/A榜/A_document/AY01.pdf")
# TEMP_REPORT_TEXT = PdfParserUsingPyMuPDF().parse(f, clip=80)
TEMP_REPORT_TEXT = PdfParserUsingPdfPlumber().parse(f, clip=80)
for i in TEMP_REPORT_TEXT:
    print(i)
cleaned = cleanup_report(f.name, TEMP_REPORT_TEXT)
cleaned

公司代码：600050 公司简称：中国联通
中国联合网络通信股份有限公司
2022 年年度报告摘要
第一节 重要提示
1 本年度报告摘要来自年度报告全文，为全面了解本公司的经营成果、财务状况及未来发展规划，
投资者应当到www.sse.com.cn；www.chinaunicom-a.com网站仔细阅读年度报告全文。
2 本公司董事会、监事会及董事、监事、高级管理人员保证年度报告内容的真实性、准确性、完整
性，不存在虚假记载、误导性陈述或重大遗漏，并承担个别和连带的法律责任。
3 公司全体董事出席董事会会议。
4 德勤华永会计师事务所（特殊普通合伙）为本公司出具了标准无保留意见的审计报告。
5 董事会决议通过的本报告期利润分配预案或公积金转增股本预案
公司董事会审议的报告期利润分配预案如下：本公司通过中国联通（BVI）有限公司持有中国联
合网络通信（香港）股份有限公司（以下简称“联通红筹公司”）的股权，按本公司章程规定，应将
自联通红筹公司分红所得现金在扣除公司日常现金开支、税费及法律法规规定应当提取的各项公积金
后，以现金方式全额分配给股东。
联通红筹公司董事会于2023年3月8日提议派发2022年度末期股利，每股派发股利0.109元。如获
联通红筹公司周年股东大会批准，本公司预计将收到按持股比例计算的股利约14.65亿元。依照公司
章程，在收到此等股利后，扣除本公司日常开支和税费约0.24亿元，减去预提2023年度法定公积金约
1.44亿元，加上2022年末本公司可供股东分配利润0.46亿元后，可供股东分配的利润约13.43亿元。
根据《上海证券交易所上市公司自律监管指引第7号——回购股份》等有关规定，公司回购专用
证券账户上的本公司股份不参与本次股息派发。
据此，董事会建议，本公司对权益分派实施公告中确定的股权登记日收市后在册扣除本公司回购
专用账户后的其他股份，每10股拟派发现金股利0.427元(含税)，共计拟向本公司股东派发约13.36亿
元(含税)的股利，剩余可供股东分配的利润将用于以后年度的利润分配。
在实施权益分派的股权登记日前，若公司发生可参与利润分配的总股本变动，拟维持分配总额不
变，相应调整每股分红比例。
本次利润分配方案尚需提交本公司股东大会审议。
第二节 公司基本情况
1 公司简介
公司股票简况
股票种类 股票上市交易所 股票简称 股票代码

{'文件名': 'AY01.pdf',
 '标题': '',
 '内容': '公司代码：600050 公司简称：中国联通 中国联合网络通信股份有限公司 2022 年年度报告摘要第一节 重要提示 1 本年度报告摘要来自年度报告全文，为全面了解本公司的经营成果、财务状况及未来发展规划， 投资者应当到www.sse.com.cn；www.chinaunicom-a.com网站仔细阅读年度报告全文。 2 本公司董事会、监事会及董事、监事、高级管理人员保证年度报告内容的真实性、准确性、完整 性，不存在虚假记载、误导性陈述或重大遗漏，并承担个别和连带的法律责任。 3 公司全体董事出席董事会会议。 4 德勤华永会计师事务所（特殊普通合伙）为本公司出具了标准无保留意见的审计报告。 5 董事会决议通过的本报告期利润分配预案或公积金转增股本预案 公司董事会审议的报告期利润分配预案如下：本公司通过中国联通（BVI）有限公司持有中国联 合网络通信（香港）股份有限公司（以下简称“联通红筹公司”）的股权，按本公司章程规定，应将 自联通红筹公司分红所得现金在扣除公司日常现金开支、税费及法律法规规定应当提取的各项公积金 后，以现金方式全额分配给股东。 联通红筹公司董事会于2023年3月8日提议派发2022年度末期股利，每股派发股利0.109元。如获 联通红筹公司周年股东大会批准，本公司预计将收到按持股比例计算的股利约14.65亿元。依照公司 章程，在收到此等股利后，扣除本公司日常开支和税费约0.24亿元，减去预提2023年度法定公积金约 1.44亿元，加上2022年末本公司可供股东分配利润0.46亿元后，可供股东分配的利润约13.43亿元。 根据《上海证券交易所上市公司自律监管指引第7号——回购股份》等有关规定，公司回购专用 证券账户上的本公司股份不参与本次股息派发。 据此，董事会建议，本公司对权益分派实施公告中确定的股权登记日收市后在册扣除本公司回购 专用账户后的其他股份，每10股拟派发现金股利0.427元(含税)，共计拟向本公司股东派发约13.36亿 元(含税)的股利，剩余可供股东分配的利润将用于以后年度的利润分配。 在实施权益分派的股权登记日前，若公司发生可参与利润分配的总股本变动，拟维持分配总额不 变，相应调整每股分红比例。 本次利润分配方案尚需提交本公司股东大会审议。第二节 公司基本情况

In [30]:
def cleanup_baipishu(fnm: str, document: Union[str, List[str]]) -> dict:
    """
    清洗报告
    # report_pattern
    report_pattern1 = '第一节重要提示[^\s]+本次利润分配方案尚需提交本公司股东大会审议。'
    report_pattern12 = '一重要提示[^\s]+股东大会审议。'
    report_pattern13 = '一、重要提示[^\s]+季度报告未经审计。'
    report_pattern2 = '本公司董事会及全体董事保证本公告内容不存在任何虚假记载、[^\s]+季度财务报表是否经审计□是√否'
    report_pattern3 = '中国联合网络通信股份有限公司（简称“公司”）董事会审计委员会根据相关法律法规、[^\s]+汇报如下：'
    report_pattern = report_pattern1+'|'+report_pattern12+'|'+report_pattern13+'|'+report_pattern2+'|'+report_pattern3
    text = re.sub( report_pattern,'',text)
    # white paper 版本一 效果不好
    # 优先级别 bp1 bp2 bp3
    bp_pattern_law = '版权声明[^\s]+追究其相关法律责任。'
    bp_pattern1 = r'目录.*?披露发展报告（\d{4}年）' # 只针对AZ08.pdf
    bp_pattern2 = r'目录.*?白皮书.*?（\d{4}年）'
    bp_pattern3 = r'目录.*?白皮书'
    bp_pattern = bp_pattern_law  +'|'+bp_pattern1+'|'+bp_pattern2+'|'+bp_pattern3
    text = re.sub(bp_pattern,'',text)
    print(text)
    """
    if isinstance(document, list):
        document = "".join(document)

    # |目[\s]*录.*[\.\.\.\.\.]+[0-9]+
    del_pattern = re.compile(r'(版权声明.*?追究其相关法律责任。|目[\s]*录[\s\S]*\.{10,100}[0-9]+)', 
                             re.MULTILINE | re.DOTALL)
    text = del_pattern.sub('', document)
        
    return text
        
f = Path("dataset/A榜/A_document/AZ01.pdf")
# TEMP_REPORT_TEXT = PdfParserUsingPyMuPDF().parse(f, clip=80)
TEMP_BAIPISHU_TEXT = PdfParserUsingPdfPlumber().parse(f, clip=50)
# for i in TEMP_BAIPISHU_TEXT:
#     print(i)
cleaned = cleanup_baipishu(f.name, TEMP_BAIPISHU_TEXT)
cleaned

'No.202323\n中国 5G 发展和经济社会影响\n白皮书\n(2023 年)\n中国信息通信研究院\n2023年12月前 言\n今年我国经济呈现波浪式发展、曲折式前进特征，外部环境动\n荡不安，国内面临有效需求不足、社会预期偏弱、风险隐患较多等\n挑战，因此切实增强经济活力，巩固和增强经济回升向好态势是未\n来长期工作重点。5G 作为支撑经济社会高质量发展的关键基础设施，\n“一业带百业”的重要作用不断彰显，为推动各行各业现代化发展\n提供基础支撑作用，是增强经济活力、推动经济实现量质齐升的重\n要驱动力。\n今年以来我国 5G 在网络建设、用户增长、产业发展、应用创新\n等方面取得积极成效，为 5G 释放对经济社会发展的叠加倍增作用提\n供坚实支撑。2023 年 1-10 月我国新增 5G 基站 90.3 万个，提前完成\n60 万个年新增目标，5G 基站在移动基站总数占比近三成。5G 用户\n渗透率、5G 流量占比均超四成，第三季度 5G 手机出货量同比增长\n34.9%，推动数字消费潜能充分释放。个人应用创新发展，裸眼 3D、\n大模型等提升优化个人用户体验。虚拟电厂、无人机等新兴业态萌\n芽发展，对实体经济提质增效的带动作用逐步凸显。行业应用趋向\n规模发展态势，加速从单环节向全流程覆盖、从外围环节向核心环\n节渗透，彰显赋能赋智作用。\n随着 5G 逐步迈入规模发展期，5G 对经济社会高质量发展的带\n动效应进一步增强。本报告测算了 2023 年 5G 的经济社会影响，预\n计 2023 年 5G 将直接带动经济总产出 1.86 万亿元，直接带动经济增加值约 5512 亿元，分别比 2022 年增长 29%、41%，间接带动总产\n出约 4.24 万亿元，间接带动经济增加值约 1.55 万亿元，分别比 2022\n年增长 22%、22%。推动 5G 规模化发展是一项长期性、复杂性的系\n统工程，需根据 5G 发展的阶段性特征和内在需求，持续夯实网络基\n础能力、增强技术标准创新能力、提升产业生态支撑能力，以扩大\n有效益的投资、激发有潜能的消费、加快数实融合为着力点，推动\n构建现代化产业体系，为全面建设社会主义现代化国家、增强经济\n回升态势提供有力支撑。\n2023 年是中国信息通信研究院发布《中国 5G 发展和经济社会\n影响白皮书》的第四年

In [None]:
__news__ = ["AF", "AT", "AW"]
__report__ = ["AY"]
__baipishu__ = ["AZ"]

data = []
pdf_parser = PdfParserUsingPyMuPDF()
files: List[Path] = list(Path("dataset/A榜/A_document/").rglob("*.pdf"))
for i, pdf_file in enumerate(files):
    code = pdf_file.name[:2]
    if code in __news__:
        doc = pdf_parser.parse(pdf_file)
        cleaned = cleanup_news(pdf_file.name, doc)
        data.append(cleaned)
        print(pdf_file, cleaned.get("发布时间"), cleaned.get("标题"), len(cleaned.get("内容")))

df = pd.DataFrame(data)
print(df.head())
df.to_csv("文档结构化.csv", index=False)