#### 这是为了获取资讯里所有的

In [None]:
import openpyxl

workPlace=openpyxl.load_workbook("../获取校园资讯/校园资讯数据.xlsx")


### 提取标题和时间等

In [1]:
import re
import pandas as pd

# 定义提取活动形式和时间的函数
def extract_event_info(title,notice):
    # 去除“关于举办”，“的通知”等冗余部分
    title_cleaned = re.sub(r"(关于|开展|组织|举办|关于举办|的通知|通知)", "", title)
    
    activity = title_cleaned.strip()  # 获取活动形式，去除两端空格

    # 提取所有的时间范围
    time_pattern = r"(\d{4}年\d{1,2}月\d{1,2}日)"
    time_matches = re.findall(time_pattern, notice)
    
    # 如果找到了多个时间，选择第一个最大的时间（为啥不是倒数第一个？因为通知有落款日期……）
    if time_matches:
        start_time = time_matches[0]
        end_time = max(time_matches)
    else:
        start_time = "未知开始时间"
        end_time = "未知结束时间"

    return activity, start_time, end_time


# 将结果保存到 Excel 文件中
def save_to_excel(data, output_file):
    # 将数据转换为 Pandas DataFrame
    df = pd.DataFrame(data)
    # 保存为 Excel 文件
    df.to_excel(output_file, index=False, sheet_name="活动信息")
    print(f"提取结果已保存到 {output_file}")

# 主程序逻辑
if __name__ == "__main__":
    # 从 Excel 文件读取通知内容
    input_file = "data/活动提取.xlsx"  # 输入文件路径
    try:
        # 读取 Excel 文件
        df = pd.read_excel(input_file)

        # 检查必要的列是否存在
        required_columns = ["发布时间", "通知标题", "浏览量", "通知具体内容"]
        for col in required_columns:
            if col not in df.columns:
                print(f"缺少必要列：{col}")
                exit()

        # 获取每列数据
        publish_time = df["发布时间"].astype(str)
        title = df["通知标题"].astype(str)
        views = df["浏览量"].astype(str)
        content = df["通知具体内容"].astype(str)

        # 初始化结果列表
        result_data = []

        # 逐行处理通知内容
        for i in range(len(content)):
            notice_content = content.iloc[i]
            title_content = title.iloc[i]
            # 提取活动信息
            activity_title, start_time, end_time = extract_event_info(title_content,notice_content)

            # 将结果存入列表
            result_data.append({
                "发布时间": publish_time.iloc[i],
                "通知标题": activity_title,
                "浏览量": views.iloc[i],
                "活动形式": notice_content,
                "开始时间": start_time,
                "结束时间": end_time
            })

    except Exception as e:
        print(f"读取 Excel 文件时出错：{e}")
        exit()

    # 保存结果到 Excel
    output_file = "活动信息汇总.xlsx"
    save_to_excel(result_data, output_file)

    # 打印提取结果
    print("提取的活动信息：")
    for item in result_data:
        print(item)


提取结果已保存到 活动信息汇总.xlsx
提取的活动信息：
{'发布时间': '2024-10-12 00:00:00', '通知标题': '第六届全国大学生期货投资电子对抗赛', '浏览量': '244.0', '活动形式': '各相关院校：\n 建设金融强国，发展新质生产力，是中国式现代化进程的重要推动力。为了培养适应新质生产力需求的金融人才，更好服务国家金融强国建设，进一步深化高校金融学相关专业创新创业教育，在河北省高等学校经济学教学指导委员会、河北省金融学会、河北省证券期货业协会、郑州商品交易所等单位的指导支持下，河北经贸大学与永安期货有限公司研究决定举办第六届期货投资电子对抗大赛。本次大赛旨在锻炼学生在期货投资、交易策略等方面的实践能力、创新能力及团队协作能力，激发自主学习兴趣，促进赛教融合、学以致用，为金融行业及相关产业输送具备厚实理论基础的实战型人才，也为学生将来继续学习深造、参加期货投资等方面的科学研究、实践活动打下坚实基础。现将大赛有关事项通知如下：\n 一、赛事名称\n 第六届全国大学生期货投资电子对抗赛\n 二、举办单位\n 指导单位：河北省教育厅\n 支持单位：河北省高等学校经济学教学指导委员会\n 郑州商品交易所\n 河北省金融学会\n 河北省证券期货业协会\n 发起单位：河北经贸大学\n 永安期货股份有限公司\n 承办单位：河北经贸大学教务处\n 河北经贸大学金融学院\n 永安期货股份有限公司石家庄分公司\n 河北日报金融全媒体中心\n 三、报名及竞赛时间\n 报名时间：2024年10月15日-11月15日\n 拟定培训时间：2024年10月19日至11月24日\n 拟定竞赛及产业论坛时间：2024年11月30日\n 拟定地点：各高校校内现场，大赛网络比赛\n 报名方式：各参赛队（每队5人，不足5人可先行填写报名表，最终由组委会组队）填写并发送报名表（报名表见附件）至报名电子邮箱进行报名，电子邮箱：3503200336@qq.com，报名后请各参赛队队长及时添加组委会工作人员微信，微信号：yaqhly；其他参赛同学可添加QQ号：3503200336；二维码参见下图。\n  \n 四、竞赛形式与日程安排\n 本次大赛各项活动均采取线上、线下结合形式开展。\n 大赛共分为四个阶段，各阶段安排如下：\n \n  \n   \n    时间\n 