In [1]:
from WeiboCrawler import *
from utils import *
from Agents import Coordinator, SentimentAnalysistAgent, TopicModellingAgent, Summarizer
import json
import datetime
import os
import pandas as pd
from tqdm import tqdm
import csv
import matplotlib.pyplot as plt

In [2]:
def conversation_loop():
    """
    与用户持续对话，直到 agent 返回包含所有必需信息的 JSON 格式回复，
    此时调用微博爬虫，并返回生成的 CSV 文件名和事件关键字。
    """
    coordinator = Coordinator(prompt_filepath='./prompts/Coordinator_prompt.txt')
    
    while True:
        user_text = input("请输入查询内容：")
        # 调用 Coordinator 处理用户输入
        response = coordinator.run(user_text)
        response = clean_json_output(response)
        print("Agent 回复：", response)
        
        # 尝试解析回复为 JSON 格式
        try:
            result = json.loads(response)
            required_keys = ["event_keywords", "start_year", "start_month", "start_day", "event_release_platform"]
            if all(key in result for key in required_keys):
                platform = result["event_release_platform"].lower()
                if platform not in ["weibo", "微博"]:
                    print("目前服务仅支持微博平台，请重新提供相关信息。")
                    continue

                try:
                    year = int(result["start_year"])
                    month = int(result["start_month"])
                    day = int(result["start_day"])
                except Exception as e:
                    print("时间信息格式有误，请检查后重试。", e)
                    continue

                # 保存事件关键字（列表格式），取第一个关键字作为爬虫关键字
                event_keywords = result["event_keywords"]
                keyword = event_keywords[0].strip("#")
                
                # 回复格式完整时调用爬虫，并返回 CSV 文件名和事件关键字
                csv_file = run_weibo_crawl(year, month, day, keyword)
                print("微博爬虫已启动，爬取任务开始执行。")
                return csv_file, event_keywords
        except json.JSONDecodeError:
            continue


def perform_sentiment_analysis(csv_file: str):
    """
    读取 CSV 文件，分批调用情感分析 agent，
    并累计统计情感结果。同时将每条微博文本及对应的情感写入 "public_opinion.csv" 文件。
    返回 sentiment_counts 字典。
    """
    df = pd.read_csv(csv_file, encoding='utf-8')
    chunk_size = 10
    num_rows = len(df)
    sentiment_counts = {"positive": 0, "neutral": 0, "negative": 0}
    
    # 输出文件名
    output_file = "sentiment_analysis_output.csv"
    # 检查文件是否存在，若不存在则先创建并写入表头
    if not os.path.exists(output_file):
        with open(output_file, "w", newline='', encoding="utf-8") as f:
            writer = csv.writer(f)
            writer.writerow(["编号", "微博正文", "sentiment"])
    
    for start in tqdm(range(0, num_rows, chunk_size), desc="Processing chunks"):
        # 每个批次重新实例化 agent，避免对话历史过长
        agent = SentimentAnalysistAgent("./prompts/Sentiment_analysist_prompt.txt")
        
        # 取出当前块数据，并为每条微博添加编号
        chunk = df.iloc[start:start + chunk_size].copy()
        chunk.reset_index(drop=True, inplace=True)
        chunk['编号'] = chunk.index + 1
        
        # 拼接每条微博文本（假设 CSV 中的“微博正文”列包含文本）
        query_lines = chunk.apply(lambda row: f"{row['编号']}: {row['微博正文']}", axis=1)
        query = "\n".join(query_lines)
        
        response_str = agent.run(query)
        cleaned_response = clean_json_output(response_str)
        print(cleaned_response)
        
        try:
            response_data = json.loads(cleaned_response)
            # 更新累计情感统计
            summary = response_data.get("summary", {})
            sentiment_counts["positive"] += summary.get("positive", 0)
            sentiment_counts["neutral"] += summary.get("neutral", 0)
            sentiment_counts["negative"] += summary.get("negative", 0)
            
            # 获取每条微博对应的情感结果
            analyses = response_data.get("analyses", [])
            # 检查 analyses 数量是否与当前 chunk 数量一致
            if len(analyses) != len(chunk):
                print("警告：分析结果数量与原始数据数量不匹配！")
            
            # 将每条微博及对应情感写入文件
            with open(output_file, "a", newline='', encoding="utf-8") as f:
                writer = csv.writer(f)
                for i, row in chunk.iterrows():
                    if i < len(analyses):
                        sentiment = analyses[i].get("sentiment", "")
                    else:
                        sentiment = ""
                    writer.writerow([row["编号"], row["微博正文"], sentiment])
        except json.JSONDecodeError as e:
            print("JSON解析失败:", e)

    print("累计情感统计:")
    print("Positive:", sentiment_counts["positive"])
    print("Neutral:", sentiment_counts["neutral"])
    print("Negative:", sentiment_counts["negative"])
    return sentiment_counts, output_file

def perform_topic_analysis(csv_file: str):
    """
    读取 CSV 文件，分批调用 TopicModellingAgent 进行主题分析，
    并根据返回结果更新主题列表和统计每个主题的讨论量，同时将每条公民意见及对应的主题写入 "topic_modelling_output.csv" 文件。
    返回更新后的主题列表和统计字典。
    """
    initial_topics = []
    df = pd.read_csv(csv_file, encoding='utf-8')
    chunk_size = 10
    num_rows = len(df)
    topics = initial_topics.copy()  # 初始化主题列表
    topic_counts = {}  # 初始化每个主题的讨论量统计

    output_file = "topic_modelling_output.csv"
    # 检查文件是否存在，若不存在则创建并写入表头
    if not os.path.exists(output_file):
        with open(output_file, "w", newline='', encoding="utf-8") as f:
            writer = csv.writer(f)
            writer.writerow(["编号", "微博正文", "topics"])

    for start in tqdm(range(0, num_rows, chunk_size), desc="Processing chunks"):
        # 每个批次重新实例化 agent，避免对话历史过长
        agent = TopicModellingAgent("./prompts/Topic_modelling_prompt.txt")
        
        # 取出当前块数据，并为每条数据添加编号
        chunk = df.iloc[start:start + chunk_size].copy()
        chunk.reset_index(drop=True, inplace=True)
        chunk['编号'] = chunk.index + 1
        
        # 拼接每条公民意见数据（假设 CSV 中的“微博正文”列包含公民意见）
        query_lines = chunk.apply(lambda row: f"{row['编号']}: {row['微博正文']}", axis=1)
        opinions_text = "\n".join(query_lines)
        
        # 构造 query：包含当前批次的公民意见和已确定的主题列表
        topics_str = ", ".join(topics) if topics else "无"
        query = (
            f"请基于以下公民意见数据和当前主题列表进行主题分析：\n\n"
            f"公民意见：\n{opinions_text}\n\n"
            f"当前主题列表：{topics_str}\n\n"
        )
        
        response_str = agent.run(query)
        cleaned_response = clean_json_output(response_str)
        print(cleaned_response)
        
        try:
            response_data = json.loads(cleaned_response)
            analyses = response_data.get("analyses", [])
            # 将每条公民意见及对应的主题写入文件
            with open(output_file, "a", newline='', encoding="utf-8") as f:
                writer = csv.writer(f)
                if len(analyses) != len(chunk):
                    print("警告：分析结果数量与原始数据数量不匹配！")
                for i, row in chunk.iterrows():
                    if i < len(analyses):
                        topics_list = analyses[i].get("topics", [])
                        topics_output = ", ".join(topic.strip() for topic in topics_list if topic.strip())
                    else:
                        topics_output = ""
                    writer.writerow([row["编号"], row["微博正文"], topics_output])
            
            # 更新主题列表和讨论量统计
            for item in analyses:
                topics_list = item.get("topics", [])
                for topic in topics_list:
                    topic = topic.strip()
                    if topic:
                        if topic not in topics:
                            topics.append(topic)
                            print("新增主题：", topic)
                        if topic in topic_counts:
                            topic_counts[topic] += 1
                        else:
                            topic_counts[topic] = 1
        except json.JSONDecodeError as e:
            print("JSON解析失败:", e)

    print("更新后的主题列表:")
    print(topics)
    print("每个主题的讨论量:")
    print(topic_counts)
    return topic_counts, output_file

def summarize_sentiment_event(event_keywords, sentiment_counts):
    """
    根据事件关键字和累积情感统计生成总结的 prompt，
    并调用 Summarizer agent 返回清洗后的事件总结。
    
    参数:
        event_keywords: 事件关键字列表（例如 ["#金价上涨#"]，取第一个关键字）
        sentiment_counts: 累积情感统计字典，包含 "positive", "neutral", "negative"
        
    返回:
        Summarizer 生成的事件总结文本（清洗后的结果）
    """
    if isinstance(event_keywords, list):
        event_keyword = event_keywords[0]
    else:
        event_keyword = event_keywords

    prompt = (
        f"请帮我对 {event_keyword} 事件进行总结，它的累计情感统计:\n"
        f"Positive: {sentiment_counts['positive']}\n"
        f"Neutral: {sentiment_counts['neutral']}\n"
        f"Negative: {sentiment_counts['negative']}"
    )
    print(prompt)
    summarizer = Summarizer("./prompts/Summarizer_sentiment.txt")
    summarizer_response = summarizer.run(prompt)
    cleaned_summary_response = clean_json_output(summarizer_response)
    
    return cleaned_summary_response

def summarize_topic_event(event_keywords, topic_counts):
    """
    根据事件关键字和主题讨论量生成总结的 prompt，
    并调用 Summarizer agent 返回清洗后的事件总结。

    参数:
        event_keywords: 事件关键字列表（例如 ["#深圳疫情#"]，取第一个关键字）
        topic_counts: 累积主题讨论量统计字典，例如:
                      {'深圳市民对疫情的不满情绪': 7, '深圳疫情防控措施': 12, ...}
        
    返回:
        Summarizer 生成的事件总结文本（清洗后的结果）
    """
    # 取出事件关键字（若为列表则取第一个）
    if isinstance(event_keywords, list):
        event_keyword = event_keywords[0]
    else:
        event_keyword = event_keywords

    # 构造主题统计部分的文本，每行格式为 "主题: 讨论量"
    topics_str = ""
    for topic, count in topic_counts.items():
        topics_str += f"{topic}: {count}\n"

    prompt = (
        f"请帮我对 {event_keyword} 事件进行总结，以下是各主题的讨论量统计：\n"
        f"{topics_str}"
    )
    print(prompt)
    
    # 使用 Summarizer agent（系统提示路径为 "./prompts/Summarizer_topic_sentiment.txt"）
    summarizer = Summarizer("./prompts/Summarizer_topic.txt")
    summarizer_response = summarizer.run(prompt)
    cleaned_summary_response = clean_json_output(summarizer_response)
    
    return cleaned_summary_response

def summarize_event(event_keyword, sentiment_summary=None, topic_summary=None, merged_analysis=None):
    """
    合并情感分析总结、主题分析总结以及合并统计信息，并生成最终事件总结。

    参数:
        event_keyword: 事件关键字（例如 "#深圳疫情#"）
        sentiment_summary: 情感分析生成的总结文本（字符串，可为 None）
        topic_summary: 主题分析生成的总结文本（字符串，可为 None）
        merged_analysis: 合并统计信息，可以是包含 topics 对应 sentiment 数量统计的 DataFrame 或字符串

    返回:
        Summarizer agent 生成的最终事件总结文本（清洗后的结果）
    """
    # 将 merged_analysis 转换为字符串（如果它是 DataFrame）
    if merged_analysis is not None:
        if hasattr(merged_analysis, 'to_string'):
            merged_analysis_str = merged_analysis.to_string()
        else:
            merged_analysis_str = str(merged_analysis)
    else:
        merged_analysis_str = "无"
    
    sentiment_text = sentiment_summary if sentiment_summary is not None else "无"
    topic_text = topic_summary if topic_summary is not None else "无"
    
    prompt = (
        f"请帮我对 {event_keyword} 事件进行总结，综合以下三部分信息：\n\n"
        f"【情感分析总结】:\n{sentiment_text}\n\n"
        f"【主题分析总结】:\n{topic_text}\n\n"
        f"【合并统计信息】:\n{merged_analysis_str}\n\n"
        "请生成最终的事件总结。"
    )
    print(prompt)
    
    summarizer = Summarizer("./prompts/Summarizer_topic.txt")
    summarizer_response = summarizer.run(prompt)
    cleaned_summary_response = clean_json_output(summarizer_response)
    
    return cleaned_summary_response

if __name__ == "__main__":
    # 第一步：对话获取参数，并启动微博爬虫
    csv_file, event_keywords = conversation_loop()
    
    if os.path.exists(csv_file):
        # 第二步：进行情感分析，累计情感统计
        sentiment_counts, sentiment_output = perform_sentiment_analysis(csv_file)
        topic_counts, topic_output = perform_topic_analysis(csv_file)
        # 第三步：生成事件总结并调用 Summarizer 生成最终总结
        sentiment_summary = summarize_sentiment_event(event_keywords, sentiment_counts)
        topic_summary = summarize_topic_event(event_keywords, topic_counts)
        print("sentiment总结回复：", sentiment_summary)
        print("topic总结回复：", topic_summary)

        merged_analysis = merge_and_analyze(sentiment_output, topic_output)
        summary = summarize_event(event_keywords, sentiment_summary, topic_counts, print(merged_analysis.to_string()))
        print("综合分析回复：", summary)

        
    else:
        print("爬虫生成的 CSV 文件不存在，请检查。")


请输入查询内容： 金价 微博 2025


Agent 回复： 请确认以下事件信息：  
- 事件关键词：请提供与事件相关的具体关键词，例如“#金价上涨#”或“#黄金价格#”。  
- 事件开始时间：您的查询包含年份 2025，但缺少具体月份和日期，请补充完整。  
- 事件发布平台：您提到的是微博，确认是否以微博为主？  

请您补充缺失的信息，以便我为您提供准确的结果。


请输入查询内容： 2025-2-28


Agent 回复： 请确认以下事件信息：  
- **事件关键词**：请提供与事件相关的具体关键词，例如“#金价上涨#”或“#黄金价格#”。  
- **事件开始时间**：2025 年 2 月 28 日（确认无误）。  
- **事件发布平台**：您提到的是微博，确认是否以微博为主？  

请您补充缺失的事件关键词，并确认平台信息，以便我为您提供准确的结果。


请输入查询内容： 金价 微博 2025-2-28


Agent 回复： {
    "event_keywords": ["#金价#"],
    "start_year": "2025",
    "start_month": "2",
    "start_day": "28",
    "event_release_platform": "微博"
}
开始爬取[从2025-02-28-00到2025-02-28-01],第1页
200
【parse_weibo_time】 解析前: 02月28日 00:58
【parse_weibo_time】 解析后: 2025-02-28 00:58:00
微博正文： 一周给黄朔花了六百多万😮我每周平均看黄朔的视频和微博照片15个小时也就是900分钟，已知一寸光阴一寸金，一寸光阴=72分钟，一寸金=713克。2月27日金价1克约674元。也就是说900/72x713x674=6007025元还真是不算不知道，一算吓一跳！！！@TF家族-黄朔 ​
【parse_weibo_time】 解析前: 02月28日 00:56
【parse_weibo_time】 解析后: 2025-02-28 00:56:00
微博正文： 2025年2月，现货黄金价格已攀升至历史新高，黄金门店门口也挤成了菜市场。但，我们真的了解黄金么？本期节目，我们邀请基金博主“北漂民工的日常”，聊聊黄金的本质与黄金投资的本质，也试图讨论此时此刻黄金是否还值得投资、以及普通人更应该如何投资（机）黄金。主播 / 王妈妈  珂珂  嘉宾 / @北漂民工的日常 音频剪辑 / 珂珂 Shownotes / 王妈妈接下来你将听到：⭕️ 2025年这波「黄金热」，市场核心驱动因素是什么？⭕️ 黄金作为宇宙级硬通，本质是无息的超主权国债⭕️ 宋朝的县令和现在的县长，年薪都是20万元等值黄金⭕️ 看涨黄金=做空美元指数？不能通过其它资产走势反推金价⭕️ 实物黄金/黄金ETF/黄金期货/黄金股，哪家强？⭕️ 黄金的最佳买点在哪里：你是否真的需要黄金？课本上曾说“金银天然不是货币，但货币天然是金银”，似乎我生而有涯、但黄金的价值无涯。关于黄金的故事跨越千年，欢迎大家在本期节目留下咱们这代人的注脚——你最近，买金了吗？****节目不构成投资建议，赚钱不易，投资需谨慎！**** 无时差研究所等人的共创音频 #微博声浪计划# #听见微博#

Processing chunks:  20%|█████▏                    | 1/5 [00:04<00:16,  4.20s/it]

{
    "analyses": [
        {
            "entry": "一周给黄朔花了六百多万😮我每周平均看黄朔的视频和微博照片15个小时...",
            "sentiment": "positive"
        },
        {
            "entry": "2025年2月，现货黄金价格已攀升至历史新高，黄金门店门口也挤成了菜市场...",
            "sentiment": "neutral"
        },
        {
            "entry": "女子嫌金价太高在家自制金戒指安徽马鞍山的一位女子因不满市场上高昂的金价...",
            "sentiment": "positive"
        },
        {
            "entry": "避险情绪大幅降温，金价失守2900美元 O网页链接 2月27日，国际黄金价格掉头向下...",
            "sentiment": "neutral"
        },
        {
            "entry": "金价耶普达",
            "sentiment": "neutral"
        },
        {
            "entry": "被ss打电话也只会温温柔柔金价唷……，妖魔鬼怪快离开他aaaa",
            "sentiment": "neutral"
        },
        {
            "entry": "#女子嫌金价太高在家自制金戒指#自制金戒指首先得有金子，把金子熔了之后放模具里",
            "sentiment": "neutral"
        },
        {
            "entry": "#金价# 什么时候跌？我去囤",
            "sentiment": "neutral"
        },
        {
            "entry": "结束一天的投资盯盘，给自己的心放个假。在睡梦中忘掉K线的起伏，等你醒来...",
          

Processing chunks:  40%|██████████▍               | 2/5 [00:14<00:23,  7.87s/it]

{
    "analyses": [
        {
            "entry": "#女子嫌金价太高在家自制金戒指#啊？在家做还不还不是要买黄金这ct意义是…？",
            "sentiment": "neutral"
        },
        {
            "entry": "情人节一天没动静，不像是哥哥的风格，到下午直接给我来了一个大惊喜。🚄休假！，上车还不忘委屈的说太匆忙了时间紧赶车没准备礼物，我说你就是情人节最好的礼物呀。出去逛街路过老凤祥，骗我说进去看看金价多少不买，我也千叮咛万嘱咐一定不买就去看看，进去以后说以后每年最少给我买一个小金锭。从金店把他拖出来了好几次还是拗不过他。最后我挑了一个我喜欢的他挑了一个他喜欢的。我非只要一个，他说不用纠结都要！这句话买订婚金首饰的时候也是这么说的，当时我纠结两款，哥哥也是说同样的话，不用纠结，都要！最后琉璃馆特别值得打卡 收起d",
            "sentiment": "positive"
        },
        {
            "entry": "#女子嫌金价太高在家自制金戒指#这真是学到了啊……不过就差一块金子了……搞得我也想自己做了手工费买45克的金手镯，手工费差不多5000真的很贵啊，当然了可能兜里钱太少了，有钱人不在乎这种小钱……",
            "sentiment": "neutral"
        },
        {
            "entry": "【女子嫌金价太高在家自制金戒指】近日，安徽马鞍山一位女子因金价太高在家自制金戒指并一次成功，引发网络热议。 国际金价连续18个月上涨，周大福等知名品牌的金饰价格已经突破650元/克，高昂的价格让消费者购买金饰压力增大。 制作过程：该女子制作金戒指的工具为火枪、模具和耐火砖。她将自家留存的碎金子放在耐火砖上，用火枪持续加热3到5分钟，待金子呈柔软状态，再利用压力罐施压，戒指雏形初步成型，全程耗时不到10分钟，几乎无打磨环节，损耗极小。网友惊叹于女子的创意和动手能力，不少人跃跃欲试。该事件反映出消费者面对金价上涨，从“购买成品”转向“参与创造”的消费观念转变。",
            "sentiment": "posit

Processing chunks:  60%|███████████████▌          | 3/5 [00:20<00:14,  7.05s/it]

{
    "analyses": [
        {
            "entry": "#女子嫌金价太高在家自制金戒指#好厉害啊 ​",
            "sentiment": "positive"
        },
        {
            "entry": "#女子嫌金价太高在家自制金戒指#还是有点技术的，不过还是要注意安全，尽量还是小心点好 ​",
            "sentiment": "neutral"
        },
        {
            "entry": "黄金还是没回头#黄金##金价##现货黄金#黄金超话 L南篱论金等人的共创视频 ​",
            "sentiment": "neutral"
        },
        {
            "entry": "#女子嫌金价太高在家自制金戒指#自己做一个很好了啊 ​",
            "sentiment": "positive"
        },
        {
            "entry": "#女子嫌金价太高在家自制金戒指#这和金价有啥关系，我以为她自己造出金子来了，是小编有问题还是她有问题？ ​",
            "sentiment": "negative"
        },
        {
            "entry": "#女子嫌金价太高在家自制金戒指#哈哈动手能力挺强的 ​",
            "sentiment": "positive"
        },
        {
            "entry": "周四完美收场做一个靠谱的人，凡事有交代，单单有着落，事事有回音，老敬一直致力于市场，唯有坚持真诚和靠谱的技术，那么我相信：路遥知马力日久见人心，明天黑五见！# 黄金##金价# ​",
            "sentiment": "neutral"
        },
        {
            "entry": "#女子嫌金价太高在家自制金戒指#这么厉害没金店的事儿了 ​",
            "sentiment": "positive"
      

Processing chunks:  80%|████████████████████▊     | 4/5 [00:35<00:09,  9.91s/it]

{
    "analyses": [
        {
            "entry": "#女子嫌金价太高在家自制金戒指#好了，我已经学会啦，现在就差一块黄金，请问在哪里领 ​",
            "sentiment": "positive"
        },
        {
            "entry": "哇，第一次知道还可以自己整的，我明白自己弄的没有专业的精致，但是，无所谓啊，金子是真的就可以了，尤其看到无损耗，那么其他的首饰是不是也可以自己弄呢？只要无损耗，自己随便整，不喜欢了咱有时间的再整另一个样式#女子嫌金价太高在家自制金戒指# ​",
            "sentiment": "positive"
        },
        {
            "entry": "日常超话刚结束户外运动，浑身舒畅，直奔水果奶昔小推车。挑了芒果、橙子和酸奶口味。老板熟练地将芒果切块、橙子剥瓣，与酸奶一同放入搅拌机。很快，一杯诱人的奶昔就做好了。奶昔顶上有细腻奶泡，下面丝滑且带果肉纤维。轻吸一口，酸奶的酸先刺激味蕾，接着芒果香甜袭来，随后橙子的清新融入，冰沙凉意驱散燥热，层次丰富。和朋友玩耍聊天时，不时喝上一口。它不只是饮品，更是欢乐的调味剂，为玩乐时光添彩 。 #建议春节假期取消调休#能不能所有的调休都取消#女子嫌金价太高在家自制金戒指#动手能力不戳 LMD_高乐高啊的微博视频 收起d",
            "sentiment": "positive"
        },
        {
            "entry": "#女子嫌金价太高在家自制金戒指#看标题还以为自己炼金呢 ​",
            "sentiment": "neutral"
        },
        {
            "entry": "今晚黄金暴跌美股大跌，到底发生了什么会利好A股吗：2025年2月27日晚上国际金价暴跌，截至目前黄金价格暴跌1.67%，跌破了2900美元支撑位；美股纳指暴跌1.30%，已经跌破了19000点支撑位；因为美元指数今晚大涨了0.68%，美元强势上涨！蛇年以来，国债ETF也是暴跌，红利资金也是暴跌，数字货币也是暴跌，国际原油也暴跌！一句话，凡是去

Processing chunks: 100%|██████████████████████████| 5/5 [00:38<00:00,  7.78s/it]


{
    "analyses": [
        {
            "entry": "#女子嫌金价太高在家自制金戒指#啊？不是？bur？化学好原来是这么用的……？炼金术2025……？啊？ ​",
            "sentiment": "neutral"
        },
        {
            "entry": "【是谁狠狠心动了！#女子嫌金价太高在家自制金戒指#】 2月26日（发布）安徽马鞍山。一女子为省钱，在家自己打金戒指，没想到一次就成功了。女生称，制作工具只需要火枪、模具、耐火砖，基本没怎么打磨，所以没什么损耗。网友：#看金价都把大家逼成啥样了#！ #金价# 都市频道 L都市频道的微博视频 收起d",
            "sentiment": "neutral"
        },
        {
            "entry": "#女子嫌金价太高在家自制金戒指# 真厉害啊  ​",
            "sentiment": "positive"
        },
        {
            "entry": "【是谁狠狠心动了！#女子嫌金价太高在家自制金戒指#】 2月26日（发布）安徽马鞍山。一女子为省钱，在家自己打金戒指，没想到一次就成功了。女生称，制作工具只需要火枪、模具、耐火砖，基本没怎么打磨，所以没什么损耗。网友：#看金价都把大家逼成啥样了#！ #金价# 都市频道 L都市频道的微博视频 收起d",
            "sentiment": "neutral"
        }
    ],
    "summary": {
        "positive": 1,
        "neutral": 3,
        "negative": 0
    }
}
累计情感统计:
Positive: 19
Neutral: 23
Negative: 2


Processing chunks:  20%|█████▏                    | 1/5 [00:15<01:03, 16.00s/it]

{
    "analyses": [
        {
            "entry": "一周给黄朔花了六百多万😮我每周平均看黄朔的视频和微博照片15个小时也就是900分钟，已知一寸光阴一寸金，一寸光阴=72分钟，一寸金=713克。2月27日金价1克约674元。也就是说900/72x713x674=6007025元还真是不算不知道，一算吓一跳！！！@TF家族-黄朔 ​",
            "topics": []
        },
        {
            "entry": "2025年2月，现货黄金价格已攀升至历史新高，黄金门店门口也挤成了菜市场。但，我们真的了解黄金么？本期节目，我们邀请基金博主“北漂民工的日常”，聊聊黄金的本质与黄金投资的本质，也试图讨论此时此刻黄金是否还值得投资、以及普通人更应该如何投资（机）黄金。主播 / 王妈妈  珂珂  嘉宾 / @北漂民工的日常 音频剪辑 / 珂珂 Shownotes / 王妈妈接下来你将听到：⭕️ 2025年这波「黄金热」，市场核心驱动因素是什么？⭕️ 黄金作为宇宙级硬通，本质是无息的超主权国债⭕️ 宋朝的县令和现在的县长，年薪都是20万元等值黄金⭕️ 看涨黄金=做空美元指数？不能通过其它资产走势反推金价⭕️ 实物黄金/黄金ETF/黄金期货/黄金股，哪家强？⭕️ 黄金的最佳买点在哪里：你是否真的需要黄金？课本上曾说“金银天然不是货币，但货币天然是金银”，似乎我生而有涯、但黄金的价值无涯。关于黄金的故事跨越千年，欢迎大家在本期节目留下咱们这代人的注脚——你最近，买金了吗？****节目不构成投资建议，赚钱不易，投资需谨慎！**** 无时差研究所等人的共创音频 #微博声浪计划# #听见微博# #黄金# 黄金超话 收起d",
            "topics": ["黄金价格上涨", "黄金投资趋势"]
        },
        {
            "entry": "女子嫌金价太高在家自制金戒指安徽马鞍山的一位女子因不满市场上高昂的金价，选择在家自制金戒指。她通过自学金属加工，使用火枪、模具和耐火砖等工具，成功制作出金戒指，几乎没有损耗。这一事件引发了广泛讨论，展示了个人的创造力和对高物价的应对智慧。许多人对她的勇气和创造力表示赞赏，认为这是可喜的创新

Processing chunks:  40%|██████████▍               | 2/5 [00:27<00:39, 13.07s/it]

{
    "analyses": [
        {
            "entry": "#女子嫌金价太高在家自制金戒指#啊？在家做还不还不是要买黄金这ct意义是…？",
            "topics": ["消费者对高金价的应对"]
        },
        {
            "entry": "情人节一天没动静，不像是哥哥的风格，到下午直接给我来了一个大惊喜。🚄休假！，上车还不忘委屈的说太匆忙了时间紧赶车没准备礼物，我说你就是情人节最好的礼物呀。出去逛街路过老凤祥，骗我说进去看看金价多少不买，我也千叮咛万嘱咐一定不买就去看看，进去以后说以后每年最少给我买一个小金锭。从金店把他拖出来了好几次还是拗不过他。最后我挑了一个我喜欢的他挑了一个他喜欢的。我非只要一个，他说不用纠结都要！这句话买订婚金首饰的时候也是这么说的，当时我纠结两款，哥哥也是说同样的话，不用纠结，都要！最后琉璃馆特别值得打卡 收起d",
            "topics": ["黄金价格上涨", "消费者对高金价的应对"]
        },
        {
            "entry": "#女子嫌金价太高在家自制金戒指#这真是学到了啊……不过就差一块金子了……搞得我也想自己做了手工费买45克的金手镯，手工费差不多5000真的很贵啊，当然了可能兜里钱太少了，有钱人不在乎这种小钱……",
            "topics": ["消费者对高金价的应对"]
        },
        {
            "entry": "【女子嫌金价太高在家自制金戒指】近日，安徽马鞍山一位女子因金价太高在家自制金戒指并一次成功，引发网络热议。 国际金价连续18个月上涨，周大福等知名品牌的金饰价格已经突破650元/克，高昂的价格让消费者购买金饰压力增大。 制作过程：该女子制作金戒指的工具为火枪、模具和耐火砖。她将自家留存的碎金子放在耐火砖上，用火枪持续加热3到5分钟，待金子呈柔软状态，再利用压力罐施压，戒指雏形初步成型，全程耗时不到10分钟，几乎无打磨环节，损耗极小。网友惊叹于女子的创意和动手能力，不少人跃跃欲试。该事件反映出消费者面对金价上涨，从“购买成品”转向“参与创造”的消费观念转变。",
            "top

Processing chunks:  60%|███████████████▌          | 3/5 [00:33<00:19,  9.94s/it]

{
    "analyses": [
        {
            "entry": "#女子嫌金价太高在家自制金戒指#好厉害啊 ​",
            "topics": ["消费者对高金价的应对"]
        },
        {
            "entry": "#女子嫌金价太高在家自制金戒指#还是有点技术的，不过还是要注意安全，尽量还是小心点好 ​",
            "topics": ["消费者对高金价的应对"]
        },
        {
            "entry": "黄金还是没回头#黄金##金价##现货黄金#黄金超话 L南篱论金等人的共创视频 ​",
            "topics": ["黄金价格波动"]
        },
        {
            "entry": "#女子嫌金价太高在家自制金戒指#自己做一个很好了啊 ​",
            "topics": ["消费者对高金价的应对"]
        },
        {
            "entry": "#女子嫌金价太高在家自制金戒指#这和金价有啥关系，我以为她自己造出金子来了，是小编有问题还是她有问题？ ​",
            "topics": ["消费者对高金价的应对"]
        },
        {
            "entry": "#女子嫌金价太高在家自制金戒指#哈哈动手能力挺强的 ​",
            "topics": ["消费者对高金价的应对"]
        },
        {
            "entry": "周四完美收场做一个靠谱的人，凡事有交代，单单有着落，事事有回音，老敬一直致力于市场，唯有坚持真诚和靠谱的技术，那么我相信：路遥知马力日久见人心，明天黑五见！# 黄金##金价# ​",
            "topics": ["黄金投资趋势"]
        },
        {
            "entry": "#女子嫌金价太高在家自制金戒指#这么厉害没金店的事儿了 ​",
            "topics": ["消费者对高金价的应对"]
   

Processing chunks:  80%|████████████████████▊     | 4/5 [00:38<00:08,  8.22s/it]

{
    "analyses": [
        {
            "entry": "好了，我已经学会啦， 现在就差一块黄金，请问在哪里领",
            "topics": ["消费者对高金价的应对"]
        },
        {
            "entry": "哇，第一次知道还可以自己整的，我明白自己弄的没有专业的精致，但是，无所谓啊，金子是真的就可以了，尤其看到无损耗，那么其他的首饰是不是也可以自己弄呢？只要无损耗，自己随便整，不喜欢了咱有时间的再整另一个样式",
            "topics": ["消费者对高金价的应对"]
        },
        {
            "entry": "刚结束户外运动，浑身舒畅，直奔水果奶昔小推车。挑了芒果、橙子和酸奶口味。 老板熟练地将芒果切块、橙子剥瓣，与酸奶一同放入搅拌机。很快，一杯诱人的奶昔就做好了。",
            "topics": []
        },
        {
            "entry": "看标题还以为自己炼金呢",
            "topics": []
        },
        {
            "entry": "今晚黄金暴跌美股大跌，到底发生了什么会利好A股吗：2025年2月27日晚上国际金价暴跌，截至目前黄金价格暴跌1.67%，跌破了2900美元支撑位；美股纳指暴跌1.30%，已经跌破了19000点支撑位",
            "topics": ["黄金价格波动", "黄金投资趋势"]
        },
        {
            "entry": "哇塞",
            "topics": []
        },
        {
            "entry": "安徽马鞍山。一女子为省钱，在家自己打金戒指，没想到一次就成功了。女生称，制作工具只需要火枪、模具、耐火砖，基本没怎么打磨，所以没什么损耗。网友：看金价都把大家逼成啥样了！",
            "topics": ["消费者对高金价的应对"]
        },
        {
            "en

Processing chunks: 100%|██████████████████████████| 5/5 [00:42<00:00,  8.51s/it]

{
    "analyses": [
        {
            "entry": "#女子嫌金价太高在家自制金戒指#啊？不是？bur？化学好原来是这么用的……？炼金术2025……？啊？ ​",
            "topics": []
        },
        {
            "entry": "【是谁狠狠心动了！#女子嫌金价太高在家自制金戒指#】 2月26日（发布）安徽马鞍山。一女子为省钱，在家自己打金戒指，没想到一次就成功了。女生称，制作工具只需要火枪、模具、耐火砖，基本没怎么打磨，所以没什么损耗。网友：#看金价都把大家逼成啥样了#！ #金价# 都市频道 L都市频道的微博视频 收起d",
            "topics": ["消费者对高金价的应对"]
        },
        {
            "entry": "#女子嫌金价太高在家自制金戒指# 真厉害啊  ​",
            "topics": []
        },
        {
            "entry": "【是谁狠狠心动了！#女子嫌金价太高在家自制金戒指#】 2月26日（发布）安徽马鞍山。一女子为省钱，在家自己打金戒指，没想到一次就成功了。女生称，制作工具只需要火枪、模具、耐火砖，基本没怎么打磨，所以没什么损耗。网友：#看金价都把大家逼成啥样了#！ #金价# 都市频道 L都市频道的微博视频 收起d",
            "topics": ["消费者对高金价的应对"]
        }
    ]
}
更新后的主题列表:
['黄金价格上涨', '黄金投资趋势', '消费者对高金价的应对', '黄金价格波动']
每个主题的讨论量:
{'黄金价格上涨': 4, '黄金投资趋势': 6, '消费者对高金价的应对': 23, '黄金价格波动': 8}
请帮我对 #金价# 事件进行总结，它的累计情感统计:
Positive: 19
Neutral: 23
Negative: 2





请帮我对 #金价# 事件进行总结，以下是各主题的讨论量统计：
黄金价格上涨: 4
黄金投资趋势: 6
消费者对高金价的应对: 23
黄金价格波动: 8

sentiment总结回复： 针对 #金价# 事件的情感分析结果表明，整体舆论氛围较为积极。具体而言，在相关讨论中，**正面情绪占据主导地位**，共有 **19 条** 正面帖子，占比 **43.2%**；**中立情绪** 相关的帖子共有 **23 条**，占比 **52.3%**，显示出相当一部分网友持观望或理性分析态度；而**负面帖子仅有 2 条，占比 4.5%**，说明市场情绪相对稳定，未出现显著的不满或担忧声音。  

从整体趋势来看，金价话题受到的关注较高，其中大多数用户对金价走势持乐观或中立态度，可能是由于市场表现稳定、投资者信心较强，或者近期金价上涨带来的利好情绪。此外，负面情绪占比较低，可能意味着当前金价变动未引发过多焦虑或负面解读。  

相比过往类似经济话题，这一结果显示，投资者和公众面对金价变动的情绪较为平稳，并未出现明显的恐慌情绪，未来走势或许仍将受到市场基本面和国际经济环境的进一步影响。
topic总结回复： 对#金价#事件的讨论数据显示，本次话题的关注点主要集中在“消费者对高金价的应对”上，该话题的讨论量达 **23** 条，占总体讨论的 **52.27%**，表明公众更倾向于关注金价升高后对自身的影响及应对方式，如减少购买、调整投资策略等。  

其次，“黄金投资趋势”成为第二大讨论点，累积 **6** 条讨论，占比 **13.64%**。这一比例虽不及消费者视角的讨论，但仍反映出部分投资者对黄金作为避险资产的关注，可能与近期市场波动以及避险需求上升有关。  

“黄金价格波动”这一话题获得 **8** 条讨论，占比 **18.18%**，也显示了一定的市场关注度。由于黄金价格通常受国际因素、通胀压力以及货币政策影响，投资者可能在密切关注金价的短期走势，以便做出相应决策。  

相较之下，“黄金价格上涨”话题的讨论量最少，仅 **4** 条，占比 **9.09%**。这表明市场对单纯价格上涨本身的兴趣较低，公众更偏向关注涨价后的影响及应对策略，而不仅仅是信息的传播。  

综上所述，本次#金价# 事件的舆论热点主要围绕高金价对普通消费者的影响以及投资趋势展开，反映出大众更加务实地看待黄

In [5]:
topic_summary = summarize_event(event_keywords, sentiment_summary, topic_counts, str(merged_analysis))

请帮我对 ['#金价#'] 事件进行总结，综合以下三部分信息：

【情感分析总结】:
对 #金价# 事件的情感统计进行分析后，可以明显看出整体情绪较为正面。具体而言，积极情绪的帖子有 **17 条，占比 40.5%**，显示出公众对金价相关话题持较乐观态度；**中立情绪**的帖子有 **24 条，占比 57.1%**，表明不少人更多是在客观讨论金价走势，或持观望态度；而 **负面情绪**的帖子仅 **3 条，占比 7.1%**，说明市场情绪总体较为平稳，未出现较大范围的消极反应。  

这一趋势可能反映了当前金价波动带来的乐观预期，或市场对黄金投资的稳定信心。而中立态度占比较高，可能意味着不少用户仍在关注走势变化，保持理性分析。此外，负面声音较少，说明金价相关话题未引发明显的焦虑或担忧。  

综合来看，#金价# 话题在舆论场上总体表现为乐观且理性，市场关注度较高，但多数人持观望或理性分析态度。

【主题分析总结】:
{'2025年黄金价格上涨': 1, '普通人黄金投资策略': 1, '金价上涨引发的消费者应对措施': 10, '个人自制金饰的安全与法律问题': 9, '黄金市场价格波动': 5, '美联储政策对黄金市场的影响': 2, '地缘局势对黄金价格的影响': 1, '个人和机构投资者黄金投资趋势': 1, '公众对黄金价格走势的关注': 3, 'A股市场与黄金市场的关联': 3}

【合并统计信息】:
sentiment                       negative  neutral  positive  total
topics                                                            
消费者对高金价的应对措施                          10       38        54    102
个人创新应对高物价                              6       37        41     84
个人自制金饰现象及安全问题                          6       13        35     54
公众对黄金价格走势的关注                           0       4

In [8]:
str(merged_analysis)

'sentiment                       negative  neutral  positive  total\ntopics                                                            \n消费者对高金价的应对措施                          10       38        54    102\n个人创新应对高物价                              6       37        41     84\n个人自制金饰现象及安全问题                          6       13        35     54\n公众对黄金价格走势的关注                           0       42         0     42\n金价上涨引发的消费者应对措施, 个人自制金饰的安全与法律问题         4       23        15     42\n...                                  ...      ...       ...    ...\n黄金市场与股市行情联动, 黄金投资及投资策略                 0        0         6      6\n黄金投资策略                                 0        6         0      6\n黄金投资热潮, 黄金价格走势, 黄金投资情绪                 0        6         0      6\n黄金投资热潮, 黄金价格走势                         0        6         0      6\n黄金投资策略, 黄金市场波动与投资情绪                    0        0         6      6\n\n[61 rows x 4 columns]'

In [3]:
merged_analysis

sentiment,negative,neutral,positive,total
topics,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
消费者对高金价的应对,1,10,9,20
黄金价格波动,0,3,1,4
"黄金价格波动, 黄金投资趋势",1,2,1,4
"黄金价格上涨, 消费者对高金价的应对",0,0,3,3
"黄金价格上涨, 黄金投资趋势",0,1,0,1
黄金投资趋势,0,1,0,1


#金价# 事件的情感统计分析表明，整体舆论趋向于正面评价。在所有相关帖子中，**正面情绪占据主导地位，共有 17 条正面帖文，占比 40.5%**。这表明多数公众对黄金价格相关话题持有积极态度，可能是由于近期金价上涨，带来了投资者的乐观情绪，或者黄金市场的稳定性增强了公众信心。  

**中立情绪略占优势，共 23 条，占比 54.8%**。这表明相当一部分网民更多是在客观讨论金价走势，而非直接呈现强烈的情感反应。可能的原因包括人们关注市场动态，但持谨慎观察态度，尚未表现出明确的情绪倾向。  

**负面情绪最少，仅 2 条，占比 4.8%**，显示出公众对于金价话题的负面反应很少。这或许意味着当前的金价变动并未引起市场的广泛担忧，或者金价的走势对大部分人而言尚未产生明显的不利影响。  

综合来看，本次 #金价# 的舆论环境较为健康，以中立和正面情绪为主，负面讨论极少。若金价继续呈稳定甚至上涨趋势，市场信心或将进一步增强，带动更多正面情绪的涌现。

In [3]:
def perform_topic_analysis(csv_file: str, initial_topics: list):
    """
    读取 CSV 文件，分批调用 TopicModellingAgent 进行主题分析，
    并根据返回结果更新主题列表和统计每个主题的讨论量，同时将每条公民意见及对应的主题写入 "topic_modelling_output.csv" 文件。
    返回更新后的主题列表和统计字典。
    """
    df = pd.read_csv(csv_file, encoding='utf-8')
    chunk_size = 10
    num_rows = len(df)
    topics = initial_topics.copy()  # 初始化主题列表
    topic_counts = {}  # 初始化每个主题的讨论量统计

    output_file = "topic_modelling_output.csv"
    # 检查文件是否存在，若不存在则创建并写入表头
    if not os.path.exists(output_file):
        with open(output_file, "w", newline='', encoding="utf-8") as f:
            writer = csv.writer(f)
            writer.writerow(["编号", "微博正文", "topics"])

    for start in tqdm(range(0, num_rows, chunk_size), desc="Processing chunks"):
        # 每个批次重新实例化 agent，避免对话历史过长
        agent = TopicModellingAgent("./prompts/Topic_modelling_prompt.txt")
        
        # 取出当前块数据，并为每条数据添加编号
        chunk = df.iloc[start:start + chunk_size].copy()
        chunk.reset_index(drop=True, inplace=True)
        chunk['编号'] = chunk.index + 1
        
        # 拼接每条公民意见数据（假设 CSV 中的“微博正文”列包含公民意见）
        query_lines = chunk.apply(lambda row: f"{row['编号']}: {row['微博正文']}", axis=1)
        opinions_text = "\n".join(query_lines)
        
        # 构造 query：包含当前批次的公民意见和已确定的主题列表
        topics_str = ", ".join(topics) if topics else "无"
        query = (
            f"请基于以下公民意见数据和当前主题列表进行主题分析：\n\n"
            f"公民意见：\n{opinions_text}\n\n"
            f"当前主题列表：{topics_str}\n\n"
        )
        
        response_str = agent.run(query)
        cleaned_response = clean_json_output(response_str)
        print(cleaned_response)
        
        try:
            response_data = json.loads(cleaned_response)
            analyses = response_data.get("analyses", [])
            # 将每条公民意见及对应的主题写入文件
            with open(output_file, "a", newline='', encoding="utf-8") as f:
                writer = csv.writer(f)
                if len(analyses) != len(chunk):
                    print("警告：分析结果数量与原始数据数量不匹配！")
                for i, row in chunk.iterrows():
                    if i < len(analyses):
                        topics_list = analyses[i].get("topics", [])
                        topics_output = ", ".join(topic.strip() for topic in topics_list if topic.strip())
                    else:
                        topics_output = ""
                    writer.writerow([row["编号"], row["微博正文"], topics_output])
            
            # 更新主题列表和讨论量统计
            for item in analyses:
                topics_list = item.get("topics", [])
                for topic in topics_list:
                    topic = topic.strip()
                    if topic:
                        if topic not in topics:
                            topics.append(topic)
                            print("新增主题：", topic)
                        if topic in topic_counts:
                            topic_counts[topic] += 1
                        else:
                            topic_counts[topic] = 1
        except json.JSONDecodeError as e:
            print("JSON解析失败:", e)

    print("更新后的主题列表:")
    print(topics)
    print("每个主题的讨论量:")
    print(topic_counts)
    return topics, topic_counts


In [4]:
updated_topics = perform_topic_analysis("50sample.csv", [])

Processing chunks:  20%|█████▏                    | 1/5 [00:14<00:57, 14.50s/it]

{
    "analyses": [
        {
            "entry": "#深圳疫情# 该死的疫情 无语了 ​",
            "topics": ["深圳市民对疫情的不满情绪"]
        },
        {
            "entry": "12点深圳按下暂停键​一周，不长不短​深圳，加油#深圳疫情##深圳要求停止一切非必要流动活动# 2深圳 L快乐的小咸鱼2020的微博视频 ​",
            "topics": ["深圳疫情防控措施"]
        },
        {
            "entry": "#深圳疫情#不管再晚，电脑都跟外卖一样按时到达疫情无情，人间有爱——深圳打工人 LAxBoomer的微博视频 ​",
            "topics": ["深圳疫情对工作和生活的影响"]
        },
        {
            "entry": "#深圳疫情# 抓住了昨天最后一天的快乐，老老实实在家居家 L糯叽叽的啾咪的微博视频 ​",
            "topics": ["居家隔离"]
        },
        {
            "entry": "#深圳疫情# 深圳20220314 2深圳 ​",
            "topics": []
        },
        {
            "entry": "#深圳疫情#电脑带了，文件拷了手jio的美甲都安排了一周多水果买齐了，直奔宿舍居家就算居家也要精致到底！ ​",
            "topics": ["深圳疫情对工作和生活的影响", "疫情期间食物供给", "居家隔离"]
        },
        {
            "entry": "#深圳疫情# 半夜接到坂田流调电话让我最近每日要做核酸 ​",
            "topics": ["深圳疫情核酸检测要求"]
        },
        {
            "entry": "进入疫情管控区的第一天，她这样说......O进入疫情管控区的第一天，她这样说......今天第一天进入福田区沙头街道新洲社区参加疫

Processing chunks:  40%|██████████▍               | 2/5 [00:22<00:32, 10.89s/it]

{
    "analyses": [
        {
            "entry": "我对深圳很有信心，可是香港一天不好转，深圳的压力就很大，香港人民赶紧疫苗打起来居家隔离起来吧 ​",
            "topics": ["深圳市民对疫情的不满情绪"]
        },
        {
            "entry": "这文案​",
            "topics": []
        },
        {
            "entry": "我是来深圳打工的，不是来深圳做核酸的深圳加油啊～",
            "topics": ["深圳市民对疫情的不满情绪", "深圳疫情核酸检测要求"]
        },
        {
            "entry": "深圳最新的疫情管控措施一公布，直接就刷屏，力度太震撼了！这轮疫情超出了所有人的预料，连一线城市这样科学防疫的典范都需要这么大力度来进行管控。停工停运停学，整个社会付出的成本太大了。确实是无奈的选择，虽然所有人都打了疫苗，不少人还打了加强针，但是病毒进化得太快了。为了大局着想，不能将免疫力差的群体推到最危险的前线，导致医疗系统瘫痪。代价再大也得做。",
            "topics": ["深圳疫情防控措施", "深圳市民对疫情的不满情绪", "深圳疫情对工作和生活的影响"]
        },
        {
            "entry": "计划泡汤​",
            "topics": []
        },
        {
            "entry": "厉害了",
            "topics": []
        },
        {
            "entry": "体验了把防疫人员的辛苦跟不容易，防护服看着轻薄，实际穿上又闷又热还难喘气；大多数人都非常能理解并谅解；碰到一些不配合的耍脾气的暴躁人士，真的委屈巴巴有苦说不出但还得继续耐心讲解步骤一天下来总结：致敬所有防疫人员！！你们辛苦了！！希望疫情快快结束吧俺想回家睡觉 俺想俊哥了",
            "topics": ["深圳疫情防控志愿者的工作"]
  

Processing chunks:  60%|███████████████▌          | 3/5 [00:28<00:17,  8.54s/it]

{
    "analyses": [
        {
            "entry": "深圳 加油！",
            "topics": []
        },
        {
            "entry": "国服疫情遍地开花也中了，关注国际服战争去了。准备好迎接新一轮遍地开花的疫情了吗？",
            "topics": []
        },
        {
            "entry": "这两天频繁收到妈咪的叮嘱，让我越来越想家，希望疫情快点结束吧，也保佑我们都好好的🙏千万别出事！病魔远离！",
            "topics": ["深圳疫情对工作和生活的影响"]
        },
        {
            "entry": "我能说我跑得快吗？3.5跑回佛山，再晚走两天，估计回不来了。",
            "topics": ["深圳疫情防控措施"]
        },
        {
            "entry": "深圳迎来封闭式的管理了，不知道我还能不能保有这最后一项寻求安歇的权利。",
            "topics": ["深圳疫情对工作和生活的影响", "居家隔离"]
        },
        {
            "entry": "行动力杠杠的。",
            "topics": []
        },
        {
            "entry": "周末碎片，深圳封闭管理前的小公园。希望疫情早日结束。",
            "topics": ["深圳疫情防控措施"]
        },
        {
            "entry": "自己当了志愿者才切身体会到防疫工作人员的不容易，也十分感谢大家的支持和配合，今天好多可爱的小宝宝找我要贴纸，哈哈哈哈虽然闷的满身汗但心里也甜甜的，希望深圳加油加油！！！",
            "topics": ["深圳疫情防控志愿者的工作"]
        },
        {
            "entry": "深圳封城了，去看了一下国内外疫情最新消息，那一串串数字下

Processing chunks:  80%|████████████████████▊     | 4/5 [00:35<00:07,  7.72s/it]

{
    "analyses": [
        {
            "entry": "一个超级城市按下暂停键⏸️，很不容易！一来说明当局下了极大决心；二来说明形势可能确实严峻，防输入及防反弹压力都不小；三是总结前期经验教训，要严防外溢，必须严控流动，非常时期，需非常之举；四是只有万众一心，全民抗疫，方能打赢这场硬仗。",
            "topics": ["深圳疫情防控措施"]
        },
        {
            "entry": "今晚第一次看到楼下面包店货架被买空，附近超市的菜也被买完；and做蛋糕初体验。",
            "topics": ["疫情期间食物供给"]
        },
        {
            "entry": "深圳七天“慢生活”3月14日零点生效，全市公交、地铁停运、全市社区小区、城中村产业园区，实行封闭式管理。",
            "topics": ["深圳疫情防控措施", "深圳社区小区封闭式管理"]
        },
        {
            "entry": "困在公司的三天两夜经历很多感触很深……有大白 能让我安心响应号召 做好本分安心隔离 安心上班为日后更好的相见。",
            "topics": ["深圳疫情对工作和生活的影响", "居家隔离", "深圳疫情防控志愿者的工作"]
        },
        {
            "entry": "今晚还不知道发生了什么朋友圈已经开始传石岩超市被搬空了紧接着公司发通知停工一个星期喝西北风了。",
            "topics": ["疫情期间食物供给", "深圳疫情对工作和生活的影响"]
        },
        {
            "entry": "10➕1管控，工业园区暂停  菜市场比白天还要热闹，全一扫而光，深圳真的是一个拼速度的城市。",
            "topics": ["深圳疫情防控措施", "疫情期间食物供给"]
        },
        {
            "entry": "我发布了：深圳加油。",
            "topics":

Processing chunks: 100%|██████████████████████████| 5/5 [00:40<00:00,  8.16s/it]

{
    "analyses": [
        {
            "entry": "每天新增和超市卖空货架都不怕，怕的是今晚突然接到流调员电话问我做核酸了吗...",
            "topics": ["深圳疫情核酸检测要求"]
        },
        {
            "entry": "酸奶紫薯蛋糕 被隔离在家的我只能靠嚯嚯烤箱和面粉来消耗时间了...",
            "topics": ["居家隔离"]
        },
        {
            "entry": "8点钟朋友提示囤物资，去楼下超市人山人海，挤过去提了两兜鸡蛋，找不到称重队伍...",
            "topics": ["疫情期间食物供给", "深圳市民对疫情的不满情绪"]
        },
        {
            "entry": "搬电脑居然是我自己连夜搬 这算工伤了吧！！！...",
            "topics": ["深圳疫情对工作和生活的影响"]
        },
        {
            "entry": "深圳加油💪待花开时，我们还是最靓的打工仔...",
            "topics": []
        },
        {
            "entry": "今天深圳率先按下了暂停健，东莞还会远吗？...",
            "topics": ["深圳疫情核酸检测实施", "深圳疫情防控措施"]
        },
        {
            "entry": "木棉花开了，我们仨站在路口拍照，引来了过路行人的匆匆一瞥...",
            "topics": ["深圳疫情防控志愿者的工作"]
        },
        {
            "entry": "疫情快滚滚出地球  深圳加油！！...",
            "topics": []
        },
        {
            "entry": "深圳按了暂停键，载入历史的一天。希望在不久的将来，一切都回归正轨...",
           




In [None]:
# 读取 CSV 文件
        sentiment_df = pd.read_csv(sentiment_output, encoding="utf-8")
        topic_df = pd.read_csv(topic_output, encoding="utf-8")
        
        # 假设两个文件的前两列名称完全相同
        common_cols = list(topic_df.columns[:2])
        # 取出 sentiment_output 中的前两列和第三列（假设第三列为 sentiment）
        sentiment_third_col = sentiment_df.columns[2]
        sentiment_subset = sentiment_df[common_cols + [sentiment_third_col]]
        
        # 仅将第一个文件的第三列合并到 topic_df 中（基于前两列）
        merged_df = pd.merge(topic_df, sentiment_subset, on=common_cols, how='left')
        
        # 保存结果到新的 CSV 文件
        merged_df.to_csv("merged_output.csv", index=False, encoding="utf-8")
        print("合并完成，结果保存在 merged_output.csv")

        # 删除“微博正文”和“编号”两列（如果存在）
        merged_df = merged_df.drop(columns=["微博正文", "编号"], errors='ignore')
        
        # 删除“topics”列为空的行（去除空格后判断是否为空字符串或 NaN）
        merged_df = merged_df[merged_df["topics"].notna() & (merged_df["topics"].str.strip() != "")]
        
        # 将结果保存到新的 CSV 文件中
        merged_df.to_csv("merged_output_cleaned.csv", index=False, encoding="utf-8")
        print("清理完成，结果保存在 merged_output_cleaned.csv")

        # 使用 pd.crosstab 统计每个 topics 对应的 sentiment 数量
        sentiment_counts = pd.crosstab(merged_df["topics"], merged_df["sentiment"])
        
        # 计算每个 topics 的总计数（negative + neutral + positive）
        sentiment_counts["total"] = sentiment_counts.sum(axis=1)
        
        # 按 total 从高到低排序
        sentiment_counts = sentiment_counts.sort_values("total", ascending=False)
        
        print("每个 topics 对应的 sentiment 数量统计（降序排序）：")
        print(sentiment_counts)
        
        # 删除 total 列，不用于绘图
        #plot_df = sentiment_counts.drop(columns=["total"])
        
        # 绘制柱状图（分组柱状图）
        #ax = plot_df.plot(kind="bar", figsize=(12, 6))
        #plt.xlabel("Topics")
        #plt.ylabel("Counts")
        #plt.title("每个 Topics 对应的 Sentiment 数量统计")
        #plt.xticks(rotation=45, ha="right")
        #plt.legend(title="Sentiment")
        #plt.tight_layout()
        #plt.show()