In [7]:
from WeiboCrawler import *
from utils import *
from Agents import Coordinator, SentimentAnalysistAgent, TopicModellingAgent, Summarizer
import json
import datetime
import os
import pandas as pd
from tqdm import tqdm

In [1]:
def conversation_loop():
    """
    与用户持续对话，直到 agent 返回包含所有必需信息的 JSON 格式回复，
    此时调用微博爬虫，并返回生成的 CSV 文件名和事件关键字。
    """
    coordinator = Coordinator(prompt_filepath='./prompts/Coordinator_prompt.txt')
    
    while True:
        user_text = input("请输入查询内容：")
        # 调用 Coordinator 处理用户输入
        response = coordinator.run(user_text)
        response = clean_json_output(response)
        print("Agent 回复：", response)
        
        # 尝试解析回复为 JSON 格式
        try:
            result = json.loads(response)
            required_keys = ["event_keywords", "start_year", "start_month", "start_day", "event_release_platform"]
            if all(key in result for key in required_keys):
                platform = result["event_release_platform"].lower()
                if platform not in ["weibo", "微博"]:
                    print("目前服务仅支持微博平台，请重新提供相关信息。")
                    continue

                try:
                    year = int(result["start_year"])
                    month = int(result["start_month"])
                    day = int(result["start_day"])
                except Exception as e:
                    print("时间信息格式有误，请检查后重试。", e)
                    continue

                # 保存事件关键字（列表格式），取第一个关键字作为爬虫关键字
                event_keywords = result["event_keywords"]
                keyword = event_keywords[0].strip("#")
                
                # 回复格式完整时调用爬虫，并返回 CSV 文件名和事件关键字
                csv_file = run_weibo_crawl(year, month, day, keyword)
                print("微博爬虫已启动，爬取任务开始执行。")
                return csv_file, event_keywords
        except json.JSONDecodeError:
            continue


def perform_sentiment_analysis(csv_file):
    """
    读取 CSV 文件，分批调用情感分析 agent，
    并累计统计情感结果。返回 sentiment_counts 字典。
    """
    df = pd.read_csv(csv_file, encoding='utf-8')
    chunk_size = 10
    num_rows = len(df)
    sentiment_counts = {"positive": 0, "neutral": 0, "negative": 0}

    for start in tqdm(range(0, num_rows, chunk_size), desc="Processing chunks"):
        agent = SentimentAnalysistAgent("./prompts/Sentiment_analysist_prompt.txt")
        
        chunk = df.iloc[start:start + chunk_size].copy()
        chunk.reset_index(drop=True, inplace=True)
        # 为每条微博添加编号
        chunk['编号'] = chunk.index + 1
        
        query_lines = chunk.apply(lambda row: f"{row['编号']}: {row['微博正文']}", axis=1)
        query = "\n".join(query_lines)
        
        response_str = agent.run(query)
        cleaned_response = clean_json_output(response_str)
        
        try:
            response_data = json.loads(cleaned_response)
            summary = response_data.get("summary", {})
            sentiment_counts["positive"] += summary.get("positive", 0)
            sentiment_counts["neutral"] += summary.get("neutral", 0)
            sentiment_counts["negative"] += summary.get("negative", 0)
        except json.JSONDecodeError as e:
            print("JSON解析失败:", e)

    print("累计情感统计:")
    print("Positive:", sentiment_counts["positive"])
    print("Neutral:", sentiment_counts["neutral"])
    print("Negative:", sentiment_counts["negative"])
    return sentiment_counts

def summarize_event(event_keywords, sentiment_counts):
    """
    根据事件关键字和累积情感统计生成总结的 prompt，
    并调用 Summarizer agent 返回清洗后的事件总结。
    
    参数:
        event_keywords: 事件关键字列表（例如 ["#金价上涨#"]，取第一个关键字）
        sentiment_counts: 累积情感统计字典，包含 "positive", "neutral", "negative"
        
    返回:
        Summarizer 生成的事件总结文本（清洗后的结果）
    """
    if isinstance(event_keywords, list):
        event_keyword = event_keywords[0]
    else:
        event_keyword = event_keywords

    prompt = (
        f"请帮我对 {event_keyword} 事件进行总结，它的累计情感统计:\n"
        f"Positive: {sentiment_counts['positive']}\n"
        f"Neutral: {sentiment_counts['neutral']}\n"
        f"Negative: {sentiment_counts['negative']}"
    )
    print(prompt)
    summarizer = Summarizer("./prompts/Summarizer.txt")
    summarizer_response = summarizer.run(prompt)
    cleaned_summary_response = clean_json_output(summarizer_response)
    
    return cleaned_summary_response

if __name__ == "__main__":
    # 第一步：对话获取参数，并启动微博爬虫
    csv_file, event_keywords = conversation_loop()
    
    if os.path.exists(csv_file):
        # 第二步：进行情感分析，累计情感统计
        sentiment_counts = perform_sentiment_analysis(csv_file)
        # 第三步：生成事件总结并调用 Summarizer 生成最终总结
        summary = summarize_event(event_keywords, sentiment_counts)
        print("总结回复：", summary)
    else:
        print("爬虫生成的 CSV 文件不存在，请检查。")


NameError: name 'Coordinator' is not defined

#金价# 事件的情感统计分析表明，整体舆论趋向于正面评价。在所有相关帖子中，**正面情绪占据主导地位，共有 17 条正面帖文，占比 40.5%**。这表明多数公众对黄金价格相关话题持有积极态度，可能是由于近期金价上涨，带来了投资者的乐观情绪，或者黄金市场的稳定性增强了公众信心。  

**中立情绪略占优势，共 23 条，占比 54.8%**。这表明相当一部分网民更多是在客观讨论金价走势，而非直接呈现强烈的情感反应。可能的原因包括人们关注市场动态，但持谨慎观察态度，尚未表现出明确的情绪倾向。  

**负面情绪最少，仅 2 条，占比 4.8%**，显示出公众对于金价话题的负面反应很少。这或许意味着当前的金价变动并未引起市场的广泛担忧，或者金价的走势对大部分人而言尚未产生明显的不利影响。  

综合来看，本次 #金价# 的舆论环境较为健康，以中立和正面情绪为主，负面讨论极少。若金价继续呈稳定甚至上涨趋势，市场信心或将进一步增强，带动更多正面情绪的涌现。

In [9]:
def perform_topic_analysis(csv_file: str, initial_topics: list):
    """
    读取 CSV 文件，分批调用 TopicModellingAgent 进行主题分析，
    并根据返回结果更新主题列表。返回更新后的主题列表。
    """
    df = pd.read_csv(csv_file, encoding='utf-8')
    chunk_size = 10
    num_rows = len(df)
    topics = initial_topics.copy()  # 初始化主题列表

    for start in tqdm(range(0, num_rows, chunk_size), desc="Processing chunks"):
        # 每个批次重新实例化 agent，避免对话历史过长
        agent = TopicModellingAgent("./prompts/Topic_modelling_prompt.txt")
        
        # 取出当前块数据，并为每条数据添加编号
        chunk = df.iloc[start:start + chunk_size].copy()
        chunk.reset_index(drop=True, inplace=True)
        chunk['编号'] = chunk.index + 1
        
        # 拼接每条公民意见数据（假设 CSV 中的“微博正文”列包含公民意见）
        query_lines = chunk.apply(lambda row: f"{row['编号']}: {row['微博正文']}", axis=1)
        opinions_text = "\n".join(query_lines)
        
        # 构造 query：包含当前批次的公民意见和已确定的主题列表
        topics_str = ", ".join(topics) if topics else "无"
        query = (
            f"请基于以下公民意见数据和当前主题列表进行主题分析：\n\n"
            f"公民意见：\n{opinions_text}\n\n"
            f"当前主题列表：{topics_str}\n\n"
        )
        
        response_str = agent.run(query)
        cleaned_response = clean_json_output(response_str)
        print(cleaned_response)
        
        try:
            response_data = json.loads(cleaned_response)
            analyses = response_data.get("analyses", [])
            for item in analyses:
                topic = item.get("topic", "").strip()
                # 如果 topic 非空且不在已有列表中，则添加到列表
                if topic and topic not in topics:
                    topics.append(topic)
                    print(topics)
        except json.JSONDecodeError as e:
            print("JSON解析失败:", e)

    print("更新后的主题列表:")
    print(topics)
    return topics

In [8]:
updated_topics = perform_topic_analysis("50sample.csv", [])

Processing chunks: 100%|██████████████████████████| 5/5 [00:56<00:00, 11.38s/it]

更新后的主题列表:
['深圳疫情']



