In [51]:
from IPython.display import display, JSON
import ipywidgets as widgets
import json
import os
from langchain.llms import OpenAI
from langchain.chat_models import ChatOpenAI
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain
from langchain.schema import HumanMessage, SystemMessage

# 设置API密钥（请替换为你的密钥）
# os.environ["OPENAI_API_KEY"] = "your-api-key-here"

# 创建输入框
text_area = widgets.Textarea(
    value='',
    placeholder='请粘贴新闻内容...',
    description='新闻内容：',
    layout=widgets.Layout(width='95%', height='200px')
)

# API选择下拉框
api_selector = widgets.Dropdown(
    options=[
        ('OpenAI GPT-3.5', 'openai-gpt35'),
        ('OpenAI GPT-4', 'openai-gpt4'),
        ('其他LLM', 'other')
    ],
    value='openai-gpt35',
    description='选择模型：',
    layout=widgets.Layout(width='300px')
)

# API密钥输入框
api_key_input = widgets.Password(
    placeholder='输入你的API密钥...',
    description='API密钥：',
    layout=widgets.Layout(width='400px')
)

# 创建按钮
button = widgets.Button(
    description='🔍 提取5W1H',
    button_style='primary',
    layout=widgets.Layout(width='200px')
)

# 创建输出区域
output = widgets.Output()

# 创建下载链接
download_link = widgets.HTML()

def create_langchain_extractor(api_key, model_type):
    """创建LangChain提取器"""
    try:
        # 设置API密钥
        os.environ["OPENAI_API_KEY"] = api_key

        # 选择模型
        if model_type == 'openai-gpt35':
            llm = ChatOpenAI(
                model_name="gpt-3.5-turbo",
                temperature=0.3,
                max_tokens=1000
            )
        elif model_type == 'openai-gpt4':
            llm = ChatOpenAI(
                model_name="gpt-4",
                temperature=0.3,
                max_tokens=1000
            )
        else:
            # 可以添加其他模型
            llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0.3)

        return llm
    except Exception as e:
        raise Exception(f"模型初始化失败: {str(e)}")

def create_extraction_prompt():
    """创建提取提示词模板"""
    template = """
你是一个专业的新闻分析师。请从以下新闻内容中提取5W1H信息，并以JSON格式返回。

新闻内容：
{news_text}

请严格按照以下JSON格式返回结果：
{{
    "Who": "涉及的人物或组织",
    "What": "发生了什么事件",
    "When": "事件发生的时间",
    "Where": "事件发生的地点",
    "Why": "事件发生的原因或背景",
    "How": "事件是如何发生的或采用的方式方法",
    "summary": "新闻内容的简要总结（50字以内）"
}}

注意：
1. 如果某个信息在新闻中没有明确提及，请填写"信息不明确"
2. 时间格式尽量统一为"YYYY年MM月DD日"或具体描述
3. 地点要具体到城市或区域
4. 只返回JSON格式，不要添加其他说明文字
"""

    return PromptTemplate(
        input_variables=["news_text"],
        template=template
    )

def extract_5w_with_langchain(news_text, api_key, model_type):
    """使用LangChain提取5W1H信息"""
    try:
        # 文本预处理，避免编码问题
        clean_text = news_text.encode('utf-8', errors='ignore').decode('utf-8').strip()

        if not clean_text:
            return {"error": "请输入新闻内容"}

        if not api_key:
            return {"error": "请输入API密钥"}

        # 创建LangChain组件
        llm = create_langchain_extractor(api_key, model_type)
        prompt = create_extraction_prompt()

        # 创建链
        chain = LLMChain(llm=llm, prompt=prompt)

        # 执行提取
        result = chain.run(news_text=clean_text)

        # 解析JSON结果
        try:
            parsed_result = json.loads(result.strip())
            # 添加原文信息
            parsed_result["original_text"] = clean_text[:300] + "..." if len(clean_text) > 300 else clean_text
            return parsed_result
        except json.JSONDecodeError:
            # 如果返回的不是标准JSON，尝试提取关键信息
            return {
                "raw_result": result,
                "error": "API返回格式不是标准JSON，请查看raw_result字段"
            }

    except Exception as e:
        return {"error": f"处理错误: {str(e)}"}

def on_button_click(b):
    """按钮点击事件处理"""
    with output:
        output.clear_output()

        news_text = text_area.value.strip()
        api_key = api_key_input.value.strip()
        model_type = api_selector.value

        if not news_text:
            print("❌ 请先输入新闻内容！")
            return

        if not api_key:
            print("❌ 请先输入API密钥！")
            return

        print("🔄 正在使用LangChain分析新闻...")

        # 获取当前选中的模型名称
        current_model_name = ""
        for option in api_selector.options:
            if option[1] == model_type:  # option[1]是值，option[0]是显示名称
                current_model_name = option[0]
                break

        print(f"📊 使用模型: {current_model_name}")
        print("=" * 50)

        result = extract_5w_with_langchain(news_text, api_key, model_type)

        if "error" in result:
            print(f"❌ {result['error']}")
            if "raw_result" in result:
                print("\n原始返回结果：")
                print(result["raw_result"])
            return

        print("✅ 分析完成！结果如下：")
        print("=" * 50)

        # 显示结果
        display_order = ["Who", "What", "When", "Where", "Why", "How", "summary"]

        for key in display_order:
            if key in result:
                emoji_map = {
                    "Who": "👤",
                    "What": "📋",
                    "When": "⏰",
                    "Where": "📍",
                    "Why": "🤔",
                    "How": "⚡",
                    "summary": "📝"
                }
                print(f"{emoji_map.get(key, '📌')} **{key}**: {result[key]}")
                print("-" * 40)

        # 生成下载链接
        create_download_link(result)

def create_download_link(result):
    """创建下载链接"""
    # 移除不需要在下载文件中的字段
    download_result = {k: v for k, v in result.items() if k not in ['original_text']}

    json_str = json.dumps(download_result, ensure_ascii=False, indent=2)

    download_html = f'''
    <div style="margin-top: 15px; padding: 15px; background: linear-gradient(135deg, #667eea 0%, #764ba2 100%);
                border-radius: 10px; color: white;">
        <h4 style="margin: 0 0 10px 0;">📁 提取结果下载</h4>
        <textarea readonly style="width: 100%; height: 120px; margin: 10px 0; padding: 10px;
                                  border-radius: 5px; border: none; font-family: monospace;">{json_str}</textarea>
        <p style="margin: 5px 0 0 0; font-size: 12px; opacity: 0.8;">
            💡 提示：复制上面的JSON内容，保存为 news_5w1h.json 文件
        </p>
    </div>
    '''
    download_link.value = download_html

# 绑定按钮点击事件
button.on_click(on_button_click)

# 创建界面布局
header = widgets.HTML('''
<div style="text-align: center; padding: 20px; background: linear-gradient(135deg, #667eea 0%, #764ba2 100%);
            color: white; border-radius: 10px; margin-bottom: 20px;">
    <h2 style="margin: 0;">📰 LangChain新闻5W1H提取器</h2>
    <p style="margin: 10px 0 0 0; opacity: 0.9;">基于大语言模型的智能新闻分析工具</p>
</div>
''')

instructions = widgets.HTML('''
<div style="background-color: #f8f9fa; padding: 15px; border-radius: 8px; margin-bottom: 15px; border-left: 4px solid #007bff;">
    <h4 style="margin: 0 0 10px 0; color: #007bff;">📋 使用说明</h4>
    <ol style="margin: 0; padding-left: 20px;">
        <li>选择要使用的AI模型</li>
        <li>输入你的OpenAI API密钥</li>
        <li>在文本框中粘贴新闻内容</li>
        <li>点击"提取5W1H"按钮开始分析</li>
        <li>查看分析结果并下载JSON文件</li>
    </ol>
    <p style="margin: 10px 0 0 0; color: #6c757d; font-size: 12px;">
        🔒 API密钥仅用于本次会话，不会被保存
    </p>
</div>
''')

# 显示所有组件
display(
    header,
    instructions,
    api_selector,
    api_key_input,
    text_area,
    button,
    output,
    download_link
)

HTML(value='\n<div style="text-align: center; padding: 20px; background: linear-gradient(135deg, #667eea 0%, #…

HTML(value='\n<div style="background-color: #f8f9fa; padding: 15px; border-radius: 8px; margin-bottom: 15px; b…

Dropdown(description='选择模型：', layout=Layout(width='300px'), options=(('OpenAI GPT-3.5', 'openai-gpt35'), ('Ope…

Password(description='API密钥：', layout=Layout(width='400px'), placeholder='输入你的API密钥...')

Textarea(value='', description='新闻内容：', layout=Layout(height='200px', width='95%'), placeholder='请粘贴新闻内容...')

Button(button_style='primary', description='🔍 提取5W1H', layout=Layout(width='200px'), style=ButtonStyle())

Output()

HTML(value='')