<a href="https://colab.research.google.com/github/woshixiyangyang/langchain-news-extractor/blob/main/Untitled3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
from IPython.display import display, JSON
import ipywidgets as widgets
import json
import requests
import re

# 创建输入框
text_area = widgets.Textarea(
    value='',
    placeholder='请粘贴新闻内容...',
    description='新闻内容：',
    layout=widgets.Layout(width='95%', height='200px')
)

# 创建按钮
button = widgets.Button(
    description='提取5W1H',
    button_style='primary',
    layout=widgets.Layout(width='200px')
)

# 创建输出区域
output = widgets.Output()

# 创建下载链接（初始为空）
download_link = widgets.HTML()

def extract_5w(news_text):
    """
    提取新闻的5W1H信息
    这里使用本地处理方式，避免API调用的编码问题
    """
    try:
        # 清理文本
        clean_text = news_text.strip()
        if not clean_text:
            return {"error": "请输入新闻内容"}

        # 简单的关键词提取（示例）
        # 实际项目中你可能需要调用AI API
        result = {
            "What": extract_what(clean_text),
            "Who": extract_who(clean_text),
            "When": extract_when(clean_text),
            "Where": extract_where(clean_text),
            "Why": extract_why(clean_text),
            "How": extract_how(clean_text),
            "原文": clean_text[:200] + "..." if len(clean_text) > 200 else clean_text
        }

        return result

    except Exception as e:
        return {"error": f"处理错误: {str(e)}"}

def extract_what(text):
    """提取事件内容"""
    # 简单的事件提取逻辑
    sentences = text.split('。')
    if sentences:
        return sentences[0] + "。"
    return "未能识别具体事件"

def extract_who(text):
    """提取人物"""
    # 简单的人名识别
    import re
    # 查找常见的人名模式
    names = re.findall(r'[A-Za-z\u4e00-\u9fa5]{2,4}(?:先生|女士|总裁|经理|主席|部长|市长)', text)
    if names:
        return "、".join(set(names[:3]))  # 返回前3个不重复的名字
    return "相关人员"

def extract_when(text):
    """提取时间"""
    import re
    # 匹配时间表达式
    time_patterns = [
        r'\d{4}年\d{1,2}月\d{1,2}日',
        r'\d{1,2}月\d{1,2}日',
        r'今天|昨天|明天|今日|昨日|明日',
        r'上午|下午|晚上|凌晨',
        r'\d{1,2}:\d{2}'
    ]

    times = []
    for pattern in time_patterns:
        matches = re.findall(pattern, text)
        times.extend(matches)

    if times:
        return "、".join(set(times[:2]))
    return "时间待确认"

def extract_where(text):
    """提取地点"""
    import re
    # 匹配地点表达式
    place_patterns = [
        r'[A-Za-z\u4e00-\u9fa5]+(?:市|省|县|区|街|路|村|镇)',
        r'[A-Za-z\u4e00-\u9fa5]+(?:大学|学校|医院|公司|银行)',
        r'北京|上海|广州|深圳|杭州|南京|武汉|成都|重庆|天津'
    ]

    places = []
    for pattern in place_patterns:
        matches = re.findall(pattern, text)
        places.extend(matches)

    if places:
        return "、".join(set(places[:3]))
    return "地点待确认"

def extract_why(text):
    """提取原因"""
    # 查找表示原因的关键词
    cause_keywords = ['因为', '由于', '因', '原因是', '导致', '造成']
    sentences = text.split('。')

    for sentence in sentences:
        for keyword in cause_keywords:
            if keyword in sentence:
                return sentence.strip() + "。"

    return "原因需进一步分析"

def extract_how(text):
    """提取方式"""
    # 查找表示方式的关键词
    method_keywords = ['通过', '采用', '使用', '利用', '借助', '方式', '方法']
    sentences = text.split('。')

    for sentence in sentences:
        for keyword in method_keywords:
            if keyword in sentence:
                return sentence.strip() + "。"

    return "方式待分析"

def on_button_click(b):
    """按钮点击事件处理"""
    with output:
        output.clear_output()

        news_text = text_area.value.strip()
        if not news_text:
            print("❌ 请先输入新闻内容！")
            return

        print("🔄 正在提取5W1H信息...")
        result = extract_5w(news_text)

        if "error" in result:
            print(f"❌ {result['error']}")
            return

        print("✅ 提取完成！结果如下：")
        print("=" * 50)

        # 显示结果
        for key, value in result.items():
            if key != "原文":
                print(f"📝 {key}: {value}")
                print("-" * 30)

        # 生成JSON下载
        create_download_link(result)

def create_download_link(result):
    """创建下载链接"""
    json_str = json.dumps(result, ensure_ascii=False, indent=2)

    # 创建下载链接HTML
    download_html = f'''
    <div style="margin-top: 10px; padding: 10px; background-color: #f0f0f0; border-radius: 5px;">
        <strong>📁 下载结果：</strong><br>
        <textarea readonly style="width: 100%; height: 100px; margin-top: 5px;">{json_str}</textarea>
        <p style="font-size: 12px; color: #666;">提示：复制上面的JSON内容保存为.json文件</p>
    </div>
    '''
    download_link.value = download_html

# 绑定按钮点击事件
button.on_click(on_button_click)

# 显示组件
print("📰 新闻5W1H信息提取器")
print("=" * 40)
print("使用说明：")
print("1. 在文本框中粘贴新闻内容")
print("2. 点击'提取5W1H'按钮")
print("3. 查看提取结果并下载JSON文件")
print("=" * 40)

display(text_area, button, output, download_link)

📰 新闻5W1H信息提取器
使用说明：
1. 在文本框中粘贴新闻内容
2. 点击'提取5W1H'按钮
3. 查看提取结果并下载JSON文件


Textarea(value='', description='新闻内容：', layout=Layout(height='200px', width='95%'), placeholder='请粘贴新闻内容...')

Button(button_style='primary', description='提取5W1H', layout=Layout(width='200px'), style=ButtonStyle())

Output()

HTML(value='')