In [52]:
from pyhanlp import *


In [65]:
report_text = """
东部战区新闻发言人就美“米利厄斯”号导弹驱逐舰过航台湾海峡发表谈话 - 国内动态 - 华声新闻 - 华声在线

华声在线 湖南在线 |
新闻 专题 评论 投诉 论坛 |
图片 视频 文旅 |
消费 文体 经济 房产 |
公益 长沙网

华声在线 > 华声新闻 > 国内动态 > 正文

新闻

新闻 论坛

集团报刊

湖南日报社
湖南日报
三湘都市报
文萃报
大众卫生报
科教新报
华声杂志
文萃月刊
放学后
金鹰报
法制周报

东部战区新闻发言人就美“米利厄斯”号导弹驱逐舰过航台湾海峡发表谈话

2023-04-17 14:24:07 [来源:央视网] [初审编辑:伍镆]
字体:【大 中 小】

央视网消息：据“东部战区”微信公众号消息，东部战区新闻发言人施毅陆军大校表示，4月16日，美“米利厄斯”号导弹驱逐舰过航台湾海峡并公开炒作。中国人民解放军东部战区组织兵力对美舰过航行动全程跟监警戒。战区部队随时保持高度戒备，坚决捍卫国家主权安全和地区和平稳定。
"""





In [66]:
import re
from pyhanlp import HanLP

def extract_named_entities(text):
    segment = HanLP.newSegment().enableNameRecognize(True)
    term_list = segment.seg(text)
    named_entities = []
    for term in term_list:
        if term.nature.toString() == "nr"or "nt":
            named_entities.append(term.word)
    return named_entities

def extract_name(named_entities):
    ship_keywords = ["号"]
    for i in range(len(named_entities)):
        entity = named_entities[i]
        for keyword in ship_keywords:
            if keyword in entity:
                if i > 0:
                    previous_entity = named_entities[i - 1]
                    return previous_entity + entity
                else:
                    return entity
    return ""



def extract_location(named_entities):
    location_keywords = ["海峡", "海域", "港口", "海岸", "海湾", "岛"]
    for entity in named_entities:
        for keyword in location_keywords:
            if keyword in entity:
                return entity
    return ""

def extract_nationality(named_entities):
    country_mapping = {
        "中国": "中国",
        "美": "美国",
        "日本": "日本",
        "日": "日本",
        "韩国": "韩国",
        "韩": "韩国",
        "英国": "英国",
        "英": "英国"
    }
    for entity in named_entities:
        for country_name, keywords in country_mapping.items():
            if any(keyword in entity for keyword in keywords):
                return country_name
    return ""

def extract_date(text):
    pattern = r"(\d{4})-(\d{2})(?:-(\d{2}))?"
    match = re.search(pattern, text)
    if match:
        year = match.group(1)
        month = match.group(2)
        day = match.group(3) if match.group(3) else None
        return f"{year}-{month.zfill(2)}-{day.zfill(2)}" if day else f"{year}-{month.zfill(2)}"
    return None

# Extract named entities
named_entities = extract_named_entities(report_text)
named_entities = [entity for entity in named_entities if entity.isalpha()]

# Extract ship name
ship_name = extract_name(named_entities)

# Extract location
location = extract_location(named_entities)

# Extract nationality
nationality = extract_nationality(named_entities)

# Extract date
date = extract_date(report_text)

print(named_entities)
print("Ship Name:", ship_name)
print("Location:", location)
print("Nationality:", nationality)
print("Date:", date)


['东部', '战区', '新闻', '发言人', '就', '美', '米利厄斯', '号', '导弹', '驱逐舰', '过', '航', '台湾海峡', '发表谈话', '国内', '动态', '华声', '新闻', '华声', '在线', '华声', '在线', '湖南', '在线', '新闻', '专题', '评论', '投诉', '论坛', '图片', '视频', '文', '旅', '消费', '文体', '经济', '房产', '公益', '长沙', '网', '华声', '在线', '华声', '新闻', '国内', '动态', '正文', '新闻', '新闻', '论坛', '集团', '报刊', '湖南', '日报社', '湖南日报', '三湘', '都市报', '文萃', '报', '大众', '卫生', '报', '科教', '新报', '华声', '杂志', '文萃', '月刊', '放学后', '金鹰报', '法制', '周报', '东部', '战区', '新闻', '发言人', '就', '美', '米利厄斯', '号', '导弹', '驱逐舰', '过', '航', '台湾海峡', '发表谈话', '来源', '央视网', '初审', '编辑', '伍', '镆', '字体', '大', '中', '小', '央视网', '消息', '据', '东部', '战区', '微信', '公众', '号', '消息', '东部', '战区', '新闻', '发言人', '施毅', '陆军', '大校', '表示', '日', '美', '米利厄斯', '号', '导弹', '驱逐舰', '过', '航', '台湾海峡', '并', '公开', '炒作', '中国人民解放军', '东部', '战区', '组织', '兵力', '对', '美', '舰', '过', '航', '行动', '全程', '跟', '监', '警戒', '战区', '部队', '随时', '保持', '高度', '戒备', '坚决', '捍卫', '国家主权', '安全', '和', '地区', '和平', '稳定']
Ship Name: 米利厄斯号
Location: 台湾海峡
Nationality: 美
Date: 2023-04-17
