# 事件抽取
- [Reference](https://blog.csdn.net/muumian123/article/details/81746583)
- 定义
    - 从描述事件信息的文本中抽取出事件信息并结构化呈现
- 子任务
    - 事件识别任务(基于单词/词汇的多分类任务)
        - 事件类型识别
            - ACE2005 定义了8种事件类型和33种子类型。其中，大多数事件抽取均采用33 种事件类型。事件识别是基于词的34 类(33类事件类型+None) 多元分类任务，角色分类是基于词对的36 类(35类角色类型+None) 多元分类任务
        - 事件触发词识别
            - 多为动词或名词
    - 事件元素角色分类任务(基于词对的多分类任务)
        - 事件元素
            - 事件的参与者，主要由实体、值、时间组成。值是一种非实体的事件参与者，例如工作岗位 
        - 元素角色
            - 事件论元在事件中充当的角色。共有35类角色，例如，攻击者 、受害者等
- 限定/开放领域事件抽取
    - ACE 8大类事件, 33类子事件
        - 基于内容特征的事件抽取
        - 基于异常检测的事件抽取
    - 事件关系抽取
        - 共指关系抽取
        - 因果关系抽取
        - 子事件关系抽取
        - 事件时序关系抽取
- 基于模式匹配
    - 有监督的事件模式匹配
        - 人工标注语料
        - 模式学习
        -　模式匹配
            - PALKA模式抽取系统
    - 弱监督的事件模式匹配
- 基于机器学习的事件抽取
    - 多分类问题模型，提取特征向量后使用监督分类器进行事件抽取

## 军事领域事件抽取任务
- 将文章拆分为若干个子事件
-　子事件属性
    - uuid[customed]
    - date[optional]
    - content[from competition]
    - relationEntity[from content]
        - example1
            - uuid
            - name
            - number[optional]
            - label
                - 实体识别(组织，地点，船舰)
        - example2
                
- 建立子事件之间关系
    - startId
    - endId
    
- 实现思路
    - 鉴于每个子事件必须有关联实体，因此根据ltp工具识别出来的名词/动词进行触发，以含有该实体的最小单位为一个子事件，即：以能抽出至少一个实体为标准定义一个子事件
    - 文章分句(句号，感叹号，问号)，暂定各个句子为一个子事件(id2event字典)
    - 对各个子事件进行带词性标注的句法依存分析，得到诸如地名(ns, nsf..)，组织(nt, ntc, nto..)，人物(nr, nrf..)，时间事件(nt)以及其他专有名词(nz, nx)的实体
        - 专有名词部分，需要军事领域词库(组织名，武器名等)支持保证分词的准确度
        - 子事件主语为代词的指代消解：结合每篇文章标题与已抽取的子事件实体，来进一步制定规则进行代词替换
            - 如本分句主语代词大概率为上一句的主语，若上一句主语为名词，若上一句存在多个主语，则需要进一步判断
    - 若单个分句分析未得到以上触发词(动词、名词),则默认此分句不构成一个子事件，将其并入下一个分句，或者舍弃
    - 子事件之间关系建立(event2id字典)
        - 暂定为按照文章顺序确定各个子事件为依次顺承关系

# 工具导入

In [236]:
import re
from pyhanlp import *
from pprint import pprint
import json
from collections import defaultdict
import datetime
from copy import deepcopy

# Helper function

In [5]:
def split_sents(content):
        return [sentence.replace('　','') for sentence in re.split(r'[？?！!。；;：:\n\r]', content) if sentence]

In [51]:
temp = {"brief":"四百二十七","parameter":"排量：11000t。","title":"蒙特利","url":"http://www.hazegray.org/danfs/carriers/cvl26.htm","content":["摘自：《美国海军战斗舰词典》，第四卷（1969年），页。","四百二十七","CVL-26型","纽约造船公司于1941年12月29日在新泽西州卡姆登市建立了代顿（CL-78）；于1942年3月27日重新分类为CV-26；于1942年3月31日更名为蒙特利；于1943年2月28日下水；由P.N.L.贝林格夫人赞助；并于1943年6月17日委任莱斯特T.亨特上尉指挥。","蒙特利号于1943年7月15日重新定级为CVL-26，在服役不久后，在安定下来后，离开费城前往西太平洋。她于1943年11月19日到达吉尔伯茨号，及时帮助马金岛安全。作为TG 37.2的一部分，她参加了12月25日对新爱尔兰Kavieng的罢工，并支持在Kwajalein和Eniwetok降落，直到1944年2月8日。1944年2月至7月，这艘轻型航母在卡罗琳、马里亚纳、新几内亚北部和博宁群岛的突袭中与58特遣部队一起行动。在此期间，她还参与了4月29日和30日的菲律宾海战役。","蒙特利随后驶往珍珠港进行检修，于8月29日再次启航。她于9月3日发动了对威克岛的袭击，随后加入了第38特遣部队，并参加了对菲律宾南部和琉球的袭击。1944年10月至12月在菲律宾度过，首先支持莱特，然后支持民都洛登陆。","尽管敌机无法摧毁蒙特利，但她并没有毫发无损地完成第一年的服役。去年12月，她驶进了一条呼啸的台风路径，风速超过100节!风暴持续了两天之久，在最高峰时，几架飞机从缆绳上脱落，导致机库甲板上发生了几起火灾。1945年1月，蒙特利抵达华盛顿州布雷默顿进行大修?她从5月9日至6月1日重新加入58特遣部队，并支持冲绳的行动，对N ansei Shoto和d Kyushu发动了打击！7月1日至8月15日，她重返38特遣部队，参加了对本州和北海道的最后一次打击？","她于9月7日离开日本水域，在东京出兵，然后清蒸回家，10月17日抵达纽约市。蒙特利留下了令人印象深刻、令人羡慕的战绩。她的飞机击沉了五艘敌舰，并损坏了其他战舰。她负责摧毁数千吨日本船只、数百架飞机和重要的工业综合体。她被分配到“魔毯”任务，并在那不勒斯和诺福克之间进行了几次航行。她于1947年2月11日退役，并被分配到费城大西洋后备舰队。","随着朝鲜战争的爆发，蒙特利于1950年9月15日重新投入使用。她于1951年1月3日离开诺福克，前往佛罗里达州彭萨科拉，在海军训练司令部的领导下，在那里工作了4年，训练了数千名海军航空学员、学生飞行员和直升机学员。1954年10月1日至11日，她参加了洪都拉斯的一次洪灾救援任务。她于1955年6月9日离开彭萨科拉，重新加入费城大西洋预备舰队。她于1956年1月16日退役。1959年5月15日，她被重新归类为AVT-2，直到1969年仍在费城停泊。","蒙特利在第二次世界大战中获得了11颗战斗之星。","由Michael Hansen 72667.1530@compuserve.com转录"]}
string = temp['content'][3:]
pprint(temp)
pprint(string)

{'brief': '四百二十七',
 'content': ['摘自：《美国海军战斗舰词典》，第四卷（1969年），页。',
             '四百二十七',
             'CVL-26型',
             '纽约造船公司于1941年12月29日在新泽西州卡姆登市建立了代顿（CL-78）；于1942年3月27日重新分类为CV-26；于1942年3月31日更名为蒙特利；于1943年2月28日下水；由P.N.L.贝林格夫人赞助；并于1943年6月17日委任莱斯特T.亨特上尉指挥。',
             '蒙特利号于1943年7月15日重新定级为CVL-26，在服役不久后，在安定下来后，离开费城前往西太平洋。她于1943年11月19日到达吉尔伯茨号，及时帮助马金岛安全。作为TG '
             '37.2的一部分，她参加了12月25日对新爱尔兰Kavieng的罢工，并支持在Kwajalein和Eniwetok降落，直到1944年2月8日。1944年2月至7月，这艘轻型航母在卡罗琳、马里亚纳、新几内亚北部和博宁群岛的突袭中与58特遣部队一起行动。在此期间，她还参与了4月29日和30日的菲律宾海战役。',
             '蒙特利随后驶往珍珠港进行检修，于8月29日再次启航。她于9月3日发动了对威克岛的袭击，随后加入了第38特遣部队，并参加了对菲律宾南部和琉球的袭击。1944年10月至12月在菲律宾度过，首先支持莱特，然后支持民都洛登陆。',
             '尽管敌机无法摧毁蒙特利，但她并没有毫发无损地完成第一年的服役。去年12月，她驶进了一条呼啸的台风路径，风速超过100节!风暴持续了两天之久，在最高峰时，几架飞机从缆绳上脱落，导致机库甲板上发生了几起火灾。1945年1月，蒙特利抵达华盛顿州布雷默顿进行大修?她从5月9日至6月1日重新加入58特遣部队，并支持冲绳的行动，对N '
             'ansei Shoto和d '
             'Kyushu发动了打击！7月1日至8月15日，她重返38特遣部队，参加了对本州和北海道的最后一次打击？',
             '她于9月7日离开日本水域，在东京出兵，然后清蒸回家，10月17日抵达纽约市。蒙特利留下了令人印象

In [52]:
split_events = split_sents(''.join(string))

In [53]:
id2event = {split_events.index(r): r for r in split_events}
id2event

{0: '纽约造船公司于1941年12月29日在新泽西州卡姆登市建立了代顿（CL-78）',
 1: '于1942年3月27日重新分类为CV-26',
 2: '于1942年3月31日更名为蒙特利',
 3: '于1943年2月28日下水',
 4: '由P.N.L.贝林格夫人赞助',
 5: '并于1943年6月17日委任莱斯特T.亨特上尉指挥',
 6: '蒙特利号于1943年7月15日重新定级为CVL-26，在服役不久后，在安定下来后，离开费城前往西太平洋',
 7: '她于1943年11月19日到达吉尔伯茨号，及时帮助马金岛安全',
 8: '作为TG 37.2的一部分，她参加了12月25日对新爱尔兰Kavieng的罢工，并支持在Kwajalein和Eniwetok降落，直到1944年2月8日',
 9: '1944年2月至7月，这艘轻型航母在卡罗琳、马里亚纳、新几内亚北部和博宁群岛的突袭中与58特遣部队一起行动',
 10: '在此期间，她还参与了4月29日和30日的菲律宾海战役',
 11: '蒙特利随后驶往珍珠港进行检修，于8月29日再次启航',
 12: '她于9月3日发动了对威克岛的袭击，随后加入了第38特遣部队，并参加了对菲律宾南部和琉球的袭击',
 13: '1944年10月至12月在菲律宾度过，首先支持莱特，然后支持民都洛登陆',
 14: '尽管敌机无法摧毁蒙特利，但她并没有毫发无损地完成第一年的服役',
 15: '去年12月，她驶进了一条呼啸的台风路径，风速超过100节',
 16: '风暴持续了两天之久，在最高峰时，几架飞机从缆绳上脱落，导致机库甲板上发生了几起火灾',
 17: '1945年1月，蒙特利抵达华盛顿州布雷默顿进行大修',
 18: '她从5月9日至6月1日重新加入58特遣部队，并支持冲绳的行动，对N ansei Shoto和d Kyushu发动了打击',
 19: '7月1日至8月15日，她重返38特遣部队，参加了对本州和北海道的最后一次打击',
 20: '她于9月7日离开日本水域，在东京出兵，然后清蒸回家，10月17日抵达纽约市',
 21: '蒙特利留下了令人印象深刻、令人羡慕的战绩',
 22: '她的飞机击沉了五艘敌舰，并损坏了其他战舰',
 23: '她负责摧毁数千吨日本船只、数百架飞机和重要的工业综合体'

# 抽取子事件及其属性

In [198]:
target_label = {
        '人物': {'nr', 'nr1', 'nr2', 'nrf', 'nrj'},
        '组织机构': {'nt', 'ntc', 'nto'},
        '地点': {'ns', 'nsf'},
        '武器': {'nz'},
        '候选': {'nx', 'n'}}
entity_set  = set()
[entity_set.update(a) for a in target_label.values()]
entity_set

{'n',
 'nr',
 'nr1',
 'nr2',
 'nrf',
 'nrj',
 'ns',
 'nsf',
 'nt',
 'ntc',
 'nto',
 'nx',
 'nz'}

In [237]:
result = []
for key, value in id2event.items():
    event_dict = defaultdict(list)
    parser = HanLP.parseDependency(value)
    
    # check if target entity exists
    entity = set([each.POSTAG for each in parser])
    if not (entity & entity_set):
        print("Not a sub-event")
        continue
    
    event_dict['uuid'] = key
    
    event_dict['content'] = value
    
    date_pattern = re.compile(r'[\d]*[年|月|日]*[\d]*[月]+[\d]*[年|月|日]*')
    event_dict['date'].extend(date_pattern.findall(value))
    
    event_dict['relationEntity'] = []
    
    for index, each in enumerate(parser):
        relationEntity = defaultdict(list)
        for key, value in target_label.items():
            if each.POSTAG in value:
                relationEntity['uuid'] = index
                relationEntity['name'] = each.LEMMA
                # optional
#                 relationEntity['number'] = 0
                relationEntity['label'] = key
        if relationEntity:
            event_dict['relationEntity'].append(relationEntity)
    
    result.append(event_dict)
    print(event_dict)
    print(parser)
    print()
    print()    

defaultdict(<class 'list'>, {'uuid': 0, 'content': '纽约造船公司于1941年12月29日在新泽西州卡姆登市建立了代顿（CL-78）', 'date': ['1941年12月29日'], 'relationEntity': [defaultdict(<class 'list'>, {'uuid': 0, 'name': '纽约', 'label': '地点'}), defaultdict(<class 'list'>, {'uuid': 1, 'name': '造船公司', 'label': '候选'}), defaultdict(<class 'list'>, {'uuid': 5, 'name': '新泽西州', 'label': '地点'}), defaultdict(<class 'list'>, {'uuid': 6, 'name': '卡姆', 'label': '人物'}), defaultdict(<class 'list'>, {'uuid': 7, 'name': '登市', 'label': '地点'}), defaultdict(<class 'list'>, {'uuid': 10, 'name': '代顿', 'label': '武器'}), defaultdict(<class 'list'>, {'uuid': 12, 'name': 'CL', 'label': '候选'})]})
1	纽约	纽约	ns	ns	_	2	定中关系	_	_
2	造船公司	造船公司	n	n	_	9	主谓关系	_	_
3	于	于	p	p	_	9	状中结构	_	_
4	1941年12月29日	1941年12月29日	nt	t	_	3	介宾关系	_	_
5	在	在	p	p	_	9	状中结构	_	_
6	新泽西州	新泽西州	ns	ns	_	7	定中关系	_	_
7	卡姆	卡姆	nh	nrf	_	8	定中关系	_	_
8	登市	登市	ns	ns	_	5	介宾关系	_	_
9	建立	建立	v	v	_	0	核心关系	_	_
10	了	了	u	u	_	9	右附加关系	_	_
11	代顿	代顿	nz	nz	_	9	动宾关系	_	_
12	（	（	wp	w	_	13	标点符号	_	_
13	CL	CL	ws	nx	_	11	并

## 保存子事件

In [200]:
with open('extraction.json', 'w', encoding='utf-8') as f:
    json.dump(result, f)

# 处理日期，进行日期关联排序建立事件之间的连接

In [286]:
# 没有年份的日期，取前一事件的年份作为年份
# 双日期取舍，选字符串长度长的，可能有更精确的时间
temp = deepcopy(result)
event_with_date = [r for r in temp if r['date']]
for each in event_with_date:
    if len(each['date']) > 1:
        temp_date = sorted(each['date'], key=len)[-1]
        each['date'] = [temp_date]

In [287]:
for index, each in enumerate(event_with_date):
    if each['date'][0].find('年') == -1:
        year = event_with_date[index-1]['date'][0].split('年')[0]
        each['date'].append(year + '年' + each['date'][0])
        each['date'].pop(0)
    if each['date'][0].startswith('年'):
        year = event_with_date[index-1]['date'][0].split('年')[0]
        each['date'].append(year + each['date'][0])
        each['date'].pop(0)
        
event_with_date
# 少日期的补上为每个月第一天，方便排序
for each in event_with_date:
    if not each['date'][0].endswith('日'):
        each['date'][0] += '1日'

In [289]:
sorted_date = sorted([r['date'][0] for r in event_with_date], 
       key=lambda x: datetime.datetime.strptime(x, '%Y年%m月%d日'))

In [291]:
# 基本是和行文的时间顺序一样
sorted_id = []
for date in sorted_date:
    for event in event_with_date:
        if event['date'][0] == date:
            sorted_id.append(event['uuid'])

In [297]:
relation_id = [{'startId': r[0], 'endId': r[1]} for r in zip(sorted_id, sorted_id[1:])]
relation_id

[{'startId': 0, 'endId': 1},
 {'startId': 1, 'endId': 2},
 {'startId': 2, 'endId': 3},
 {'startId': 3, 'endId': 5},
 {'startId': 5, 'endId': 6},
 {'startId': 6, 'endId': 7},
 {'startId': 7, 'endId': 9},
 {'startId': 9, 'endId': 8},
 {'startId': 8, 'endId': 10},
 {'startId': 10, 'endId': 11},
 {'startId': 11, 'endId': 12},
 {'startId': 12, 'endId': 13},
 {'startId': 13, 'endId': 15},
 {'startId': 15, 'endId': 17},
 {'startId': 17, 'endId': 18},
 {'startId': 18, 'endId': 19},
 {'startId': 19, 'endId': 20},
 {'startId': 20, 'endId': 25},
 {'startId': 25, 'endId': 26},
 {'startId': 26, 'endId': 27},
 {'startId': 27, 'endId': 28},
 {'startId': 28, 'endId': 29},
 {'startId': 29, 'endId': 31}]

## 保存日期链接

In [298]:
with open('event_relation.json', 'w', encoding='utf-8') as f:
    json.dump(relation_id, f)

# todo
- 指代消歧

# navigator

In [273]:
text1='2016年7月10日'
text2='2016年6月01日'
text3='2016年7月'
text = [text1, text2, text3]

In [274]:
sorted(text, key=lambda x: datetime.datetime.strptime(x, '%Y年%m月%d日'))

ValueError: time data '2016年7月' does not match format '%Y年%m月%d日'