## 1. 信息提取介绍：

### 1.1 信息提取的主要任务：

信息提取：从**非结构化**的自然语言文本中识别出预先定义的类别，并且通过**结构化**形式记录这些信息。如下图所示：

<img src="TP_github/example_IE.png" width="600" height="500">

从上图中可以将信息提取大致分为三类：

1. **Entity Extraction/Named Entity Recognition**：**识别文本中的实体以及这些实体的分类**。这些实体包括：公司，个人，地点，书籍，电影，药品等。也包括：时间，距离，身高，体重等。在大多数文本中，实体名并不是保持不变的，大多数文本会包含指代问题 **Coreference**，例如：介词，缩写，拼写的变化等。因此，一个好的信息提取系统需要很好的识别实体的共同指代问题。


2. **Relation Extraction**：**识别实体之间的相互关系**。例如：企业与办公地点，球员与球队，产品与制造商等。**关系提取主要分为两类：关系识别，关系分类**。在文章中，实体之间的关联可以用许多形式进行表达，例如：ORG is based in LOC, ORG of LOC, LOC ORG等。


3. **Event Extraction**：识别文章中的事件。**主要分为两类任务：事件识别，事件分类。**

### 1.2 信息提取四种方法：

* Knowledge Engineering Approaches: 使用语料库，例如：gazetteers（地名），Wakao et al. system（包含组织名，地名，人名，公司代号，title），识别实体。**注意：语料库并不是越大越好。**


* Supervised Learning Approaches


* Bootstrapping Approaches: relation extraction


* Distant Supervision Approaches: named entity or relation extraction

### 1.3 evaluation：
* Precision

* Recall

* F measure


## 2. Named Entity Recognition NER:

**Knowledge Engineering Approaches需要人为制定规则，然而 Supervised learning approaches 不需要人为制定规则，系统自动学习。**

### 2.1 Knowledge Engineering Approaches: 

首先，根据语料库首先对单词进行标注。其次，对语料库之外的单词通过某种规则（人为定义）进行标注。最后，对其余未分类的单词通过语意推断获得其分类。

#### step1: Lexical Processing 
1. Tokenisation 去标点符号, sentence splitting 句子分割, morphological analysis 形态分析（断词，词形还原）
  
  
2. Part-of-speech tagging **词性**标注，例如：NN, NNP。 https://blog.csdn.net/qq_36652619/article/details/77252497
 
 
3. Name List/Gazetter Lookup and Tagging 实体类型标注 (organisations, locations, persons, company designators, person titles)，例如：ORG，LOC。
 
 
4. Trigger Word Tagging **表明事件出现的主要词汇。**

<img src="TP_github/tag.png" width="500" height="400">

#### step2: NE Parsing 
由于文本内可能包含一些在词汇库之外的单词，因此，需要对这些单词进行标记，通过一些规则来进行标记，例如：rule ORGAN NP --> NAMES NP ‘&’ NAMES NP。在ORGAN_NP 规则中，由“&”所连接的未被分类的单词均为机构名。

#### step3: Discourse Interpretation

* Coreference Resolution：对代词进行处理。

* Semantic Type Inference：根据语意对单词分类进行推断。**noun-noun qualification：**两个名词并列，两个名词属于同一类。**possessives：**与某一职位表示所属关系的PN为企业名。例如：vice president of ABC，副主席属于ABC，因此，ABC为组织或企业。**apposition：**职位前的PN为人名。Miodrag Jones, president of XYZ。Miodrag Jones为人名由于后面紧接着某一职位。

**总结：**
<img src="TP_github/kea.png" width="500" height="400">

### 2.2 Supervised learning approaches: 

**序列标注 sequence labelling:** 对一个序列（句子）里的每一个元素（单词）标注一个标签。
<img src="TP_github/example_sl.png" width="500" height="500">

然后将标注过的文本进行处理，处理规则如下：

* $\text{B}_{type}$：单词处于命名实体的起始位置。
* $\text{I}_{type}$：单词在命名实体内。
* $\text{O}_{type}$：单词在命名实体外。

通过上述规则，将文本转换为如下形式 **BIO encoding**：

<img src="TP_github/example_sl_2.png" width="200" height="300">

所有的单词以及单词的大小写，词性等当作特征进行训练，具体特征如下：

<img src="TP_github/features.png" width="600" height="500">

其中，有关shape的特征包括：

<img src="TP_github/shape.png" width="600" height="500">

分类器工作流程：？？？

<img src="TP_github/classifier.png" width="600" height="500">

大体流程如下：

<img src="TP_github/sl_steps.png" width="600" height="500">

**BIO-based sequence labelling：**

Carreras, X., Marquez, L. and Padro, L. A Simple Named Entity Extractor using AdaBoost. Proceedings of CoNLL-2003 , 152–155, 2003.

## 3. Entity Linking:

实体连接的任务是将出现在背景文档中的命名实体和结构化的知识库中的节点连接起来。

简单方法如下所示：通过信息检索获得相关的文章。

<img src="TP_github/entity_linking.png" width="500" height="500">

然而，不同实体之间会有同名现象，具体方法参考如下论文：

Alhelbawy, A. and Gaizauskas, R. Collective Named Entity Disambiguation using Graph Ranking and Clique Partitioning Approaches. In Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers, 1544–1555, 2014.

## 4. Relation Extraction：

### 4.1 Knowledge Engineering Approaches：

使用人为制定的规则，例如：pattern-action rule。

<img src="TP_github/pattern_action.png" width="500" height="400">

* pattern: Person, Position of Organization

* action: add-relation(is-employed-by(Person, Organization))

或者 transduction rules。
<img src="TP_github/rule.png" width="600" height="500">


### 4.2 Supervised learning approaches:

通过使用分类算法将出现“subject-relation-object”的句子分为positive，反之，未出现“subject-relation-object”的句子为negative。可将特征分为三类：

<img src="TP_github/relation_features.png" width="600" height="500">

例如：获得下面句子的特征。
<img src="TP_github/relation_example.png" width="600" height="500">

### 4.3 Bootstrapping Approaches:
**探索二元性的关系，例如：（person, book）**。首先，从T中发现tuple（实体对）然后提取关系模式并添加到P中，通过P中的模式发现T，直至收敛。
<img src="TP_github/bootstrapping.png" width="500" height="500">

在DIPRE（Dual Iterative Pattern Relation Expansion）系统中，大致流程如下：
1. 用户提供样本集合R，例如：（海明威, 《老人与海》），（亨利，《瓦尔登湖》）等。

2. 从D（web）中获得与（海明威, 《老人与海》）以及（亨利, 《瓦尔登湖》）有关的所有的句子然后转换成 **occurrences**结构。

3. 从上一步获得的**occurrences**中，学习到某一种或某几种模式 **patterns**。

4. 在D中，寻找有这种模式关系的实体对，将这些实体对添加到R中。

5. 判断R是否足够大，如果足够大，跳出循环，否则，继续步骤2。

其中，pattern与occurrence结构如下：

* Occurrences: (author , title , order , url , prefix , middle , suffix)

* Patterns: (order , urlprefix , prefix , middle , suffix)

例如：

句子一：**The famous writer** Hemingway **wrote** The Old Man and the Sea **book**.

句子二：**The amazing writer** Charles Dickens **wrote** Pickwick Papers **book**.

**两个句子的occurences如下：**

{'author': 'Hemingway',
 'title': 'The Old Man and the Sea',
 'order': 1,
 'url': 'http://localhost/DIPRE/BestSeller1.html',
 'prefix': 'The famous writer',
 'middle': 'wrote',
 'suffix': 'book'
}

{'author': 'Charles Dickens',
 'title': 'Pickwick Papers',
 'order': 1,
 'url': 'http://localhost/DIPRE/BestSeller2.html',
 'prefix': 'The amazing writer',
 'middle': 'wrote',
 'suffix': 'book'
}

**通过两个occurences学习到的pattern：匹配前缀最长的后缀，后缀最长的前缀，URL匹配最长的前缀。**

{'order': 1,
 'middle': 'wrote',
 'url': 'http://localhost/DIPRE/',
 'prefix': 'writer',
 'suffix': 'book'
}






https://blog.csdn.net/qq_39591838/article/details/102628466


存在语意漂移问题。
<img src="TP_github/bootstrapping_con.png" width="500" height="500">

### 4.4 Distant Supervision Approaches: ???

Distant supervision assumption: if two entities participate in a relation, any sentence that contains those two entities might express that relation. So, tag all sentences containing the two entity mentions as mentions of the relation.

<img src="TP_github/distant_supervision.png" width="500" height="500">