# 命名实体识别

命名实体（NEs）是确切的名词短语，指示特定类型的个体，如组织、人、日期等。

| NE 类型      | 例子                                |
|--------------|-----------------------------------------|
| ORGANIZATION | Georgia-Pacific Corp., WHO              |
| PERSON       | Eddy Bonte, President Obama             |
| LOCATION     | Murray River, Mount Everest             |
| DATE         | June, 2008-06-29                        |
| TIME         | two fifty a m, 1:30 p.m.                |
| MONEY        | 175 million Canadian Dollars, GBP 10.40 |
| PERCENT      | twenty pct, 18.75 %                     |
| FACILITY     | Washington Monument, Stonehenge         |
| GPE          | South East Asia, Midlothian             |

命名实体识别（NER）系统的目标是识别所有文字提及的命名实体。可以分解成两个子任务：确定 NE 的边界和确定其类型。命名实体识别经常是信息提取中关系识别的前奏，它也有助于其他任务。

例如：在问答系统（QA）中，我们试图提高信息检索的精度，不是返回整个页面而只是包含用户问题的答案部分。大多数 QA 系统利用标准信息检索返回文档，然后尝试分离文档中包含答案的最小的文本片段。现在假设问题是 Who was the first President of the US? 被检索的一个文档中包含下面这段话：

> The Washington Monument is the most prominent structure in Washington, D.C. and one of the city's early attractions. It was built in honor of George Washington, who led the country to independence and then became its first President.

分析问题是我们想到答案应该是 X was the first President of the US 的形式，其中 X 不仅是一个名词短语也是一个 PERSON 形式的命名实体。

我们如何识别命名实体呢？一个办法是查找要给适当的名词列表。例如：识别地点时，可以使用地名词典，如亚历山大地名辞典或盖蒂地名辞典。然而盲目这样做会出问题，如下图所示，On 被认为是在越南：

![locations.png](resources/locations.png)

人或组织的名称的情况更加困难，每天都有新的组织出现，如果我们正在努力处理当代文本或博客条目，使用名词辞典查找来识别众多实体是不可能的。

困难的另一个原因是许多命名实体有歧义，例如 May 和 North 可能分别是日期和地点类型的命名实体，也可以是人名；相反，Christian Dior 看上去像一个人名，但更可能是组织类型。

更大的挑战来自如 Stanford University 这样的多词名称和包含其他名称的名称，如 Cecil H. Green Library 和 Escondido Village Conference Service Center。因此，在命名实体识别中，我们需要能够识别多标识符序列的开头和结尾。

命名实体识别是一个非常适合用分类器来处理的任务，这种方法在前面章节的名词短语分块时已经看到过了。NLTK 提供了一个已经训练好的可以识别命名实体的分类器 [nltk.ne_chunk](https://www.nltk.org/_modules/nltk/chunk.html#ne_chunk)，如果我们设置参数 binary=True，那么命名实体只被标注为 NE；否则，分类器会添加类型标签，如 PERSON，ORGANIZATION 和 GPE 等。

In [1]:
import nltk

sent = nltk.corpus.treebank.tagged_sents()[22]
print(nltk.ne_chunk(sent, binary=True))

(S
  The/DT
  (NE U.S./NNP)
  is/VBZ
  one/CD
  of/IN
  the/DT
  few/JJ
  industrialized/VBN
  nations/NNS
  that/WDT
  *T*-7/-NONE-
  does/VBZ
  n't/RB
  have/VB
  a/DT
  higher/JJR
  standard/NN
  of/IN
  regulation/NN
  for/IN
  the/DT
  smooth/JJ
  ,/,
  needle-like/JJ
  fibers/NNS
  such/JJ
  as/IN
  crocidolite/NN
  that/WDT
  *T*-1/-NONE-
  are/VBP
  classified/VBN
  *-5/-NONE-
  as/IN
  amphobiles/NNS
  ,/,
  according/VBG
  to/TO
  (NE Brooke/NNP)
  T./NNP
  Mossman/NNP
  ,/,
  a/DT
  professor/NN
  of/IN
  pathlogy/NN
  at/IN
  the/DT
  (NE University/NNP)
  of/IN
  (NE Vermont/NNP College/NNP)
  of/IN
  (NE Medicine/NNP)
  ./.)


In [2]:
print(nltk.ne_chunk(sent))

(S
  The/DT
  (GPE U.S./NNP)
  is/VBZ
  one/CD
  of/IN
  the/DT
  few/JJ
  industrialized/VBN
  nations/NNS
  that/WDT
  *T*-7/-NONE-
  does/VBZ
  n't/RB
  have/VB
  a/DT
  higher/JJR
  standard/NN
  of/IN
  regulation/NN
  for/IN
  the/DT
  smooth/JJ
  ,/,
  needle-like/JJ
  fibers/NNS
  such/JJ
  as/IN
  crocidolite/NN
  that/WDT
  *T*-1/-NONE-
  are/VBP
  classified/VBN
  *-5/-NONE-
  as/IN
  amphobiles/NNS
  ,/,
  according/VBG
  to/TO
  (PERSON Brooke/NNP T./NNP Mossman/NNP)
  ,/,
  a/DT
  professor/NN
  of/IN
  pathlogy/NN
  at/IN
  the/DT
  (ORGANIZATION University/NNP)
  of/IN
  (PERSON Vermont/NNP College/NNP)
  of/IN
  (GPE Medicine/NNP)
  ./.)
