# Reconocimiento de Entidades

El [reconocimiento de entidades](https://paperswithcode.com/task/named-entity-recognition-ner) es la tarea de Procesamiento del Lenguaje que consiste en procesar un texto de entrada en lenguaje natural, identificar las menciones que hacen referencia a entidades del mundo real y clasificarlas por tipos predefinidos.

Un sistema de reconocimiento generalista normalmente será capaz de identificar menciones que hagan referencia a personas, organizaciones, lugares, fechas, expresiones temporales, precios, cantidades, etc.

El [API Natural Language de Google](https://cloud.google.com/natural-language) funciona muy bien. 

![](../img/google-ner.png)


## spaCy

[spaCy](https://spacy.io) es una librería de procesamiento del lenguaje natural, robusta, rápida, fácil de instalar y utilizar e integrable con [otras librerías de NLP y de deep learning](https://spacy.io/universe).

Dispone de [modelos entrenados en varias lenguas y con distinto tamaños](https://spacy.io/usage/models) y funcionalidades, y permite realizar las típicas tareas de segmentación por oraciones, tokenizanción, análisis morfológico, extracción de entidades y análisis de opinión.


In [1]:
import spacy

# cargamos el modelo entrenado en español
nlp_en = spacy.load("en_core_web_md")

# cargamos el modelo entrenado en español
nlp_es = spacy.load("es_core_news_md")

In [2]:
texto = """España incumple la regla del déficit del euro y queda como único país bajo el control de Bruselas. 
España no aprobará finalmente la regla europa del déficit y se quedará como único país de la Eurozona que 
suspende y sigue bajo vigilancia. El Gobierno se salta finalmente el requisito de saneamiento presupuestario 
del Tratado de Maastricht y obtiene así más margen de gasto en 2018."""

# y procesamos el texto
doc = nlp_es(texto)

In [3]:
print(doc.ents)

for entity in doc.ents:
    print(f"{entity} es de tipo {entity.label_}")

(Bruselas, España, Eurozona, El Gobierno, Tratado de Maastricht)
Bruselas es de tipo LOC
España es de tipo LOC
Eurozona es de tipo LOC
El Gobierno es de tipo PER
Tratado de Maastricht es de tipo MISC


In [4]:
from spacy import displacy

displacy.serve(doc, style="ent")

  "__main__", mod_spec)



Using the 'ent' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.


In [5]:
for sentence in doc.sents:
    for token in sentence:
        print(
            f"{token}/{token.lemma_} => etiqueta {token.pos_}/{token.tag_} y dependencia {token.dep_}"
        )

España/España => etiqueta PROPN/PROPN___ y dependencia nsubj
incumple/incumplir => etiqueta VERB/VERB__Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin y dependencia ROOT
la/lo => etiqueta DET/DET__Definite=Def|Gender=Fem|Number=Sing|PronType=Art y dependencia det
regla/reglar => etiqueta NOUN/NOUN__Gender=Fem|Number=Sing y dependencia obj
del/del => etiqueta ADP/ADP__AdpType=Preppron|Gender=Masc|Number=Sing y dependencia case
déficit/déficit => etiqueta NOUN/NOUN__Gender=Masc|Number=Sing y dependencia nmod
del/del => etiqueta ADP/ADP__AdpType=Preppron|Gender=Masc|Number=Sing y dependencia case
euro/euro => etiqueta NOUN/NOUN__Gender=Masc|Number=Sing y dependencia nmod
y/y => etiqueta CONJ/CCONJ___ y dependencia cc
queda/quedo => etiqueta VERB/VERB__Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin y dependencia conj
como/comer => etiqueta SCONJ/SCONJ___ y dependencia mark
único/único => etiqueta ADJ/ADJ__Gender=Masc|Number=Sing y dependencia amod
país/país => etiqueta NOUN/NO

In [6]:
text = """A United States citizen died from the coronavirus in Wuhan, China, American 
officials said on Saturday. It was the first known American death from the illness, 
and was likely to add to diplomatic frictions over Beijing’s response to the epidemic."""

# y procesamos el texto
doc = nlp_es(text)

In [7]:
print(doc.ents)

for entity in doc.ents:
    print(f"{entity} es de tipo {entity.label_}")

(United States, China, American 
, Saturday, It was the first known American death from the illness, Beijing’s)
United States es de tipo ORG
China es de tipo LOC
American 
 es de tipo ORG
Saturday es de tipo MISC
It was the first known American death from the illness es de tipo MISC
Beijing’s es de tipo MISC


In [8]:
from spacy import displacy

displacy.serve(doc, style="ent")

  "__main__", mod_spec)



Using the 'ent' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.


## flair

[flair](https://github.com/flairNLP/flair) es un librería de NLP desarrollada por Zalando Research. Viene entrenada con [distintos modelos](https://github.com/flairNLP/flair/blob/master/resources/docs/TUTORIAL_2_TAGGING.md) para para tareas como:

- etiquetar morfo-sintácticamente
- extraer entidades
- [clasificar automáticamente texto](https://towardsdatascience.com/text-classification-with-state-of-the-art-nlp-library-flair-b541d7add21f)
- entrenar tus propios modelos para [construir otros clasificadores](https://towardsdatascience.com/text-classification-with-state-of-the-art-nlp-library-flair-b541d7add21f)
- [cargar vectores de palabras en decenas de lenguas](https://github.com/zalandoresearch/flair/blob/master/resources/docs/TUTORIAL_3_WORD_EMBEDDING.md)
- [usar vectores contextuales como BERT, ELMo](https://github.com/zalandoresearch/flair/blob/master/resources/docs/TUTORIAL_4_ELMO_BERT_FLAIR_EMBEDDING.md)



In [9]:
from flair.data import Sentence
from flair.models import SequenceTagger

# cargamos el reconocedor de entidades
tagger = SequenceTagger.load("ner-fast")

2020-02-08 14:51:13,442 loading file /home/victor/.flair/models/en-ner-fast-conll03-v0.4.pt


In [10]:
# analizamos una oración
sentence = Sentence(
    """Behind closed doors, freshman Rep. Alexandria Ocasio-Cortez threatened to put those voting with Republicans “on a list” for a primary challenge in the 2020 election."""
)

tagger.predict(sentence)

[Sentence: "Behind closed doors, freshman Rep. Alexandria Ocasio-Cortez threatened to put those voting with Republicans “on a list” for a primary challenge in the 2020 election." - 25 Tokens]

In [11]:
# imprimimos el análisis
print(sentence.to_tagged_string())

Behind closed doors, freshman Rep. Alexandria <B-PER> Ocasio-Cortez <E-PER> threatened to put those voting with Republicans <S-MISC> “on a list” for a primary challenge in the 2020 election.


In [12]:
# iteramos por la entidades
for entity in sentence.get_spans("ner"):
    print(entity)

PER-span [6,7]: "Alexandria Ocasio-Cortez"
MISC-span [14]: "Republicans"


In [13]:
# o imprimimos la estructura de datos con el análisis completo
print(sentence.to_dict(tag_type="ner"))

{'text': 'Behind closed doors, freshman Rep. Alexandria Ocasio-Cortez threatened to put those voting with Republicans “on a list” for a primary challenge in the 2020 election.', 'labels': [], 'entities': [{'text': 'Alexandria Ocasio-Cortez', 'start_pos': 35, 'end_pos': 59, 'type': 'PER', 'confidence': 0.957447737455368}, {'text': 'Republicans', 'start_pos': 96, 'end_pos': 107, 'type': 'MISC', 'confidence': 0.9999040365219116}]}


## Datasets para NER

- [CoNLL 2003](https://github.com/synalp/NER/tree/master/corpus/CoNLL-2003)
- [OntoNotes](https://catalog.ldc.upenn.edu/docs/LDC2013T19/OntoNotes-Release-5.0.pdf)

# Búsqueda de Respuestas

La [búsqueda de respuestas](https://paperswithcode.com/task/question-answering) es la tarea de Procesamiento del Lenguaje que consiste en procesar una pregunta de entrada expresada en lenguaje natural y un contexto susceptible de contener una respuesta y estraer la respuesta concreta.

Un sistema de búsqueda de respuesta se puede entender como la combinación de sistemas que resuelven otras tareas: un motor de búsqueda, un reconocedor de entidades y un sistema de extracción de información. 

![](../img/qa-system.png)


La arquitectura por lo tanto es más compleja, pero podemos jugar con varios sistemas ya implementados:

- [FacebookAI DrQA](https://github.com/facebookresearch/DrQA)
- [DeepPavlov](https://demo.deeppavlov.ai/#/en/textqa/)
- [Allen NLP Reading Comprenhension](https://demo.allennlp.org/reading-comprehension)

## Datasets para QA

- [Stanford Question Answering Dataset (SQuAD)](https://rajpurkar.github.io/SQuAD-explorer/)
- [QuAC: Question Answering in Context](https://quac.ai/)
- [Otras colecciones](https://github.com/facebookresearch/DrQA#qa-datasets)