# Reconocimiento de Entidades

El [reconocimiento de entidades](https://paperswithcode.com/task/named-entity-recognition-ner) es la tarea de Procesamiento del Lenguaje que consiste en procesar un texto de entrada en lenguaje natural, identificar las menciones que hacen referencia a entidades del mundo real y clasificarlas por tipos predefinidos.

Un sistema de reconocimiento generalista normalmente será capaz de identificar menciones que hagan referencia a personas, organizaciones, lugares, fechas, expresiones temporales, precios, cantidades, etc.

El [API Natural Language de Google](https://cloud.google.com/natural-language) funciona muy bien. 

![](img/google-ner.png)


## spaCy

[spaCy](https://spacy.io) es una librería de procesamiento del lenguaje natural, robusta, rápida, fácil de instalar y utilizar e integrable con [otras librerías de NLP y de deep learning](https://spacy.io/universe).

Dispone de [modelos entrenados en varias lenguas y con distinto tamaños](https://spacy.io/usage/models) y funcionalidades, y permite realizar las típicas tareas de segmentación por oraciones, tokenizanción, análisis morfológico, extracción de entidades y análisis de opinión.


In [None]:
import spacy

# cargamos el modelo entrenado en español
nlp_en = spacy.load("en_core_web_md")

# cargamos el modelo entrenado en español
nlp_es = spacy.load("es_core_news_md")

In [None]:
texto = """España incumple la regla del déficit del euro y queda como único país bajo el control de Bruselas. 
España no aprobará finalmente la regla europa del déficit y se quedará como único país de la Eurozona que 
suspende y sigue bajo vigilancia. El Gobierno se salta finalmente el requisito de saneamiento presupuestario 
del Tratado de Maastricht y obtiene así más margen de gasto en 2018."""

# y procesamos el texto
doc = nlp_es(texto)

In [None]:
print(doc.ents)

for entity in doc.ents:
    print(f"{entity} es de tipo {entity.label_}")

In [None]:
from spacy import displacy

displacy.serve(doc, style="ent")

In [None]:
for sentence in doc.sents:
    for token in sentence:
        print(
            f"{token}/{token.lemma_} => etiqueta {token.pos_}/{token.tag_} y dependencia {token.dep_}"
        )

## flair

[flair](https://github.com/flairNLP/flair) es un librería de NLP desarrollada por Zalando Research. Viene entrenada con [distintos modelos](https://github.com/flairNLP/flair/blob/master/resources/docs/TUTORIAL_2_TAGGING.md) para para tareas como:

- etiquetar morfo-sintácticamente
- extraer entidades
- [clasificar automáticamente texto](https://towardsdatascience.com/text-classification-with-state-of-the-art-nlp-library-flair-b541d7add21f)
- entrenar tus propios modelos para [construir otros clasificadores](https://towardsdatascience.com/text-classification-with-state-of-the-art-nlp-library-flair-b541d7add21f)
- [cargar vectores de palabras en decenas de lenguas](https://github.com/zalandoresearch/flair/blob/master/resources/docs/TUTORIAL_3_WORD_EMBEDDING.md)
- [usar vectores contextuales como BERT, ELMo](https://github.com/zalandoresearch/flair/blob/master/resources/docs/TUTORIAL_4_ELMO_BERT_FLAIR_EMBEDDING.md)



In [None]:
from flair.data import Sentence
from flair.models import SequenceTagger

# cargamos el reconocedor de entidades
tagger = SequenceTagger.load("ner-fast")

In [None]:
# analizamos una oración
sentence = Sentence(
    """Behind closed doors, freshman Rep. Alexandria Ocasio-Cortez threatened to put those voting with Republicans “on a list” for a primary challenge in the 2020 election."""
)
tagger.predict(sentence)

In [None]:
# imprimimos el análisis
print(sentence.to_tagged_string())

In [None]:
# iteramos por la entidades
for entity in sentence.get_spans("ner"):
    print(entity)

In [None]:
# o imprimimos la estructura de datos con el análisis completo
print(sentence.to_dict(tag_type="ner"))

## Datasets para NER

- [CoNLL 2003](https://github.com/synalp/NER/tree/master/corpus/CoNLL-2003)
- [OntoNotes](https://catalog.ldc.upenn.edu/docs/LDC2013T19/OntoNotes-Release-5.0.pdf)