**RECONOCIMIENTO DE ENTIDADES NOMBRADAS (NER)**



Este Notebook permite extraer entidades nombradas a partir de textos en lenguaje natural.

Utilizaremos el [conjunto de etiquetas de entidades estándar de SPacy](https://spacy.io/api/annotation#pos-tagging).   

Primero, necesitamos instalar algunos paquetes (en caso de que no estén instalados):

In [None]:
# !pip install spacy
# !python -m spacy download es_core_news_sm

Luego, necesitamos cargar algunas bibliotecas y métodos:

In [1]:
import es_core_news_sm
from spacy import displacy

Definimos la función **ExtraerEntidades(texto)**, que realiza el etiquetado NER para un texto de entrada, y retorna  una lista con todas las entidades

In [2]:
def ExtraerEntidades(texto):
   doc = nlp(texto) 
   entities = [NE for NE in doc.ents]
   return(entities)

Dado que se reconocen todas las entidades existentes, definimos además una función **FiltrarEntidades(Entidades, tipo_entidad)**, que permite extraer desde las entidades reconocidas solo aquellas de un cierto tipo (i.e., PERsonas, ORGanizaciones, etc):

In [3]:
def FiltrarEntidades(Entidades, tipo_entidad):
   entidades = list()
   for Ent in Entidades:
     if (Ent.label_ == tipo_entidad):
       entidades.append(Ent.text)
   return(entidades)

Ahora, realizamos nuestro programa principal, y leyendo un archivo de texto simple: 

In [8]:
nlp = es_core_news_sm.load()
texto = open('C:/Users/Usuario/Big Data/Text Mining\Clase 1\clase 1/d20.txt', 'r',encoding="latin1").read()

Finalmente, invocamos nuetras funciones para realizar la extracción de entidades, y luego filtramos para que sólo entregue entidades de tipo **organización** (ORG):

In [9]:
entidades= ExtraerEntidades(texto)
print(entidades)
entidadesTipo = FiltrarEntidades(entidades,'PER')
print(entidadesTipo)

[fÃºtbol, Ante, Ãºltimas horas, Deportes Quatro de EspaÃ±a, prÃ³xima, Europa, Juventus, Cristiano Ronaldo, bÃºsqueda, Su destino, ParÃ­s Saint Germain, ©s.]
['Deportes Quatro de EspaÃ±a', 'Cristiano Ronaldo', '©s.']


Alternativamente, dependiendo de la aplicación, SpaCY provee un método que permite mostrar visualmente el mismo análisis realizado previamente, utilizando un servidor de Spacy. Para esto, primero se deben realizar la tarea de NLP para obtener la lista de entidades de un texto, y luego la indicamos a SpaCY que visualice sólo las entidades (*style="ent"*).

Note que a diferencia del ejemplo previo esta alternativa sólo permite visualizar, no podemos filtrar entidades directamente.

In [6]:
doc = nlp(texto)
displacy.render(doc, style='ent', jupyter=True)