<center>
<img src="https://upload.wikimedia.org/wikipedia/commons/4/47/Acronimo_y_nombre_uc3m.png"/>

<img src="https://mirrors.creativecommons.org/presskit/buttons/88x31/png/by-nc-sa.png" width=15%/>
</center>

# Reconocimiento de Entidades con Spacy



El reconocimiento de entidades nombradas (NER, por sus siglas en inglés) es probablemente el primer paso hacia la extracción de información que busca localizar y clasificar entidades nombradas en el texto en categorías predefinidas, como nombres de personas, organizaciones, ubicaciones, expresiones de tiempo, cantidades, valores monetarios, porcentajes, etc.

NER se utiliza en muchos campos de Procesamiento de Lenguaje Natural (PLN).

En este cuaderno veremos cómo Spacy puede manejar esta tarea.

Primero, debemos instalar Spacy.

In [None]:
!pip install -q spacy
# download a model
!python -m spacy download en_core_web_sm



Vamos ahora a procesar un texto y obtener sus entidades:

In [None]:
article = '''
Asian shares skidded on Tuesday after a rout in tech stocks put Wall Street to the sword, while a
sharp drop in oil prices and political risks in Europe pushed the dollar to 16-month highs as investors dumped
riskier assets. MSCI’s broadest index of Asia-Pacific shares outside Japan dropped 1.7 percent to a 1-1/2
week trough, with Australian shares sinking 1.6 percent. Japan’s Nikkei dived 3.1 percent led by losses in
electric machinery makers and suppliers of Apple’s iphone parts. Sterling fell to $1.286 after three straight
sessions of losses took it to the lowest since Nov.1 as there were still considerable unresolved issues with the
European Union over Brexit, British Prime Minister Theresa May said on Monday.'''

import spacy

nlp = spacy.load('en_core_web_sm')
document = nlp(article)

print('Oración original: {}'.format(article))
print()

for entity in document.ents:
    print('Type: {}, Value: {}, star: {}, end: {}'.format(entity.label_, entity.text,entity.start_char, entity.end_char))


Spacy también proporciona un paquete **displacy** para resaltar las menciones de entidades y sus tipos en un texto, de una forma más visual y atractiva:

In [None]:
from spacy import displacy

displacy.render(nlp(str(article)), jupyter=True, style='ent')


## NER en Español

Spacy también nos permite reconocer entidades en Español.


In [4]:
import locale
locale.getpreferredencoding = lambda: "UTF-8"

In [None]:
!python -m spacy download es_core_news_sm

Vamos a procesar un texto en español para ver sus entidades:

In [None]:
article = '''
Junts per Catalunya opta ahora por no poner palos en las ruedas para que Esquerra facilite la investidura de Pedro Sánchez.
La formación que lidera Carles Puigdemont —a la espera de que la justicia belga decida sobre su extradición— anunció este
martes que retira una moción sobre la autodeterminación, que tenía que ser votada hoy miércoles en el Parlament y que ponía a ERC
 en una situación comprometida. La decisión, que generó mucho debate interno, se gestó en la reunión que tuvieron
 el expresident y varios cargos electos de Junts, el pasado lunes en Bélgica..'''

import spacy

nlp = spacy.load('es_core_news_sm')
document = nlp(article)

print('Original Sentence: %s' % (article))

for entity in document.ents:
    print('Type: {}, Value: {}, star: {}, end: {}'.format(entity.label_, entity.text,entity.start_char, entity.end_char))


In [None]:
displacy.render(nlp(str(article)), jupyter=True, style='ent')


## Limitaciones de Spacy

Desgraciadamente, Spacy no es capaz de detectar cualqueir tipo de entidades. En el siguiente ejemplo, podemos ver que no puede reconocer entidades del dominio biomédico.

In [None]:
text="""Benz(a)anthracene is a polycyclic aromatic hydrocarbon. The phosphoinositide, phosphatidylinositol-3,4,5-trisphosphate (PI(3,4,5)P3), is a key signaling lipid."""

import spacy
nlp = spacy.load('en_core_web_sm')
doc = nlp(text)
for entity in doc.ents:
    print('Type: {}, Value: {}, star: {}, end: {}'.format(entity.label_, entity.text,entity.start_char, entity.end_char))

displacy.render(nlp(str(text)), jupyter=True, style='ent')
