# Identificación de entidades con spaCy

### ¿Qué es spaCy?

spaCy es una biblioteca de software de código abierto para procesamiento avanzado de lenguaje natural, escrita en los lenguajes de programación Python y Cython.

Sitio web: https://spacy.io/

### ¿Cómo se instala?

```
pip install spacy

python -m spacy download es-core-news-md
```

### ¿Cómo se utiliza?

In [1]:
import spacy

In [2]:
from spacy import displacy

In [3]:
nlp = spacy.load('es_core_news_md')  ## cargamos el modelo previamente descargado

In [4]:
text = """El viernes 05 del corriente mes se realizará el Acto Académico de la LXIII Colación de Posgrado y a la CLVIII Colación de Grado de la Universidad Nacional de la Patagonia San Juan Bosco.
La ceremonia se realizará a partir de las 18 hs. en el Aula Magna de la Ciudad Universitaria de Km. 4.
El Rector, Sr. Carlos Manuel De Marziani, invitó a toda la comunidad a presenciar la graduación de los nuevos profesionales que se suman a nuestra ciudad.
INTEGRAN LA COLACIÓN DE POSGRADO
Doctor en Ciencias Biológicas: Frixione Martín Guillermo y Punta Gabriel Emilio.
Especialista en Contaminación de Aguas Subterráneas: Fronza Silvana Edith.
Especialistas en Ciencias Químicas con mención en Diagnóstico Ambiental: Grill Silvina Andrea y Trigo Gustavo Javier.
Magister en Gestión Empresaria: Navarro Gustavo Javier y Righero María Cristina.
INTEGRANTES DE LA COLACIÓN DE GRADO FACULTAD DE CIENCIAS ECONOMICAS
Licenciadas en Administración: Cifuentes Erica Vanina, Clar Vanesa Raquel y Yakimovicz Niccolini María José.
Contadores Públicos: Astete Claudia Eliana, Bahamondes Amador Valentina, Ballona Aldo Andrés, Coronel Paula, Endrinal Johana Marisol, Kenes Yanina, Márquez Jorge Iván, Ojeda María Florencia y Pachano Viviana Alejandra.
Técnico Universitario en Administración Pública: Oyarzo Gastón Darío.
Técnica Universitaria en Administración Bancaria: Remolcoy Barrientos Angélica Jeannette."""

Creamos el objeto DOC y comenzamos a manipularlo:

In [5]:
doc = nlp(text)

In [6]:
for entity in doc.ents:
    print(entity.text, entity.label_)

Acto Académico de la LXIII Colación de Posgrado ORG
CLVIII Colación de Grado de la Universidad Nacional de la Patagonia San Juan Bosco MISC
Aula Magna LOC
Ciudad Universitaria de Km LOC
Sr. Carlos Manuel De Marziani PER
INTEGRAN ORG
Frixione Martín Guillermo PER
Punta Gabriel Emilio PER
Contaminación de Aguas Subterráneas LOC
Fronza Silvana Edith PER
Ciencias Químicas LOC
Diagnóstico Ambiental LOC
Grill Silvina Andrea LOC
Trigo Gustavo Javier PER
Gestión Empresaria MISC
Navarro Gustavo Javier PER
Righero María Cristina ORG
Administración ORG
Cifuentes Erica Vanina PER
Clar Vanesa Raquel PER
Yakimovicz Niccolini María José PER
Astete Claudia Eliana PER
Bahamondes Amador Valentina PER
Ballona Aldo Andrés PER
Coronel Paula PER
Endrinal Johana Marisol PER
Kenes Yanina PER
Márquez Jorge Iván PER
Ojeda María Florencia PER
Pachano Viviana Alejandra PER
Administración Pública ORG
Oyarzo Gastón Darío PER
Administración Bancaria LOC
Remolcoy Barrientos Angélica Jeannette LOC


Tambien podemos mostrarlo en un servidor html simple:

In [7]:
displacy.render(doc, style="ent", minify=True)

Le pasamos ademas opciones de como queremos que dibuje las etiquetas:

In [8]:
colors = {"PER": "linear-gradient(90deg,#FFFF00,#00FFFF)"}
options = {"colors": colors, "ents": ["PER"]}

In [9]:
displacy.render(doc, style="ent", minify=True, options=options)

Podemos visualizar las dependencias de las palabras:

In [10]:
doc = nlp("Esta es una oración cualquiera")

In [11]:
svg = displacy.render(doc, style="dep")

- PRON:
- AUX: auxiliar
- DET: determinante
- NOUN: modificador de un nominal

### Patrones

spaCy posee un motor de coincidencia de reglas, el Matcher, que opera sobre tokens, similar a las expresiones regulares.

In [26]:
import spacy
# Import the Matcher
from spacy.matcher import Matcher
# Load a model and create the nlp object
nlp = spacy.blank('en')
# Initialize the matcher with the shared vocab
matcher = Matcher(nlp.vocab)
# Add the pattern to the matcher
pattern = [{'TEXT': 'iPhone'}, {'IS_DIGIT': True}]

matcher.add('IPHONE_PATTERN', None, pattern)

# Call the matcher on the doc
doc = nlp("New iPhone 2 release date leaked")

matches = matcher(doc)
# Iterate over the matches
for match_id, start, end in matches:
    # Get the matched span
    matched_span = doc[start:end]
    print(matched_span.text)

iPhone 2
