In [18]:
import spacy
spacy.__version__

'3.3.1'

In [19]:
nlp = spacy.load("es_core_news_md")

# Análisis lingüístico


### Reconocimiento de entidades nombradas (Named-entity recognition)

El Reconocimiento de entidades nombradas (NER por sus siglas en inglés), también conocido como extracción de entidades, es una tarea de extracción de información que busca localizar y clasificar en categorías predefinidas, como personas, organizaciones, lugares, expresiones de tiempo y cantidades en un texto.

La efectividad del NER depende en gran medida de __[los datos empleados para entrenar el algoritmo](https://catalog.ldc.upenn.edu/LDC2013T19)__ de extracción de entidades, por lo que podría no funcionar si el texto a procesar difiere mucho del corpus que se empleó para entrenar el modelo.

spaCy incorpora un modelo de reconocimiento de entidades muy rápido; se puede acceder a estas entidades a través de la propiedad <code>.ents</code> del objeto <code>doc</code>.

NER es un componente importante en el análisis semántico debido a que las entidades suelen estar vinculadas al mismo tópico. Por ejemplo, los nombres de presidentes suelen aparecen más temas relacionados a temas políticos.

**Referencias**
- __[Spacy - Named Entity Recognition](https://spacy.io/usage/linguistic-features#named-entities)__
- __[Spacy - Displacy Ent](https://explosion.ai/demos/displacy-ent/)__

In [22]:
spacy.explain("GPE")

'Countries, cities, states'

In [20]:
doc = nlp('Esteban Arze nació en Tarata')
for token in doc:
  if token.ent_type != 0:
    print(token.text, token.ent_type_)

Esteban PER
Arze PER
Tarata LOC


In [23]:
for ent in doc.ents:
    # print the entity text and its label
    print(ent.text, ent.label_)

Esteban Arze PER
Tarata LOC


In [24]:
doc = nlp('Quiero volar a Buenos Aires')
for token in doc:
  if token.ent_type != 0:
    print(token.text, token.ent_type_)

Buenos LOC
Aires LOC


In [25]:
for ent in doc.ents:
    # print the entity text and its label
    print(ent.text, ent.label_)

Buenos Aires LOC


In [26]:
doc = nlp('El presidente Joe Biden visitó París, la capital de Francia')
for token in doc:
  if token.ent_type != 0:
    print(token.text, token.ent_type_)

Joe PER
Biden PER
París LOC
Francia LOC


In [27]:
doc = nlp('El presidente Joe Biden visitó París, la capital de Francia')
for ent in doc.ents:
    # print the entity text and its label
    print(ent.text, ent.label_)

Joe Biden PER
París LOC
Francia LOC


In [28]:
doc = nlp('Trabajó en la NASA')
for ent in doc.ents:
    # print the entity text and its label
    print(ent.text, ent.label_)

NASA ORG


In [29]:
spacy.explain("GPE")

'Countries, cities, states'

# EntityRuler

Es un elemento que se puede agregar al pipeline de procesamiento y permite agregar nuevas entidades.

In [31]:
doc = nlp("ciudad de los cuatro nombres")
for token in doc:
    print(f"{token.text} {token.pos_} {token.morph}")

ciudad NOUN Gender=Fem|Number=Sing
de ADP 
los DET Definite=Def|Gender=Masc|Number=Plur|PronType=Art
cuatro NUM NumType=Card|Number=Plur
nombres NOUN Gender=Masc|Number=Plur


In [32]:
doc = nlp("ciudad de los 4 nombres")
for token in doc:
    print(f"{token.text} {token.pos_} {token.morph}")

ciudad NOUN Gender=Fem|Number=Sing
de ADP 
los DET Definite=Def|Gender=Masc|Number=Plur|PronType=Art
4 NUM NumForm=Digit|NumType=Card
nombres NOUN Gender=Masc|Number=Plur


In [33]:
#Los nombre de la ciudad de los 4 nombres 
#“Charcas” hasta 1538, 
#“La Plata” desde 1538 a 1776, 
#“Chuquisaca” de 1776 a 1825, 
#“Sucre” desde el año 1825 hasta hoy en día

doc = nlp("El restaurante Casa de Campo abre una sucursal en la ciudad de los cuatro nombres")
for ent in doc.ents:
    # print the entity text and its label
    print(ent.text, ent.label_)

Casa de Campo LOC


In [34]:
ruler = nlp.add_pipe("entity_ruler")
pattern = [{"label": "GPE", "pattern": [{"LOWER": "ciudad"}, {"LOWER": "de"}, {"LOWER": "los"},  {"POS": "NUM"}, {"LOWER": "nombres"}]}]
ruler.add_patterns(pattern)

doc = nlp("El restaurante Casa de Campo abre una sucursal en la ciudad de los cuatro nombres")
for ent in doc.ents:
    # print the entity text and its label
    print(ent.text, ent.label_)

Casa de Campo LOC
ciudad de los cuatro nombres GPE


In [16]:
spacy.explain("GPE")

'Countries, cities, states'

In [17]:
#https://realpython.com/natural-language-processing-spacy-python/#verb-phrase-detection
#spaCy has no built-in functionality to extract verb phrases, so you’ll need a library called textacy.