In [4]:
import spacy
from spacy import displacy
spacy.__version__

'3.3.1'

In [5]:
nlp = spacy.load("es_core_news_md")

# Análisis lingüístico


## Relaciones sintácticas

**spaCy** incluye un analizador de dependencias sintácticas que encuentra relaciones entre tokens de una **oración** conectando pares de palabras relacionados sintácticamente. A diferencia del etiquetado gramatical, las dependencias gramaticales permiten establecer relaciones entre palabras **no contiguas**.

La representación de la estructura sintáctica más utilizada es el árbol de análisis sintáctico que muestra la relación padre-hijo entre las palabras o frases. Cada palabra de una oración tiene exactamente un padre (head/ROOT). Una palabra puede actuar como padre en ninguno, uno o varios pares. Esto explica por qué siempre se asigna una etiqueta de dependencia al hijo.

Estos árboles de dependencias son extremadamente útiles en cualquier aplicación que requiera realizar análisis semántico (extracción de significado); por ejemplo, para extraer la intención (intent) de un usuario a partir del texto ingresado en un diálogo con un chatbot.


**Referencias**
- __[SpaCy - Dependency Parsing](https://spacy.io/usage/linguistic-features#dependency-parse)__
- __[Displacy](https://explosion.ai/demos/displacy)__
- __[spaCy - Token Properties](https://www.tutorialspoint.com/spacy/spacy_token_properties.htm)__

*Otras referencias*
- __[Morfología y árboles de dependencia](https://cloud.google.com/natural-language/docs/morphology?hl=es-419)__
- __[Etiquetas de dependencias sintácticas](https://universaldependencies.org/es/dep/)__
- __[Introduction to Cultural Analytics & Python](https://melaniewalsh.github.io/Intro-Cultural-Analytics/welcome.html)__
- __[Manual de Gramática](https://www.bba.unlp.edu.ar/uploads/docs/publicacionesbba_manualgramatica_piatti.pdf)__
- __[Análisis sintáctico (lingüística)](https://es.wikipedia.org/wiki/An%C3%A1lisis_sint%C3%A1ctico_(ling%C3%BC%C3%ADstica))__
- __[Ambigüedad](https://es.wikipedia.org/wiki/Ambig%C3%BCedad)__
- INTRODUCCIÓN AL ANÁLISIS SINTÁCTICO.pdf

In [6]:
#El árbol está formado por pares de tokens que forman una relación padre-hijo (token.head - token).
#Los arcos están etiquetados por el rol del hijo en su relación con el padre (token.dep_):
#Cocha es 'obl' (oblique nominal) de volar
#Normalmente, spaCy asigna la etiqueta ROOT al verbo principal de la oración (el verbo que está en el corazón del predicado)
#o al nombre principal de una frase.

#Para interpretar las etiqueas en los arcos: https://nlp.stanford.edu/software/dependencies_manual.pdf (spacy.explain)
doc = nlp('Quiero volar a Cochabamba mañana')
for token in doc:
  print(f"{token.text} es '{token.dep_}' ({spacy.explain(token.dep_)}) de {token.head.text}")

Quiero es 'ROOT' (root) de Quiero
volar es 'xcomp' (open clausal complement) de Quiero
a es 'case' (case marking) de Cochabamba
Cochabamba es 'obl' (oblique nominal) de volar
mañana es 'advmod' (adverbial modifier) de Quiero


In [7]:
#Podemos visualizar que el verbo 'quiero' está en la raiz del árbol  (no hay arcos dirigidos a 'Quiero')
from spacy import displacy
displacy.render(doc, style="dep")

In [9]:
doc[2].text

'a'

In [8]:
#A sequence containing the token and all the token’s syntactic descendants
#YIELDS	A descendant token such that self.is_ancestor(token) or token == self.
# list(doc[1].subtree)
list(doc[2].subtree)

[a]

In [25]:
#A sequence of the token’s immediate syntactic children.
#YIELDS	A child token such that child.head == self.
# list(doc[1].children)
list(doc[2].children)

[]

In [12]:
# The syntactic parent, or “governor”, of this token.
doc[1].head
# doc[0].head

Quiero

In [27]:
doc = nlp('Juan come una manzana')
displacy.render(doc, style="dep")

In [14]:
#The leftward immediate children of the word in the syntactic dependency parse.
#YIELDS	A left-child of the token.
list(doc[1].lefts)
#list(doc[3].lefts)

[a]

In [29]:
# The leftmost token of this token’s syntactic descendants.
doc[1].left_edge

Juan

In [30]:
#The rightward immediate children of the word in the syntactic dependency parse.
#YIELDS	A right-child of the token.
# list(doc[1].rights)
list(doc[3].rights)

[]

In [31]:
#The rightmost token of this token’s syntactic descendants.
doc[1].right_edge

manzana

In [32]:
# The rightmost token of this token’s syntactic descendants.
# YIELDS	A sequence of ancestor tokens such that ancestor.is_ancestor(self)
# list(doc[1].ancestors)
list(doc[2].ancestors)

[manzana, come]

**Tarea: averiguar que información se obtiene con el método [```Token.conjuncts```](https://spacy.io/api/token#conjuncts)**

In [33]:
doc = nlp('La empresa ganó 2017 millones de dólares en 2017')
displacy.render(doc, style="dep")

In [34]:
# Ver/entender las relaciones con frases u oraciones cortas 
# Explorar las relaciones comenzando desde ROOT
doc = nlp('Una manzana verde')
displacy.render(doc, style="dep")

In [35]:
doc = nlp('Quiero viajar')
displacy.render(doc, style="dep")

In [36]:
doc = nlp('Quiero viajar mucho')
displacy.render(doc, style="dep")

In [37]:
doc = nlp('Comer una manzana')
displacy.render(doc, style="dep")

In [38]:
doc = nlp('Estamos caminando')
displacy.render(doc, style="dep")

### Ejercicios

Empleando lematización, etiquetado gramatical y relaciones sintácticas intente obtener las siguientes tuplas para estas oraciones:

- quiero una pizza americana ->  (querer, pizza)
- necesito volar a Lima  ->  (volar, Lima)
- quieren reservar una mesa  ->  (reservar, mesa)
- envíeme un taxi -> (enviar, taxi)
