# **Procesamiento del Lenguaje Natural**
## *Práctica 4.2 - Análisis sintáctico*

## Objetivos

*   Realizar el análisis sintáctico de un texto.





### Análisis sintáctico

El análisis sintáctico consiste en determinar las funciones sintácticas o relaciones de concordancia y jerarquía que guardan las palabras cuando se agrupan entre sí. 

Los tipos de análisis sintáctico más utilizados son: el análisis de constituyentes y el análisis de dependencias. El análisis de constituyentes consiste en dividir la oración en las partes que la componen (Sintagma Nominal, Sintagma Verbal, etc.), que se llaman constituyentes, de forma que cada una de esas partes se va dividiendo a su vez en partes más pequeñas hasta que llegamos a las palabras. Por otro lado, el análisis de dependencias se basa en buscar cuáles son las relaciones entre las distintas palabras de la oración.

En esta sesión vamos a llevar a cabo un análisis sintáctico de dependencias que puede ser de gran utilidad, por ejemplo, para determinar el sujeto y el complemento directo de una oración, las palabras modificadas por un negador, etc. Su estudio es importante, ya que de un correcto análisis sintáctico depende a menudo la interpretación y comprensión de los textos

A continuación, vamos a ver cómo realizar el análisis sintáctico de dependencias de una oración usando de nuevo ***spaCy***:

1.   Primero debemos instalar el paquete si fuese necesario y descargar el modelo adecuado.
2.   Creamos un **doc** a partir del texto que queremos analizar. 
3.   Luego iteramos a través del documento para ver lo que ***spaCy*** ha analizado.




In [None]:
!pip install spacy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
import spacy.cli
spacy.cli.download("es_core_news_sm")



[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')


In [None]:
import es_core_news_sm
nlp = es_core_news_sm.load()

In [None]:
text = "El pedido ha sido entregado tarde."
doc = nlp(text)

for token in doc:
    print(token.text, token.pos_, token.dep_)

El DET det
pedido NOUN nsubj
ha AUX aux
sido AUX aux
entregado VERB ROOT
tarde ADV advmod
. PUNCT punct


Las dependencias pueden representarse en un gráfico dirigido:

*  Las palabras son los nodos.
*  Las relaciones gramaticales son las aristas.

Se puede utilizar **displacy** para visualizar el árbol de relaciones:


In [None]:
from spacy import displacy
displacy.render(doc, style='dep', jupyter=True, options={'distance': 90})

In [None]:
text = "El ordenador no es bueno."
doc = nlp(text)

for token in doc:
  print(token.text, token.pos_, token.morph, token.dep_, token.head.text)

displacy.render(doc, style='dep', jupyter=True, options={'distance': 90})

El DET Definite=Def|Gender=Masc|Number=Sing|PronType=Art det ordenador
ordenador NOUN Gender=Masc|Number=Sing nsubj bueno
no ADV Polarity=Neg advmod bueno
es AUX Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin cop bueno
bueno ADJ Gender=Masc|Number=Sing ROOT bueno
. PUNCT PunctType=Peri punct bueno


**Navegar por el árbol de dependencias**

El esquema de análisis de dependencias tiene las propiedades de un árbol. Este árbol contiene información sobre la estructura de la oración y la gramática y puede ser recorrido de diferentes maneras para extraer relaciones.

***spaCy*** proporciona atributos como *children*, *lefts*, *rights*, y *subtree* para navegar por el esquema de dependencias.

In [None]:
text = ('manzanas rojas brillantes en el árbol')
doc = nlp(text)
# Extraer los hijos de `manzanas`
print([token.text for token in doc[0].children])

# Extraer el nodo vecino precedente de `rojas`.
print (doc[1].nbor(-1))

# Extraer el siguiente nodo vecino de `manzanas`
print (doc[0].nbor())

# Extraer todos los tokens a la izquierda de `manzanas`
print([token.text for token in doc[0].lefts])

# Extraer todos los tokens a la derecha de `manzanas`
print([token.text for token in doc[0].rights])

['rojas', 'brillantes', 'árbol']
manzanas
rojas
[]
['rojas', 'brillantes', 'árbol']


Para obtener más información acerca de las dependencias, puedes consultar las siguientes URLs:
* https://universaldependencies.org/u/dep/all.html

* https://universaldependencies.org/docs/u/dep/

* https://nlp.stanford.edu/software/dependencies_manual.pdf

## Ejercicios

Los ejercicios deben realizarse sobre este *notebook*, y se deberán entregar a través de PLATEA antes de la fecha límite que se indique.

Descargar el cuento “regreso_al_paraiso.txt” que se encuentran disponibles en PLATEA (carpeta Material complementario) y realiza los métodos necesarios para responder a las siguientes preguntas:

**Autores de la práctica:** Juan Bautista Muñoz Ruiz jbmr0001@red.ujaen.es Marco Antonio Carrión Soriano macs0021@red.ujaen.es

### Ejercicio 1

¿Cuáles son los 5 sujetos nominales más frecuentes?

In [None]:
!pip install spacy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
import spacy.cli
spacy.cli.download("es_core_news_sm")

[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')


In [None]:
import es_core_news_sm
nlp = es_core_news_sm.load()

In [None]:
from google.colab import drive  #Montamos el drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import os #Abrimos la carpeta
path = os.chdir("/content/drive/MyDrive/PLN/P4.1")
os.getcwd()

'/content/drive/MyDrive/PLN/P4.1'

In [None]:
import glob   #Lectura y procesado de los archivos
archivosProcesados=[]
nombresArchivos=[]
for filename in glob.glob('*.txt'):  #Lectura de todos los archivos de la carpeta con la libreria glob
   with open(os.path.join(os.getcwd(), filename), 'r') as f:
     nombresArchivos.append(filename)
     fichero = open(f.name)
     archivosProcesados.append(fichero.read());
j=0
print('Archivos leídos:')
for i in archivosProcesados: #Mostramos el nombre del archivo y el contenido leído
  print(nombresArchivos[j])
  #print(i)
  j=j+1

Archivos leídos:
regreso_al_paraiso.txt


In [None]:
for archivo in archivosProcesados: #Recorremos los archivos y contamos los de cada categoría
  sujetosNominales=[]
  doc = nlp(archivo)
  for token in doc:
    if token.text.isalpha(): #Quitamos signos puntuación
      if token.dep_ == 'nsubj': #Si es sujeto nominal
        sujetosNominales.append(token.text.lower()) #Los pasamos a minúscula para evitar duplicados

import pandas as pd 

lista = pd.Series(sujetosNominales) #Creamos un panda series para calcular las veces que se repiten
resultados = lista.value_counts()

print("Cinco sujetos nominales más frecuentes:")
print(resultados.head(5)) #Mostramos los 5 que más se repiten
#displacy.render(doc, style='dep', jupyter=True, options={'distance': 90})

Cinco sujetos nominales más frecuentes:
que        348
shira      116
yo          96
eso         61
mujeres     47
dtype: int64


### Ejercicio 2
¿Cuáles son los 5 complementos directos más frecuentes?

In [None]:
for archivo in archivosProcesados: #Recorremos los archivos y contamos los de cada categoría
  complementosDirectos=[]
  doc = nlp(archivo)
  for token in doc:
    if token.text.isalpha(): #Quitamos signos puntuación
      if token.dep_ == 'obj': #Si es complemento directo
        complementosDirectos.append(token.text.lower()) #Los pasamos a minúscula para evitar duplicados

import pandas as pd

lista = pd.Series(complementosDirectos)  #Creamos un panda series para calcular las veces que se repiten
resultados = lista.value_counts()

print("Cinco complementos directos más frecuentes:")
print(resultados.head(5)) #Mostramos los 5 que más se repiten

Cinco complementos directos más frecuentes:
lo     156
que    141
le     121
la      70
me      47
dtype: int64


### Ejercicio 3
¿Cuáles son los 5 negadores más frecuentes?


In [None]:
for archivo in archivosProcesados: #Recorremos los archivos y contamos los de cada categoría
  negadores=[]
  doc = nlp(archivo)
  for token in doc:
    if token.text.isalpha(): #Quitamos signos puntuación
      if 'Polarity=Neg' in token.morph or "PronType=Neg" in token.morph: #Si es un negador
        negadores.append(token.text.lower()) #Los pasamos a minúscula para evitar duplicados

import pandas as pd

lista = pd.Series(negadores)  #Creamos un panda series para calcular las veces que se repiten
resultados = lista.value_counts()

print("Cinco negadores más frecuentes:")
top_cinco = resultados.head(5);
print(top_cinco) #Mostramos los 5 que más se repiten


Cinco negadores más frecuentes:
no         725
nadie       49
nada        45
ninguna     11
ningún       7
dtype: int64


### Ejercicio 4
Busca información y navega por el arbol de dependencias en ***spaCy*** para obtener las 3 palabras con mayor frecuencia que están conectadas con cada uno de los negadores obtenidos en el ejercicio 3.

In [None]:
for negador in (top_cinco.index):
  palabras_conectadas = {}  # Creamos un diccionario vacío para almacenar las palabras conectadas al negador

  for archivo in archivosProcesados:
      doc = nlp(archivo)
      for token in doc:
          if token.text.isalpha() and token.text.lower() == negador:  # Comprobamos si la palabra está en la lista
              for child in token.children:
                  if child.dep_ != 'punct':  # Comprobamos si es un signo de puntuación
                      palabra = child.text.lower()
                      if palabra in palabras_conectadas: #Si la palabra ya se ha descubierto sumamos uno, si no la añadimos.
                          palabras_conectadas[palabra] += 1
                      else: 
                          palabras_conectadas[palabra] = 1

  # Ordenamos el diccionario por frecuencia descendente y mostramos las 3 palabras más frecuentes
  palabras_ordenadas = sorted(palabras_conectadas.items(), key=lambda x: x[1], reverse=True)
  print(f"Las 3 palabras más frecuentes conectadas al negador '{negador}' son:")
  for palabra, frecuencia in palabras_ordenadas[:3]:
    print(f"{palabra}: {frecuencia}")

Las 3 palabras más frecuentes conectadas al negador 'no' son:
obstante: 5
pero: 4
que: 4
Las 3 palabras más frecuentes conectadas al negador 'nadie' son:
a: 6
de: 2
casi: 1
Las 3 palabras más frecuentes conectadas al negador 'nada' son:
más: 6
de: 3
que: 2
Las 3 palabras más frecuentes conectadas al negador 'ninguna' son:
otra: 2
más: 1
Las 3 palabras más frecuentes conectadas al negador 'ningún' son:
otro: 1


### Ejercicio 5
¿Cuáles son los 5 adjetivos modificadores más frecuentes?

In [None]:
adjetivos = []
for archivo in archivosProcesados:
    doc = nlp(archivo)
    for token in doc:
        if token.pos_ == 'ADJ' and token.dep_ == 'amod': #comprobamos si es un adjetivo y si es modificador
            adjetivos.append(token.text.lower())

lista = pd.Series(adjetivos)
resultados = lista.value_counts()

print("Cinco adjetivos modificadores más frecuentes:")
print(resultados.head(5))

Cinco adjetivos modificadores más frecuentes:
siguiente    26
primera      23
humana       17
única        15
buena        14
dtype: int64
