# Sesión 3 - Análisis morfológico y sintáctico con spaCy

spaCy es otra de las bibliotecas de procesamiento de lenguaje natural más populares y eficientes en Python.

spaCy permite el análisis morfológico y etiqeutado gramatical, además de realizar un análisis de dependencias. No realiza análisis de constituyentes como tal.

En este cuaderno se muestran algunas de sus funciones para el análisis morfológico y sintáctico en español e inglés.

In [1]:
!pip3 install spacy
# Descargamos el modelo en español e inglés
!python -m spacy download es_core_news_sm
!python -m spacy download en_core_web_sm

Collecting es-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.8.0/es_core_news_sm-3.8.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m61.5 MB/s[0m eta [36m0:00:00[0m00:01[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
Collecting en-core-web-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.8.0/en_core_web_sm-3.8.0-py3-none-any.whl (12.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.8/12.8 MB[0m [31m56.6 MB/s[0m eta [36m0:00:00[0m00:01[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')


In [2]:
data_dir_path = "Datos/"


In [3]:
#Cargamos el modelo en español y el modelo en inglés
import spacy
nlp_es = spacy.load("es_core_news_sm")
nlp_en = spacy.load("en_core_web_sm")

#3.1 Tokenización y análisis morfológico en spaCy

A diferencia de Stanza, por defecto spaCy realiza todo el procesamiento de golpe y si queremos quitar algun proceso debemos decirlo de manera explícita.

Para este ejemplo desactivaremos la detección de entidades y el análisis sintáctico con el siguiente código

```
nlp_es.disable_pipes("ner", "parser")
```
A continuación se muestra un ejemplo para mostrar la categoría gramatical, el lema y otras propiedades morfológicas de cada palabra.


In [4]:
# Texto de ejemplo
texto_es = """Los gatos negros corren rápidamente por el jardín.

Hugo bebe zumo de naranja en la cocina.
"""

# Procesar el texto con spaCy
doc = nlp_es(texto_es)

# Imprimir información morfológica

for sent in doc.sents:
  print(f"Frase: {sent.text}")
  print("Análisis Morfológico:")
  print(f"{'Token':<15}{'POS':<10}{'Lemma':<15}{'Morfología'}")
  print("="*60)
  for token in sent:
    print(f"{token.text:<15}{token.pos_:<10}{token.lemma_:<15}{token.morph}")




Frase: Los gatos negros corren rápidamente por el jardín.


Análisis Morfológico:
Token          POS       Lemma          Morfología
Los            DET       el             Definite=Def|Gender=Masc|Number=Plur|PronType=Art
gatos          NOUN      gato           Gender=Masc|Number=Plur
negros         ADJ       negro          Gender=Masc|Number=Plur
corren         VERB      correr         Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin
rápidamente    ADV       rápidamente    
por            ADP       por            
el             DET       el             Definite=Def|Gender=Masc|Number=Sing|PronType=Art
jardín         NOUN      jardín         Gender=Masc|Number=Sing
.              PUNCT     .              PunctType=Peri


             SPACE     

             
Frase: Hugo bebe zumo de naranja en la cocina.

Análisis Morfológico:
Token          POS       Lemma          Morfología
Hugo           PROPN     Hugo           
bebe           VERB      beber          Mood=Ind|Number=Sing|

In [5]:
#Podemos hacer el análisis morfológico en inglés
en_text = """Hugo eats apples in Telefónica's kitchen.

Sofía plays football with Emma and Cristina with a red ball in Central Park.

Marina's father is 56 years old.

The Earth revolves around the Sun.

Jupiter is the biggest planet in the solar system."""

# Procesar el texto con spaCy
doc = nlp_en(en_text)

# Imprimir información morfológica

for sent in doc.sents:
  print(f"Frase: {sent.text}")
  print("Análisis Morfológico:")
  print(f"{'Token':<15}{'POS':<10}{'Lemma':<15}{'Morfología'}")
  print("="*60)
  for token in sent:
    print(f"{token.text:<15}{token.pos_:<10}{token.lemma_:<15}{token.morph}")

Frase: Hugo eats apples in Telefónica's kitchen.


Análisis Morfológico:
Token          POS       Lemma          Morfología
Hugo           PROPN     Hugo           Number=Sing
eats           VERB      eat            Number=Sing|Person=3|Tense=Pres|VerbForm=Fin
apples         NOUN      apple          Number=Plur
in             ADP       in             
Telefónica     PROPN     Telefónica     Number=Sing
's             PART      's             
kitchen        NOUN      kitchen        Number=Sing
.              PUNCT     .              PunctType=Peri


             SPACE     

             
Frase: Sofía plays football with Emma and Cristina with a red ball in Central Park.


Análisis Morfológico:
Token          POS       Lemma          Morfología
Sofía          PROPN     Sofía          Number=Sing
plays          VERB      play           Number=Sing|Person=3|Tense=Pres|VerbForm=Fin
football       NOUN      football       Number=Sing
with           ADP       with           
Emma           P

#3.2 Sintagmas nominales
SpaCy no permite realizar un análisis de constituyentes como tal, pero permite obtener los noun chunks (sintagmas nominales de una frase).

In [6]:
#mostramos los sintagmas nominales
import spacy

for sent in doc.sents:
  for chunk in sent.noun_chunks:
    print(chunk.text, chunk.root.dep_,
            chunk.root.head.text)
  print("-"*100)
# nolo hace muy bien

Hugo nsubj eats
apples dobj eats
Telefónica's kitchen pobj in
----------------------------------------------------------------------------------------------------
Sofía nsubj plays
football dobj plays
Emma pobj with
Cristina conj Emma
a red ball pobj with
Central Park pobj in
----------------------------------------------------------------------------------------------------
Marina's father nsubj is
----------------------------------------------------------------------------------------------------
The Earth nsubj revolves
the Sun pobj around
----------------------------------------------------------------------------------------------------
Jupiter nsubj is
the biggest planet attr is
the solar system pobj in
----------------------------------------------------------------------------------------------------


#3.3 Análisis de dependencias en spaCy
SpaCy sí permite un análisis de dependencias y también mostrar este análisis de una manera gráfica como se muestra a continuación.

In [7]:
import spacy
from spacy import displacy

# Texto de ejemplo
texto = "El perro negro corre rápidamente por el parque."

# Procesar el texto
doc = nlp_es(texto)

# Mostrar dependencias en la consola
print("Análisis de Dependencias:")
print(f"{'Token':<15}{'Dependencia':<15}{'Cabeza'}")
print("=" * 45)

for token in doc:
    print(f"{token.text:<15}{token.dep_:<15}{token.head.text}")

# Mostrar visualización en el navegador
#displacy.serve(doc, style="dep")


Análisis de Dependencias:
Token          Dependencia    Cabeza
El             det            perro
perro          nsubj          corre
negro          flat           perro
corre          ROOT           corre
rápidamente    advmod         corre
por            case           parque
el             det            parque
parque         obl            corre
.              punct          corre


In [8]:
import spacy

# Texto de ejemplo
texto = """Los gatos negros de la prima Irene corren rápidamente por el jardín.

Los mejores amigos de Hugo beben un zumo muy rico de naranja en la cocina.
"""

# Procesar el texto con spaCy
doc = nlp_es(texto)

# Iterar sobre las oraciones en el documento
for sent in doc.sents:
    sujeto = ""
    raiz = ""
    complementos_directo = ""

    # Iterar sobre los tokens de la oración
    for token in sent:
        # Sujeto: Si el token es un sujeto (nsubj)
        if token.dep_ == "nsubj":
            sujeto=token.text

        # Raíz: Si el token es la raíz de la oración (ROOT)
        if token.dep_ == "ROOT":
            raiz=token.text

        # Complemento directo: Si el token es un complemento directo (dobj)
        if token.dep_ == "obj":
            complementos_directo =token.text

    # Almacenar los resultados para cada oración
    print(f"Frase: {sent.text}")
    print(f"Sujeto: {sujeto}")
    print(f"Raíz: {raiz}")
    print(f"Complementos directo: {complementos_directo}")
    print("=" * 50)



Frase: Los gatos negros de la prima Irene corren rápidamente por el jardín.


Sujeto: gatos
Raíz: corren
Complementos directo: jardín
Frase: Los mejores amigos de Hugo beben un zumo muy rico de naranja en la cocina.

Sujeto: amigos
Raíz: beben
Complementos directo: zumo


Como antes podemos crear una función *obtener_sintagma_completo_spacy* para obtener todo el sujeto y todo el complemento directo

In [9]:
def obtener_sintagma_completo_spacy(sentence, word):
  ids= []
  sintagma = [word]  # Incluye el núcleo del sintagma
  ids.append(word.i)
  while(ids): # mientras haya elementos vamos buscando si hay palabras que referencian
  # como head a algún id
    for w in sentence:
      if w.head.i in ids:
        if(w.i not in ids):
          ids.append(w.i)
          sintagma.append(w)
        # Sacamos el último elemento
    ids.pop(0)
  # Combina los elementos del sintagma completo y lo devuelve
  return " ".join(w.text for w in sorted(sintagma, key=lambda x: x.i))

  import spacy

# Texto de ejemplo
texto = """Los gatos negros de la prima Irene corren rápidamente por el jardín.

Los mejores amigos de Hugo beben un zumo muy rico de naranja en la cocina.
"""

# Procesar el texto con spaCy
doc = nlp_es(texto)

# Iterar sobre las oraciones en el documento
for sent in doc.sents:
    sujeto = ""
    raiz = ""
    complementos_directo = ""

    # Iterar sobre los tokens de la oración
    for token in sent:
        # Sujeto: Si el token es un sujeto (nsubj)
        if token.dep_ == "nsubj":
            sujeto= obtener_sintagma_completo_spacy(sent, token)

        # Raíz: Si el token es la raíz de la oración (ROOT)
        if token.dep_ == "ROOT":
            raiz= token.text

        # Complemento directo: Si el token es un complemento directo (dobj)
        if token.dep_ == "obj":
            complementos_directo = obtener_sintagma_completo_spacy(sent,token)

    # Almacenar los resultados para cada oración
    print(f"Frase: {sent.text}")
    print(f"Sujeto: {sujeto}")
    print(f"Raíz: {raiz}")
    print(f"Complementos directos: {complementos_directo}")
    print("=" * 50)


Frase: Los gatos negros de la prima Irene corren rápidamente por el jardín.


Sujeto: Los gatos negros de la prima Irene
Raíz: corren
Complementos directos: por el jardín
Frase: Los mejores amigos de Hugo beben un zumo muy rico de naranja en la cocina.

Sujeto: Los mejores amigos de Hugo
Raíz: beben
Complementos directos: un zumo muy rico de naranja


# Ejercicio a resolver

Cargar el fichero P3_frases.csv y crear nuevas columnas obteniendo los adjetivos, los nombres comunes, verbos y nombres propios usando un análisis morfológico hecho con SpaCy

In [10]:
import pandas as pd

# Carga el archivo CSV
try:
    df = pd.read_csv(data_dir_path + 'P3_frases.csv')
except FileNotFoundError:
    print("Error: El archivo 'frases.csv' no se encontró.")
    exit()

# Inicializa nuevas columnas en el DataFrame con listas vacías
df['adjetivos'] = [[] for _ in range(len(df))]
df['nombres_comunes'] = [[] for _ in range(len(df))]
df['verbos'] = [[] for _ in range(len(df))]
df['nombres_propios'] = [[] for _ in range(len(df))]

# Procesa cada frase en el DataFrame
for index, row in df.iterrows():
    doc = nlp_es(row['Frase'])  # Accede a la columna 'Frase' correctamente
    adjetivos = [token.text for token in doc if token.pos_ == 'ADJ']
    nombres_comunes = [token.text for token in doc if token.pos_ == 'NOUN']
    verbos = [token.text for token in doc if token.pos_ == 'VERB']
    nombres_propios = [token.text for token in doc if token.pos_ == 'PROPN']

    # Guarda el DataFrame actualizado
    df.at[index, 'adjetivos'] = adjetivos
    df.at[index, 'nombres_comunes'] = nombres_comunes
    df.at[index, 'verbos'] = verbos
    df.at[index, 'nombres_propios'] = nombres_propios

df.head()

Unnamed: 0,Frase,adjetivos,nombres_comunes,verbos,nombres_propios
0,La prima de María duerme en el sofá de su casa.,[],"[prima, sofá, casa]",[duerme],[María]
1,La pequeña panadería de la esquina vende pan r...,"[pequeña, horneado]","[panadería, esquina, pan]",[vende],[]
2,El hermano mayor de Juan compra una bicicleta ...,"[mayor, nueva]","[hermano, bicicleta]",[compra],[Juan]
3,Los dos perros de mi vecino corren por el jard...,[trasero],"[perros, vecino, jardín]",[corren],[]
4,El amable profesor de ciencias explica los con...,"[amable, complejos]","[profesor, ciencias, conceptos]",[explica],[]


## Ejercicio a resolver 2

Crea nuevas columnas en el dataframe de las frases en español con el root, el sujeto y el objeto directo de cada frase del dataframe usando spaCy

In [16]:
# Inicializa nuevas columnas en el DataFrame con listas vacías
df['sujetos'] = [[] for _ in range(len(df))]
df['raices'] = [[] for _ in range(len(df))]
df['objetos_directos'] = [[] for _ in range(len(df))]

# Procesa cada frase en el DataFrame
for index, row in df.iterrows():
    doc = nlp_es(row['Frase'])  # Accede a la columna 'Frase' correctamente
    
    sujetos = [token.text for token in doc if token.dep_ == 'nsubj']
    raices = [token.text for token in doc if token.dep_ == 'ROOT']
    objetos_directos = [token.text for token in doc if token.dep_ == 'dobj']

    # Guarda el DataFrame actualizado
    df.at[index, 'sujetos'] = sujetos
    df.at[index, 'raices'] = raices
    df.at[index, 'objetos_directos'] = objetos_directos

df.head()


Unnamed: 0,Frase,adjetivos,nombres_comunes,verbos,nombres_propios,sujetos,raices,objetos_directos
0,La prima de María duerme en el sofá de su casa.,[],"[prima, sofá, casa]",[duerme],[María],[prima],[duerme],[]
1,La pequeña panadería de la esquina vende pan r...,"[pequeña, horneado]","[panadería, esquina, pan]",[vende],[],[panadería],[vende],[]
2,El hermano mayor de Juan compra una bicicleta ...,"[mayor, nueva]","[hermano, bicicleta]",[compra],[Juan],[hermano],[compra],[]
3,Los dos perros de mi vecino corren por el jard...,[trasero],"[perros, vecino, jardín]",[corren],[],[perros],[corren],[]
4,El amable profesor de ciencias explica los con...,"[amable, complejos]","[profesor, ciencias, conceptos]",[explica],[],[amable],[explica],[]
