# Los elementos de la oración

## Instalación de dependencias

In [None]:
# Instala paquetes
!pip install spacy==3.4.2
!pip install flair==0.12.2

# Instala pipeline en español
!python -m spacy download es_core_news_lg
# !pip install es-core-news-lg==3.4.0

## Introducción

In [2]:
import spacy
nlp = spacy.load("es_core_news_lg")

# Inspirado en https://twitter.com/i/events/1580914939908218881
tuit = '''Dos activistas del grupo ecologista Just Stop Oil han lanzado sopa de tomate sobre el cuadro de Los girasoles de Van Gogh en la National Gallery de Londres. Persiguen que el gobierno de Liz Truss paralice todos los nuevos proyectos de petróleo y gas. La acción ha recordado al 'tartazo' que recibió La Gioconda en mayo de 2022.'''
doc = nlp(tuit)

## Análisis morfológico de palabras

In [3]:
# Ejemplo 4.2.1
# Morfologia de cada palabra

for token in doc:
  print(token, ' -->', token.morph)

# Explicación de cada campo y valor en https://universaldependencies.org/u/feat/index.html

Dos  --> NumType=Card|Number=Plur
activistas  --> Number=Plur
del  --> Definite=Def|Gender=Masc|Number=Sing|PronType=Art
grupo  --> Gender=Masc|Number=Sing
ecologista  --> Number=Sing
Just  --> 
Stop  --> 
Oil  --> 
han  --> Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin
lanzado  --> Gender=Masc|Number=Sing|Tense=Past|VerbForm=Part
sopa  --> Gender=Fem|Number=Sing
de  --> 
tomate  --> Gender=Masc|Number=Sing
sobre  --> 
el  --> Definite=Def|Gender=Masc|Number=Sing|PronType=Art
cuadro  --> Gender=Masc|Number=Sing
de  --> 
Los  --> Definite=Def|Gender=Masc|Number=Plur|PronType=Art
girasoles  --> Gender=Masc|Number=Plur
de  --> 
Van  --> 
Gogh  --> 
en  --> 
la  --> Definite=Def|Gender=Fem|Number=Sing|PronType=Art
National  --> 
Gallery  --> 
de  --> 
Londres  --> 
.  --> PunctType=Peri
Persiguen  --> Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin
que  --> 
el  --> Definite=Def|Gender=Masc|Number=Sing|PronType=Art
gobierno  --> Gender=Masc|Number=Sing
de  --> 
Liz  --> 
Trus

In [4]:
# Ejemplo 4.2.2
# Morfologia de cada palabra como diccionario

for token in doc:
  morph_dict = token.morph.to_dict()
  print(token, ' -->', morph_dict)

Dos  --> {'NumType': 'Card', 'Number': 'Plur'}
activistas  --> {'Number': 'Plur'}
del  --> {'Definite': 'Def', 'Gender': 'Masc', 'Number': 'Sing', 'PronType': 'Art'}
grupo  --> {'Gender': 'Masc', 'Number': 'Sing'}
ecologista  --> {'Number': 'Sing'}
Just  --> {}
Stop  --> {}
Oil  --> {}
han  --> {'Mood': 'Ind', 'Number': 'Plur', 'Person': '3', 'Tense': 'Pres', 'VerbForm': 'Fin'}
lanzado  --> {'Gender': 'Masc', 'Number': 'Sing', 'Tense': 'Past', 'VerbForm': 'Part'}
sopa  --> {'Gender': 'Fem', 'Number': 'Sing'}
de  --> {}
tomate  --> {'Gender': 'Masc', 'Number': 'Sing'}
sobre  --> {}
el  --> {'Definite': 'Def', 'Gender': 'Masc', 'Number': 'Sing', 'PronType': 'Art'}
cuadro  --> {'Gender': 'Masc', 'Number': 'Sing'}
de  --> {}
Los  --> {'Definite': 'Def', 'Gender': 'Masc', 'Number': 'Plur', 'PronType': 'Art'}
girasoles  --> {'Gender': 'Masc', 'Number': 'Plur'}
de  --> {}
Van  --> {}
Gogh  --> {}
en  --> {}
la  --> {'Definite': 'Def', 'Gender': 'Fem', 'Number': 'Sing', 'PronType': 'Art'}
Nati

In [5]:
# Ejemplo 4.2.3
# Únicamene información del género de la palabra, si existe

for token in doc:
  morph_dict = token.morph.to_dict()
  if 'Gender' in morph_dict:
    print(token, ' -->', morph_dict['Gender'])

del  --> Masc
grupo  --> Masc
lanzado  --> Masc
sopa  --> Fem
tomate  --> Masc
el  --> Masc
cuadro  --> Masc
Los  --> Masc
girasoles  --> Masc
la  --> Fem
el  --> Masc
gobierno  --> Masc
todos  --> Masc
los  --> Masc
nuevos  --> Masc
proyectos  --> Masc
petróleo  --> Masc
gas  --> Masc
La  --> Fem
acción  --> Fem
recordado  --> Masc
al  --> Masc
tartazo  --> Masc
La  --> Fem


In [6]:
# Ejemplo 4.2.4
# Conteo de palabras femeninas y masculinas

pal_fem = [token for token in doc 
             if 'Gender' in token.morph.to_dict() and 
                token.morph.to_dict()['Gender'] == 'Fem']
pal_masc = [token for token in doc 
              if 'Gender' in token.morph.to_dict() and 
                 token.morph.to_dict()['Gender'] == 'Masc']

print('Número de palabras femeninas:', len(pal_fem))
print('Número de palabras masculinas:', len(pal_masc))

Número de palabras femeninas: 5
Número de palabras masculinas: 19


In [7]:
# Ejemplo 4.2.5
# Detección de verbos en presente

def es_verbo_presente(token):
  ''' Función que detecta si un token es un verbo en presente '''
  morph_dict = token.morph.to_dict()
  return 'Tense' in morph_dict and morph_dict['Tense'] == 'Pres'

verbos_presente = [token for token in doc if es_verbo_presente(token)]
print(verbos_presente)

[han, Persiguen, paralice, ha]


## Análisis sintáctico de oraciones

In [8]:
#  Part of speech, análisis sintáctico y qué grupos forman (token.pos_, token.dep)

# https://universaldependencies.org/es/
# https://universaldependencies.org/es/pos/
# https://universaldependencies.org/u/dep/
# https://universaldependencies.org/docs/es/dep/

In [9]:
import spacy
nlp = spacy.load("es_core_news_lg")

In [10]:
# Ejemplo 4.3.1

doc = nlp('Yo lanzo el balón')
spacy.displacy.render(doc, style='dep', jupyter=True, options={'compact':False, 'distance':100})

In [11]:
# Ejemplo 4.3.2

doc = nlp('Un jugador malo lanza el balón rápidamente')
spacy.displacy.render(doc, style='dep', jupyter=True, options={'compact':False, 'distance':100})

In [12]:
# Ejemplo 4.3.3

doc = nlp('Eva te prestó la gorra que compró ayer')
spacy.displacy.render(doc, style='dep', jupyter=True, options={'compact':False, 'distance':100})

In [13]:
# Ejemplo 4.3.4

doc = nlp('Eva te prestó la gorra que compró ayer')
for token in doc:
  print(token, ':', token.pos_)

Eva : PROPN
te : PRON
prestó : VERB
la : DET
gorra : NOUN
que : PRON
compró : VERB
ayer : ADV


In [14]:
# Ejemplo 4.3.5

doc = nlp('Eva te prestó la gorra que compró ayer')
for token in doc:
  print(token, ':', token.dep_, '-->', token.head)

Eva : nsubj --> prestó
te : iobj --> prestó
prestó : ROOT --> prestó
la : det --> gorra
gorra : obj --> prestó
que : obj --> compró
compró : acl --> gorra
ayer : advmod --> compró


In [15]:
# Ejemplo 4.3.6

doc = nlp('Juan vendió su coche rápido')
for token in doc:
  print(token, ':', token.pos_, token.dep_, '-->', token.head)

Juan : PROPN nsubj --> vendió
vendió : VERB ROOT --> vendió
su : DET det --> coche
coche : NOUN obj --> vendió
rápido : ADJ amod --> coche


In [16]:
# Ejemplo 4.3.7

doc = nlp('Juan vendió rápido su coche')
for token in doc:
  print(token, ':', token.pos_, token.dep_, '-->', token.head)

Juan : PROPN nsubj --> vendió
vendió : VERB ROOT --> vendió
rápido : ADV advmod --> vendió
su : DET det --> coche
coche : NOUN obj --> vendió


In [17]:
# Ejemplo 4.3.8

def es_verbo_principal(token):
  ''' Detecta si es verbo principal de oración '''
  return token.dep_ == 'ROOT'

doc = nlp(tuit)
verbos_principales = [token for token in doc if es_verbo_principal(token)]
print(verbos_principales)

[lanzado, Persiguen, recordado]


In [18]:
# Ejemplo 4.3.9

def es_nombre_comun(token):
  ''' Detecta si es nombre común '''
  return token.pos_ == 'NOUN'

doc = nlp(tuit)
nombres_comunes = [token for token in doc if es_nombre_comun(token)]
print(nombres_comunes)

[activistas, grupo, sopa, tomate, cuadro, girasoles, gobierno, proyectos, petróleo, gas, acción, tartazo, mayo]


In [19]:
# Ejemplo 4.3.9

doc = nlp(tuit)
nombres_comunes = [token for token in doc if token.pos_ == 'NOUN']
print(nombres_comunes)

[activistas, grupo, sopa, tomate, cuadro, girasoles, gobierno, proyectos, petróleo, gas, acción, tartazo, mayo]


In [20]:
# Ejemplo 4.3.10

def es_nombre_comun_femenino(token):
  ''' Detecta si es nombre común '''
  morph_dict = token.morph.to_dict()
  return (token.pos_ == 'NOUN' and  
          'Gender' in morph_dict and 
          morph_dict['Gender'] == 'Fem')

doc = nlp(tuit)
nombres_comunes_fem = [token for token in doc if es_nombre_comun_femenino(token)]
print(nombres_comunes_fem)

[sopa, acción]


In [21]:
# Ejemplo 4.3.11 

def es_principal_sujeto(token):
  ''' Detecta si es la palabra principal del sujeto '''
  return (token.dep_ == 'nsubj' and
          es_verbo_principal(token.head))

doc = nlp(tuit)
sujetos_princ = [token for token in doc if es_principal_sujeto(token)]
print(sujetos_princ)

[activistas, acción]


In [22]:
###############################################
# Ejemplo adicional: detectar sujeto completo #
# Requiere bucles WHILE                       #
###############################################
def es_parte_del_sujeto_rec(token):
  ''' Detecta si token forma parte del sujeto. versión recursiva '''
  return (not es_verbo_principal(token) and 
         (es_principal_sujeto(token) or
          es_parte_del_sujeto(token.head)))

def es_parte_del_sujeto(token):
  ''' Detecta si token forma parte del sujeto '''
  while not es_verbo_principal(token):
    if es_principal_sujeto(token):
      return True
    else:
      token = token.head
  return False

def extrae_sujeto(frase):
  ''' Extrae la lista de palabras del sujeto de la frase '''
  return [token for token in frase if es_parte_del_sujeto(token)]
  
doc = nlp(tuit)
primera_frase = list(doc.sents)[0]
sujetos_princ = extrae_sujeto(primera_frase)
print(sujetos_princ)

segunda_frase = list(doc.sents)[1]
sujetos_princ = extrae_sujeto(segunda_frase)
print(sujetos_princ)

tercera_frase = list(doc.sents)[2]
sujetos_princ = extrae_sujeto(tercera_frase)
print(sujetos_princ)

[Dos, activistas, del, grupo, ecologista, Just, Stop, Oil]
[]
[La, acción]


## Detección de entidades con nombre

In [23]:
# Ejemplo 4.4.1

nlp = spacy.load("es_core_news_lg")
doc = nlp(tuit)
spacy.displacy.render(doc, style='ent', jupyter=True)

In [24]:
# Ejemplo 4.4.2

doc = nlp(tuit)
for ent in doc.ents:
  print(ent.label_, ent)

ORG Just Stop Oil
MISC Los girasoles
PER Van Gogh
LOC National Gallery de Londres
PER Liz Truss
MISC La acción
PER La Gioconda


In [25]:
# Ejemplo 4.4.3

from collections import Counter

doc = nlp(tuit)
cat_ent = [ent.label_ for ent in doc.ents]
contador = Counter(cat_ent)
print(contador)

Counter({'PER': 3, 'MISC': 2, 'ORG': 1, 'LOC': 1})


### Otras bibliotecas para la detección de entidades con nombre

In [26]:
import flair

from flair.data import Sentence
from flair.models import SequenceTagger

sentence = Sentence(tuit)

tagger = SequenceTagger.load("flair/ner-spanish-large")

tagger.predict(sentence)

for entity in sentence.get_spans('ner'):
    print(entity)

Downloading pytorch_model.bin:   0%|          | 0.00/2.24G [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/616 [00:00<?, ?B/s]

Downloading (…)tencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/9.10M [00:00<?, ?B/s]

2023-04-21 09:56:29,982 SequenceTagger predicts: Dictionary with 20 tags: <unk>, O, S-LOC, S-ORG, B-PER, I-PER, E-PER, S-MISC, B-ORG, E-ORG, S-PER, I-ORG, B-LOC, E-LOC, B-MISC, E-MISC, I-MISC, I-LOC, <START>, <STOP>
Span[5:8]: "Just Stop Oil" → ORG (0.9999)
Span[17:22]: "Los girasoles de Van Gogh" → MISC (0.8302)
Span[24:28]: "National Gallery de Londres" → LOC (0.9056)
Span[34:36]: "Liz Truss" → PER (0.9998)
Span[56:58]: "La Gioconda" → MISC (0.9842)
