In [None]:
!python -m spacy download es_core_news_sm

In [23]:
import spacy

# Load Spanish tokenizer, tagger, parser, NER and word vectors
nlp = spacy.load("es_core_news_sm")

text = """
Muchos años después, 
frente al pelotón de fusilamiento,
el coronel Aureliano Buendía había de recordar aquella tarde remota en que su padre lo llevó a conocer el hielo.
Macondo era entonces una aldea de 20 casas de barro y cañabrava
construidas a la orilla de un río de aguas diáfanas
que se precipitaban por un lecho de piedras pulidas,
blancas y enormes como huevos prehistóricos.
"""
doc = nlp(text)

In [20]:
print("Tokens in the text:")
for token in doc:
    print(token.text)

Tokens in the text:


Muchos
años
después
,


frente
al
pelotón
de
fusilamiento
,
"


el
coronel
Aureliano
Buendía
había
de
recordar
aquella
tarde
remota
en
que
su
padre
lo
llevó
a
conocer
el
hielo
.


Macondo
era
entonces
una
aldea
de
20
casas
de
barro
y
cañabrava


construidas
a
la
orilla
de
un
río
de
aguas
diáfanas


que
se
precipitaban
por
un
lecho
de
piedras
pulidas
,


blancas
y
enormes
como
huevos
prehistóricos
.




In [24]:
# Find named entities, phrases and concepts
for entity in doc.ents:
    print(entity.text, entity.label_)

Aureliano Buendía PER
Macondo LOC


In [25]:
# Show only lemmas
for token in doc:
    if token.is_stop == False:
        print(token, token.lemma_)


 

años año
, ,

 

frente frente
pelotón pelotón
fusilamiento fusilamiento
, ,

 

coronel coronel
Aureliano Aureliano
Buendía Buendía
recordar recordar
remota remoto
padre padre
llevó llevar
hielo hielo
. .

 

Macondo Macondo
aldea aldea
20 20
casas casa
barro barro
cañabrava cañabravo

 

construidas construido
orilla orilla
río río
aguas agua
diáfanas diáfana

 

precipitaban precipitar
lecho lecho
piedras piedra
pulidas pulida
, ,

 

blancas blanco
enormes enorme
huevos huevo
prehistóricos prehistórico
. .

 



In [26]:
# show morphemes
for token in doc:
    print(f"{token}: {token.morph}")


: 
Muchos: Gender=Masc|NumType=Card|Number=Plur|PronType=Ind
años: Gender=Masc|Number=Plur
después: 
,: PunctType=Comm

: 
frente: 
al: Definite=Def|Gender=Masc|Number=Sing|PronType=Art
pelotón: Gender=Masc|Number=Sing
de: 
fusilamiento: Gender=Masc|Number=Sing
,: PunctType=Comm

: 
el: Definite=Def|Gender=Masc|Number=Sing|PronType=Art
coronel: Gender=Masc|Number=Sing
Aureliano: 
Buendía: 
había: Mood=Ind|Number=Sing|Person=3|Tense=Imp|VerbForm=Fin
de: 
recordar: VerbForm=Inf
aquella: Gender=Fem|Number=Sing|PronType=Dem
tarde: Gender=Fem|Number=Sing
remota: Gender=Fem|Number=Sing
en: 
que: 
su: Number=Sing|Person=3|Poss=Yes|PronType=Prs
padre: Gender=Masc|Number=Sing
lo: Case=Acc|Gender=Masc|Number=Sing|Person=3|PrepCase=Npr|PronType=Prs
llevó: Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin
a: 
conocer: VerbForm=Inf
el: Definite=Def|Gender=Masc|Number=Sing|PronType=Art
hielo: Gender=Masc|Number=Sing
.: PunctType=Peri

: 
Macondo: 
era: Mood=Ind|Number=Sing|Person=3|Tense=Imp|Ve

In [28]:
# eliminate stop words
filtered_sentence = [w for w in doc if not w.is_stop]
print("Filtered sentence (without stop-words):", filtered_sentence)


Filtered sentence (without stop-words): [
, años, ,, 
, frente, pelotón, fusilamiento, ,, 
, coronel, Aureliano, Buendía, recordar, remota, padre, llevó, hielo, ., 
, Macondo, aldea, 20, casas, barro, cañabrava, 
, construidas, orilla, río, aguas, diáfanas, 
, precipitaban, lecho, piedras, pulidas, ,, 
, blancas, enormes, huevos, prehistóricos, ., 
]


In [38]:
# search first 10 words in RAE using pyrae
from pyrae import dle

for token in [w for w in doc if not w.is_stop and not w.is_space and not w.is_punct][:5]:
    result = dle.search_by_word(word=token.text)
    print(f"{token.text} => {result.to_dict()}")

2024-01-10 20:32:41,818 - INFO    - dle.search_by_url - Performing request to: 'https://dle.rae.es/fusilamiento'...


años => {'title': 'año | Definición | Diccionario de la lengua española | RAE - ASALE', 'articles': [{'id': '31Ws94D', 'lema': {'lema': 'año1', 'index': 0, 'female_suffix': ''}, 'supplementary_info': [{'text': 'Del lat. (latín) annus.'}], 'is': {'verb': False}, 'definitions': [{'index': 1, 'category': {'abbr': 'm.', 'text': 'nombre masculino'}, 'is': {'adjective': False, 'adverb': False, 'interjection': False, 'noun': True, 'pronoun': False, 'verb': False}, 'abbreviations': [{'abbr': 'Astron.', 'text': 'Astronomía'}], 'sentence': {'text': '365 , 5 , 48   46 .'}, 'examples': []}, {'index': 2, 'category': {'abbr': 'm.', 'text': 'nombre masculino'}, 'is': {'adjective': False, 'adverb': False, 'interjection': False, 'noun': True, 'pronoun': False, 'verb': False}, 'abbreviations': [], 'sentence': {'text': ',      1     31  ,  .Sin.: (Sinónimos o afines)'}, 'examples': []}, {'index': 3, 'category': {'abbr': 'm.', 'text': 'nombre masculino'}, 'is': {'adjective': False, 'adverb': False, 'inter

2024-01-10 20:32:42,262 - INFO    - dle.search_by_url - Performing request to: 'https://dle.rae.es/coronel'...


fusilamiento => {'title': 'fusilamiento | Definición | Diccionario de la lengua española | RAE - ASALE', 'articles': [{'id': 'IeA6jQQ', 'lema': {'lema': 'fusilamiento', 'index': 0, 'female_suffix': ''}, 'supplementary_info': [], 'is': {'verb': False}, 'definitions': [{'index': 1, 'category': {'abbr': 'm.', 'text': 'nombre masculino'}, 'is': {'adjective': False, 'adverb': False, 'interjection': False, 'noun': True, 'pronoun': False, 'verb': False}, 'abbreviations': [], 'sentence': {'text': '.Sin.: (Sinónimos o afines)'}, 'examples': []}], 'complex_forms': [], 'other_entries': []}]}
coronel => {'title': 'coronel | Definición | Diccionario de la lengua española | RAE - ASALE', 'articles': [{'id': 'Avb7qml', 'lema': {'lema': 'coronel1', 'index': 0, 'female_suffix': ''}, 'supplementary_info': [{'text': "Del fr. (francés) colonel, y este del it. (italiano) colonnello, der. (derivado) de colonna 'columna de soldados'."}], 'is': {'verb': False}, 'definitions': [{'index': 1, 'category': {'abbr'