In [None]:
!pip install spacy  watermark -q

In [None]:
!python -m spacy download es_core_news_lg -q

In [None]:
import spacy
from spacy import displacy

## Script: Pipeline de Spacy en Español
Paso 1: Cargando el modelo 'es_core_news_sm'

In [None]:
nlp = spacy.load("es_core_news_lg")
import es_core_news_lg
nlp = es_core_news_lg.load()

Texto de ejemplo

In [None]:
texto_ejemplo = "La empresa española TechSolutions S.L. abrirá una nueva sede en Argentina el próximo año."

Procesando el texto con el pipeline de Spacy

In [None]:
doc = nlp(texto_ejemplo)

Tokenizacion

In [None]:
tokens = [token.text for token in doc]
print(tokens)

Lematización:
Forma base (lema) de cada token

In [None]:
for token in doc:
    # Ignoramos puntuación y espacios para mayor claridad
    if not token.is_punct and not token.is_space:
        print(f"'{token.text}' -> '{token.lemma_}'")

Etiquetado Gramatical (POS Tagging):

In [None]:
for token in doc:
    if not token.is_space: # Ignoramos espacios
        print(f"'{token.text}' -> {token.pos_} ({spacy.explain(token.pos_)}) -> {token.tag_}")

Análisis de Dependencias Sintácticas:
Token -> Relación de Dependencia (dep_) -> Cabeza (head)"

In [None]:
for token in doc:
     if not token.is_space:
        print(f"'{token.text}' -> {token.dep_} ({spacy.explain(token.dep_)}) -> '{token.head.text}'")

In [None]:
displacy.render(doc, style='dep', jupyter=True, options={'distance': 120})

Reconocimiento de Entidades Nombradas (NER):

In [None]:
if doc.ents:
    print("Entidades encontradas:")
    print("Texto de la Entidad -> Etiqueta (Tipo)")
    for ent in doc.ents:
        print(f"'{ent.text}' -> {ent.label_} ({spacy.explain(ent.label_)})")
else:
    print("No se encontraron entidades nombradas en este texto.")

In [None]:
displacy.render(doc,style='ent',jupyter=True,options={'distance':200})

In [None]:
print(nlp.pipe_names)

## EJEMPLO DIDACTICO

In [None]:
from collections import Counter

In [None]:
wiki_txt = """
La fotosíntesis es el proceso químico fundamental mediante el cual las plantas verdes,
algas y algunas bacterias convierten la energía lumínica del sol en energía química.
Utilizan dióxido de carbono del aire y agua del suelo para producir glucosa,
su alimento principal, liberando oxígeno como subproducto. La clorofila,
un pigmento verde en los cloroplastos, es crucial para capturar esta energía solar.
Este proceso sustenta casi toda la vida en la Tierra.
"""

In [None]:
print(f"'{wiki_txt[:150]}...'") # Muestra un fragmento

In [None]:
doc = nlp(wiki_txt)
print("¡Texto procesado!")

Extracción y filtrando de palabras clave (lemas)

In [None]:
palabras_clave = []
for token in doc:
    if token.is_alpha and not token.is_stop:
      # Normalización: Obtener lema y convertir a minúsculas
      palabras_clave.append(token.lemma_.lower())

print(f"Se extrajeron {len(palabras_clave)} palabras clave (lemas, sin stop words).")
# Ejemplo de las primeras palabras extraídas:
print(f"Ejemplo: {palabras_clave[:15]}")

In [None]:
frecuencia_palabras = Counter(palabras_clave)

In [None]:
N = 15
palabras_mas_comunes = frecuencia_palabras.most_common(N)

In [None]:
for palabra, frecuencia in palabras_mas_comunes:
    print(f"- '{palabra}' : {frecuencia}")

In [None]:
from wordcloud import WordCloud
import matplotlib.pyplot as plt

In [None]:
wordcloud_generator = WordCloud(
    width=800,
    height=400,
    background_color='white',
    colormap='viridis', # Paleta de colores
    max_words=50,      # Mostrar máximo 50 palabras
    stopwords=None,    # Ya filtramos stop words antes
    collocations=False # Evitar que agrupe palabras (ej. "dióxido carbono")
                       # Si se quisiera, sería mejor hacerlo antes con Spacy/N-gramas
).generate_from_frequencies(frecuencia_palabras) # <-- Usar las frecuencias calculadas

In [None]:
plt.figure(figsize=(10, 5)) # Tamaño de la figura donde se mostrará
plt.imshow(wordcloud_generator, interpolation='bilinear') # Mostrar la imagen generada
plt.axis("off") # No mostrar los ejes X e Y
plt.tight_layout(pad=0) # Ajustar para que no haya bordes extra
plt.show() # <-- ¡Mostrar la ventana con la nube!