# TP2 - Web Scraping + Spacy

## EJEMPLO 1: TRABAJAMOS CON SPACY

### 1.- IMPORTAMOS LAS LIBRERIAS Y TEXTO A ANALIZAR

spaCy es una biblioteca de procesamiento de lenguaje natural (NLP) escrita en Python, diseñada para ser rápida, eficiente y fácil de usar. Se utiliza ampliamente en tareas relacionadas con el análisis y la comprensión del lenguaje humano.

¿Para qué se usa spaCy?

spaCy se usa para muchas tareas de NLP, como:

Tokenización: Dividir el texto en palabras, frases, etc.

Lematización: Reducir palabras a su forma base

Etiquetado gramatical (POS tagging): Identificar sustantivos, verbos, adjetivos, etc.

Reconocimiento de entidades nombradas (NER): Identificar nombres propios, organizaciones, fechas, etc.

Análisis de dependencias: Entender la estructura gramatical de una oración

Detección de similitud entre textos

Extracción de información


In [None]:
# INSTALAMOS LA LIBRERIA
!pip install watermark

In [None]:
# CARGAMOS LA LIBRERIA PARA PODER INVOCARLA
%load_ext watermark

In [None]:
# VISUALIZAMOS ALGUNOS DATOS DE PYTHON
# Significado:
# -v: versión de Python
# -d: fecha actual
# -u: última fecha en que se actualizó el notebook
# -t: hora actual
%watermark -v -d -u -t

In [None]:
!pip show numpy

In [None]:
!pip show pandas

In [None]:
%watermark -v -p numpy,pandas,watermark

In [None]:
# INSTALAMOS LA LIBRERIA EN CASO QUE NO CONTEMOS CON ELLA EN NUESTRO ENTORNO DE TRABAJO
# spacy: instala la biblioteca spaCy para procesamiento de lenguaje natural.
# watermark: instala una herramienta útil para ver información del entorno (versiones de paquetes, entorno de Python, etc.).
# -q: significa quiet, es decir, reduce la salida del terminal al mínimo (menos ruido visual al instalar).
# !pip install spacy watermark -q
# !pip install spacy

In [None]:
# OCURRIO UN CONFLICTO DE VERSIONES CON NUMPY CON LO CUAL TUVE QUE EJECUTAR ESTA SENTENCIA
# !pip install "numpy<2.0"

In [None]:
import spacy
from spacy import displacy

In [None]:
# download es_core_news_lg: Le dice a spaCy que descargue un modelo preentrenado de procesamiento de lenguaje natural (PLN).
# es_core_news_lg: Es un modelo grande de spaCy entrenado para español:
# es = español
# core_news = texto de noticias, tipo de corpus con el que fue entrenado
# lg = large (grande), lo que indica que es un modelo más preciso (pero más pesado que sm o md)

In [None]:
!python -m spacy download es_core_news_lg

In [None]:
# PIPELINE DE SPACY
# CARGAMOS EL MODELO
import es_core_news_lg
nlp = es_core_news_lg.load()

### 2.- PRIMER TEXTO A ANALIZAR

In [None]:
# DEFINIMOS UN TEXTO A PROCESAR 
texto_ejemplo = 'La inteligencia artificial es un campo de la ciencia relacionado con la creación de computadoras y máquinas que pueden razonar, aprender y actuar de una manera que normalmente requeriría inteligencia humana o que involucra datos cuya escala excede lo que los humanos pueden analizar.'

In [None]:
# PROCESAMOS EL TEXTO CON SPACY
# nlp: Es el objeto del modelo (es_core_news_lg)
# texto_ejemplo: Es un string de texto.
# doc: Es el resultado del análisis. Un objeto tipo Doc de spaCy, que contiene tokens, etiquetas gramaticales, entidades nombradas, dependencias sintácticas, etc.
doc = nlp(texto_ejemplo)

In [None]:
# CONFIRMAMOS QUE "doc" ES UN OBJETO SPACY
print(type(doc))

In [None]:
# VISUALIZAMOS EL CONTENIDO
print(doc)

In [None]:
# PROCESO DE TOKENIZACION
# RECORREMOS CON UN CICLO FOR EL TEXTO A PROCESAR CREANDO LA TOKENIZACIÓN DEL TEXTO EN CUESTION
tokens = [token.text for token in doc]
print(tokens)

In [None]:
# VERIFICAMOS QUE OBTUVIMOS UNA LISTA CON LOS TOKENS DEL TEXTO EN CUESTION
print(type(tokens))

In [None]:
# PROCESO DE LEMATIZACIÓN
# RECORREMOS LA LISTA ANTERIOR DE TOKENS PARA OBTENER LA LEMATIZACIÓN (FORMA BASE DE CADA TOKEN)
for token in doc:
    # SI EL VALOR QUE ESTAMOS ANALIZANDO NO ES PUNTUACION Y NO ES ESPACIO GENERAMOS EL LEMMA DE CADA PALABRA
    if not token.is_punct and not token.is_space:
        print(f"'{token.text}' -> '{token.lemma_}'")

In [None]:
# PROCESO DE ETIQUETADO GRAMATICAL
# token.text: El texto del token
# token.pos_: la categoría gramatical general (ej: NOUN, VERB, ADJ...).
# spacy.explain(token.pos_): Una descripción en texto de esa categoría.
# token.tag_: La etiqueta gramatical más específica (usualmente basada en corpus de entrenamiento).
for token in doc:
    if not token.is_space: # IGNORAMOS LOS ESPACIOS QUE PUDIERAN PRESENTARSE
        print(f"'{token.text}' -> {token.pos_} ({spacy.explain(token.pos_)}) -> {token.tag_}")

In [None]:
# PROCESO DE ANALISIS DE DEPENDENCIA SINTÁCTICA
# token.text: El texto del token (palabra actual)
# token.dep_: El tipo de dependencia gramatical (su función sintáctica en la oración: sujeto, objeto, raíz, etc.)
# spacy.explain(token.dep_): Una breve explicación textual de esa dependencia
# token.head.text: El término principal del que depende ese token (la "cabeza sintáctica")
for token in doc:
     if not token.is_space: # IGNORAMOS LOS ESPACIOS QUE PUDIERAN PRESENTARSE 
        print(f"'{token.text}' -> {token.dep_} ({spacy.explain(token.dep_)}) -> '{token.head.text}'")

In [None]:
# PROCESO DE VISUALIZACION DEL OBEJTO PROCESADO POR SPACY
# displacy.render: función que dibuja una visualización del objeto doc (procesado por spaCy).
# style='dep': indica que quieres ver el árbol de dependencias gramaticales (no entidades nombradas).
# jupyter=True: le dice a spaCy que lo dibuje directamente dentro del notebook de Jupyter.
# options={'distance': 120}: cambia la distancia horizontal entre palabras en el gráfico (para que sea más legible si la oración es larga).
displacy.render(doc, style='dep', jupyter=True, options={'distance': 120})

In [None]:
# VISUALIZACION DE ENTIDADES
# Las entidades nombradas son cosas como: personas, lugares, organizaciones, fechas, cantidades, etc.
# ent.text: el texto de la entidad (ej. "España")
# ent.label_: la etiqueta de tipo de entidad (ej. LOC)
# spacy.explain(ent.label_): una descripción en texto del tipo (ej. "Geopolitical entity")
if doc.ents:
    print("Entidades encontradas:")
    print("Texto de la Entidad -> Etiqueta (Tipo)")
    for ent in doc.ents:
        print(f"'{ent.text}' -> {ent.label_} ({spacy.explain(ent.label_)})")
else:
    print("No se encontraron entidades nombradas en este texto.")

In [None]:
# VISUALIZACION DE ENTIDADES
displacy.render(doc,style='ent',jupyter=True,options={'distance':200})

### 3.- SEGUNDO TEXTO A ANALIZAR (CONTENIENDO ENTIDADES)

In [None]:
# DEFINIMOS UN TEXTO A PROCESAR 
texto_ejemplo = '¿Quién liderará la tecnología del futuro: Estados Unidos o China? La especulación está en su punto máximo. La compañía de inteligencia artificial más famosa del mundo, OpenAI, es estadounidense. Los modelos producidos por DeepSeek, un competidor chino, son casi igual de buenos y más baratos.'

In [None]:
# PROCESAMOS EL TEXTO CON SPACY
# nlp: Es el objeto del modelo (es_core_news_lg)
# texto_ejemplo: Es un string de texto.
# doc: Es el resultado del análisis. Un objeto tipo Doc de spaCy, que contiene tokens, etiquetas gramaticales, entidades nombradas, dependencias sintácticas, etc.
doc = nlp(texto_ejemplo)

In [None]:
# CONFIRMAMOS QUE "doc" ES UN OBJETO SPACY
print(type(doc))

In [None]:
# VISUALIZAMOS EL CONTENIDO
print(doc)

In [None]:
# PROCESO DE TOKENIZACION
# RECORREMOS CON UN CICLO FOR EL TEXTO A PROCESAR CREANDO LA TOKENIZACIÓN DEL TEXTO EN CUESTION
tokens = [token.text for token in doc]
print(tokens)

In [None]:
# VERIFICAMOS QUE OBTUVIMOS UNA LISTA CON LOS TOKENS DEL TEXTO EN CUESTION
print(type(tokens))

In [None]:
# PROCESO DE LEMATIZACIÓN
# RECORREMOS LA LISTA ANTERIOR DE TOKENS PARA OBTENER LA LEMATIZACIÓN (FORMA BASE DE CADA TOKEN)
for token in doc:
    # SI EL VALOR QUE ESTAMOS ANALIZANDO NO ES PUNTUACION Y NO ES ESPACIO GENERAMOS EL LEMMA DE CADA PALABRA
    if not token.is_punct and not token.is_space:
        print(f"'{token.text}' -> '{token.lemma_}'")

In [None]:
# PROCESO DE ETIQUETADO GRAMATICAL
# token.text: El texto del token
# token.pos_: la categoría gramatical general (ej: NOUN, VERB, ADJ...).
# spacy.explain(token.pos_): Una descripción en texto de esa categoría.
# token.tag_: La etiqueta gramatical más específica (usualmente basada en corpus de entrenamiento).
for token in doc:
    if not token.is_space: # IGNORAMOS LOS ESPACIOS QUE PUDIERAN PRESENTARSE
        print(f"'{token.text}' -> {token.pos_} ({spacy.explain(token.pos_)}) -> {token.tag_}")

In [None]:
# PROCESO DE ANALISIS DE DEPENDENCIA SINTÁCTICA
# token.text: El texto del token (palabra actual)
# token.dep_: El tipo de dependencia gramatical (su función sintáctica en la oración: sujeto, objeto, raíz, etc.)
# spacy.explain(token.dep_): Una breve explicación textual de esa dependencia
# token.head.text: El término principal del que depende ese token (la "cabeza sintáctica")
for token in doc:
     if not token.is_space: # IGNORAMOS LOS ESPACIOS QUE PUDIERAN PRESENTARSE 
        print(f"'{token.text}' -> {token.dep_} ({spacy.explain(token.dep_)}) -> '{token.head.text}'")

In [None]:
# PROCESO DE VISUALIZACION DEL OBEJTO PROCESADO POR SPACY
# displacy.render: función que dibuja una visualización del objeto doc (procesado por spaCy).
# style='dep': indica que quieres ver el árbol de dependencias gramaticales (no entidades nombradas).
# jupyter=True: le dice a spaCy que lo dibuje directamente dentro del notebook de Jupyter.
# options={'distance': 120}: cambia la distancia horizontal entre palabras en el gráfico (para que sea más legible si la oración es larga).
displacy.render(doc, style='dep', jupyter=True, options={'distance': 120})

In [None]:
# VISUALIZACION DE ENTIDADES
# Las entidades nombradas son cosas como: personas, lugares, organizaciones, fechas, cantidades, etc.
# ent.text: el texto de la entidad (ej. "España")
# ent.label_: la etiqueta de tipo de entidad (ej. LOC)
# spacy.explain(ent.label_): una descripción en texto del tipo (ej. "Geopolitical entity")
if doc.ents:
    print("Entidades encontradas:")
    print("Texto de la Entidad -> Etiqueta (Tipo)")
    for ent in doc.ents:
        print(f"'{ent.text}' -> {ent.label_} ({spacy.explain(ent.label_)})")
else:
    print("No se encontraron entidades nombradas en este texto.")

In [None]:
# VISUALIZACION DE ENTIDADES
displacy.render(doc,style='ent',jupyter=True,options={'distance':200})

### 4.- TERCER TEXTO A ANALIZAR (SPACY + WORDCLOUD + MATPLOTLIB)

In [None]:
# IMPORTAMOS LA LIBRERIA QUE UTILIZAREMOS PARA HACER UN CONTEO DE PALABRAS
from collections import Counter
from wordcloud import WordCloud
import matplotlib.pyplot as plt

In [None]:
# DEFINIMOS UN TEXTO A PROCESAR 
texto_ejemplo = """
Con el propósito de reforzar su estrategia de liderazgo en innovación tecnológica, China anunció que, a partir del 1 de septiembre de 2025, 
la enseñanza de inteligencia artificial (IA) será obligatoria para todos los estudiantes de entre 6 y 15 años. 
La medida se aplicará en todo el sistema educativo básico, abarcando tanto escuelas primarias como secundarias. 
Este nuevo enfoque pedagógico forma parte de un plan integral impulsado por el Ministerio de Educación chino, que busca dotar a las
nuevas generaciones de herramientas para desenvolverse en un mundo cada vez más digitalizado. 
Según el esquema presentado, cada alumno recibirá al menos ocho horas anuales de formación en IA, distribuidas en función de su nivel escolar. 
Durante los primeros años, los niños aprenderán los conceptos fundamentales de la inteligencia artificial mediante juegos didácticos, actividades 
prácticas y entornos virtuales diseñados para despertar la curiosidad tecnológica.
"""

In [None]:
# VISUALIZAMOS LOS PRIMEROS 150 CARACTERES DEL TEXTO A PROCESAR
print(f"'{texto_ejemplo[:150]}...'")

In [None]:
# VALIDAMOS QUE ESTAMOS TRABAJANDO CON UNA VARIALBLE STRING (STR)
print(type(texto_ejemplo))

In [None]:
# PROCESAMOS EL TEXTO CON SPACY
# nlp: Es el objeto del modelo (es_core_news_lg)
# texto_ejemplo: Es un string de texto.
# doc: Es el resultado del análisis. Un objeto tipo Doc de spaCy, que contiene tokens, etiquetas gramaticales, entidades nombradas, dependencias sintácticas, etc.
doc = nlp(texto_ejemplo)

In [None]:
# CONFIRMAMOS QUE "doc" ES UN OBJETO SPACY
print(type(doc))

In [None]:
# VISUALIZAMOS EL CONTENIDO
print(doc)

In [None]:
# DEFINIMOS UNA LISTA CON LAS "PALABRAS CLAVES" QUE FORMARÁN PARTE DE NUESTRO ANÁLISIS
palabras_clave = []

In [None]:
# PROCESO DE TOKENIZACION
# RECORREMOS CON UN CICLO FOR EL TEXTO A PROCESAR CREANDO LA TOKENIZACIÓN DEL TEXTO EN CUESTION
tokens = [token.text for token in doc]
print(tokens)

In [None]:
# # PROCESO DE TOKENIZACION Y LEMATIZACION
# token.is_alpha: Verifica si el token contiene solo letras (sin números ni signos de puntuación).
# not token.is_stop: Filtra las stopwords. Esto ayuda a quedarte solo con palabras que aportan contenido relevante.
# token.lemma_: Extrae el lema del token, es decir, su forma canónica o base.
# .lower(): Convierte el lema a minúsculas.
# palabras_clave.append(...): Agrega la palabra limpia a la lista palabras_clave.
for token in doc:
    if token.is_alpha and not token.is_stop:
      palabras_clave.append(token.lemma_.lower())
print(f"Se extrajeron {len(palabras_clave)} palabras clave (lemas, sin stop words).")

In [None]:
# VISUALIZAMOS LAS PALABRAS CLAVE QUE SE DETECTARON
print(palabras_clave)

In [None]:
# VISUALIZAMOS LAS PRIMERAS 15 PALABRAS
print(f"EJEMPLO DE LAS PRIMERAS 15 PALABRAS: {palabras_clave[:15]}")

In [None]:
# DETERMINAMOS LA FRECUENCIA DE LAS PALABRAS CLAVE
frecuencia_palabras = Counter(palabras_clave)

In [None]:
print(frecuencia_palabras)

In [None]:
# VISUALIZAMOS LA FRECUENCIA DE LAS PRIMERAS N PALABRAS
N = 15
palabras_mas_comunes = frecuencia_palabras.most_common(N)

In [None]:
# RECORREMOS LA LISTA PARA VISUALIZARLO EN FORMA MÁS CLARA
for palabra, frecuencia in palabras_mas_comunes:
    print(f"- '{palabra}' : {frecuencia}")

In [None]:
# GENERAMOS EL WORDCLOUD CON LAS "PALABRAS MAS COMUNES"
"""
cmap='gray'        # Escala de grises
cmap='viridis'     # Gradiente suave (default en muchos casos)
cmap='plasma'      # Tonos cálidos
cmap='hot'         # Colores tipo fuego (calor)
cmap='cool'        # Tonos fríos
"""
wordcloud_generator = WordCloud(
    width=800,
    height=400,
    background_color='white',
    # Paleta de colores
    colormap='plasma', 
    # Mostrar máximo 50 palabras
    max_words=50,     
    # Ya filtramos stop words antes
    stopwords=None,  
    # Evitar que agrupe palabras (ej. "dióxido carbono")
    collocations=False  
).generate_from_frequencies(frecuencia_palabras) # <-- Usar las frecuencias calculadas

In [None]:
# GENERAMOS EL GRÁFICO
"""
interpolation='nearest'     # Sin suavizado (cuadriculado)
interpolation='bilinear'    # Suavizado suave (más bonito para nubes de palabras)
interpolation='bicubic'     # Aún más suavizado
interpolation='hamming'     # Otros métodos más específicos
"""
plt.figure(figsize=(10, 5)) # Tamaño de la figura donde se mostrará
plt.imshow(wordcloud_generator, interpolation='bilinear') # Mostrar la imagen generada
plt.axis("off") # No mostrar los ejes X e Y
plt.tight_layout(pad=0) # Ajustar para que no haya bordes extra
plt.show() # Mostrar la ventana con la nube