<a href="https://colab.research.google.com/github/cbadenes/COTOBU/blob/master/notebooks/03_embeddings_wikipedia.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ejercicio: Representación Vectorial de Palabras usando Wikipedia

En este ejercicio, vamos a explorar cómo funcionan las representaciones vectoriales de palabras (word embeddings) usando artículos de Wikipedia como fuente de datos. Esto nos permitirá descubrir relaciones semánticas interesantes en diferentes campos de conocimiento.

## Objetivos
- Aprender a obtener y procesar texto de Wikipedia
- Entrenar modelos Word2Vec y FastText con datos reales
- Analizar relaciones semánticas en diferentes dominios
- Comprender las diferencias entre Word2Vec y FastText

## Preparación del Entorno
Primero instalamos las bibliotecas necesarias:

In [1]:
!pip install wikipedia-api gensim spacy nltk

Collecting wikipedia-api
  Downloading wikipedia_api-0.7.1.tar.gz (17 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: wikipedia-api
  Building wheel for wikipedia-api (setup.py) ... [?25l[?25hdone
  Created wheel for wikipedia-api: filename=Wikipedia_API-0.7.1-py3-none-any.whl size=14346 sha256=7e38d6b4a739eec72b6dda4d03f6443bfc73beecea5651f56467c4d4da03f74c
  Stored in directory: /root/.cache/pip/wheels/4c/96/18/b9201cc3e8b47b02b510460210cfd832ccf10c0c4dd0522962
Successfully built wikipedia-api
Installing collected packages: wikipedia-api
Successfully installed wikipedia-api-0.7.1


In [3]:
# Descargamos los recursos necesarios
!python -m spacy download es_core_news_sm

Collecting es-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.7.0/es_core_news_sm-3.7.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m76.8 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.7.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [4]:
import wikipediaapi
import time
import spacy
import nltk
from gensim.models import Word2Vec, FastText

nltk.download('stopwords')
nlp = spacy.load('es_core_news_sm')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


## 1. Obtención de Datos

### Ejercicio 1.1: Crear función para obtener artículos de Wikipedia
Completa la siguiente función para obtener artículos de Wikipedia:

In [10]:
import wikipediaapi
import time

def get_wikipedia_corpus(topics, language='es'):
    """
    Obtiene múltiples artículos de Wikipedia sobre los temas especificados.

    Args:
        topics (list): Lista de temas a buscar
        language (str): Código del idioma ('es' para español)

    Returns:
        list: Lista de textos de los artículos
    """
    # Configuramos el user agent
    user_agent = "WikipediaAPIClient/1.0 (your.email@example.com) Python/3.x"

    # Creamos el objeto Wikipedia con los parámetros correctos
    wiki = wikipediaapi.Wikipedia(
        user_agent=user_agent,
        language=language  # Ahora especificamos el language como parámetro nombrado
    )

    corpus = []

    for topic in topics:
        try:
            page = wiki.page(topic)
            if page.exists():
                print(f"✓ Artículo encontrado: {topic}")
                corpus.append(page.text)
            else:
                print(f"✗ No se encontró artículo para: {topic}")
            time.sleep(1)  # Pausa para no sobrecargar la API
        except Exception as e:
            print(f"Error al procesar {topic}: {str(e)}")

    return corpus

### Ejercicio 1.2: Elige tus temas
Crea una lista de temas relacionados con tu campo de interés:

In [11]:
# Ejemplo: temas de tecnología
mis_temas = [
    'Inteligencia artificial',
    'Aprendizaje automático',
    # Añade más temas aquí
]

corpus = get_wikipedia_corpus(mis_temas)

✓ Artículo encontrado: Inteligencia artificial
✓ Artículo encontrado: Aprendizaje automático


## 2. Preprocesamiento del Texto

### Ejercicio 2.1: Implementa la función de limpieza
Completa la función para limpiar y tokenizar el texto:

In [12]:
def clean_text(text):
    """
    TODO: Implementa la limpieza del texto.

    Sugerencias de procesamiento:
    1. Convertir a minúsculas
    2. Eliminar números
    3. Eliminar puntuación
    4. Eliminar espacios extra
    """
    # Tu código aquí
    pass

def tokenize_text(text):
    """
    TODO: Implementa la tokenización del texto.

    Sugerencias:
    1. Usa spaCy para tokenizar
    2. Elimina stopwords
    3. Filtra tokens muy cortos
    """
    # Tu código aquí
    pass

### Ejercicio 2.2: Procesa el corpus
Aplica las funciones de preprocesamiento a tu corpus:

In [None]:
processed_corpus = []
for text in corpus:
    # TODO: Limpia y tokeniza cada texto
    # Tu código aquí
    pass

## 3. Entrenamiento de Modelos

### Ejercicio 3.1: Entrena Word2Vec y FastText
Implementa el entrenamiento de ambos modelos:

In [None]:
# TODO: Entrena los modelos Word2Vec y FastText
# Sugerencia: Experimenta con diferentes parámetros

w2v_model = Word2Vec(
    # Tu código aquí
)

ft_model = FastText(
    # Tu código aquí
)

## 4. Análisis y Experimentación

### Ejercicio 4.1: Explora relaciones semánticas
Analiza las palabras más similares para conceptos clave de tu campo:

In [None]:
# TODO: Elige palabras relevantes y encuentra sus similares
palabras_clave = [
    # Tus palabras aquí
]

for palabra in palabras_clave:
    print(f"\nPalabras más similares a '{palabra}':")
    # Tu código aquí

### Ejercicio 4.2: Compara Word2Vec y FastText
Analiza las diferencias entre ambos modelos:

In [None]:
# TODO: Compara los resultados de ambos modelos
# Sugerencia: Prueba con palabras que no están en el vocabulario

palabras_prueba = [
    # Incluye algunas palabras que no estén en el corpus
]

for palabra in palabras_prueba:
    print(f"\nComparación para '{palabra}':")
    # Tu código aquí

### Ejercicio 4.3: Analogías
Encuentra analogías interesantes en tu campo:

In [None]:
# TODO: Prueba diferentes analogías
# Ejemplo: rey - hombre + mujer = reina

def encontrar_analogia(palabra1, palabra2, palabra3):
    # Tu código aquí
    pass

## 5. Preguntas de Reflexión

1. ¿Qué relaciones semánticas interesantes descubriste en tu campo?
2. ¿Cuáles son las principales diferencias que observaste entre Word2Vec y FastText?
3. ¿Qué limitaciones encontraste en los modelos?
4. ¿Cómo podrías mejorar los resultados?

## 6. Desafíos Adicionales

1. Implementa visualización de embeddings usando t-SNE o PCA
2. Prueba con diferentes parámetros de entrenamiento
3. Compara resultados con diferentes corpus
4. Implementa una aplicación simple que use los embeddings