# 1. Instalaciones e Importaciones

In [1]:
# Gensim es la librería clave para trabajar con Word2Vec, GloVe, FastText
!pip install gensim matplotlib seaborn scikit-learn > /dev/null

[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
tsfresh 0.21.0 requires scipy>=1.14.0; python_version >= "3.10", but you have scipy 1.13.1 which is incompatible.
thinc 8.3.6 requires numpy<3.0.0,>=2.0.0, but you have numpy 1.26.4 which is incompatible.[0m[31m
[0m

In [2]:
!pip uninstall gensim -y # Remove the existing gensim installation
!pip install gensim # Reinstall gensim to align with the NumPy version
# Restart the kernel to ensure the changes take effect

Found existing installation: gensim 4.3.3
Uninstalling gensim-4.3.3:
  Successfully uninstalled gensim-4.3.3
Collecting gensim
  Using cached gensim-4.3.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (8.1 kB)
Using cached gensim-4.3.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (26.7 MB)
Installing collected packages: gensim
Successfully installed gensim-4.3.3


In [1]:
import gensim
from gensim.models import KeyedVectors # Para cargar modelos pre-entrenados
import numpy as np
import warnings
warnings.filterwarnings('ignore') # Para evitar warnings de gensim a veces

# Para visualización (Opcional)
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE

print("Librerías importadas.")
# Nota: Más adelante necesitaremos descargar un archivo de vectores pre-entrenados.

Librerías importadas.


In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
path_to_vectors = '/content/drive/MyDrive/glove_fasttext/SBW-vectors-300-min5.bin.gz'

In [4]:
# Intentar cargar el modelo
try:
    # Si es formato binario (.bin, .bin.gz): binary=True
    # Si es formato texto (.vec, .txt, .vec.gz): binary=False
    print("Cargando vectores... (puede tardar unos minutos)")
    word_vectors = KeyedVectors.load_word2vec_format(path_to_vectors, binary=True)
    # Si da error con binary=True, y tu archivo es .vec o .txt, prueba con binary=False
    # word_vectors = KeyedVectors.load_word2vec_format(path_to_vectors, binary=False)
    print(f"¡Vectores cargados! Vocabulario: {len(word_vectors.index_to_key)} palabras. Dimensión: {word_vectors.vector_size}")
except FileNotFoundError:
    print(f"Error: No se encontró el archivo en la ruta '{path_to_vectors}'.")
    print("Por favor, descarga los vectores pre-entrenados (ej: SBWC)")
    print("y asegúrate de que la variable 'path_to_vectors' tenga la ruta correcta.")
    word_vectors = None # Dejarlo como None si no se pudo cargar

Cargando vectores... (puede tardar unos minutos)
¡Vectores cargados! Vocabulario: 1692025 palabras. Dimensión: 300


# 2. Micro-Laboratorio (Ejercicio Práctico)

**Consigna:** (Asumiendo que `word_vectors` se cargó correctamente)

1.  **Exploración de Similitud:**
    *   Elegir 5 palabras que les interesen (intenten variar: un lugar, una profesión, un concepto abstracto, una comida, un sentimiento).
    *   Para cada una, usar `word_vectors.most_similar()` para encontrar las 5 palabras más parecidas.
    *   Anotar los resultados. ¿Les parecen lógicos? ¿Hay alguna similitud sorprendente o extraña?

2.  **Prueba de Analogías:**
    *   Inventar y probar 3 analogías diferentes usando `word_vectors.most_similar(positive=[...], negative=[...])`.
    *   Ideas:
        *   `programador` es a `computadora` como `médico` es a `?`
        *   `Argentina` es a `peso` como `Japón` es a `?`
        *   `caminar` es a `pierna` como `hablar` es a `?`
    *   Verificar que todas las palabras de la analogía estén en el vocabulario antes de probarla.
    *   Anotar los resultados. ¿Funcionan las analogías como esperaban?

3.  **(Opcional) Medir Similitud:**
    *   Elegir 3 pares de palabras:
        *   Un par de sinónimos claros (ej: `estudiante`, `alumno`).
        *   Un par de antónimos (ej: `grande`, `pequeño`).
        *   Un par de palabras no relacionadas (ej: `nube`, `zapato`).
    *   Calcular `word_vectors.similarity()` para cada par.
    *   ¿Los valores de similitud reflejan la relación entre las palabras? (Esperamos alta para sinónimos, baja/media-baja para no relacionadas, y ¿qué pasa con antónimos?).

**¡Asegúrense de que las palabras que usan existan en `word_vectors`!**

In [5]:
if 'word_vectors' in locals() and word_vectors:
    # 1. Exploración de Similitud:

    # Elegir 5 palabras de interés (variando categorías)
    palabras_interes = ['argentina', 'ingeniero', 'justicia', 'pizza', 'felicidad'] # Ejemplo de palabras

    print("--- Exploración de Similitud ---")

    for palabra in palabras_interes:
        if palabra in word_vectors:
            try:
                similares = word_vectors.most_similar(palabra, topn=5)
                print(f"\nPalabras más similares a '{palabra}':")
                for similar, score in similares:
                    print(f"- {similar}: {score:.4f}")
            except KeyError:
                 # This catch is technically redundant with the 'in word_vectors' check,
                 # but kept for robustness against potential unexpected issues.
                print(f"Error: La palabra '{palabra}' no se encontró en el vocabulario.")
            except Exception as e:
                print(f"Ocurrió un error inesperado al procesar '{palabra}': {e}")
        else:
            print(f"\nLa palabra '{palabra}' no se encontró en el vocabulario. Saltando.")
else:
    print("\nLa variable 'word_vectors' no está definida o está vacía. Por favor, carga el modelo de vectores de palabras primero.")

--- Exploración de Similitud ---

Palabras más similares a 'argentina':
- uruguaya: 0.8044
- chilena: 0.7621
- argentino: 0.7089
- boliviana: 0.7052
- Argentina: 0.7017

Palabras más similares a 'ingeniero':
- agrónomo: 0.7446
- arquitecto: 0.7008
- Ingeniero: 0.6828
- Eduardo_Torroja_Miret: 0.6587
- José_Eugenio_Ribera: 0.6510

Palabras más similares a 'justicia':
- equidad: 0.6148
- retardación: 0.5836
- vindicta: 0.5760
- justica: 0.5701
- rectitud: 0.5622

Palabras más similares a 'pizza':
- hamburguesa: 0.7846
- pizzas: 0.7456
- ensalada: 0.7434
- salchicha: 0.7310
- lasaña: 0.7278

Palabras más similares a 'felicidad':
- alegría: 0.7278
- infelicidad: 0.6999
- eterna: 0.6761
- tranquilidad: 0.6640
- gloria: 0.6630


In [6]:
if 'word_vectors' in locals() and word_vectors:
    print("\n--- Prueba de Analogías ---")

    # Analogía 1: programador es a computadora como médico es a ?
    analogia1_palabras = ['programador', 'computadora', 'médico']
    if all(p in word_vectors for p in analogia1_palabras):
        try:
            analogia1_resultado = word_vectors.most_similar(positive=['médico', 'computadora'], negative=['programador'], topn=1)
            print("programador - computadora + médico ≈", analogia1_resultado)
        except Exception as e:
            print(f"Ocurrió un error inesperado en la analogía 1: {e}")
    else:
        missing_words = [p for p in analogia1_palabras if p not in word_vectors]
        print(f"Faltan palabras para la analogía 1 ({' - '.join(analogia1_palabras)}): {missing_words}. Saltando.")


    # Analogía 2: Argentina es a peso como Japón es a ? (Esperamos Yen)
    analogia2_palabras = ['argentina', 'peso', 'japón']
    # Check for lower case or potential variations if needed, but sticking to provided words for now
    if all(p in word_vectors for p in analogia2_palabras):
        try:
            analogia2_resultado = word_vectors.most_similar(positive=['japón', 'peso'], negative=['argentina'], topn=1)
            print("Argentina - peso + Japón ≈", analogia2_resultado)
        except Exception as e:
            print(f"Ocurrió un error inesperado en la analogía 2: {e}")
    else:
        missing_words = [p for p in analogia2_palabras if p not in word_vectors]
        print(f"Faltan palabras para la analogía 2 ({' - '.join(analogia2_palabras)}): {missing_words}. Saltando.")

    # Analogía 3: caminar es a pierna como hablar es a ? (Esperamos boca o lengua)
    analogia3_palabras = ['caminar', 'pierna', 'hablar']
    if all(p in word_vectors for p in analogia3_palabras):
        try:
            analogia3_resultado = word_vectors.most_similar(positive=['hablar', 'pierna'], negative=['caminar'], topn=1)
            print("caminar - pierna + hablar ≈", analogia3_resultado)
        except Exception as e:
            print(f"Ocurrió un error inesperado en la analogía 3: {e}")
    else:
        missing_words = [p for p in analogia3_palabras if p not in word_vectors]
        print(f"Faltan palabras para la analogía 3 ({' - '.join(analogia3_palabras)}): {missing_words}. Saltando.")

else:
    print("\nLa variable 'word_vectors' no está definida o está vacía. Esta celda requiere que el modelo esté cargado.")


--- Prueba de Analogías ---
programador - computadora + médico ≈ [('enfermera', 0.4909675419330597)]
Argentina - peso + Japón ≈ [('rikishi', 0.4128548502922058)]
caminar - pierna + hablar ≈ [('mano', 0.5441451668739319)]
