# üß™ Ejercicio 1 ‚Äì Visualizaci√≥n de Embeddings con Word2Vec y t-SNE
üéØ **Objetivo:** Visualizar c√≥mo las palabras con significados similares se agrupan en un espacio vectorial usando un modelo preentrenado y reducci√≥n de dimensionalidad.

üì¶ **Herramientas a usar:**
- `gensim.downloader` ‚Üí para cargar modelos preentrenados
- `sklearn.manifold.TSNE` ‚Üí para reducci√≥n a 2D
- `matplotlib.pyplot` ‚Üí para visualizar

In [None]:
!pip install transformers torch scikit-learn matplotlib numpy

### üß© Paso 1: Carga un modelo preentrenado

In [None]:
import gensim.downloader as api

# Cargar el modelo preentrenado (puede tardar unos segundos)
model = api.load("glove-wiki-gigaword-100")  # RELLENA: nombre del modelo
print("Modelo cargado correctamente.")

### üß© Paso 2: Define un conjunto de palabras a analizar

In [None]:
words = ['king', 'queen', 'man', 'woman', 'apple', 'orange', 'fruit', 'cat', 'dog', 'animal']

# Filtra solo las que est√©n en el vocabulario del modelo
valid_words = [word for word in words if word in model.key_to_index]

In [None]:
len(model['king'])

### üß© Paso 3: Extrae los vectores correspondientes

In [None]:
import numpy as np

# Obtener los vectores
vectors = np.array([model[word] for word in valid_words])

### üß© Paso 4: Reduce la dimensionalidad a 2D con t-SNE

In [None]:
from sklearn.manifold import TSNE

tsne = TSNE(n_components=2, random_state=0, perplexity=5)
Y = tsne.fit_transform(vectors)

### üß© Paso 5: Dibuja los puntos y pon etiquetas

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 6))
plt.scatter(Y[:, 0], Y[:, 1], color='blue', s=50)

for i, word in enumerate(valid_words):
    plt.annotate(word, xy=(Y[i, 0], Y[i, 1]), fontsize=10, color='red')

plt.title("Visualizaci√≥n de embeddings con t-SNE")
plt.xlabel("Dimensi√≥n 1")
plt.ylabel("Dimensi√≥n 2")
plt.grid(True)
plt.show()

## üß© OPCIONAL ‚Äì Contin√∫a explorando los embeddings

### üé® Visualiza grupos de palabras por categor√≠a

In [None]:
# Grupos de palabras por categor√≠a
grupos = {
    "realeza": ["king", "queen", "prince", "princess"],
    "frutas": ["apple", "orange", "banana", "fruit"],
    "animales": ["cat", "dog", "lion", "tiger"],
    "tecnolog√≠a": ["computer", "keyboard", "internet", "AI"]
}

# Filtrar palabras que est√©n en el vocabulario
all_words = [word for group in grupos.values() for word in group]
valid_words = [word for word in all_words if word in model.key_to_index]

# Obtener vectores
vectors = np.array([model[word] for word in valid_words])

# Reducir con t-SNE
tsne = TSNE(n_components=2, random_state=0, perplexity=5)
Y = tsne.fit_transform(vectors)

# Visualizar con colores por grupo
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 6))
i = 0
for grupo, palabras in grupos.items():
    grupo_valid = [word for word in palabras if word in valid_words]
    if not grupo_valid: continue
    idxs = [valid_words.index(word) for word in grupo_valid]
    coords = Y[idxs]
    plt.scatter(coords[:, 0], coords[:, 1], label=grupo, s=60)
    for j, word in zip(idxs, grupo_valid):
        plt.annotate(word, xy=(Y[j, 0], Y[j, 1]), fontsize=9)

plt.legend()
plt.title("Embeddings agrupados por categor√≠a")
plt.grid(True)
plt.show()

### üîç Explora palabras cercanas con `most_similar()`

In [None]:
# Prueba a buscar palabras similares sem√°nticamente
palabra_objetivo = "king"
similares = model.most_similar(palabra_objetivo, topn=5)
for palabra, similitud in similares:
    print(f"{palabra} ‚Üí similitud: {similitud:.4f}")

### üéØ Mini-reto: a√±ade tu propia palabra y visual√≠zala

In [None]:
# üß© Ejercicio: Encuentra palabras similares
# üéØ Objetivo: Introducir una palabra y mostrar las palabras m√°s similares seg√∫n el modelo.

# 1Ô∏è‚É£ Pide al usuario que introduzca una palabra en ingl√©s.
#    Usa la funci√≥n `input()` para capturar la palabra.

# 2Ô∏è‚É£ Verifica si la palabra est√° en el vocabulario del modelo.
#    Usa `if palabra in model.key_to_index:` para comprobarlo.

# 3Ô∏è‚É£ Si la palabra est√° en el vocabulario:
#    - Usa `model.most_similar()` para encontrar las palabras m√°s similares.
#    - Itera sobre los resultados y muestra cada palabra con su puntuaci√≥n de similitud.

# 4Ô∏è‚É£ Si la palabra no est√° en el vocabulario:
#    - Muestra un mensaje indicando que no se encontr√≥.

# üí° Pista: Usa un bucle `for` para recorrer las palabras similares y sus puntuaciones.

# Escribe tu c√≥digo aqu√≠:
# palabra = ...
# if ...:
#     ...
# else:
#     ...

# Soluci√≥n (Click para revelar)

In [None]:
# Introduce una palabra y muestra sus similares
palabra = input("Introduce una palabra en ingl√©s: ")

if palabra in model.key_to_index:
    similares = model.most_similar(palabra, topn=10)
    print(f"Palabras m√°s similares a '{palabra}':")
    for w, score in similares:
        print(f"{w} ‚Üí {score:.3f}")
else:
    print("La palabra no est√° en el vocabulario del modelo.")