# 4. LLMs

Los modelos de lenguaje actuales permiten no solo generar texto coherente, sino también obtener representaciones vectoriales (embeddings) de frases o documentos, que capturan su significado semántico.
En este ejercicio utilizaremos:

Modelos abiertos de Hugging Face (GPT-2 o similares) para generación de texto.

Embeddings para representar reseñas de productos y poder compararlas entre sí.

## Parte 1: Generación de texto con modelos abiertos

- Autentícate en Hugging Face Hub usando tu token.

- Carga un modelo de generación de texto abierto (por ejemplo, "gpt2", "tiiuae/falcon-7b-instruct" o cualquier otro modelo ligero disponible).

- Genera secuencias de texto a partir de distintos prompts:

   "La inteligencia artificial en educación "

    "El futuro de la música es "

    "Un consejo para programadores principiantes es "

- Varía el parámetro max_new_tokens y observa cómo cambia la coherencia de los textos generados.

¿Qué ocurre cuando el número de tokens es muy bajo? ¿Y cuando es muy alto?

## Parte 2: Representación semántica con embeddings

- Descarga el dataset de reseñas de instrumentos musicales desde:
https://raw.githubusercontent.com/keitazoumana/Experimentation-Data/main/Musical_instruments_reviews.csv

- Conserva únicamente la columna "reviewText".

- Implementa una función get_embedding(text) que convierta un texto en un vector numérico usando un modelo de embeddings (puedes usar OpenAI embeddings o un modelo de embeddings abierto como "sentence-transformers/all-MiniLM-L6-v2" desde Hugging Face).

- Genera embeddings para un subconjunto de 100 reseñas y guárdalos en un DataFrame.

## Parte 3: Exploración del espacio vectorial

- Elige dos reseñas del dataset y calcula la similitud coseno entre sus embeddings.

   ¿Qué significa que el valor sea cercano a 1?

   ¿Y si es cercano a 0?

- Elige una reseña cualquiera y encuentra las 5 reseñas más similares en el conjunto.

- Representa los embeddings en 2D usando PCA o t-SNE y colorea los puntos según la longitud del texto (reseñas cortas vs largas).

## Parte 4: Aplicación práctica

- Implementa una función de búsqueda semántica:

  El usuario introduce una consulta en lenguaje natural (ejemplo: “buen sonido de guitarra”).

  Se calcula su embedding.

  Se devuelven las reseñas más cercanas en el espacio vectorial.

- Prueba la función con al menos 3 consultas distintas.

## Parte 5 (Avanzado - Opcional)

- Usa el modelo de generación de texto para resumir las reseñas más relevantes encontradas en la búsqueda semántica.

- Compara la coherencia de los resúmenes generados por un modelo abierto (GPT-2, Falcon) frente a un modelo más potente (ej. OpenAI GPT-4 si está disponible).

- Reflexiona:

¿Qué limitaciones tienen los modelos abiertos en comparación con los cerrados?

¿Cuándo sería suficiente usar un modelo abierto y cuándo sería preferible uno cerrado?