# Taller 10: Tu Primer Embedding - Vectorizar Texto

## üéØ Objetivo

Entender qu√© es un embedding viendo c√≥mo se convierte texto en una lista de n√∫meros y midiendo similitud entre ellos.

## Paso 1: Instalaci√≥n de librer√≠a

Instalar√°s dos paquetes principales:

- sentence-transformers: Es la biblioteca que transforma frases en vectores inteligentes.

- numpy y scikit-learn: Para manipulaci√≥n de n√∫meros y c√°lculo de similitud.

- tf-keras: Biblioteca necesaria para que funcione sentence-transformers

In [6]:
!pip install sentence-transformers numpy tf-keras scikit-learn --break-system-packages

Collecting tf-keras
  Downloading tf_keras-2.20.1-py3-none-any.whl.metadata (1.8 kB)
Downloading tf_keras-2.20.1-py3-none-any.whl (1.7 MB)
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m1.7/1.7 MB[0m [31m11.3 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hInstalling collected packages: tf-keras
Successfully installed tf-keras-2.20.1
[0m

## Paso 2: Importar Librer√≠as y cargar modelo preentrenado

¬øQu√© har√°s exactamente?
Cargar√°s 3 herramientas esenciales:

- SentenceTransformer: La clase principal que convierte texto en embeddings (vectores).

- cosine_similarity (de scikit-learn): Calcula qu√© tan parecidos son dos vectores.

- numpy: Ayuda a manipular arrays de n√∫meros (los embeddings).

In [7]:
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# Cargar modelo preentrenado (se descarga autom√°ticamente la primera vez)
# Peso del modelo: ~80MB
model = SentenceTransformer('all-MiniLM-L6-v2')

print("‚úÖ Modelo cargado exitosamente!")
print(f"üìä Dimensi√≥n de embeddings: {model.get_sentence_embedding_dimension()}")




‚úÖ Modelo cargado exitosamente!
üìä Dimensi√≥n de embeddings: 384


## Paso 3: Preparar Frases de Prueba

Se cargan en un array las frases a vectorizar.

In [14]:
frases = [
    "Docker container est√° lento",
    "Docker container se demora",
    "Mi loro pasa volando",
    "Mi gato duerme todo el d√≠a"
]

print("üìÑ Frases a vectorizar:")
for i, frase in enumerate(frases, 1):
    print(f"  {i}. {frase}")


üìÑ Frases a vectorizar:
  1. Docker container est√° lento
  2. Docker container se demora
  3. Mi loro pasa volando
  4. Mi gato duerme todo el d√≠a


## Paso 4: Generar Embeddings 
Usar√°s el m√©todo .encode() del modelo para convertir autom√°ticamente todas tus 4 frases en embeddings en una sola l√≠nea de c√≥digo. El modelo procesa cada frase internamente y genera un vector num√©rico para cada una.


In [16]:
print("\nüîÑ Generando embeddings...")
embeddings = model.encode(frases)

print(f"‚úÖ Embeddings generados!")
print(f"üìä Shape (forma): {embeddings.shape}")
print(f"   - {embeddings.shape[0]} frases")
print(f"   - {embeddings.shape[1]} dimensiones por frase")



üîÑ Generando embeddings...
‚úÖ Embeddings generados!
üìä Shape (forma): (4, 384)
   - 4 frases
   - 384 dimensiones por frase


## Paso 5: Comparar Embeddings Visualmente




In [12]:
print("üìä Comparaci√≥n r√°pida (primeros 4 n√∫meros):\n")

print("FRASE                              | Embedding (5 primeros n√∫meros)")
print("-" * 85)
for i, (frase, embedding) in enumerate(zip(frases, embeddings), 1):
    # Formatear para ver solo 3 decimales
    emb_str = " ".join([f"{x:6.3f}" for x in embedding[:5]])
    print(f"{i}. {frase:35} | [{emb_str}...]")


üìä Comparaci√≥n r√°pida (primeros 4 n√∫meros):

FRASE                              | Embedding (5 primeros n√∫meros)
-------------------------------------------------------------------------------------
1. Docker container est√° lento         | [ 0.038  0.048 -0.033 -0.043  0.041...]
2. Docker container no inicia          | [-0.000  0.063 -0.008 -0.029  0.012...]
3. Mi loro pasa volando                | [-0.046  0.048  0.019 -0.034 -0.099...]
4. Mi gato duerme todo el d√≠a          | [-0.091  0.075  0.028 -0.014 -0.020...]
