# 03_clip_embeddings.ipynb
## Pruebas de CLIP Embeddings y Espacio Vectorial Compartido

**CR√çTICO**: Valida que imagen y texto est√©n en el MISMO espacio vectorial

Esto es el CORAZ√ìN del "Enfoque 3: RAG Multimodal Verdadero" de Clase 17

In [None]:
import sys
from pathlib import Path
import numpy as np
import json

sys.path.insert(0, str(Path.cwd()))

from src.embeddings import CLIPEncoder
from src.utils.config import EXCEL_IMAGES_DIR, PDF_IMAGES_DIR
from src.utils.logger import get_logger

logger = get_logger(__name__)

## 1. Inicializar CLIP Encoder

In [None]:
print("Cargando modelo CLIP pre-entrenado...")
encoder = CLIPEncoder()
print("‚úÖ CLIP encoder listo")

# Informaci√≥n del modelo
print(f"\nInformaci√≥n del modelo:")
print(f"  - Modelo: openai/clip-vit-base-patch32")
print(f"  - Dimensionalidad: 512")
print(f"  - Pre-entrenado en: ~400M pares imagen-texto")

## 2. Codificar Imagen

In [None]:
# Obtener imagen de prueba
excel_images = list(EXCEL_IMAGES_DIR.glob("*.png"))

if excel_images:
    test_image = excel_images[0]
    print(f"Codificando imagen: {test_image.name}")
    
    # Encodear imagen
    image_embedding = encoder.encode_image(str(test_image))
    
    if image_embedding is not None:
        print(f"\n‚úÖ Embedding generado:")
        print(f"   - Dimensiones: {image_embedding.shape}")
        print(f"   - Tipo: {type(image_embedding)}")
        print(f"   - Primeros 5 valores: {image_embedding[:5]}")
        print(f"   - Norma (debe ser ~1.0): {np.linalg.norm(image_embedding):.4f}")
    else:
        print("‚ùå Error al codificar imagen")
else:
    print("‚ö†Ô∏è No hay im√°genes. Ejecuta notebook 01.")

## 3. Codificar Texto

In [None]:
# Textos de prueba
test_texts = [
    "¬øCu√°l es el total de la liquidaci√≥n?",
    "Liquidaci√≥n de sueldo y gratificaciones",
    "Tabla con montos y conceptos de pago",
    "Esto es un documento completamente diferente sobre gatos"
]

text_embeddings = {}

for text in test_texts:
    print(f"\nCodificando: '{text[:50]}...'")
    embedding = encoder.encode_text(text)
    
    if embedding is not None:
        text_embeddings[text] = embedding
        print(f"  ‚úÖ Dimensiones: {embedding.shape}")
        print(f"  ‚úÖ Norma: {np.linalg.norm(embedding):.4f}")

## 4. ‚≠ê VERIFICAR ESPACIO COMPARTIDO

In [None]:
# ESTO ES CR√çTICO: Verificar que imagen y texto pueden compararse

print("="*60)
print("VERIFICACI√ìN ESPACIO VECTORIAL COMPARTIDO")
print("="*60)

if 'image_embedding' in locals() and text_embeddings:
    # Verificar dimensiones
    img_dim = image_embedding.shape[0]
    text_dim = text_embeddings[test_texts[0]].shape[0]
    
    print(f"\n1. Dimensionalidad:")
    print(f"   Imagen: {img_dim}")
    print(f"   Texto: {text_dim}")
    print(f"   ¬øIguales? {'‚úÖ S√ç' if img_dim == text_dim else '‚ùå NO'}")
    
    # Calcular similitud coseno
    print(f"\n2. Similitud Coseno (Imagen vs Textos):")
    print(f"   {'Texto':<40} | {'Similitud':>10}")
    print(f"   {'-'*40}-{'-'*10}")
    
    for text, embedding in text_embeddings.items():
        similarity = np.dot(image_embedding, embedding)
        print(f"   {text[:39]:<40} | {similarity:>10.4f}")
    
    print(f"\n3. Interpretaci√≥n:")
    print(f"   - Valores cerca de 1.0 = SIMILARES")
    print(f"   - Valores cerca de 0.0 = DIFERENTES")
    print(f"   - Valores cerca de -1.0 = OPUESTOS")
    
    print(f"\n‚úÖ CONCLUSI√ìN: Imagen y texto est√°n en MISMO espacio\n")
else:
    print("‚ùå Faltan embeddings para comparaci√≥n")

print("="*60)

## 5. M√©todo oficial: verify_shared_space()

In [None]:
# Usar m√©todo oficial del encoder
if excel_images:
    test_image = excel_images[0]
    test_text = test_texts[0]
    
    print(f"Verificando espacio compartido...\n")
    verification = encoder.verify_shared_space(str(test_image), test_text)
    
    print(f"Resultado verificaci√≥n:")
    print(json.dumps(verification, indent=2))
    
    if verification.get('shared_space'):
        print(f"\n‚úÖ √âXITO: Espacio vectorial compartido verificado")

## 6. Batch Processing: M√∫ltiples Im√°genes

In [None]:
# Procesar m√∫ltiples im√°genes
all_images = list(EXCEL_IMAGES_DIR.glob("*.png")) + list(PDF_IMAGES_DIR.glob("*.png"))
image_paths = [str(img) for img in all_images[:5]]  # Primeras 5

if image_paths:
    print(f"Procesando {len(image_paths)} im√°genes en batch...\n")
    
    embeddings = encoder.batch_encode_images(image_paths)
    
    print(f"\nResultados:")
    print(f"  Im√°genes procesadas: {len(embeddings)}")
    
    for path, data in list(embeddings.items())[:3]:
        print(f"\n  - {Path(path).name}")
        print(f"    Dimensi√≥n: {np.array(data['embedding']).shape}")
        print(f"    Tipo: {data['type']}")

## 7. Batch Processing: M√∫ltiples Textos

In [None]:
# Procesar m√∫ltiples textos
test_docs = [
    "Liquidaci√≥n de abril de 2024 con bonificaci√≥n",
    "Pago de sueldo base y AFP",
    "Resumen de ingresos y descuentos",
    "Tabla de conceptos de pago con montos",
    "Documento de recursos humanos"
]

print(f"Procesando {len(test_docs)} textos en batch...\n")

text_embeddings_batch = encoder.batch_encode_texts(test_docs)

print(f"\nResultados:")
print(f"  Textos procesados: {len(text_embeddings_batch)}")

for key, data in list(text_embeddings_batch.items())[:3]:
    print(f"\n  - {key}")
    print(f"    Contenido: {data['content']}")
    print(f"    Dimensi√≥n: {np.array(data['embedding']).shape}")

## 8. Visualizaci√≥n: t-SNE del Espacio Vectorial

In [None]:
# Visualizar el espacio vectorial con t-SNE
from sklearn.manifold import TSNE
import matplotlib.pyplot as plt

if embeddings and text_embeddings_batch:
    print("Reduciendo dimensionalidad con t-SNE...")
    
    # Recolectar todos los embeddings
    all_embeddings = []
    labels = []
    colors_list = []
    
    # Im√°genes
    for path, data in list(embeddings.items())[:3]:
        all_embeddings.append(data['embedding'])
        labels.append(Path(path).name[:20])
        colors_list.append('red')
    
    # Textos
    for key, data in list(text_embeddings_batch.items())[:3]:
        all_embeddings.append(data['embedding'])
        labels.append(f"Text: {data['content'][:15]}")
        colors_list.append('blue')
    
    # Aplicar t-SNE
    embeddings_array = np.array(all_embeddings)
    tsne = TSNE(n_components=2, random_state=42, perplexity=min(5, len(all_embeddings)-1))
    embeddings_2d = tsne.fit_transform(embeddings_array)
    
    # Plotear
    plt.figure(figsize=(12, 8))
    
    for i, (x, y) in enumerate(embeddings_2d):
        plt.scatter(x, y, s=200, c=colors_list[i], alpha=0.7, edgecolors='black')
        plt.annotate(labels[i], (x, y), fontsize=8, ha='center')
    
    plt.title('Espacio Vectorial CLIP (t-SNE)\nRojo: Im√°genes | Azul: Textos', fontsize=14)
    plt.xlabel('Dimensi√≥n 1 (t-SNE)')
    plt.ylabel('Dimensi√≥n 2 (t-SNE)')
    plt.grid(True, alpha=0.3)
    
    plt.savefig('clip_embeddings_tsne.png', dpi=150, bbox_inches='tight')
    plt.show()
    
    print("‚úÖ Visualizaci√≥n guardada: clip_embeddings_tsne.png")
else:
    print("‚ùå No hay suficientes embeddings para visualizar")

## 9. Matriz de Similitud

In [None]:
# Crear matriz de similitud imagen-texto
import seaborn as sns

if embeddings and text_embeddings_batch:
    print("Calculando matriz de similitud...\n")
    
    image_embs = [data['embedding'] for data in list(embeddings.values())[:3]]
    text_embs = [data['embedding'] for data in list(text_embeddings_batch.values())[:3]]
    image_labels = [Path(path).name[:15] for path in list(embeddings.keys())[:3]]
    text_labels = [data['content'][:15] for data in list(text_embeddings_batch.values())[:3]]
    
    # Calcular similitudes
    similarity_matrix = np.zeros((len(image_embs), len(text_embs)))
    
    for i, img_emb in enumerate(image_embs):
        for j, text_emb in enumerate(text_embs):
            similarity = np.dot(img_emb, text_emb)
            similarity_matrix[i, j] = similarity
    
    # Plotear
    plt.figure(figsize=(10, 6))
    sns.heatmap(similarity_matrix, annot=True, fmt='.3f', 
                xticklabels=text_labels, yticklabels=image_labels,
                cmap='RdYlGn', center=0, vmin=-1, vmax=1)
    plt.title('Matriz de Similitud: Im√°genes vs Textos\n(Espacio Compartido CLIP)')
    plt.tight_layout()
    
    plt.savefig('clip_similarity_matrix.png', dpi=150, bbox_inches='tight')
    plt.show()
    
    print("‚úÖ Matriz guardada: clip_similarity_matrix.png")

## 10. Guardar Embeddings para Indexaci√≥n

In [None]:
# Guardar embeddings en formato JSON
from src.embeddings import save_embeddings

if embeddings:
    print("Guardando embeddings de im√°genes...")
    success = save_embeddings(embeddings, 'image_embeddings_test.json')
    if success:
        print("‚úÖ Embeddings guardados")

if text_embeddings_batch:
    print("\nGuardando embeddings de textos...")
    success = save_embeddings(text_embeddings_batch, 'text_embeddings_test.json')
    if success:
        print("‚úÖ Embeddings guardados")

## 11. Resumen y Conceptos

In [None]:
print("="*70)
print("RESUMEN: CLIP EMBEDDINGS & ESPACIO MULTIMODAL")
print("="*70)

print(f"\n‚úÖ LOGROS:")
print(f"   1. Cargar modelo CLIP pre-entrenado")
print(f"   2. Codificar im√°genes ‚Üí 512 dimensiones")
print(f"   3. Codificar textos ‚Üí 512 dimensiones (MISMO espacio)")
print(f"   4. Calcular similitud entre imagen ‚Üî texto")
print(f"   5. Visualizar con t-SNE")
print(f"   6. Crear matriz de similitud")
print(f"   7. Guardar embeddings en JSON")

print(f"\nüìö CONCEPTOS CLASE 17:")
print(f"   ‚úÖ Multimodalidad: Imagen + Texto en mismo espacio")
print(f"   ‚úÖ CLIP: Modelo pre-entrenado OpenAI")
print(f"   ‚úÖ Espacio Compartido: 512 dimensiones para ambos tipos")
print(f"   ‚úÖ Similitud Coseno: Comparar imagen ‚Üî texto")
print(f"   ‚úÖ RAG Multimodal: Base para retrieval")

print(f"\nüöÄ PR√ìXIMO PASO:")
print(f"   ‚Üí Notebook 04: Agent Prototype (LangGraph + ChromaDB)")
print("="*70)