## 1. Importaciones y Configuraci√≥n

Importamos las clases necesarias para trabajar con contenido multimodal:
- **ChatMessage**: Contenedor de mensajes
- **TextContent**: Para texto
- **DataContent**: Para datos binarios (im√°genes)
- **Role**: Roles de los participantes (USER, ASSISTANT)
- **Path**: Para manejo de rutas de archivos

In [None]:
import asyncio
from agent_framework import ChatMessage, TextContent, DataContent, Role
from agent_framework.azure import AzureOpenAIChatClient
from azure.identity import AzureCliCredential
from pathlib import Path
from dotenv import load_dotenv
import os

load_dotenv()

print("‚úÖ Importaciones completadas")

## 2. Creaci√≥n del Agente de Visi√≥n

### Configuraci√≥n del Agente:

El agente de visi√≥n requiere:
- **Modelo compatible**: GPT-4 Vision (gpt-4o, gpt-4-vision, etc.)
- **Instructions**: Gu√≠a sobre c√≥mo analizar im√°genes
- **Credential**: Autenticaci√≥n con Azure

### Importante:
- Aseg√∫rate de que tu deployment en Azure OpenAI sea de un modelo con capacidades de visi√≥n
- Los modelos GPT-3.5 no soportan an√°lisis de im√°genes
- GPT-4o y GPT-4 Vision son las opciones recomendadas

In [None]:
agent = AzureOpenAIChatClient(
    credential=AzureCliCredential(),
    endpoint=os.getenv("AZURE_OPENAI_ENDPOINT"),
    deployment_name=os.getenv("MODEL"),  # Debe ser un modelo con capacidades de visi√≥n
).create_agent(
    name="VisionAgent",
    instructions="Eres un agente √∫til que puede analizar im√°genes con gran detalle.",
)

print("‚úÖ Agente de visi√≥n creado")
print(f"ü§ñ Modelo: {os.getenv('MODEL')}")
print("üëÅÔ∏è  Capacidad: An√°lisis de im√°genes y texto")

## 3. Carga de Imagen desde Archivo Local

### Proceso de Carga:

1. **Ubicar la imagen**: Usar Path para construir la ruta de forma portable
2. **Leer como binario**: Abrir en modo 'rb' (read binary)
3. **Almacenar bytes**: Los datos binarios se pasan al agente

### Formatos Soportados:
- JPEG (.jpg, .jpeg)
- PNG (.png)
- GIF (.gif)
- WebP (.webp)

### Consideraciones:
- Tama√±o m√°ximo: T√≠picamente 20MB
- Resoluci√≥n: Mayor calidad = mejor an√°lisis (pero m√°s tokens)
- Costo: Im√°genes de alta resoluci√≥n consumen m√°s tokens

In [None]:
# Construir la ruta al archivo de imagen
script_dir = Path(".")  # Directorio actual (notebook)
img_path = script_dir / "images" / "Goku.jpg"

print(f"üìÇ Buscando imagen en: {img_path}")

# Verificar si el archivo existe
if img_path.exists():
    print(f"‚úÖ Imagen encontrada")
    
    # Leer la imagen como bytes
    with open(img_path, "rb") as f:
        image_bytes = f.read()
    
    # Mostrar informaci√≥n sobre la imagen
    print(f"üìä Tama√±o del archivo: {len(image_bytes) / 1024:.2f} KB")
else:
    print("‚ùå Imagen no encontrada. Aseg√∫rate de que el archivo existe.")
    print(f"   Ruta esperada: {img_path.absolute()}")

## 4. Construcci√≥n del Mensaje Multimodal

### Estructura del Mensaje:

Un `ChatMessage` multimodal contiene:
- **role**: Qui√©n env√≠a el mensaje (USER, ASSISTANT, SYSTEM)
- **contents**: Lista de contenidos de diferentes tipos

### Tipos de Contenido:

1. **TextContent**: 
   - Contiene la pregunta o instrucci√≥n
   - Se especifica con `text=...`

2. **DataContent**: 
   - Contiene los datos binarios de la imagen
   - Requiere `data=...` (bytes)
   - Requiere `media_type=...` (ej: "image/jpeg", "image/png")

### Media Types Comunes:
- `image/jpeg` - Para archivos .jpg o .jpeg
- `image/png` - Para archivos .png
- `image/gif` - Para archivos .gif
- `image/webp` - Para archivos .webp

### Orden de Contenidos:
El orden puede ser importante:
- Texto primero + Imagen: "Analiza esta imagen..."
- Imagen primero + Texto: "[Imagen] ¬øQu√© ves aqu√≠?"

Ambos funcionan, pero el primero suele ser m√°s natural.

In [None]:
# Construir mensaje con texto e imagen
message = ChatMessage(
    role=Role.USER,
    contents=[
        TextContent(text="¬øQu√© ves en esta imagen? Describe detalladamente."),
        DataContent(
            data=image_bytes,
            media_type="image/jpeg"  # Especificar el tipo MIME correcto
        )
    ]
)

print("‚úÖ Mensaje multimodal construido")
print(f"üìù Componentes del mensaje:")
print(f"   - Texto: '{message.contents[0].text}'")
print(f"   - Imagen: {len(image_bytes)} bytes, tipo: {message.contents[1].media_type}")

## 5. Env√≠o del Mensaje y Obtenci√≥n de Respuesta

### Proceso de An√°lisis:

1. El agente recibe el mensaje multimodal
2. El modelo procesa la imagen y el texto
3. Genera una descripci√≥n basada en la comprensi√≥n visual
4. Retorna la respuesta en formato de texto

### Tiempos de Respuesta:
- Im√°genes peque√±as: 2-5 segundos
- Im√°genes grandes: 5-15 segundos
- Depende de la complejidad de la consulta

### Calidad del An√°lisis:
- El modelo puede identificar objetos, personas, escenas
- Reconoce texto visible en la imagen (OCR b√°sico)
- Detecta colores, emociones, composici√≥n
- Puede hacer inferencias sobre contexto

In [None]:
# Enviar mensaje al agente y obtener respuesta
print("üöÄ Enviando imagen al agente para an√°lisis...\n")

response = asyncio.run(agent.run(message))

print("üí¨ Respuesta del agente:")
print("=" * 80)
print(response.text)
print("=" * 80)

## 6. Consultas Adicionales sobre la Misma Imagen

Podemos hacer m√∫ltiples preguntas sobre la misma imagen:

In [None]:
# Pregunta espec√≠fica sobre colores
async def ask_about_colors():
    message = ChatMessage(
        role=Role.USER,
        contents=[
            TextContent(text="¬øQu√© colores predominan en la imagen?"),
            DataContent(data=image_bytes, media_type="image/jpeg")
        ]
    )
    response = await agent.run(message)
    print("üé® An√°lisis de colores:")
    print(response.text)
    print()

await ask_about_colors()

In [None]:
# Pregunta sobre el estado emocional
async def ask_about_emotion():
    message = ChatMessage(
        role=Role.USER,
        contents=[
            TextContent(text="¬øQu√© emociones o energ√≠a transmite el personaje?"),
            DataContent(data=image_bytes, media_type="image/jpeg")
        ]
    )
    response = await agent.run(message)
    print("üòä An√°lisis emocional:")
    print(response.text)
    print()

await ask_about_emotion()

In [None]:
# Identificaci√≥n de contexto
async def ask_about_context():
    message = ChatMessage(
        role=Role.USER,
        contents=[
            TextContent(text="¬øReconoces a este personaje? ¬øDe qu√© anime o manga es?"),
            DataContent(data=image_bytes, media_type="image/jpeg")
        ]
    )
    response = await agent.run(message)
    print("üé≠ Identificaci√≥n de personaje:")
    print(response.text)
    print()

await ask_about_context()

## 7. An√°lisis de M√∫ltiples Im√°genes

Tambi√©n podemos analizar m√∫ltiples im√°genes en un solo mensaje para comparaci√≥n:

In [None]:
# Funci√≥n auxiliar para analizar m√∫ltiples im√°genes
async def compare_images(img_paths, question):
    """
    Analiza m√∫ltiples im√°genes y responde una pregunta sobre ellas.
    
    Args:
        img_paths: Lista de rutas a las im√°genes
        question: Pregunta sobre las im√°genes
    """
    contents = [TextContent(text=question)]
    
    # Cargar cada imagen y agregarla al mensaje
    for img_path in img_paths:
        if Path(img_path).exists():
            with open(img_path, "rb") as f:
                img_bytes = f.read()
            
            # Detectar tipo MIME basado en extensi√≥n
            ext = Path(img_path).suffix.lower()
            media_type = {
                '.jpg': 'image/jpeg',
                '.jpeg': 'image/jpeg',
                '.png': 'image/png',
                '.gif': 'image/gif',
                '.webp': 'image/webp'
            }.get(ext, 'image/jpeg')
            
            contents.append(DataContent(data=img_bytes, media_type=media_type))
    
    message = ChatMessage(role=Role.USER, contents=contents)
    response = await agent.run(message)
    return response.text

print("‚úÖ Funci√≥n de comparaci√≥n de im√°genes definida")
print("üí° Uso: await compare_images(['img1.jpg', 'img2.jpg'], '¬øEn qu√© se parecen?')")

## 8. Casos de Uso Avanzados

### OCR (Reconocimiento de Texto)
Extraer texto visible en im√°genes:

In [None]:
async def extract_text_from_image(img_path):
    """
    Extrae texto de una imagen usando el agente de visi√≥n.
    √ötil para documentos, capturas de pantalla, letreros, etc.
    """
    with open(img_path, "rb") as f:
        img_bytes = f.read()
    
    message = ChatMessage(
        role=Role.USER,
        contents=[
            TextContent(text="Extrae todo el texto visible en esta imagen. Mant√©n el formato original."),
            DataContent(data=img_bytes, media_type="image/jpeg")
        ]
    )
    
    response = await agent.run(message)
    return response.text

print("‚úÖ Funci√≥n de OCR definida")

### An√°lisis de Documentos
Interpretar gr√°ficos, diagramas o tablas:

In [None]:
async def analyze_chart(img_path):
    """
    Analiza gr√°ficos, diagramas o visualizaciones de datos.
    El agente puede interpretar tendencias, valores y patrones.
    """
    with open(img_path, "rb") as f:
        img_bytes = f.read()
    
    message = ChatMessage(
        role=Role.USER,
        contents=[
            TextContent(text="Analiza este gr√°fico. Describe qu√© datos muestra, tendencias principales y conclusiones."),
            DataContent(data=img_bytes, media_type="image/png")
        ]
    )
    
    response = await agent.run(message)
    return response.text

print("‚úÖ Funci√≥n de an√°lisis de gr√°ficos definida")

## 9. Mejores Pr√°cticas y Optimizaci√≥n

### Tips para Mejores Resultados:

1. **Calidad de Imagen**:
   - Usa im√°genes claras y bien iluminadas
   - Evita im√°genes borrosas o de muy baja resoluci√≥n
   - Formato JPEG o PNG son ideales

2. **Tama√±o de Imagen**:
   - Recomendado: 512x512 a 2048x2048 p√≠xeles
   - Im√°genes m√°s grandes = m√°s tokens = mayor costo
   - El modelo redimensiona autom√°ticamente si es necesario

3. **Preguntas Espec√≠ficas**:
   - S√© espec√≠fico en lo que quieres saber
   - "Describe los colores" vs "¬øQu√© ves?"
   - Preguntas claras = respuestas m√°s precisas

4. **Manejo de Errores**:
   ```python
   try:
       response = await agent.run(message)
   except Exception as e:
       print(f"Error al analizar imagen: {e}")
   ```

5. **Cach√© de Resultados**:
   - Guarda respuestas para evitar re-an√°lisis
   - Usa hash de imagen como clave
   - Ahorra costos y tiempo

### Limitaciones a Considerar:

1. **Contenido Sensible**:
   - El modelo puede rechazar analizar contenido inapropiado
   - Tiene filtros de seguridad integrados

2. **Precisi√≥n**:
   - No es perfecto para OCR de documentos complejos
   - Puede tener alucinaciones (inventar detalles)
   - Verifica informaci√≥n cr√≠tica

3. **Idioma**:
   - Funciona mejor en ingl√©s
   - Espa√±ol funciona bien pero puede variar
   - Puedes especificar idioma de respuesta en instrucciones

4. **Costos**:
   - Im√°genes consumen significativamente m√°s tokens que texto
   - Alta resoluci√≥n = m√°s tokens
   - Monitorea uso para controlar costos

## 10. An√°lisis y Conclusiones

### Capacidades Demostradas:

1. **An√°lisis Visual Completo**:
   - Identificaci√≥n de objetos y escenas
   - Descripci√≥n detallada de im√°genes
   - Reconocimiento de contexto

2. **Multimodalidad**:
   - Combinar texto e im√°genes en mensajes
   - Responder preguntas sobre contenido visual
   - An√°lisis comparativo de m√∫ltiples im√°genes

3. **Flexibilidad**:
   - Diferentes tipos de consultas
   - M√∫ltiples formatos de imagen
   - An√°lisis en varios idiomas

### Casos de Uso Pr√°cticos:

1. **E-commerce**:
   - Descripci√≥n autom√°tica de productos
   - Categorizaci√≥n de im√°genes
   - B√∫squeda visual

2. **Moderaci√≥n de Contenido**:
   - Detecci√≥n de contenido inapropiado
   - Clasificaci√≥n autom√°tica
   - An√°lisis de cumplimiento

3. **Accesibilidad**:
   - Generaci√≥n de alt-text para im√°genes
   - Descripci√≥n de gr√°ficos para usuarios con discapacidad visual
   - Transcripci√≥n de texto en im√°genes

4. **Educaci√≥n**:
   - An√°lisis de diagramas y esquemas
   - Explicaci√≥n de conceptos visuales
   - Ayuda con tareas que incluyen im√°genes

5. **Medicina**:
   - An√°lisis preliminar de im√°genes m√©dicas (con disclaimers)
   - Documentaci√≥n de casos
   - Asistencia en diagn√≥stico (supervisado)

6. **Real Estate**:
   - Descripci√≥n autom√°tica de propiedades
   - An√°lisis de caracter√≠sticas
   - Generaci√≥n de listados

7. **Control de Calidad**:
   - Inspecci√≥n visual automatizada
   - Detecci√≥n de defectos
   - Verificaci√≥n de conformidad

### Arquitectura para Producci√≥n:

```python
class ProductionVisionService:
    def __init__(self):
        self.agent = create_vision_agent()
        self.cache = ImageAnalysisCache()
        self.rate_limiter = RateLimiter(max_per_minute=60)
    
    async def analyze_image(self, img_bytes, question):
        # Check cache
        cache_key = hash_image(img_bytes)
        if cached := self.cache.get(cache_key, question):
            return cached
        
        # Rate limiting
        await self.rate_limiter.acquire()
        
        # Analyze
        result = await self.agent.run(build_message(img_bytes, question))
        
        # Cache result
        self.cache.set(cache_key, question, result)
        
        return result
```

### Integraci√≥n con Otros Sistemas:

1. **Pipelines de Datos**:
   - Procesamiento batch de im√°genes
   - ETL con enriquecimiento visual
   - Generaci√≥n de metadatos

2. **APIs REST**:
   ```python
   @app.post("/analyze-image")
   async def analyze_endpoint(file: UploadFile, question: str):
       img_bytes = await file.read()
       result = await vision_service.analyze_image(img_bytes, question)
       return {"analysis": result}
   ```

3. **Eventos y Queues**:
   - Procesamiento as√≠ncrono con Azure Service Bus
   - Workflows con Azure Logic Apps
   - Event-driven architecture

### Futuro de Vision AI:

- **Mayor precisi√≥n**: Modelos cada vez mejores
- **Menor latencia**: Procesamiento m√°s r√°pido
- **Menor costo**: Optimizaci√≥n de recursos
- **M√°s modalidades**: Video, audio, 3D
- **Mejor razonamiento**: Comprensi√≥n contextual profunda