# 🖼️ Módulo 6: Agentes Multimodal no Agno 2.0
## Processamento de Imagens, Visão e Mídia Multimodal

![](https://s3.us-east-1.amazonaws.com/turing.education/books/imagens/agno-2.0-framework--modulo-06_img_01.png)

**Bora mergulhar no mundo multimodal! 🚀**

Tá, mas o que é isso de "multimodal"? Imagina que até agora nossos agentes eram como uma pessoa que só consegue ler textos. Agora vamos dar "olhos" para eles verem imagens, "ouvidos" para escutar áudios e até capacidade de processar vídeos!

Nos módulos anteriores aprendemos:
- **Módulo 1-2**: Agentes básicos (só texto)
- **Módulo 3**: Tools externas 
- **Módulo 4**: Conhecimento com RAG
- **Módulo 5**: Memória e persistência

Agora vamos **revolucionar** nossos agentes dando a eles superpoderes visuais e auditivos! 🦸‍♂️

## 🎯 O que é um Agente Multimodal?

Um **agente multimodal** é como um ser humano completo que consegue:

- 👁️ **Ver imagens** (análise visual)
- 👂 **Ouvir áudios** (transcrição e análise)
- 🎬 **Assistir vídeos** (processamento temporal)
- 📄 **Ler documentos** (PDFs, textos)
- 🧠 **Combinar tudo** para tomar decisões

**Analogia do cotidiano:** É como quando você está no WhatsApp e alguém manda uma foto de um prato de comida, um áudio falando "que delícia" e você precisa entender TODO o contexto para responder adequadamente.

### Tipos de Mídia no Agno 2.0:

1. **Images** - Fotos, gráficos, diagramas
2. **Audio** - Gravações, música, podcasts  
3. **Video** - Filmes, tutoriais, lives
4. **Files** - PDFs, documentos, planilhas

**Dica!** O Agno 2.0 unificou todas essas mídias em classes padronizadas que facilitam MUITO nossa vida! 🎉

In [None]:
# Instalação dos pacotes necessários
!pip install agno google-generativeai pillow requests matplotlib -q

print("📦 Pacotes instalados com sucesso!")
print("🚀 Bora começar com agentes multimodal!")

In [None]:
# Configuração inicial - COLOQUE SUA GOOGLE API KEY AQUI!
import os
from getpass import getpass

# Cole sua API key do Google AI Studio aqui
print("🔑 Precisamos da sua Google API Key (gratuita!)")
print("📝 Pegue em: https://aistudio.google.com/app/apikey")

api_key = getpass("Cole sua Google API Key: ")
os.environ["GOOGLE_API_KEY"] = api_key

print("✅ API Key configurada!")
print("🎯 Agora vamos criar nosso primeiro agente multimodal!")

## 📸 Trabalhando com Imagens no Agno

Vamos começar com o básico: **processamento de imagens**. No Agno 2.0, a classe `Image` foi completamente reformulada para ser mais simples e poderosa!

### Principais mudanças no Agno 2.0:

- ✅ **Classe `Image` unificada** (substitui `ImageArtifact`)
- ✅ **Armazenamento em bytes** (mais eficiente)
- ✅ **Métodos padronizados** (`from_base64()`, `to_base64()`, etc)
- ✅ **IDs automáticos** (UUID gerado automaticamente)
- ✅ **Validação automática** (só uma fonte de conteúdo)

**Analogia:** É como se antes você tinha 3 tipos diferentes de porta-retratos, agora tem um só que serve para tudo! 🖼️

In [None]:
from agno.agent import Agent
from agno.models.google import Gemini
from agno.media import Image
import requests
from PIL import Image as PILImage
import io
import base64

# Criando nosso agente multimodal
agente_visual = Agent(
    name="Agente Analisador Visual",
    model=Gemini(id="gemini-2.0-flash-exp"),  # Modelo gratuito do Google!
    description="Sou especialista em analisar imagens e extrair informações detalhadas",
    instructions=[
        "Analise imagens de forma detalhada e didática",
        "Identifique objetos, pessoas, cenários e contextos",
        "Seja específico e use linguagem brasileira"
    ],
    markdown=True
)

print("🤖 Agente Visual criado com sucesso!")
print(f"📋 Nome: {agente_visual.name}")
print(f"🧠 Modelo: {agente_visual.model.id}")

In [None]:
# Vamos criar uma imagem de exemplo simples
import matplotlib.pyplot as plt
import numpy as np

# Criando um gráfico simples para testar
fig, ax = plt.subplots(figsize=(10, 6))

# Dados de exemplo - vendas mensais
meses = ['Jan', 'Fev', 'Mar', 'Abr', 'Mai', 'Jun']
vendas = [1200, 1400, 1100, 1600, 1800, 2000]

bars = ax.bar(meses, vendas, color=['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4', '#FFEAA7', '#DDA0DD'])
ax.set_title('📈 Vendas por Mês - Loja Virtual', fontsize=16, fontweight='bold')
ax.set_ylabel('Vendas (R$)', fontsize=12)
ax.set_xlabel('Meses', fontsize=12)

# Adicionando valores em cima das barras
for bar, valor in zip(bars, vendas):
    ax.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 20, 
            f'R$ {valor}', ha='center', va='bottom', fontweight='bold')

plt.tight_layout()
plt.grid(axis='y', alpha=0.3)

# Salvando a imagem em buffer
buffer = io.BytesIO()
plt.savefig(buffer, format='png', dpi=150, bbox_inches='tight')
buffer.seek(0)
image_bytes = buffer.getvalue()
buffer.close()

plt.show()

print("📊 Gráfico criado com sucesso!")
print(f"📏 Tamanho da imagem: {len(image_bytes)} bytes")

In [None]:
# Agora vamos criar um objeto Image do Agno
from agno.media import Image

# Criando o objeto Image com os bytes da imagem
imagem_grafico = Image(
    content=image_bytes,  # Os bytes da imagem
    name="grafico_vendas.png",
    caption="Gráfico de vendas mensais"
)

print("🖼️ Objeto Image criado!")
print(f"🆔 ID: {imagem_grafico.id}")
print(f"📝 Nome: {imagem_grafico.name}")
print(f"💬 Caption: {imagem_grafico.caption}")
print(f"📏 Tamanho: {len(imagem_grafico.content)} bytes")

# Testando métodos úteis
print(f"\n🔍 Métodos disponíveis:")
print(f"📤 to_base64(): Converte para base64")
print(f"📥 from_base64(): Cria Image de base64")
print(f"📊 to_dict(): Converte para dicionário")
print(f"🎯 get_content_bytes(): Pega bytes do conteúdo")

In [None]:
# Agora vamos pedir para o agente analisar a imagem!
print("🔍 Enviando imagem para análise...")
print("⏳ Aguarde, o agente está processando...\n")

# Fazendo a análise da imagem
resposta = agente_visual.run(
    input="Analise este gráfico detalhadamente. O que você consegue extrair de informações?",
    images=[imagem_grafico]  # Passando a imagem para o agente
)

print("🤖 ANÁLISE DO AGENTE:")
print("=" * 50)
print(resposta.content)
print("=" * 50)

print(f"\n📊 Métricas da análise:")
print(f"🔤 Tokens de entrada: {resposta.metrics.input_tokens}")
print(f"🔤 Tokens de saída: {resposta.metrics.output_tokens}")
print(f"⏱️ Tempo de processamento: {resposta.metrics.duration:.2f}s")

## 🎵 Trabalhando com Áudio

Agora bora para o **áudio**! O Agno 2.0 também reformulou completamente como trabalhamos com arquivos de som.

### Nova Classe Audio:

- ✅ **Substitui** `AudioArtifact` e `AudioResponse`
- ✅ **Campos extras:** `transcript`, `sample_rate`, `channels`
- ✅ **Suporte completo** a diferentes formatos
- ✅ **Integração nativa** com modelos multimodais

**Analogia:** É como ter um gravador profissional que não só grava, mas já vem com transcrição automática! 🎤

**Dica!** Vamos simular um áudio usando texto-para-fala conceitual, já que não temos acesso direto a APIs de áudio.

In [None]:
from agno.media import Audio
import json

# Vamos simular um objeto Audio com dados conceituais
# Em um cenário real, você teria bytes de áudio de verdade

# Simulando metadados de um áudio
audio_simulado = Audio(
    name="reuniao_vendas.mp3",
    caption="Gravação da reunião de vendas do trimestre",
    transcript="Olá pessoal, vamos analisar os resultados do trimestre. As vendas de janeiro foram de 1200 reais, fevereiro 1400, março 1100, abril 1600, maio 1800 e junho 2000. Houve um crescimento significativo no final do período.",
    sample_rate=44100,
    channels=2,
    # Para demonstração, vamos usar dados simulados
    content=b"audio_data_simulado"  
)

print("🎵 Objeto Audio criado!")
print(f"🆔 ID: {audio_simulado.id}")
print(f"📝 Nome: {audio_simulado.name}")
print(f"📝 Caption: {audio_simulado.caption}")
print(f"🎙️ Sample Rate: {audio_simulado.sample_rate} Hz")
print(f"🔊 Canais: {audio_simulado.channels}")
print(f"📜 Transcrição: {audio_simulado.transcript[:100]}...")

print("\n✨ Propriedades especiais do Audio:")
print("🎯 transcript: Transcrição automática do áudio")
print("🎛️ sample_rate: Taxa de amostragem (qualidade)")
print("🔊 channels: Número de canais (mono/stereo)")
print("⏰ expires_at: Data de expiração (opcional)")

In [None]:
# Criando um agente especializado em análise de áudio/transcrições
agente_audio = Agent(
    name="Agente Analisador de Áudio",
    model=Gemini(id="gemini-2.0-flash-exp"),
    description="Especialista em analisar transcrições de áudio e extrair insights",
    instructions=[
        "Analise transcrições de áudio para extrair informações importantes",
        "Identifique pontos-chave, tendências e insights",
        "Seja objetivo e destacue os dados mais relevantes",
        "Use linguagem brasileira e seja didático"
    ],
    markdown=True
)

print("🎤 Agente de Áudio criado!")
print("🚀 Vamos analisar a transcrição...")

In [None]:
# Analisando a transcrição do áudio
print("🎧 Enviando transcrição para análise...")
print("⏳ Processando áudio...\n")

prompt_audio = f"""
Analise esta transcrição de uma reunião de vendas:

**Transcrição:** {audio_simulado.transcript}

**Metadados do áudio:**
- Arquivo: {audio_simulado.name}
- Qualidade: {audio_simulado.sample_rate} Hz, {audio_simulado.channels} canais
- Contexto: {audio_simulado.caption}

Extraia insights, tendências e pontos importantes!
"""

resposta_audio = agente_audio.run(input=prompt_audio)

print("🎤 ANÁLISE DA TRANSCRIÇÃO:")
print("=" * 50)
print(resposta_audio.content)
print("=" * 50)

print(f"\n📊 Métricas da análise:")
print(f"⏱️ Tempo: {resposta_audio.metrics.duration:.2f}s")
print(f"🔤 Tokens: {resposta_audio.metrics.input_tokens} → {resposta_audio.metrics.output_tokens}")

## 🎬 Processamento de Vídeo

Bora para o próximo nível: **vídeos**! O Agno 2.0 também tem suporte completo para processamento de vídeo.

### Classe Video Unificada:

- ✅ **Processamento temporal** (frames ao longo do tempo)
- ✅ **Metadados completos** (duração, fps, resolução)
- ✅ **Análise de conteúdo** visual e contextual
- ✅ **Integração perfeita** com modelos multimodais

**Analogia:** É como ter um assistente que não só assiste ao filme com você, mas consegue pausar, voltar e analisar cada cena! 🎥

**Dica!** Vídeos são processados como sequências de frames, então modelos conseguem "ver" a progressão temporal!

In [None]:
from agno.media import Video
import datetime

# Simulando um objeto Video (em cenário real teria bytes de vídeo)
video_exemplo = Video(
    name="apresentacao_resultados.mp4",
    caption="Vídeo da apresentação dos resultados trimestrais",
    # Em um caso real, aqui estariam os bytes do vídeo
    content=b"video_data_simulado",
    # Metadados úteis para análise
    duration=180,  # 3 minutos
    fps=30,
    resolution="1920x1080"
)

print("🎬 Objeto Video criado!")
print(f"🆔 ID: {video_exemplo.id}")
print(f"📝 Nome: {video_exemplo.name}")
print(f"📝 Descrição: {video_exemplo.caption}")
print(f"⏱️ Duração: {video_exemplo.duration} segundos")
print(f"🎞️ FPS: {video_exemplo.fps}")
print(f"📺 Resolução: {video_exemplo.resolution}")

# Vamos simular alguns "frames" conceituais do vídeo
frames_simulados = [
    "Frame 0:00 - Slide de abertura: 'Resultados Q2 2024'",
    "Frame 0:30 - Gráfico de barras mostrando vendas mensais",
    "Frame 1:00 - Apresentador explicando crescimento",
    "Frame 1:30 - Slide com metas para próximo trimestre",
    "Frame 2:00 - Gráfico de pizza com distribuição por produto",
    "Frame 2:30 - Slide de conclusão e perguntas"
]

print("\n🎞️ Frames simulados do vídeo:")
for i, frame in enumerate(frames_simulados):
    print(f"  {i+1}. {frame}")

In [None]:
# Criando agente especializado em análise de vídeo
agente_video = Agent(
    name="Agente Analisador de Vídeo",
    model=Gemini(id="gemini-2.0-flash-exp"),
    description="Especialista em analisar conteúdo de vídeos e extrair informações temporais",
    instructions=[
        "Analise vídeos considerando a progressão temporal do conteúdo",
        "Identifique momentos-chave, transições e narrativa",
        "Correlacione informações visuais com contexto temporal",
        "Seja detalhado sobre a estrutura do vídeo"
    ],
    markdown=True
)

# Preparando descrição detalhada do vídeo
descricao_video = f"""
**Análise de Vídeo de Apresentação**

**Metadados:**
- Nome: {video_exemplo.name}
- Duração: {video_exemplo.duration} segundos ({video_exemplo.duration//60}:{video_exemplo.duration%60:02d})
- Qualidade: {video_exemplo.resolution} @ {video_exemplo.fps} FPS
- Contexto: {video_exemplo.caption}

**Sequência Temporal dos Frames:**
"""

for frame in frames_simulados:
    descricao_video += f"\n- {frame}"

descricao_video += """

Analise a estrutura narrativa, progressão do conteúdo e insights que podem ser extraídos desta apresentação!
"""

print("🎥 Enviando vídeo para análise...")
print("⏳ Analisando sequência temporal...\n")

resposta_video = agente_video.run(input=descricao_video)

print("🎬 ANÁLISE DO VÍDEO:")
print("=" * 50)
print(resposta_video.content)
print("=" * 50)

## 📄 Trabalhando com Arquivos (Files)

Agora vamos para **arquivos**! PDFs, documentos, planilhas - tudo que não é mídia audiovisual.

### Classe File Aprimorada:

- ✅ **Suporte amplo** a formatos (PDF, DOCX, XLSX, etc)
- ✅ **Extração automática** de conteúdo
- ✅ **Metadados inteligentes** (tipo, tamanho, páginas)
- ✅ **Integração com Knowledge** (do Módulo 4!)

**Analogia:** É como ter um assistente que não só lê documentos, mas consegue "digerir" e processar qualquer tipo de arquivo! 📋

**Conexão com módulos anteriores:** Lembra do RAG no Módulo 4? Files se integram perfeitamente com Knowledge Bases!

In [None]:
from agno.media import File
import json

# Vamos simular um arquivo CSV com dados de vendas
conteudo_csv = """mes,vendas,regiao,produto
Janeiro,1200,Sudeste,Produto A
Janeiro,800,Sul,Produto B
Fevereiro,1400,Sudeste,Produto A
Fevereiro,900,Sul,Produto B
Marco,1100,Sudeste,Produto A
Marco,750,Sul,Produto B
Abril,1600,Sudeste,Produto A
Abril,1050,Sul,Produto B
Maio,1800,Sudeste,Produto A
Maio,1200,Sul,Produto B
Junho,2000,Sudeste,Produto A
Junho,1300,Sul,Produto B"""

# Criando objeto File
arquivo_vendas = File(
    name="vendas_trimestre.csv",
    content=conteudo_csv.encode('utf-8'),  # Convertendo para bytes
    content_type="text/csv",
    caption="Dados de vendas por mês, região e produto",
    size=len(conteudo_csv.encode('utf-8'))
)

print("📄 Objeto File criado!")
print(f"🆔 ID: {arquivo_vendas.id}")
print(f"📝 Nome: {arquivo_vendas.name}")
print(f"📊 Tipo: {arquivo_vendas.content_type}")
print(f"📏 Tamanho: {arquivo_vendas.size} bytes")
print(f"💬 Descrição: {arquivo_vendas.caption}")

print("\n📋 Prévia do conteúdo:")
print(conteudo_csv[:200] + "...")

print("\n✨ Vantagens da classe File:")
print("🔍 Extração automática de conteúdo")
print("📊 Detecção de tipo de arquivo")
print("🧠 Integração com Knowledge Base")
print("🎯 Processamento inteligente por contexto")

In [None]:
# Criando agente especializado em análise de arquivos
agente_arquivos = Agent(
    name="Agente Analisador de Arquivos",
    model=Gemini(id="gemini-2.0-flash-exp"),
    description="Especialista em processar e analisar conteúdo de arquivos estruturados",
    instructions=[
        "Analise arquivos identificando padrões e estruturas",
        "Para CSVs, identifique colunas, tipos de dados e tendências",
        "Extraia insights estatísticos e sugestões de análise",
        "Seja específico sobre a estrutura dos dados"
    ],
    markdown=True
)

# Preparando análise do arquivo
prompt_arquivo = f"""
Analise este arquivo CSV de vendas:

**Informações do Arquivo:**
- Nome: {arquivo_vendas.name}
- Tipo: {arquivo_vendas.content_type}
- Tamanho: {arquivo_vendas.size} bytes
- Descrição: {arquivo_vendas.caption}

**Conteúdo:**
```csv
{conteudo_csv}
```

Faça uma análise completa: estrutura, padrões, tendências e insights!
"""

print("📊 Enviando arquivo para análise...")
print("⏳ Processando dados estruturados...\n")

resposta_arquivo = agente_arquivos.run(input=prompt_arquivo)

print("📄 ANÁLISE DO ARQUIVO:")
print("=" * 50)
print(resposta_arquivo.content)
print("=" * 50)

## 🎯 Agente Multimodal Completo

Agora bora juntar **TUDO**! Vamos criar um super agente que consegue processar múltiplos tipos de mídia simultaneamente.

### O Poder da Multimodalidade:

🧠 **Correlação Inteligente:** O agente consegue cruzar informações de diferentes mídias
🎯 **Contexto Completo:** Visão holística dos dados
🚀 **Insights Avançados:** Conclusões que só são possíveis com múltiplas fontes
⚡ **Eficiência Máxima:** Um agente, todas as capacidades

**Analogia:** É como ter um consultor que não só lê relatórios, mas assiste apresentações, ouve reuniões e analisa gráficos - tudo ao mesmo tempo! 🦸‍♂️

**Dica!** Este é o futuro dos agentes - processamento multimodal integrado!

In [None]:
# Criando o SUPER AGENTE MULTIMODAL! 🦸‍♂️
super_agente = Agent(
    name="Super Agente Multimodal",
    model=Gemini(id="gemini-2.0-flash-exp"),
    description="Especialista supremo em análise multimodal - imagens, áudio, vídeo e arquivos",
    instructions=[
        "Sou um analista multimodal completo",
        "Processo TODAS as mídias: imagens, áudio, vídeo e arquivos",
        "Faço correlações inteligentes entre diferentes tipos de dados",
        "Gero insights que só são possíveis com visão multimodal",
        "Apresento conclusões de forma didática e brasileira"
    ],
    markdown=True,
    # Habilitando processamento de todas as mídias
    send_media_to_model=True,
    store_media=True
)

print("🦸‍♂️ SUPER AGENTE MULTIMODAL CRIADO!")
print("🎯 Capacidades ativadas:")
print("  📸 Análise de imagens")
print("  🎵 Processamento de áudio")
print("  🎬 Análise de vídeo")
print("  📄 Processamento de arquivos")
print("  🧠 Correlação multimodal")
print("\n🚀 Preparado para análise completa!")

In [None]:
# Preparando análise multimodal completa
prompt_multimodal = """
🎯 **ANÁLISE MULTIMODAL COMPLETA - RESULTADOS DO TRIMESTRE**

Você tem acesso a múltiplas fontes de dados sobre o mesmo tema (vendas trimestrais):

📊 **GRÁFICO:** Gráfico de barras com vendas mensais visuais
🎤 **ÁUDIO:** Transcrição da reunião explicando os resultados
🎬 **VÍDEO:** Apresentação completa com slides temporais
📄 **ARQUIVO:** Dados estruturados em CSV com detalhes por região

**SUA MISSÃO:**
1. Correlacione as informações de TODAS as fontes
2. Identifique consistências e inconsistências
3. Extraia insights que só são possíveis com visão multimodal
4. Gere um relatório executivo completo
5. Faça recomendações baseadas na análise holística

🚀 Use sua capacidade multimodal para gerar insights únicos!
"""

print("🎯 Iniciando análise multimodal completa...")
print("⏳ Processando todas as mídias simultaneamente...\n")

# Fazendo a análise com TODAS as mídias
resposta_multimodal = super_agente.run(
    input=prompt_multimodal,
    images=[imagem_grafico],  # Gráfico de vendas
    # audio=[audio_simulado],   # Transcrição da reunião
    # video=[video_exemplo],    # Apresentação temporal
    # files=[arquivo_vendas]    # Dados estruturados
)

print("🦸‍♂️ ANÁLISE MULTIMODAL COMPLETA:")
print("=" * 60)
print(resposta_multimodal.content)
print("=" * 60)

print(f"\n📊 Métricas da análise multimodal:")
print(f"⏱️ Tempo total: {resposta_multimodal.metrics.duration:.2f}s")
print(f"🔤 Tokens processados: {resposta_multimodal.metrics.input_tokens} → {resposta_multimodal.metrics.output_tokens}")
print(f"💰 Custo estimado: Gratuito (Gemini 2.0 Flash)")

## 🛠️ Parâmetros de Controle de Mídia

O Agno 2.0 trouxe controles avançados para mídia. Vamos entender os **parâmetros importantes**:

### Principais Parâmetros:

- 📤 **`send_media_to_model`**: Controla se mídia vai para o modelo
- 💾 **`store_media`**: Controla se mídia fica salva no RunOutput
- 🎯 **Flexibilidade total** no processamento

**Cenários de uso:**
- 🔒 **Mídia só para tools** (não para modelo): `send_media_to_model=False`
- 💨 **Análise rápida** (não salvar): `store_media=False`
- 🎯 **Processamento completo**: Ambos `True` (padrão)

**Dica!** Isso é especialmente útil quando você tem ferramentas que processam mídia mas não quer sobrecarregar o modelo!

In [None]:
# Demonstrando diferentes configurações de mídia

# CONFIGURAÇÃO 1: Mídia para modelo E armazenamento (padrão)
agente_completo = Agent(
    name="Agente Completo",
    model=Gemini(id="gemini-2.0-flash-exp"),
    send_media_to_model=True,  # Mídia vai para o modelo
    store_media=True,          # Mídia fica salva
    description="Processamento completo de mídia"
)

# CONFIGURAÇÃO 2: Mídia só para ferramentas
agente_tools_only = Agent(
    name="Agente Tools Only",
    model=Gemini(id="gemini-2.0-flash-exp"),
    send_media_to_model=False,  # Mídia NÃO vai para o modelo
    store_media=True,           # Mas fica salva
    description="Mídia processada apenas por ferramentas"
)

# CONFIGURAÇÃO 3: Análise rápida (não persistir)
agente_rapido = Agent(
    name="Agente Rápido",
    model=Gemini(id="gemini-2.0-flash-exp"),
    send_media_to_model=True,   # Mídia vai para o modelo
    store_media=False,          # Mas NÃO fica salva
    description="Análise rápida sem persistência"
)

print("🎛️ CONFIGURAÇÕES DE MÍDIA DEMONSTRADAS:")
print("\n1️⃣ Agente Completo:")
print(f"   📤 Enviar para modelo: {agente_completo.send_media_to_model}")
print(f"   💾 Armazenar mídia: {agente_completo.store_media}")
print(f"   🎯 Uso: Análise completa com persistência")

print("\n2️⃣ Agente Tools Only:")
print(f"   📤 Enviar para modelo: {agente_tools_only.send_media_to_model}")
print(f"   💾 Armazenar mídia: {agente_tools_only.store_media}")
print(f"   🎯 Uso: Processamento via ferramentas especializadas")

print("\n3️⃣ Agente Rápido:")
print(f"   📤 Enviar para modelo: {agente_rapido.send_media_to_model}")
print(f"   💾 Armazenar mídia: {agente_rapido.store_media}")
print(f"   🎯 Uso: Análise rápida sem overhead de armazenamento")

print("\n✨ Escolha a configuração ideal para seu caso de uso!")

## 🔧 Ferramentas Multimodais Avançadas

Vamos criar uma **ferramenta customizada** que trabalha com múltiplos tipos de mídia. Lembra do Módulo 3 sobre Tools? Agora vamos turbinar com multimodalidade!

### Parâmetros Especiais para Tools:

- 📸 **`images`**: Lista de imagens disponíveis
- 🎵 **`audio`**: Lista de áudios disponíveis  
- 🎬 **`videos`**: Lista de vídeos disponíveis
- 📄 **`files`**: Lista de arquivos disponíveis

**Conexão com Módulo 3:** Lembra das ferramentas customizadas? Agora elas podem acessar mídia automaticamente!

**Dica!** Essas mídias são injetadas automaticamente pelo Agno - você não precisa passar manualmente!

In [None]:
from agno.tools import tool
from typing import List, Optional
from agno.media import Image, Audio, Video, File

# Tool multimodal que processa diferentes tipos de mídia
@tool
def analisador_multimodal(
    tipo_analise: str,
    images: Optional[List[Image]] = None,
    audio: Optional[List[Audio]] = None, 
    videos: Optional[List[Video]] = None,
    files: Optional[List[File]] = None
) -> str:
    """
    Analisa diferentes tipos de mídia de forma integrada.
    
    Args:
        tipo_analise: Tipo de análise desejada (resumo, detalhada, comparativa)
        images: Lista de imagens (injetada automaticamente)
        audio: Lista de áudios (injetada automaticamente)
        videos: Lista de vídeos (injetada automaticamente)
        files: Lista de arquivos (injetada automaticamente)
    """
    
    resultado = f"🎯 ANÁLISE MULTIMODAL - {tipo_analise.upper()}\n"
    resultado += "=" * 50 + "\n"
    
    # Contabilizando mídias disponíveis
    total_midias = 0
    
    if images:
        total_midias += len(images)
        resultado += f"📸 IMAGENS ({len(images)}):" + "\n"
        for i, img in enumerate(images, 1):
            resultado += f"  {i}. {img.name or 'Imagem sem nome'}" + "\n"
            if img.caption:
                resultado += f"     💬 {img.caption}" + "\n"
            resultado += f"     📏 Tamanho: {len(img.content) if img.content else 0} bytes" + "\n"
    
    if audio:
        total_midias += len(audio)
        resultado += f"\n🎵 ÁUDIOS ({len(audio)}):" + "\n"
        for i, aud in enumerate(audio, 1):
            resultado += f"  {i}. {aud.name or 'Áudio sem nome'}" + "\n"
            if aud.transcript:
                resultado += f"     📜 Transcrição: {aud.transcript[:100]}..." + "\n"
            if aud.sample_rate:
                resultado += f"     🎛️ Sample Rate: {aud.sample_rate} Hz" + "\n"
    
    if videos:
        total_midias += len(videos)
        resultado += f"\n🎬 VÍDEOS ({len(videos)}):" + "\n"
        for i, vid in enumerate(videos, 1):
            resultado += f"  {i}. {vid.name or 'Vídeo sem nome'}" + "\n"
            if hasattr(vid, 'duration') and vid.duration:
                resultado += f"     ⏱️ Duração: {vid.duration}s" + "\n"
    
    if files:
        total_midias += len(files)
        resultado += f"\n📄 ARQUIVOS ({len(files)}):" + "\n"
        for i, arquivo in enumerate(files, 1):
            resultado += f"  {i}. {arquivo.name or 'Arquivo sem nome'}" + "\n"
            if arquivo.content_type:
                resultado += f"     🏷️ Tipo: {arquivo.content_type}" + "\n"
            if arquivo.size:
                resultado += f"     📏 Tamanho: {arquivo.size} bytes" + "\n"
    
    resultado += f"\n🎯 RESUMO:" + "\n"
    resultado += f"📊 Total de mídias processadas: {total_midias}" + "\n"
    resultado += f"🔍 Tipo de análise: {tipo_analise}" + "\n"
    
    if total_midias == 0:
        resultado += "⚠️ Nenhuma mídia foi fornecida para análise!" + "\n"
    else:
        resultado += "✅ Análise multimodal concluída com sucesso!" + "\n"
    
    return resultado

print("🔧 Ferramenta multimodal customizada criada!")
print("✨ Funcionalidades:")
print("  📸 Processa imagens automaticamente")
print("  🎵 Analisa áudios disponíveis")
print("  🎬 Examina vídeos fornecidos")
print("  📄 Processa arquivos estruturados")
print("  🧠 Integra todos os dados em análise única")

In [None]:
# Criando agente com a ferramenta multimodal customizada
agente_com_tool = Agent(
    name="Agente com Tool Multimodal",
    model=Gemini(id="gemini-2.0-flash-exp"),
    tools=[analisador_multimodal],  # Nossa tool customizada!
    description="Agente equipado com ferramenta de análise multimodal avançada",
    instructions=[
        "Use a ferramenta analisador_multimodal para processar mídias",
        "Combine os resultados da ferramenta com sua análise própria",
        "Gere insights únicos baseados na análise integrada"
    ],
    markdown=True
)

print("🤖 Agente com ferramenta multimodal criado!")
print("🔧 Ferramenta customizada ativa: analisador_multimodal")
print("🚀 Pronto para análise avançada!")

In [None]:
# Testando o agente com ferramenta multimodal
print("🎯 Testando agente com ferramenta multimodal...")
print("⏳ Processando com tool customizada...\n")

resposta_tool = agente_com_tool.run(
    input="Use sua ferramenta para fazer uma análise detalhada de todas as mídias disponíveis. Depois complemente com suas próprias conclusões!",
    images=[imagem_grafico]  # Passando nossa imagem de exemplo
)

print("🔧 RESULTADO COM FERRAMENTA MULTIMODAL:")
print("=" * 60)
print(resposta_tool.content)
print("=" * 60)

# Verificando se a ferramenta foi chamada
if resposta_tool.messages:
    tool_calls = [msg for msg in resposta_tool.messages if msg.role == 'tool']
    print(f"\n🔧 Ferramentas chamadas: {len(tool_calls)}")
    
print(f"\n📊 Métricas:")
print(f"⏱️ Tempo: {resposta_tool.metrics.duration:.2f}s")
print(f"🔤 Tokens: {resposta_tool.metrics.input_tokens} → {resposta_tool.metrics.output_tokens}")

## 🎨 Visualizando Resultados Multimodais

Vamos criar algumas **visualizações** para mostrar os insights da análise multimodal!

**Dica!** Visualização é fundamental para entender o poder da multimodalidade!

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Dados simulados baseados nas análises
tipos_midia = ['Imagens', 'Áudio', 'Vídeo', 'Arquivos']
capacidades = [95, 85, 90, 88]  # Porcentagem de capacidade de análise
cores = ['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4']

# Gráfico de capacidades multimodais
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Gráfico de barras - Capacidades
bars = ax1.bar(tipos_midia, capacidades, color=cores, alpha=0.8)
ax1.set_title('🦸‍♂️ Capacidades do Agente Multimodal', fontsize=14, fontweight='bold')
ax1.set_ylabel('Eficiência (%)', fontsize=12)
ax1.set_ylim(0, 100)

# Adicionando valores nas barras
for bar, valor in zip(bars, capacidades):
    ax1.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 1, 
             f'{valor}%', ha='center', va='bottom', fontweight='bold')

# Gráfico de pizza - Distribuição de uso
usos = [40, 25, 20, 15]  # Porcentagem de uso por tipo
ax2.pie(usos, labels=tipos_midia, colors=cores, autopct='%1.1f%%', startangle=90)
ax2.set_title('📊 Distribuição de Uso por Tipo de Mídia', fontsize=14, fontweight='bold')

plt.tight_layout()
plt.show()

print("🎨 Visualização das capacidades multimodais!")
print("📊 Insights visuais:")
print("  🥇 Imagens: Maior capacidade de análise (95%)")
print("  🥈 Vídeo: Segunda maior capacidade (90%)")
print("  🥉 Arquivos: Terceira posição (88%)")
print("  🎵 Áudio: Quarta posição mas ainda excelente (85%)")

## 🏋️‍♂️ Exercício Prático: Seu Agente Multimodal

Agora é **SUA VEZ**! Vamos criar um agente multimodal personalizado para um caso de uso específico.

### 🎯 Seu Desafio:

Crie um agente que seja especialista em **análise de produtos de e-commerce**. Ele deve conseguir:

1. 📸 Analisar fotos de produtos
2. 📄 Processar descrições e especificações
3. 🎵 Avaliar vídeos de demonstração (simulado)
4. 📊 Gerar relatório de qualidade do produto

**Dica!** Use tudo que aprendemos: diferentes tipos de mídia, ferramentas customizadas e análise integrada!

In [None]:
# EXERCÍCIO: Complete o código abaixo

# 1. Crie seu agente especialista em produtos de e-commerce
meu_agente_ecommerce = Agent(
    name="# COMPLETE: Coloque um nome criativo",
    model=Gemini(id="gemini-2.0-flash-exp"),
    description="# COMPLETE: Descreva as especialidades do seu agente",
    instructions=[
        "# COMPLETE: Adicione instruções específicas",
        "# Exemplo: Analise produtos considerando qualidade, preço e usabilidade",
        "# Adicione mais instruções aqui..."
    ],
    markdown=True
)

print("🛍️ SEU AGENTE E-COMMERCE:")
print(f"📛 Nome: {meu_agente_ecommerce.name}")
print(f"📝 Descrição: {meu_agente_ecommerce.description}")
print(f"📋 Instruções: {len(meu_agente_ecommerce.instructions)} configuradas")

# 2. Crie dados simulados de um produto
# COMPLETE: Crie uma descrição de produto em texto
descricao_produto = """
# COMPLETE: Escreva uma descrição detalhada de um produto
# Exemplo: Smartphone XYZ com 128GB, câmera 48MP, bateria 4000mAh...
"""

# COMPLETE: Crie um objeto File com a descrição
arquivo_produto = File(
    name="# COMPLETE: nome do arquivo",
    content=descricao_produto.encode('utf-8'),
    content_type="text/plain",
    caption="# COMPLETE: descrição do arquivo"
)

print("\n📦 PRODUTO SIMULADO CRIADO:")
print(f"📄 Arquivo: {arquivo_produto.name}")
print(f"📏 Tamanho: {len(descricao_produto)} caracteres")

# 3. DESAFIO: Execute a análise!
# COMPLETE: Faça seu agente analisar o produto
print("\n🎯 EXECUTE SEU AGENTE E VEJA O RESULTADO!")

## 🔮 Conexões com Próximos Módulos

Agora que dominamos **agentes multimodais**, vamos ver como isso se conecta com o resto do curso!

### 🚀 Preparando para os Próximos Módulos:

**📚 Módulo 7 - Reasoning:** 
- Agentes multimodais + raciocínio = **Super inteligência**
- Reasoning com múltiplas fontes de dados
- Análise temporal em vídeos com pensamento estruturado

**👥 Módulo 8 - Teams:** 
- **Especialização por mídia:** Um agente para imagens, outro para áudio
- **Colaboração multimodal:** Agentes compartilhando análises
- **Workflow integrado:** Processamento pipeline de mídias

**⚡ Módulos 9-10 - Workflows:**
- **Pipelines multimodais:** Fluxos automatizados
- **Processamento sequencial:** Imagem → Áudio → Vídeo → Relatório
- **Condições baseadas em mídia:** If imagem_OK then processar_audio

**Dica!** A multimodalidade é a base para sistemas complexos nos próximos módulos! 🎯

## 📋 Resumo do Módulo 6

**Liiindo! Chegamos ao fim do Módulo 6! 🎉**

### 🎯 O que Aprendemos:

✅ **Agentes Multimodais:** Como dar "super sentidos" aos nossos agentes
✅ **Classe Image:** Processamento unificado de imagens (substitui ImageArtifact)
✅ **Classe Audio:** Análise completa de áudio com transcrição automática
✅ **Classe Video:** Processamento temporal de vídeos e análise de sequências
✅ **Classe File:** Manipulação inteligente de arquivos estruturados
✅ **Controles Avançados:** `send_media_to_model` e `store_media`
✅ **Ferramentas Multimodais:** Tools que processam múltiplos tipos de mídia
✅ **Análise Integrada:** Correlação inteligente entre diferentes fontes

### 🚀 Principais Inovações do Agno 2.0:

- 🎯 **Classes unificadas** para todos os tipos de mídia
- ⚡ **Injeção automática** de mídia em ferramentas
- 🧠 **Processamento inteligente** com múltiplas modalidades
- 🔧 **Flexibilidade total** no controle de mídia

### 💡 Dicas Importantes:

1. **Use Gemini 2.0 Flash** para análises multimodais gratuitas
2. **Combine diferentes mídias** para insights únicos
3. **Configure parâmetros de mídia** conforme sua necessidade
4. **Crie ferramentas customizadas** para casos específicos

### 🎓 Próximos Passos:

**Módulo 7:** Vamos turbinar nossos agentes com **Reasoning** - capacidade de raciocínio estruturado!

**Tá preparado para dar cérebros ainda mais poderosos aos seus agentes? Bora pro Módulo 7! 🧠🚀**

In [None]:
# Código final de demonstração - Agente multimodal completo
print("🎉 PARABÉNS! Módulo 6 concluído com sucesso!")
print("\n🦸‍♂️ Você agora domina:")
print("  📸 Processamento de imagens")
print("  🎵 Análise de áudio")
print("  🎬 Processamento de vídeo")
print("  📄 Manipulação de arquivos")
print("  🧠 Análise multimodal integrada")
print("  🔧 Ferramentas customizadas")

print("\n🚀 Preparado para o Módulo 7: Reasoning e Raciocínio!")
print("💪 Continue sua jornada de especialização em Agno 2.0!")

# Métricas finais do módulo
print("\n📊 ESTATÍSTICAS DO MÓDULO:")
print(f"📚 Conceitos aprendidos: 8+")
print(f"🔧 Ferramentas criadas: 1+")
print(f"🤖 Agentes desenvolvidos: 5+")
print(f"💡 Exercícios práticos: 1+")
print(f"⭐ Nível de conhecimento: AVANÇADO")

print("\n🎯 Até o próximo módulo, dev! Keep coding! 👨‍💻✨")