In [38]:
# Define project information

import sys

PROJECT_ID = "gen-lang-client-0303567819"  # @param {type:"string"}
LOCATION = "us-central1"  # @param {type:"string"}

# if not running on colab, try to get the PROJECT_ID automatically
if "google.colab" not in sys.modules:
    import subprocess

    PROJECT_ID = subprocess.check_output(
        ["gcloud", "config", "get-value", "project"], text=True
    ).strip()

print(f"Your project ID is: {PROJECT_ID}")

Your project ID is: gen-lang-client-0303567819


Your active configuration is: [personal]


In [39]:
import sys

# Initialize Vertex AI
import vertexai

vertexai.init(project=PROJECT_ID, location=LOCATION)

In [40]:
from rich import print as rich_print
from rich.markdown import Markdown as rich_Markdown
from IPython.display import Markdown, display
from vertexai.generative_models import (
    Content,
    GenerationConfig,
    GenerationResponse,
    GenerativeModel,
    HarmCategory,
    HarmBlockThreshold,
    Image,
    Part,
)
from vertexai.language_models import TextEmbeddingModel

# Suppress deprecation warning for vision_models (deprecated until June 2026)
import warnings
with warnings.catch_warnings():
    warnings.filterwarnings("ignore", category=UserWarning, message=".*vision_models.*")
    warnings.filterwarnings("ignore", category=UserWarning, message=".*deprecated.*")
    from vertexai.vision_models import MultiModalEmbeddingModel

In [41]:
# Multimodal models: Choose based on your performance/cost needs

multimodal_model_2_0_flash = GenerativeModel(
    "gemini-2.0-flash-001"
) # Gemini latest Gemini 2.0 Flash Model

multimodal_model_15 = GenerativeModel(
    "gemini-1.5-pro-001"
)  # works with text, code, images, video(with or without audio) and audio(mp3) with 1M input context - complex reasoning

# Multimodal models: Choose based on your performance/cost needs
multimodal_model_15_flash = GenerativeModel(
    "gemini-1.5-flash-001"
)  # works with text, code, images, video(with or without audio) and audio(mp3) with 1M input context - faster inference

# Load text embedding model from pre-trained source
text_embedding_model = TextEmbeddingModel.from_pretrained("text-embedding-004")

# Load multimodal embedding model from pre-trained source
# Suppress deprecation warning when loading the model
with warnings.catch_warnings():
    warnings.filterwarnings("ignore", category=UserWarning, message=".*vision_models.*")
    warnings.filterwarnings("ignore", category=UserWarning, message=".*deprecated.*")
    multimodal_embedding_model = MultiModalEmbeddingModel.from_pretrained(
        "multimodalembedding@001"
    )  # works with image, image with caption(~32 words), video, video with caption(~32 words)

E0000 00:00:1762616269.378261   35855 alts_credentials.cc:93] ALTS creds ignored. Not running on GCP and untrusted ALTS is not enabled.
E0000 00:00:1762616269.657345   35855 alts_credentials.cc:93] ALTS creds ignored. Not running on GCP and untrusted ALTS is not enabled.


In [42]:
# Load text embedding model from pre-trained source
text_embedding_model = TextEmbeddingModel.from_pretrained("text-embedding-005")

E0000 00:00:1762616269.891412   35855 alts_credentials.cc:93] ALTS creds ignored. Not running on GCP and untrusted ALTS is not enabled.


In [43]:
# NOTE: multimodal_embedding_model is already correctly defined in Cell 3
# Do not overwrite it with a GenerativeModel - it must be a MultiModalEmbeddingModel
# If you need a different generative model, use a different variable name
# multimodal_embedding_model = MultiModalEmbeddingModel.from_pretrained("multimodalembedding@001")

In [44]:
from multimodal_qa_with_rag_utils import (
    get_document_metadata,
    set_global_variable,
)

set_global_variable("text_embedding_model", text_embedding_model)
set_global_variable("multimodal_embedding_model", multimodal_embedding_model)

In [None]:
# C√âLULA 78 (OPCIONAL) - üìÑ EXTRAIR MAIS IMAGENS DO PDF PARA COMPARA√á√ÉO
# Esta c√©lula extrai imagens do map.pdf para ter mais dados para compara√ß√£o

print("=== EXTRAINDO IMAGENS DO PDF PARA AMPLIAR DATASET ===\n")

import fitz  # PyMuPDF
import os

def extrair_imagens_do_pdf(pdf_path, output_dir="images/", prefixo="map"):
    """
    Extrai imagens de um PDF e salva na pasta de imagens
    """
    print(f"üîç Processando PDF: {pdf_path}")
    
    if not os.path.exists(pdf_path):
        print(f"‚ùå PDF n√£o encontrado: {pdf_path}")
        return []
    
    # Criar diret√≥rio se n√£o existir
    os.makedirs(output_dir, exist_ok=True)
    
    # Abrir PDF
    doc = fitz.open(pdf_path)
    imagens_extraidas = []
    
    print(f"üìä PDF tem {len(doc)} p√°ginas")
    
    for page_num in range(len(doc)):
        page = doc[page_num]
        images = page.get_images()
        
        print(f"üìÑ P√°gina {page_num + 1}: {len(images)} imagens encontradas")
        
        for img_index, img in enumerate(images):
            try:
                # Extrair imagem
                xref = img[0]
                pix = fitz.Pixmap(doc, xref)
                
                # Converter para RGB se necess√°rio
                if pix.colorspace and pix.colorspace.n > 3:
                    pix = fitz.Pixmap(fitz.csRGB, pix)
                
                # Nome do arquivo
                img_filename = f"{prefixo}_page_{page_num + 1}_img_{img_index + 1}.png"
                img_path = os.path.join(output_dir, img_filename)
                
                # Salvar imagem
                pix.save(img_path)
                imagens_extraidas.append(img_path)
                
                print(f"  ‚úÖ Extra√≠da: {img_filename}")
                
                pix = None  # Liberar mem√≥ria
                
            except Exception as e:
                print(f"  ‚ùå Erro ao extrair imagem {img_index}: {e}")
                continue
    
    doc.close()
    print(f"\nüéâ Total de {len(imagens_extraidas)} imagens extra√≠das!")
    return imagens_extraidas

# Verificar quantas imagens temos atualmente
# Lista todos os arquivos para debug
all_files = os.listdir("images/")
print(f"üìÅ Todos os arquivos na pasta 'images/':")
for f in sorted(all_files):
    file_path = os.path.join("images/", f)
    if os.path.isfile(file_path):
        size = os.path.getsize(file_path)
        print(f"  - {f} ({size} bytes)")

# Contar imagens com extens√µes suportadas (case-insensitive)
image_extensions = ('.jpg', '.jpeg', '.png', '.bmp', '.tiff', '.webp', '.gif', '.JPG', '.JPEG', '.PNG', '.BMP')
current_images = [f for f in all_files if f.lower().endswith(('.jpg', '.jpeg', '.png', '.bmp', '.tiff', '.webp', '.gif'))]
print(f"\nüìä Imagens encontradas na pasta: {len(current_images)}")
for img in sorted(current_images):
    print(f"  ‚úÖ {img}")

if len(current_images) <= 1:
    print("üîÑ Extraindo imagens do PDF para ter mais dados...")
    
    # Extrair do map.pdf se existir
    if os.path.exists("map/map.pdf"):
        imagens_extraidas = extrair_imagens_do_pdf("map/map.pdf", "images/", "map")
        
        if imagens_extraidas:
            print(f"\n‚úÖ {len(imagens_extraidas)} novas imagens adicionadas!")
            print("üöÄ Agora execute a C√âLULA 76 novamente para processar todas as imagens")
            print("   Depois execute a C√âLULA 70 para testar similaridade com mais dados")
        else:
            print("‚ùå Nenhuma imagem foi extra√≠da do PDF")
    else:
        print("‚ùå Arquivo map/map.pdf n√£o encontrado")
        
        # Verificar outros PDFs dispon√≠veis
        print("\nüîç Procurando outros PDFs...")
        pdf_paths = []
        for root, dirs, files in os.walk("."):
            for file in files:
                if file.lower().endswith('.pdf'):
                    pdf_paths.append(os.path.join(root, file))
        
        if pdf_paths:
            print("üìã PDFs encontrados:")
            for i, pdf_path in enumerate(pdf_paths[:3], 1):  # Mostrar apenas os 3 primeiros
                print(f"  {i}. {pdf_path}")
                
            # Processar o primeiro PDF encontrado
            if pdf_paths:
                primeiro_pdf = pdf_paths[0]
                print(f"\nüîÑ Processando: {primeiro_pdf}")
                imagens_extraidas = extrair_imagens_do_pdf(primeiro_pdf, "images/", "doc")
                
                if imagens_extraidas:
                    print(f"\n‚úÖ {len(imagens_extraidas)} imagens extra√≠das de {primeiro_pdf}!")
                    print("üöÄ Execute a C√âLULA 76 novamente para processar todas as imagens")
        else:
            print("‚ùå Nenhum PDF encontrado para extrair imagens")
            
else:
    print("‚úÖ J√° h√° m√∫ltiplas imagens na pasta")
    print("Execute a C√âLULA 76 para processar todas e depois a C√âLULA 70 para testar similaridade")

# Mostrar status final - usar a mesma l√≥gica de contagem
all_files_final = os.listdir("images/")
final_images = [f for f in all_files_final if f.lower().endswith(('.jpg', '.jpeg', '.png', '.bmp', '.tiff', '.webp', '.gif'))]
print(f"\nüìä STATUS FINAL: {len(final_images)} imagens na pasta 'images/'")
print("üìã Imagens encontradas:")
for img in sorted(final_images):
    print(f"  - {img}")

if len(final_images) > 1:
    print("üéâ Pronto para testar busca por similaridade!")
    print("üìã PR√ìXIMOS PASSOS:")
    print("  1. Execute C√âLULA 76 (processar todas as imagens)")
    print("  2. Execute C√âLULA 70 (busca por similaridade)")
    print("  3. Execute C√âLULA 71 (an√°lise contextual)")
else:
    print("‚ö†Ô∏è  Ainda h√° apenas 1 imagem. Adicione mais imagens manualmente na pasta 'images/'")


=== EXTRAINDO IMAGENS DO PDF PARA AMPLIAR DATASET ===

üìÅ Buscando imagens na pasta 'images/' e subdiret√≥rios...

üìÇ Arquivos na pasta 'images/' (diret√≥rio raiz):
  - A1.png (73671 bytes) [extens√£o: .png]
  - B2_room.jpeg (103810 bytes) [extens√£o: .jpeg]

üìä Total de imagens encontradas: 2
‚úÖ Imagens detectadas:
  - A1.png
  - B2_room.jpeg
‚úÖ J√° h√° m√∫ltiplas imagens na pasta
Execute a C√âLULA 76 para processar todas e depois a C√âLULA 70 para testar similaridade

üìä STATUS FINAL:
üìä Total: 2 imagens na pasta 'images/'
üìã Imagens encontradas:
  - A1.png
  - B2_room.jpeg
üéâ Pronto para testar busca por similaridade!
üìã PR√ìXIMOS PASSOS:
  1. Execute C√âLULA 76 (processar todas as imagens)
  2. Execute C√âLULA 70 (busca por similaridade)
  3. Execute C√âLULA 71 (an√°lise contextual)


In [55]:
# C√âLULA 75 (NOVO) - üìÇ PROCESSAMENTO DIRETO DE IMAGENS DA PASTA
# Fun√ß√£o para ler todas as imagens da pasta images/ e gerar embeddings para RAG

import os
import glob
import pandas as pd
import numpy as np
from pathlib import Path
from multimodal_qa_with_rag_utils import (
    get_image_embedding_from_multimodal_embedding_model,
    get_gemini_response
)

def processar_imagens_da_pasta(
    pasta_imagens="images/",
    embedding_size=512,
    gerar_descricoes=True,
    formatos_suportados=['.jpg', '.jpeg', '.png', '.bmp', '.tiff', '.webp']
):
    """
    Processa todas as imagens de uma pasta, gerando embeddings e descri√ß√µes para RAG
    
    Args:
        pasta_imagens: Caminho da pasta com imagens
        embedding_size: Tamanho do embedding (128, 256, 512, 1408)
        gerar_descricoes: Se deve gerar descri√ß√µes das imagens com Gemini
        formatos_suportados: Lista de formatos de imagem aceitos
    
    Returns:
        pd.DataFrame: DataFrame compat√≠vel com o sistema RAG existente
    """
    print(f"üîç PROCESSANDO IMAGENS DA PASTA: {pasta_imagens}")
    print("="*60)
    
    # Verificar se a pasta existe
    if not os.path.exists(pasta_imagens):
        print(f"‚ùå Pasta '{pasta_imagens}' n√£o encontrada!")
        return pd.DataFrame()
    
    # Encontrar todas as imagens na pasta
    imagens_encontradas = []
    for formato in formatos_suportados:
        pattern = os.path.join(pasta_imagens, f"*{formato}")
        imagens_encontradas.extend(glob.glob(pattern))
        pattern = os.path.join(pasta_imagens, f"*{formato.upper()}")
        imagens_encontradas.extend(glob.glob(pattern))
    
    # Remover duplicatas
    imagens_encontradas = list(set(imagens_encontradas))
    
    if not imagens_encontradas:
        print(f"‚ùå Nenhuma imagem encontrada na pasta '{pasta_imagens}'")
        print(f"Formatos suportados: {formatos_suportados}")
        return pd.DataFrame()
    
    print(f"üìä Encontradas {len(imagens_encontradas)} imagens:")
    for img in imagens_encontradas:
        print(f"  - {os.path.basename(img)}")
    
    # Lista para armazenar dados processados
    dados_imagens = []
    
    # Prompt para descri√ß√£o das imagens
    prompt_descricao = """Analise esta imagem detalhadamente e forne√ßa uma descri√ß√£o precisa.
    Inclua:
    - O que voc√™ v√™ na imagem
    - Elementos principais e detalhes importantes
    - Texto vis√≠vel (se houver)
    - Tipo de imagem (mapa, diagrama, foto, etc.)
    - Informa√ß√µes relevantes para busca e recupera√ß√£o
    
    Seja espec√≠fico e detalhado para facilitar buscas futuras."""
    
    print(f"\nüöÄ PROCESSANDO CADA IMAGEM...")
    print("="*60)
    
    for i, caminho_imagem in enumerate(imagens_encontradas, 1):
        nome_arquivo = os.path.basename(caminho_imagem)
        print(f"\nüì∏ PROCESSANDO {i}/{len(imagens_encontradas)}: {nome_arquivo}")
        
        try:
            # 1. Gerar embedding da imagem
            print("  üîÑ Gerando embedding...")
            image_embedding = get_image_embedding_from_multimodal_embedding_model(
                image_uri=caminho_imagem,
                embedding_size=embedding_size,
                return_array=True
            )
            print(f"  ‚úÖ Embedding gerado: shape {image_embedding.shape}")
            
            # 2. Gerar descri√ß√£o da imagem (se solicitado)
            descricao = ""
            if gerar_descricoes:
                print("  ü§ñ Gerando descri√ß√£o com Gemini...")
                try:
                    from vertexai.generative_models import Image as GeminiImage
                    imagem_gemini = GeminiImage.load_from_file(caminho_imagem)
                    
                    descricao = get_gemini_response(
                        multimodal_model_2_0_flash,
                        model_input=[prompt_descricao, imagem_gemini],
                        stream=False,
                    )
                    print(f"  ‚úÖ Descri√ß√£o gerada: {len(descricao)} caracteres")
                    
                except Exception as desc_error:
                    print(f"  ‚ö†Ô∏è  Erro ao gerar descri√ß√£o: {desc_error}")
                    descricao = f"Imagem: {nome_arquivo}"
            
            # 3. Gerar embedding da descri√ß√£o (para compatibilidade com RAG)
            text_embedding = None
            if descricao:
                try:
                    from multimodal_qa_with_rag_utils import get_text_embedding_from_text_embedding_model
                    text_embedding = get_text_embedding_from_text_embedding_model(descricao)
                    print("  ‚úÖ Text embedding da descri√ß√£o gerado")
                except Exception as text_emb_error:
                    print(f"  ‚ö†Ô∏è  Erro ao gerar text embedding: {text_emb_error}")
            
            # 4. Criar registro compat√≠vel com o sistema existente
            registro = {
                'file_name': f"pasta_images_{nome_arquivo}",  # Nome √∫nico
                'page_num': 1,  # Imagens individuais = p√°gina 1
                'img_num': i,
                'img_path': caminho_imagem,
                'img_desc': descricao,
                'mm_embedding_from_img_only': image_embedding.tolist(),  # Compatibilidade
                'text_embedding_from_image_description': text_embedding if text_embedding else None,
                'source_type': 'pasta_imagens',  # Identificar origem
                'original_filename': nome_arquivo
            }
            
            dados_imagens.append(registro)
            print(f"  ‚úÖ Processamento conclu√≠do para {nome_arquivo}")
            
        except Exception as e:
            print(f"  ‚ùå Erro ao processar {nome_arquivo}: {e}")
            continue
    
    # Criar DataFrame
    if dados_imagens:
        df_imagens = pd.DataFrame(dados_imagens)
        print(f"\nüéâ PROCESSAMENTO CONCLU√çDO!")
        print(f"üìä DataFrame criado com {len(df_imagens)} imagens processadas")
        print(f"üìã Colunas: {list(df_imagens.columns)}")
        
        return df_imagens
    else:
        print(f"\n‚ùå Nenhuma imagem foi processada com sucesso")
        return pd.DataFrame()

print("‚úÖ Fun√ß√£o 'processar_imagens_da_pasta' criada com sucesso!")


‚úÖ Fun√ß√£o 'processar_imagens_da_pasta' criada com sucesso!


In [56]:
# C√âLULA 76 (EXECUTAR) - üöÄ PROCESSAMENTO DAS IMAGENS DA PASTA images/
# Executa o processamento de todas as imagens e cria o image_metadata_df

print("=== PROCESSAMENTO COMPLETO DA PASTA IMAGES/ ===\n")

# Executar o processamento das imagens
try:
    image_metadata_df = processar_imagens_da_pasta(
        pasta_imagens="images/",
        embedding_size=512,
        gerar_descricoes=True,  # Gerar descri√ß√µes detalhadas com Gemini
        formatos_suportados=['.jpg', '.jpeg', '.png', '.bmp', '.tiff', '.webp']
    )
    
    if not image_metadata_df.empty:
        print(f"\nüéâ SUCESSO TOTAL!")
        print(f"üìä image_metadata_df criado com {len(image_metadata_df)} imagens")
        
        # Mostrar resumo das imagens processadas
        print(f"\nüìã RESUMO DAS IMAGENS PROCESSADAS:")
        print("="*50)
        for idx, row in image_metadata_df.iterrows():
            print(f"\nüñºÔ∏è  Imagem {idx + 1}:")
            print(f"  üìÅ Arquivo: {row['original_filename']}")
            print(f"  üìÇ Caminho: {row['img_path']}")
            print(f"  üìä Embedding shape: {len(row['mm_embedding_from_img_only'])}")
            
            # Mostrar in√≠cio da descri√ß√£o
            desc = row['img_desc']
            if desc and len(desc) > 10:
                print(f"  üìù Descri√ß√£o: {desc[:150]}{'...' if len(desc) > 150 else ''}")
        
        # Verificar compatibilidade com sistema RAG existente
        print(f"\n‚úÖ COMPATIBILIDADE COM SISTEMA RAG:")
        colunas_necessarias = ['img_path', 'mm_embedding_from_img_only', 'img_desc', 'file_name', 'page_num']
        for col in colunas_necessarias:
            if col in image_metadata_df.columns:
                print(f"  ‚úÖ {col}: OK")
            else:
                print(f"  ‚ùå {col}: FALTANDO")
        
        # Salvar para uso futuro (opcional)
        try:
            image_metadata_df.to_pickle("image_metadata_from_folder.pkl")
            print(f"\nüíæ DataFrame salvo em 'image_metadata_from_folder.pkl'")
        except Exception as save_error:
            print(f"\n‚ö†Ô∏è  N√£o foi poss√≠vel salvar: {save_error}")
        
        print(f"\nüöÄ PR√ìXIMOS PASSOS:")
        print(f"1. Agora voc√™ pode executar a C√âLULA 70 (Valida√ß√£o)")
        print(f"2. Depois executar a C√âLULA 71 (An√°lise Contextual)")
        print(f"3. O sistema RAG est√° pronto para perguntas sobre as imagens!")
        
    else:
        print(f"\n‚ùå FALHA: Nenhuma imagem foi processada")
        print(f"Verifique se:")
        print(f"- A pasta 'images/' existe")
        print(f"- H√° imagens v√°lidas na pasta")
        print(f"- Os modelos est√£o carregados corretamente")

except Exception as e:
    print(f"‚ùå ERRO NO PROCESSAMENTO: {e}")
    import traceback
    traceback.print_exc()
    
    print(f"\nüí° POSS√çVEIS SOLU√á√ïES:")
    print(f"- Verifique se os modelos est√£o carregados")
    print(f"- Verifique se a pasta 'images/' existe")
    print(f"- Execute as c√©lulas de setup dos modelos primeiro")


=== PROCESSAMENTO COMPLETO DA PASTA IMAGES/ ===

üîç PROCESSANDO IMAGENS DA PASTA: images/
üìä Encontradas 2 imagens:
  - B2_room.jpeg
  - A1.png

üöÄ PROCESSANDO CADA IMAGEM...

üì∏ PROCESSANDO 1/2: B2_room.jpeg
  üîÑ Gerando embedding...
  ‚úÖ Embedding gerado: shape (512,)
  ü§ñ Gerando descri√ß√£o com Gemini...
  ‚ö†Ô∏è  Erro ao gerar descri√ß√£o: 'GenerationResponse' object is not iterable
  ‚úÖ Text embedding da descri√ß√£o gerado
  ‚úÖ Processamento conclu√≠do para B2_room.jpeg

üì∏ PROCESSANDO 2/2: A1.png
  üîÑ Gerando embedding...
  ‚úÖ Embedding gerado: shape (512,)
  ü§ñ Gerando descri√ß√£o com Gemini...
  ‚ö†Ô∏è  Erro ao gerar descri√ß√£o: 'GenerationResponse' object is not iterable
  ‚úÖ Text embedding da descri√ß√£o gerado
  ‚úÖ Processamento conclu√≠do para A1.png

üéâ PROCESSAMENTO CONCLU√çDO!
üìä DataFrame criado com 2 imagens processadas
üìã Colunas: ['file_name', 'page_num', 'img_num', 'img_path', 'img_desc', 'mm_embedding_from_img_only', 'text_embedding_

In [67]:

# Este c√≥digo permite que voc√™ fa√ßa perguntas sobre as imagens usando o embedding e o Gemini

import numpy as np
from multimodal_qa_with_rag_utils import get_text_embedding_from_text_embedding_model

def responder_pergunta_sobre_imagem(pergunta, image_metadata_df, text_embedding_model, gemini_model, top_k=3):
    """
    Dado uma pergunta, retorna a resposta do Gemini baseada nas imagens mais relevantes.
    
    Args:
        pergunta: Texto da pergunta
        image_metadata_df: DataFrame com metadados das imagens (deve ter coluna 'text_embedding_from_image_description')
        text_embedding_model: Modelo de embedding de texto (TextEmbeddingModel)
        gemini_model: Modelo Gemini para gerar respostas
        top_k: N√∫mero de imagens mais relevantes para usar no contexto
    """

    # Gere o embedding da pergunta usando o modelo de texto
    pergunta_embedding = get_text_embedding_from_text_embedding_model(pergunta, return_array=True)
    pergunta_embedding = np.array(pergunta_embedding)

    # Calcule similaridades usando os embeddings de texto das descri√ß√µes das imagens
    # Primeiro, precisamos converter os embeddings de texto das descri√ß√µes para arrays
    text_embeddings_list = []
    valid_indices = []
    
    for idx, row in image_metadata_df.iterrows():
        text_emb = row.get('text_embedding_from_image_description')
        if text_emb is not None:
            if isinstance(text_emb, list):
                text_embeddings_list.append(np.array(text_emb))
                valid_indices.append(idx)
            elif isinstance(text_emb, np.ndarray):
                text_embeddings_list.append(text_emb)
                valid_indices.append(idx)
    
    if not text_embeddings_list:
        return "‚ùå Erro: Nenhum embedding de texto encontrado nas descri√ß√µes das imagens. Execute a C√âLULA 76 primeiro para processar as imagens."
    
    # Calcular similaridades
    text_embeddings = np.stack(text_embeddings_list)
    similarities = np.dot(text_embeddings, pergunta_embedding) / (
        np.linalg.norm(text_embeddings, axis=1) * np.linalg.norm(pergunta_embedding) + 1e-8
    )
    top_indices_local = np.argsort(similarities)[-top_k:][::-1]  # √≠ndices locais
    top_indices = [valid_indices[i] for i in top_indices_local]  # √≠ndices originais do DataFrame

    # Monte o contexto para o Gemini
    contexto_imgs = []
    imagens_para_gemini = []
    for idx in top_indices:
        row = image_metadata_df.iloc[idx]
        contexto_imgs.append(
            f"Arquivo: {row['file_name']} (p√°gina {row['page_num']}), descri√ß√£o: {row['img_desc']}"
        )
        # Carregar a imagem para incluir no contexto visual
        try:
            from vertexai.generative_models import Image as GeminiImage
            img_obj = GeminiImage.load_from_file(row['img_path'])
            imagens_para_gemini.append(img_obj)
        except Exception as e:
            print(f"‚ö†Ô∏è  N√£o foi poss√≠vel carregar imagem {row['img_path']}: {e}")
    
    contexto = "\n".join(contexto_imgs)
    prompt = (
        "Considere as seguintes descri√ß√µes de imagens extra√≠das e responda a pergunta:"
        f"\n\n{contexto}\n\nPergunta: {pergunta}\nResposta:"
    )

    # Chame o Gemini com texto e imagens
    try:
        if imagens_para_gemini:
            # Incluir imagens no contexto
            model_input = [prompt] + imagens_para_gemini
        else:
            model_input = [prompt]
        
        resposta = gemini_model.generate_content(model_input)
        # Pode ser "resposta.text" ou apenas "resposta" dependendo do SDK
        if hasattr(resposta, 'text'):
            return resposta.text
        else:
            return str(resposta)
    except Exception as e:
        return f"‚ùå Erro ao gerar resposta: {e}"

# Exemplo de uso (corrigido para usar text_embedding_model):
resposta = responder_pergunta_sobre_imagem("Qual mapa mostra a Am√©rica do Sul?", image_metadata_df, text_embedding_model, multimodal_model_2_0_flash)
print("Resposta:", resposta)




Resposta: Nenhuma das imagens representa um mapa da Am√©rica do Sul. As imagens mostram plantas baixas de edif√≠cios.
