# üöÄ **Passo 3: Avaliando a Velocidade dos Modelos**

## **Aula 3.1: Por Que Lat√™ncia √© Importante?**

---

### **T√°, mas o que √© lat√™ncia?**

Imagina que voc√™ t√° num restaurante e pede um hamb√∫rguer. Se o gar√ßom demora 2 minutos pra trazer, voc√™ fica feliz. Se demora 20 minutos, voc√™ fica puto! √â exatamente isso que a gente vai medir aqui - quanto tempo cada modelo de IA leva pra "cozinhar" sua resposta. üòÑ

**Por que lat√™ncia √© importante?**

Em aplica√ß√µes reais, velocidade √© tudo! Se voc√™ t√° fazendo um chatbot e ele demora 10 segundos pra responder, o usu√°rio j√° foi embora. Se voc√™ t√° processando milhares de documentos por dia, cada segundo conta pro bolso.

### **M√©tricas de Lat√™ncia que Vamos Medir**

Vamos focar em uma m√©trica principal pra nosso caso de uso:

| M√©trica | O Que Mede | Por Que Importa |
|---------|------------|-----------------|
| **Lat√™ncia Total** | Tempo total do pedido at√© resposta completa | Experi√™ncia do usu√°rio final |
| **P50/P90** | 50% e 90% das respostas mais r√°pidas | Performance consistente |
| **Desvio Padr√£o** | Qu√£o vari√°vel √© a velocidade | Previsibilidade |

### **O Que Esta Avalia√ß√£o Produz**

#### **1. Arquivos de Log Detalhados**

Um arquivo de log √© gerado automaticamente como `model_latency_benchmarking-{timestamp}.log`, rastreando todas as chamadas de API, erros e detalhes de execu√ß√£o. √â como ter um "gravador de voo" pra cada teste!

#### **2. Arquivos CSV de Resultados**

Resultados s√£o salvos no diret√≥rio `../outputs/` como `document_summarization_{model_id}_{timestamp}.csv`, contendo m√©tricas chave incluindo lat√™ncia total, tempo de processamento do servidor, contagem de tokens, indicadores de status da API e detalhes de configura√ß√£o.

Esses resultados ser√£o usados no Passo 5 pra criar compara√ß√µes abrangentes e visualiza√ß√µes.

### **Diretrizes de Benchmarking**

Pra avalia√ß√£o estatisticamente v√°lida, considere estes princ√≠pios:

| Par√¢metro | Descri√ß√£o | Configura√ß√£o do Workshop | Recomenda√ß√£o de Produ√ß√£o |
|-----------|-----------|-------------------------|-------------------------|
| `invocations_per_scenario` | Repeti√ß√µes por prompt | 1 (pra efici√™ncia) | 10+ pra signific√¢ncia estat√≠stica |
| `experiment_counts` | Vezes de repetir todo experimento | 1 (pra workshop) | M√∫ltiplas execu√ß√µes em dias/hor√°rios diferentes |
| `num_parallel_calls` | Requisi√ß√µes concorrentes | 1 (pra evitar throttling) | Combinar com sua concorr√™ncia de produ√ß√£o |

> **‚ö†Ô∏è Nota Estat√≠stica**: Enquanto estamos usando par√¢metros simplificados pra este workshop, avalia√ß√µes de produ√ß√£o devem seguir pr√°ticas estat√≠sticas mais rigorosas. O Teorema do Limite Central nos diz que com amostras suficientes (1000+), nossas m√©tricas v√£o aproximar uma distribui√ß√£o normal. Idealmente, voc√™ deve:
> - Coletar amostras ao longo de m√∫ltiplos dias pra considerar varia√ß√µes de hor√°rio
> - Incluir per√≠odos de pico de tr√°fego na sua amostragem
> - Combinar sua distribui√ß√£o de teste com seus padr√µes reais de tr√°fego de produ√ß√£o

Vamos come√ßar nossa avalia√ß√£o de lat√™ncia!

---

**üñºÔ∏è Sugest√£o de imagem**: Um cron√¥metro ou gr√°fico de tempo de resposta

In [None]:
# üõ†Ô∏è IMPORTANDO AS FERRAMENTAS NECESS√ÅRIAS
import subprocess
import sys
import boto3
import botocore
import random
import pprint
import time
import json
import argparse
import pandas as pd
import numpy as np
import random
from datetime import datetime, timedelta
import pytz
import os
import logging
from botocore.config import Config
from botocore.exceptions import ClientError
import concurrent.futures
from concurrent.futures import ThreadPoolExecutor
from threading import Lock
from typing import List, Dict
from tqdm.notebook import tqdm
from IPython.display import display

print("‚úÖ Todas as ferramentas importadas! Vamos medir a velocidade!")

### **Carregando Nosso Progresso**

Vamos carregar nosso dataframe de tracking do Passo 2, que cont√©m informa√ß√µes sobre nosso modelo fonte e os modelos candidatos que vamos avaliar. Esse dataframe vai servir como nosso reposit√≥rio central pra todas as m√©tricas de avalia√ß√£o durante o workshop.

In [None]:
# üìä CARREGANDO NOSSO TRACKING
evaluation_tracking_file = '../data/evaluation_tracking.csv'
evaluation_tracking = pd.read_csv(evaluation_tracking_file)
display(evaluation_tracking)

print("\nüí° Perfeito! Agora temos nosso plano de avalia√ß√£o carregado.")

### **Configura√ß√£o do Setup**

#### **Definindo Nossos Par√¢metros de Benchmarking**

Os par√¢metros chave que vamos configurar incluem:

In [None]:
# ‚öôÔ∏è CONFIGURANDO OS PAR√ÇMETROS DE TESTE

# Par√¢metros de benchmarking
BENCHMARK_CONFIG = {
    'invocations_per_scenario': 1,  # Repeti√ß√µes por prompt (workshop: 1, produ√ß√£o: 10+)
    'experiment_counts': 1,  # Vezes de repetir todo experimento (workshop: 1, produ√ß√£o: m√∫ltiplas)
    'num_parallel_calls': 1,  # Chamadas concorrentes (workshop: 1, produ√ß√£o: baseado na concorr√™ncia)
    'timeout_seconds': 300,  # Timeout pra cada chamada (5 minutos)
    'retry_attempts': 3,  # Tentativas de retry em caso de erro
    'delay_between_calls': 1.0  # Delay entre chamadas (segundos)
}

print("‚öôÔ∏è CONFIGURA√á√ÉO DE BENCHMARKING:")
for key, value in BENCHMARK_CONFIG.items():
    print(f"‚Ä¢ {key}: {value}")

print("\nüí° Esses s√£o os par√¢metros que vamos usar pra medir a velocidade dos modelos.")
print("üí° Em produ√ß√£o, voc√™ aumentaria esses n√∫meros pra ter resultados mais confi√°veis.")

### **Configurando o Sistema de Logging**

Vamos configurar um sistema de logging robusto pra rastrear todas as nossas chamadas de API. √â como ter um "gravador de voo" que registra tudo que acontece durante os testes!

In [None]:
# üìù CONFIGURANDO O SISTEMA DE LOGGING
def setup_logging(model_id):
    """
    Configura o sistema de logging pra um modelo espec√≠fico.
    √â como configurar uma c√¢mera de seguran√ßa que filma tudo!
    """
    
    # Criando nome do arquivo de log
    timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')
    log_filename = f'model_latency_benchmarking_{model_id.replace(":", "-")}_{timestamp}.log'
    
    # Configurando o logger
    logging.basicConfig(
        level=logging.INFO,
        format='%(asctime)s - %(levelname)s - %(message)s',
        handlers=[
            logging.FileHandler(log_filename),
            logging.StreamHandler()
        ]
    )
    
    logger = logging.getLogger(__name__)
    logger.info(f"üöÄ Iniciando benchmark para modelo: {model_id}")
    logger.info(f"üìù Arquivo de log: {log_filename}")
    
    return logger, log_filename

print("‚úÖ Sistema de logging configurado! Vamos rastrear tudo que acontece.")

### **Configurando o Cliente Bedrock**

Vamos configurar o cliente Bedrock com configura√ß√µes otimizadas pra benchmarking. √â como ajustar o carro antes de uma corrida!

In [None]:
# üîß CONFIGURANDO O CLIENTE BEDROCK
def create_bedrock_client(region='us-east-1'):
    """
    Cria um cliente Bedrock otimizado pra benchmarking.
    √â como configurar um carro de corrida com as melhores configura√ß√µes!
    """
    
    # Configura√ß√µes otimizadas pra performance
    config = Config(
        region_name=region,
        retries={
            'max_attempts': 3,
            'mode': 'adaptive'
        },
        connect_timeout=60,
        read_timeout=300
    )
    
    client = boto3.client('bedrock-runtime', config=config)
    
    return client

print("‚úÖ Cliente Bedrock configurado com otimiza√ß√µes de performance!")

### **Fun√ß√£o Principal de Benchmarking**

Agora vamos criar a fun√ß√£o principal que vai fazer o trabalho pesado de medir a lat√™ncia. √â como ter um cron√¥metro profissional que mede tudo com precis√£o!

In [None]:
# ‚è±Ô∏è FUN√á√ÉO PRINCIPAL DE BENCHMARKING
def benchmark_model_latency(model_id, prompt, dataset_path, logger):
    """
    Executa o benchmark de lat√™ncia para um modelo espec√≠fico.
    √â como cronometrar cada volta de uma corrida!
    """
    
    results = []
    client = create_bedrock_client()
    
    # Carregando o dataset
    dataset = pd.read_csv(dataset_path)
    logger.info(f"ÔøΩÔøΩ Dataset carregado: {len(dataset)} amostras")
    
    # Loop principal de benchmarking
    for scenario_idx in range(BENCHMARK_CONFIG['experiment_counts']):
        logger.info(f"üîÑ Experimento {scenario_idx + 1}/{BENCHMARK_CONFIG['experiment_counts']}")
        
        for invocation_idx in range(BENCHMARK_CONFIG['invocations_per_scenario']):
            logger.info(f"  üìù Invoca√ß√£o {invocation_idx + 1}/{BENCHMARK_CONFIG['invocations_per_scenario']}")
            
            # Processando cada documento no dataset
            for doc_idx, row in dataset.iterrows():
                document = row['document']
                reference_response = row['referenceResponse']
                
                # Formatando o prompt
                formatted_prompt = prompt.format(context=document)
                
                # Fazendo a chamada da API
                start_time = time.time()
                
                try:
                    # Preparando a requisi√ß√£o
                    request_body = {
                        'messages': [
                            {
                                'role': 'user',
                                'content': [{'text': formatted_prompt}]
                            }
                        ],
                        'inferenceConfig': {
                            'temperature': 0.7,
                            'maxTokens': 1000,
                            'topP': 0.9
                        }
                    }
                    
                    # Chamada da API
                    response = client.converse(
                        modelId=model_id,
                        body=json.dumps(request_body)
                    )
                    
                    end_time = time.time()
                    
                    # Extraindo a resposta
                    model_response = response['output']['message']['content'][0]['text']
                    
                    # Calculando m√©tricas
                    total_latency = end_time - start_time
                    
                    # Extraindo informa√ß√µes de tokens (se dispon√≠vel)
                    input_tokens = response.get('usage', {}).get('inputTokens', 0)
                    output_tokens = response.get('usage', {}).get('outputTokens', 0)
                    
                    # Criando resultado
                    result = {
                        'model': model_id,
                        'region': 'us-east-1',
                        'inference_profile': 'standard',
                        'document': document,
                        'referenceResponse': reference_response,
                        'model_response': model_response,
                        'latency': total_latency,
                        'model_latencyMs': total_latency * 1000,  # Convertendo pra milissegundos
                        'model_input_tokens': input_tokens,
                        'model_output_tokens': output_tokens,
                        'status': 'success',
                        'timestamp': datetime.now().isoformat()
                    }
                    
                    results.append(result)
                    
                    logger.info(f"    ‚úÖ Documento {doc_idx + 1}: {total_latency:.3f}s")
                    
                except Exception as e:
                    end_time = time.time()
                    total_latency = end_time - start_time
                    
                    result = {
                        'model': model_id,
                        'region': 'us-east-1',
                        'inference_profile': 'standard',
                        'document': document,
                        'referenceResponse': reference_response,
                        'model_response': f"ERROR: {str(e)}",
                        'latency': total_latency,
                        'model_latencyMs': total_latency * 1000,
                        'model_input_tokens': 0,
                        'model_output_tokens': 0,
                        'status': 'error',
                        'error_message': str(e),
                        'timestamp': datetime.now().isoformat()
                    }
                    
                    results.append(result)
                    logger.error(f"    ‚ùå Documento {doc_idx + 1}: Erro - {str(e)}")
                
                # Delay entre chamadas
                time.sleep(BENCHMARK_CONFIG['delay_between_calls'])
    
    logger.info(f"üéâ Benchmark conclu√≠do para {model_id}!")
    logger.info(f"üìä Total de resultados: {len(results)}")
    
    return results

print("‚úÖ Fun√ß√£o de benchmarking criada! Vamos come√ßar a medir!")

### **Executando os Benchmarks**

Agora vamos executar os benchmarks pra todos os nossos modelos candidatos. √â como fazer uma corrida cronometrada com todos os carros!

In [None]:
# üèÅ EXECUTANDO OS BENCHMARKS
print("ÔøΩÔøΩ INICIANDO BENCHMARKS DE LAT√äNCIA...")
print("=" * 60)

all_results = []
dataset_path = '../data/document_sample_10.csv'  # Usando amostra pequena pro workshop

for index, row in evaluation_tracking.iterrows():
    model_id = row['model']
    prompt = row['text_prompt']
    
    # Pular se n√£o tem prompt (modelo fonte)
    if not prompt or model_id == 'source_model':
        print(f"‚è≠Ô∏è Pulando {model_id} (sem prompt ou modelo fonte)")
        continue
    
    print(f"\nüéØ BENCHMARK PARA: {model_id}")
    print("-" * 40)
    
    # Configurando logging
    logger, log_filename = setup_logging(model_id)
    
    try:
        # Executando benchmark
        results = benchmark_model_latency(model_id, prompt, dataset_path, logger)
        all_results.extend(results)
        
        # Salvando resultados
        results_df = pd.DataFrame(results)
        timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')
        output_filename = f'../outputs/document_summarization_{model_id.replace(":", "-")}_{timestamp}.csv'
        results_df.to_csv(output_filename, index=False)
        
        print(f"‚úÖ Resultados salvos em: {output_filename}")
        print(f"ÔøΩÔøΩ Total de amostras: {len(results)}")
        
        # Estat√≠sticas r√°pidas
        successful_results = [r for r in results if r['status'] == 'success']
        if successful_results:
            latencies = [r['latency'] for r in successful_results]
            print(f"‚è±Ô∏è Lat√™ncia m√©dia: {np.mean(latencies):.3f}s")
            print(f"‚è±Ô∏è Lat√™ncia mediana: {np.median(latencies):.3f}s")
            print(f"‚è±Ô∏è Lat√™ncia P90: {np.percentile(latencies, 90):.3f}s")
        
    except Exception as e:
        print(f"‚ùå Erro no benchmark de {model_id}: {str(e)}")
        logger.error(f"Erro fatal: {str(e)}")

print("\n" + "=" * 60)
print("üéâ TODOS OS BENCHMARKS CONCLU√çDOS!")

### **Analisando os Resultados**

Agora vamos dar uma olhada nos resultados que coletamos. √â como analisar os tempos de uma corrida pra ver quem foi mais r√°pido!

In [None]:
# üìä ANALISANDO OS RESULTADOS
print("ÔøΩÔøΩ AN√ÅLISE DOS RESULTADOS DE LAT√äNCIA")
print("=" * 50)

# Carregando todos os resultados salvos
import glob
import os

output_directory = '../outputs'
csv_files = glob.glob(os.path.join(output_directory, 'document_summarization_*.csv'))

all_data = []
for file in csv_files:
    if 'source_model' not in file:  # Excluindo modelo fonte
        df = pd.read_csv(file)
        all_data.append(df)

if all_data:
    combined_df = pd.concat(all_data, ignore_index=True)
    
    print(f"üìä Total de amostras coletadas: {len(combined_df)}")
    print(f"üéØ Modelos testados: {combined_df['model'].unique()}")
    
    # Estat√≠sticas por modelo
    print("\nüìà ESTAT√çSTICAS POR MODELO:")
    print("-" * 40)
    
    for model in combined_df['model'].unique():
        model_data = combined_df[combined_df['model'] == model]
        successful_data = model_data[model_data['status'] == 'success']
        
        if len(successful_data) > 0:
            latencies = successful_data['latency']
            
            print(f"\nüéØ {model}:")
            print(f"  üìä Amostras: {len(successful_data)}")
            print(f"  ‚è±Ô∏è M√©dia: {latencies.mean():.3f}s")
            print(f"  ‚è±Ô∏è Mediana: {latencies.median():.3f}s")
            print(f"  ‚è±Ô∏è P90: {latencies.quantile(0.9):.3f}s")
            print(f"  ‚è±Ô∏è M√≠n: {latencies.min():.3f}s")
            print(f"  ‚è±Ô∏è M√°x: {latencies.max():.3f}s")
            print(f"  üìà Desvio Padr√£o: {latencies.std():.3f}s")
        else:
            print(f"\n‚ùå {model}: Nenhum resultado bem-sucedido")

else:
    print("‚ùå Nenhum resultado encontrado. Verifique se os benchmarks foram executados.")

### **Visualizando os Resultados**

Vamos criar algumas visualiza√ß√µes pra entender melhor os resultados. √â como transformar n√∫meros em gr√°ficos que contam uma hist√≥ria!

In [None]:
# ÔøΩÔøΩ CRIANDO VISUALIZA√á√ïES
if 'combined_df' in locals() and len(combined_df) > 0:
    # Filtrando apenas resultados bem-sucedidos
    successful_df = combined_df[combined_df['status'] == 'success']
    
    if len(successful_df) > 0:
        fig, axes = plt.subplots(2, 2, figsize=(15, 10))
        
        # Gr√°fico 1: Boxplot de lat√™ncia por modelo
        models = successful_df['model'].unique()
        latency_data = [successful_df[successful_df['model'] == model]['latency'] for model in models]
        
        axes[0, 0].boxplot(latency_data, labels=models)
        axes[0, 0].set_title('‚è±Ô∏è Distribui√ß√£o de Lat√™ncia por Modelo')
        axes[0, 0].set_ylabel('Lat√™ncia (segundos)')
        axes[0, 0].tick_params(axis='x', rotation=45)
        
        # Gr√°fico 2: Histograma de lat√™ncia
        for model in models:
            model_data = successful_df[successful_df['model'] == model]['latency']
            axes[0, 1].hist(model_data, alpha=0.7, label=model, bins=10)
        
        axes[0, 1].set_title('üìä Distribui√ß√£o de Lat√™ncia')
        axes[0, 1].set_xlabel('Lat√™ncia (segundos)')
        axes[0, 1].set_ylabel('Frequ√™ncia')
        axes[0, 1].legend()
        
        # Gr√°fico 3: Lat√™ncia vs tokens de entrada
        for model in models:
            model_data = successful_df[successful_df['model'] == model]
            axes[1, 0].scatter(model_data['model_input_tokens'], 
                              model_data['latency'], 
                              alpha=0.6, label=model)
        
        axes[1, 0].set_title('ÔøΩÔøΩ Lat√™ncia vs Tokens de Entrada')
        axes[1, 0].set_xlabel('Tokens de Entrada')
        axes[1, 0].set_ylabel('Lat√™ncia (segundos)')
        axes[1, 0].legend()
        
        # Gr√°fico 4: Compara√ß√£o de m√©tricas
        metrics_comparison = []
        model_names = []
        
        for model in models:
            model_data = successful_df[successful_df['model'] == model]['latency']
            metrics_comparison.append([
                model_data.mean(),
                model_data.median(),
                model_data.quantile(0.9)
            ])
            model_names.append(model.split('.')[-1])  # Nome mais curto
        
        metrics_comparison = np.array(metrics_comparison)
        x = np.arange(len(model_names))
        width = 0.25
        
        axes[1, 1].bar(x - width, metrics_comparison[:, 0], width, label='M√©dia', alpha=0.8)
        axes[1, 1].bar(x, metrics_comparison[:, 1], width, label='Mediana', alpha=0.8)
        axes[1, 1].bar(x + width, metrics_comparison[:, 2], width, label='P90', alpha=0.8)
        
        axes[1, 1].set_title('üìà Compara√ß√£o de M√©tricas de Lat√™ncia')
        axes[1, 1].set_xlabel('Modelo')
        axes[1, 1].set_ylabel('Lat√™ncia (segundos)')
        axes[1, 1].set_xticks(x)
        axes[1, 1].set_xticklabels(model_names)
        axes[1, 1].legend()
        
        plt.tight_layout()
        plt.show()
        
        print("\nüí° O que esses gr√°ficos nos dizem?")
        print("‚Ä¢ O boxplot mostra a distribui√ß√£o de lat√™ncia de cada modelo")
        print("‚Ä¢ O histograma mostra como a lat√™ncia se distribui")
        print("‚Ä¢ O scatter plot mostra se h√° rela√ß√£o entre tamanho do input e lat√™ncia")
        print("‚Ä¢ O gr√°fico de barras compara as m√©tricas principais")
    
else:
    print("‚ùå N√£o h√° dados suficientes para criar visualiza√ß√µes.")

### **Resumo do Passo 3**

 **Parab√©ns!** Voc√™ acabou de completar o terceiro passo da nossa jornada de migra√ß√£o. Vamos recapitular o que fizemos:

‚úÖ **Entendemos a import√¢ncia da lat√™ncia**: Velocidade √© crucial em aplica√ß√µes reais
‚úÖ **Configuramos benchmarking robusto**: Sistema completo de medi√ß√£o
‚úÖ **Executamos testes de lat√™ncia**: Medimos a velocidade de todos os modelos
‚úÖ **Coletamos m√©tricas detalhadas**: Lat√™ncia, tokens, status de cada chamada
‚úÖ **Analisamos os resultados**: Estat√≠sticas e visualiza√ß√µes
‚úÖ **Salvamos dados estruturados**: CSV com todos os resultados

### **O Que Vem no Pr√≥ximo Passo**

No pr√≥ximo notebook, vamos fazer algo super importante: **avaliar a qualidade**! √â como provar a comida depois de cronometrar o tempo de preparo. Vamos usar o LLM-as-a-Judge do Bedrock pra avaliar automaticamente a qualidade das respostas que geramos.

---

**üí° Dica do Pedro**: Lat√™ncia √© s√≥ uma parte da hist√≥ria! Um modelo pode ser r√°pido, mas se a qualidade for ruim, n√£o adianta nada. √â como ter um carro r√°pido que quebra toda hora!

**üöÄ Pr√≥ximo passo**: Avalia√ß√£o de qualidade com LLM-as-a-Judge