# üöÄ **Passo 5: Compara√ß√£o Final e Decis√£o**

## **Aula 5.1: O Momento da Verdade**

---

### **T√°, mas o que √© compara√ß√£o final?**

Imagina que voc√™ t√° comprando um carro e testou tr√™s op√ß√µes diferentes. Agora chegou a hora de reunir todas as informa√ß√µes: qual √© mais r√°pido, qual √© mais econ√¥mico, qual √© mais confi√°vel, e qual oferece o melhor custo-benef√≠cio. √â exatamente isso que vamos fazer aqui - s√≥ que em vez de carros, s√£o modelos de IA! üòÑ

**Por que compara√ß√£o final √© importante?**

At√© agora medimos velocidade, qualidade e custo separadamente. Mas na vida real, voc√™ precisa tomar uma decis√£o baseada em TUDO junto. √â como escolher um restaurante: n√£o √© s√≥ o pre√ßo, n√£o √© s√≥ a velocidade, n√£o √© s√≥ a qualidade - √© a combina√ß√£o de tudo!

### **O Que Voc√™ Vai Ganhar Desta An√°lise**

Este notebook produz dois artefatos chave:

1. **Relat√≥rio PDF de An√°lise**: Um documento abrangente com visualiza√ß√µes comparando modelos em todas as dimens√µes
2. **Resumo CSV**: Dados brutos pra an√°lise adicional ou integra√ß√£o com outras m√©tricas de neg√≥cio

Vamos come√ßar consolidando nossos resultados de avalia√ß√£o!

---

**üñºÔ∏è Sugest√£o de imagem**: Um gr√°fico de radar mostrando m√∫ltiplas dimens√µes de performance

In [None]:
# üõ†Ô∏è IMPORTANDO AS FERRAMENTAS NECESS√ÅRIAS
import json
import boto3
import numpy as np
from scipy import stats
import pandas as pd
import glob
import os
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import display, HTML
from matplotlib.backends.backend_pdf import PdfPages
import datetime
import sys
from IPython.display import display

sys.path.append("../")

from src import pricing
from src import generate_analysis_report

print("‚úÖ Ferramentas importadas! Vamos fazer a compara√ß√£o final!")

In [None]:
# ‚öôÔ∏è CONFIGURA√á√ÉO AWS
account_id = boto3.client('sts').get_caller_identity().get('Account')

BUCKET_NAME = f"genai-evaluation-migration-bucket-{account_id}"
PREFIX = "genai_migration"

print(f"üè¢ Account ID: {account_id}")
print(f"ü™£ Bucket: {BUCKET_NAME}")
print(f"üìÅ Prefix: {PREFIX}")

### **Carregando Dados de Avalia√ß√£o**

#### **Recuperando Nossas Informa√ß√µes de Tracking**

Antes de analisar nossos modelos, precisamos acessar as informa√ß√µes de tracking mantidas durante todo o processo de avalia√ß√£o. Carregando essas informa√ß√µes de tracking primeiro, estabelecemos uma base pra nossa an√°lise consolidada e garantimos que estamos trabalhando com metadados consistentes dos modelos durante todo o processo de compara√ß√£o.

> **üí° Nota para Aprendizes Autodidatas**: Se voc√™ modificou qualquer caminho ou nome de arquivo durante os passos anteriores, certifique-se de que essas mudan√ßas est√£o refletidas no caminho do arquivo de tracking abaixo. O processo de avalia√ß√£o depende de informa√ß√µes de tracking consistentes em todos os notebooks.

In [None]:
# üìä CARREGANDO NOSSO TRACKING
evaluation_tracking_file = '../data/evaluation_tracking.csv'
evaluation_tracking = pd.read_csv(evaluation_tracking_file)
display(evaluation_tracking)

print("\nüí° Perfeito! Agora temos nosso plano de avalia√ß√£o carregado.")

### **Prepara√ß√£o da An√°lise de Custos**

#### **Calculando Custos por Requisi√ß√£o e Proje√ß√µes**

Enquanto estamos aguardando nossos jobs de avalia√ß√£o de qualidade LLM-as-a-Judge completarem, podemos analisar o impacto econ√¥mico de cada op√ß√£o de modelo. Considera√ß√µes de custo s√£o cruciais pra implanta√ß√µes de produ√ß√£o, j√° que mesmo pequenas diferen√ßas por requisi√ß√£o podem resultar em despesas operacionais significativas em escala.

Nossa an√°lise de custo inclui dois componentes chave:

1. **Custo por Infer√™ncia**: Calculado baseado no uso de tokens da nossa avalia√ß√£o de lat√™ncia
   custo_por_inferencia = (tokens_entrada √ó pre√ßo_token_entrada) + (tokens_sa√≠da √ó pre√ßo_token_sa√≠da)
   
   Essas informa√ß√µes de custo ser√£o cruciais ao fazer a sele√ß√£o final do modelo, permitindo-nos balancear performance e qualidade contra restri√ß√µes or√ßament√°rias. Em ambientes de produ√ß√£o, essa an√°lise pode ser estendida para incluir custos mensais projetados baseados em volumes de requisi√ß√£o esperados.

2. **Custos de Servi√ßos Auxiliares**: Despesas adicionais al√©m da infer√™ncia direta do modelo
   - **LLM-as-a-Judge**: Cobrado baseado no uso do modelo avaliador
   - **Otimiza√ß√£o de Prompt**: Cobrado por token para prompts de entrada e otimizados

> **üí° Nota do Workshop**: Os pre√ßos do AWS Bedrock s√£o atualizados periodicamente. Para os pre√ßos mais atuais, consulte a [P√°gina de Pre√ßos do Bedrock](https://aws.amazon.com/bedrock/pricing/).

In [None]:
# ÔøΩÔøΩ CONFIGURANDO O DIRET√ìRIO
directory = "../outputs"
print(f"ÔøΩÔøΩ Diret√≥rio de sa√≠da: {directory}")

In [None]:
# üí∞ CALCULANDO CUSTOS PRA TODOS OS MODELOS
calculator = pricing.PriceCalculator()

# Encontrando todos os arquivos CSV correspondentes
all_files = glob.glob(os.path.join(directory, "document_summarization_*.csv"))

print("üí∞ CALCULANDO CUSTOS...")
print("=" * 40)

# Processando cada arquivo
for filename in all_files:
    print(f"\nüìä Processando {os.path.basename(filename)}...")
    
    # Lendo o arquivo CSV
    document_summarization_df = pd.read_csv(filename)

    model_id = document_summarization_df["model"][0]  # Mudando o nome de volta pra combinar com a config de pre√ßos
    
    print(f"üéØ Modelo: {model_id}")
    print(f"ÔøΩÔøΩ Total de linhas: {len(document_summarization_df)}")
    
    # Calculando custos de entrada para todas as linhas de uma vez
    input_costs = document_summarization_df["model_input_tokens"].apply(
        lambda tokens: calculator.calculate_input_price(tokens, model_id)
    )

    # Calculando custos de sa√≠da para todas as linhas de uma vez
    output_costs = document_summarization_df["model_output_tokens"].apply(
        lambda tokens: calculator.calculate_output_price(tokens, model_id)
    )
    
    # Calculando custos totais
    document_summarization_df["cost"] = (input_costs + output_costs).round(6)

    # Escrevendo de volta no mesmo arquivo
    document_summarization_df.to_csv(filename, index=False)
    print(f"‚úÖ Custos calculados e salvos!")
    
    # Mostrando estat√≠sticas r√°pidas
    avg_cost = document_summarization_df["cost"].mean()
    total_cost = document_summarization_df["cost"].sum()
    print(f"üí∞ Custo m√©dio por infer√™ncia: ${avg_cost:.6f}")
    print(f"üí∞ Custo total: ${total_cost:.6f}")

print("\nüéâ C√°lculo de custos conclu√≠do!")
print("üí° Agora todos os arquivos t√™m informa√ß√µes de custo inclu√≠das.")

### **Economia da Otimiza√ß√£o de Prompts**

#### **Calculando o Custo da Melhoria Autom√°tica de Prompts**

Al√©m da infer√™ncia do modelo e avalia√ß√£o de qualidade, nosso processo de migra√ß√£o aproveita o servi√ßo de Otimiza√ß√£o de Prompts do Amazon Bedrock pra melhorar a efic√°cia dos prompts entre modelos. Como outros servi√ßos de IA, essa capacidade tem sua pr√≥pria estrutura de pre√ßos que deve ser considerada no custo total da migra√ß√£o.

#### **Entendendo a Precifica√ß√£o da Otimiza√ß√£o de Prompts**

O Bedrock cobra pela otimiza√ß√£o de prompts baseado no volume de tokens:

- **Taxa**: $0.030 por 1.000 tokens
- **Tokens Contados**: Tanto prompts de entrada quanto prompts de sa√≠da otimizados
- **Ciclo de Cobran√ßa**: Mensal, baseado no uso total de tokens

Esse modelo de pre√ßos significa que os custos escalam com tanto o tamanho dos seus prompts quanto o n√∫mero de otimiza√ß√µes que voc√™ executa. Para a maioria dos cen√°rios de migra√ß√£o, isso representa um pequeno custo √∫nico, mas ainda √© valioso estimar para planejamento or√ßament√°rio completo.

#### **Exemplo de C√°lculo**

Pra ilustrar como os custos de otimiza√ß√£o de prompts funcionam na pr√°tica, considere este exemplo:

Um desenvolvedor de aplica√ß√£o otimiza um prompt de sumariza√ß√£o de not√≠cias originalmente escrito para Claude 3.5:
- Prompt original: 429 tokens
- Prompt otimizado para Claude 3.5: 511 tokens
- Este prompt otimizado √© ent√£o usado como entrada para gerar variantes para:
  - Claude 3.7: 582 tokens
  - Nova Pro: 579 tokens

**C√°lculo de tokens**:
- Tokens de entrada: 429 + 511 + 511 = 1.451 tokens
- Tokens de sa√≠da: 511 + 582 + 579 = 1.672 tokens
- Total de tokens: 3.123 tokens

**C√°lculo de custo**:
3.123 tokens √∑ 1.000 √ó $0.03 = $0.09

Para nosso cen√°rio de workshop, a otimiza√ß√£o de prompts representa uma despesa m√≠nima comparada aos custos cont√≠nuos de infer√™ncia, mas rastre√°-la fornece uma imagem completa da economia da migra√ß√£o.

> **üí° Nota do Workshop**: Em sistemas de produ√ß√£o, a otimiza√ß√£o de prompts pode ser executada periodicamente conforme os modelos evoluem ou os requisitos mudam. Embora o custo por otimiza√ß√£o seja baixo, empresas com muitos prompts diferentes devem contabilizar isso em seus or√ßamentos operacionais.

In [None]:
# üí∞ CALCULANDO CUSTO DA OTIMIZA√á√ÉO DE PROMPTS
print("üí∞ CUSTO DA OTIMIZA√á√ÉO DE PROMPTS:")
print("=" * 40)

# Calculando tokens totais para otimiza√ß√£o de prompts
input_prompt_len = 0
optimized_prompts = []

for index, evaluation in evaluation_tracking.iterrows():
    model_id = evaluation['model']
    if model_id == "source_model":
        input_prompt_len = len(evaluation['text_prompt'])
    else:
        optimized_prompts.append(evaluation['text_prompt']) 

total_prompt_len = sum(len(prompt) for prompt in optimized_prompts) + input_prompt_len * len(optimized_prompts)

# Estimativa de custo (aproximadamente 4 caracteres por token)
prompt_optimization_cost = total_prompt_len/4/1000 * 0.03

print(f"ÔøΩÔøΩ Tokens de entrada: {input_prompt_len}")
print(f"ÔøΩÔøΩ Prompts otimizados: {len(optimized_prompts)}")
print(f"üìù Total de caracteres: {total_prompt_len}")
print(f"üí∞ Custo estimado para otimiza√ß√£o de prompts: ${prompt_optimization_cost:.6f}")

print("\nüí° Este √© um custo √∫nico que representa a otimiza√ß√£o dos prompts para diferentes modelos.")

### **Entendendo Custos do LLM-as-a-Judge**

#### **Quebrando a Economia da Avalia√ß√£o**

Al√©m do custo direto da infer√™ncia do modelo, √© importante contabilizar a despesa da pr√≥pria avalia√ß√£o de qualidade. LLM-as-a-Judge √© um m√©todo poderoso de avalia√ß√£o, mas tamb√©m tem custos associados que devem ser considerados no seu planejamento de migra√ß√£o.

#### **Componentes de Pre√ßos**

O Bedrock cobra pelas avalia√ß√µes LLM-as-a-Judge baseado nos seguintes componentes:

1. **Infer√™ncia do Modelo**: O custo principal √© pelo uso do modelo avaliador
   - Scores algor√≠tmicos gerados automaticamente s√£o fornecidos sem cobran√ßas adicionais
   - Para avalia√ß√£o baseada em humanos com seu pr√≥prio workstream, h√° uma cobran√ßa de $0.21 por tarefa humana completada

2. **Consumo de Tokens**: Cada avalia√ß√£o envolve v√°rios componentes:
   - **Prompts do Juiz**: Cada m√©trica/avaliador usa seu pr√≥prio [prompt especializado](https://docs.aws.amazon.com/bedrock/latest/userguide/model-evaluation-type-judge-prompt-nova.html) (~300 tokens por m√©trica)
   - **Conte√∫do de Entrada**: Os prompts originais e respostas do modelo sendo avaliados
   - **Resultados de Sa√≠da**: Sa√≠da JSON com scores de avalia√ß√£o (~20 tokens por m√©trica)

#### **F√≥rmula de C√°lculo de Custo**

Para or√ßamenta√ß√£o precisa, podemos estimar custos de avalia√ß√£o usando esta f√≥rmula para cada m√©trica:

Custo de Avalia√ß√£o = [((Tokens nos prompts) + (Tokens nas respostas) + (Tokens do prompt do juiz))/1000 √ó (Pre√ßo do token de entrada do avaliador)] + [(Tokens de sa√≠da)/1000 √ó (Pre√ßo do token de sa√≠da do avaliador)]

Onde:
- Tokens de entrada = N√∫mero de tokens nos seus prompts + respostas + prompts do juiz (tipicamente ~300 tokens)
- Tokens de sa√≠da = N√∫mero de tokens na sa√≠da do avaliador (tipicamente ~20 tokens por m√©trica)

Esse entendimento detalhado dos custos de avalia√ß√£o ajuda a construir uma imagem econ√¥mica completa ao comparar diferentes op√ß√µes de modelo e planejar avalia√ß√£o cont√≠nua de qualidade em produ√ß√£o.

> **üí° Nota do Workshop**: Ao projetar sua estrat√©gia de avalia√ß√£o, considere o trade-off entre avalia√ß√£o abrangente (usando muitas m√©tricas) e efici√™ncia de custo. Para avalia√ß√µes de rotina, voc√™ pode selecionar um subconjunto menor de m√©tricas cr√≠ticas para controlar custos.

In [None]:
# üí∞ CONFIGURANDO CUSTOS DO AVALIADOR
evaluator_id = "amazon.nova-pro-v1:0"

evaluator_input_price = calculator.model_input_token_prices.get(evaluator_id)
evaluator_output_price = calculator.model_output_token_prices.get(evaluator_id)

print(f"‚öñÔ∏è Modelo avaliador: {evaluator_id}")
print(f"üí∞ Pre√ßo de entrada: ${evaluator_input_price}; pre√ßo de sa√≠da: ${evaluator_output_price}")

In [None]:
# üí∞ CALCULANDO CUSTOS DE AVALIA√á√ÉO DE QUALIDADE
print("üí∞ CUSTOS DE AVALIA√á√ÉO DE QUALIDADE:")
print("=" * 50)

# Verificando suas m√©tricas de avalia√ß√£o. Por padr√£o nosso workshop avalia 3 m√©tricas: "Builtin.Correctness", "Builtin.Completeness", "Builtin.ProfessionalStyleAndTone"

# Encontrando todos os arquivos json correspondentes
quality_evaluation_inputs = glob.glob(os.path.join(directory, "quality_evaluation*"))

# Processando cada arquivo
total_quality_evaluation_cost = 0

for filename in quality_evaluation_inputs:
    print(f"\nüìä Processando {os.path.basename(filename)}...")
    
    evaluation_price = 0
    with open(filename, 'r') as f:
        for line in f:
            data = json.loads(line)
            
            prompt_length = len(data["prompt"])
            reference_length = len(data["referenceResponse"])
            model_response_length = len(data["modelResponses"][0]["response"])
            
            # Calculando tokens de acordo com a f√≥rmula
            input_tokens = (prompt_length + reference_length + model_response_length) / 4 + 300  # 300 √© uma estimativa aproximada, veja detalhes acima
            output_tokens = 20  # √© uma estimativa aproximada
            
            # Calculando pre√ßo para esta entrada
            entry_price = (input_tokens/1000 * evaluator_input_price) + (output_tokens/1000 * evaluator_output_price)
            evaluation_price += entry_price
            
    print(f"ÔøΩÔøΩ Custo estimado por m√©trica para avaliar {os.path.basename(filename)}: ${evaluation_price:.6f}")
    total_quality_evaluation_cost += evaluation_price

## Avaliamos 3 m√©tricas: "Builtin.Correctness", "Builtin.Completeness", "Builtin.ProfessionalStyleAndTone"
total_quality_evaluation_cost = total_quality_evaluation_cost * 3

print(f"\nüí∞ Custo total estimado para avaliar: ${total_quality_evaluation_cost:.6f}")
print("üí° Este custo representa a avalia√ß√£o autom√°tica de qualidade usando LLM-as-a-Judge.")

### **Consolida√ß√£o de M√©tricas de Lat√™ncia e Custo de Infer√™ncia**

Nesta se√ß√£o, vamos importar e processar os dados de lat√™ncia coletados durante o Passo 3. Esses dados s√£o cruciais para entender as caracter√≠sticas de performance de cada modelo, particularmente para aplica√ß√µes com requisitos em tempo real ou experi√™ncias de usu√°rio interativas.

Ao comparar essas m√©tricas entre modelos, podemos identificar diferen√ßas de performance que podem impactar a experi√™ncia do usu√°rio em ambientes de produ√ß√£o. Isso √© especialmente importante para aplica√ß√µes com requisitos de lat√™ncia estritos ou aquelas que servem grandes n√∫meros de usu√°rios concorrentes.

In [None]:
# ÔøΩÔøΩ FUN√á√ïES PRA CONSOLIDAR DADOS DE LAT√äNCIA
def combine_latency_evaluation_files(directory):
    """Combina todos os arquivos CSV no diret√≥rio em um √∫nico DataFrame."""
    all_files = glob.glob(os.path.join(directory, "document_summarization_*.csv"))
    df_list = []
    for filename in all_files:
        df = pd.read_csv(filename)
        df_list.append(df)
    return pd.concat(df_list, axis=0, ignore_index=True)

def calculate_metrics(df, group_columns):
    """Calcula m√©tricas de lat√™ncia agrupadas por modelo, regi√£o e perfil de infer√™ncia."""
    metrics = df.groupby(group_columns).agg({
        'model_input_tokens': ['count', 'mean'],
        'model_output_tokens': ['mean'],
        'cost': ['mean'],
        'latency': ['mean', 'median', 
                             lambda x: x.quantile(0.9),lambda x: x.std()],
        'model_latencyMs': ['mean', 'median', 
                             lambda x: x.quantile(0.9),lambda x: x.std()]
    }).round(6)

    metrics.columns = ['sample_size', 
                      'avg_input_tokens',
                      'avg_output_tokens',
                       'avg_cost',
                       'latency_mean', 'latency_p50', 'latency_p90', 'latency_std',
                      'model_latencyMs_mean', 'model_latencyMs_p50', 'model_latencyMs_p90', 'model_latencyMs_std']
    
    metrics = metrics.reset_index()
    
    return metrics

print("‚úÖ Fun√ß√µes de consolida√ß√£o criadas! Vamos processar os dados.")

In [None]:
# ÔøΩÔøΩ CONSOLIDANDO DADOS DE LAT√äNCIA
print("üìä CONSOLIDANDO M√âTRICAS DE LAT√äNCIA...")
print("=" * 50)

latency_evaluation_raw = combine_latency_evaluation_files(directory)
metrics = calculate_metrics(latency_evaluation_raw, ['model', 'region', 'inference_profile'])

print("üéØ Modelos encontrados:")
for model in metrics["model"]:
    print(f"‚Ä¢ {model}")

display(metrics)

print("\nüí° Estas s√£o as m√©tricas consolidadas de lat√™ncia e custo para todos os modelos.")

### **Integra√ß√£o de M√©tricas de Qualidade**

Com nossas m√©tricas de lat√™ncia e custo preparadas, agora precisamos incorporar os resultados da avalia√ß√£o de qualidade dos nossos jobs LLM-as-a-Judge. Antes de analisar esses resultados, precisamos:
1. Verificar que todos os jobs de avalia√ß√£o completaram
2. Localizar os arquivos de sa√≠da no nosso bucket S3
3. Extrair e analisar os scores de avalia√ß√£o para cada modelo

Esses dados de qualidade completam nossa vis√£o tridimensional da performance do modelo (lat√™ncia, custo e qualidade), permitindo decis√µes de sele√ß√£o verdadeiramente informadas.

> **‚ö†Ô∏è Nota do Workshop**: Jobs de avalia√ß√£o podem demorar v√°rios minutos para completar. Se seus jobs ainda est√£o rodando, voc√™ pode monitorar o status no console AWS ou aguardar a conclus√£o antes de prosseguir.

In [None]:
# üîß CONFIGURANDO CLIENTES AWS
bedrock_client = boto3.client('bedrock')
s3_client = boto3.client('s3')

print("‚úÖ Clientes AWS configurados! Vamos verificar os jobs de avalia√ß√£o.")

In [None]:
# üîç FUN√á√ÉO PRA OBTER CHAVES DE SA√çDA DO S3
import re
from collections import defaultdict

def get_s3_output_keys(evaluation_tracking):
    # Inicializando estrutura de resultado
    result = {
        "model": [],
        "key": []
    }
    
    for index, evaluation in evaluation_tracking.iterrows():
        model_id = evaluation['model']
        evaluation_job_arn = evaluation['quality_evaluation_jobArn']

        # Verificando status do job
        check_status = bedrock_client.get_evaluation_job(jobIdentifier=evaluation_job_arn)
        print(f"{model_id}: {check_status['status']}")
        
        if check_status['status'] == "Completed":
            output_path = evaluation['quality_evaluation_output']
            try:
                response = s3_client.list_objects_v2(
                    Bucket=BUCKET_NAME,
                    Prefix=PREFIX
                )

                # Encontrando o arquivo JSONL de sa√≠da para este modelo
                for obj in response.get('Contents', []):
                    key = obj['Key']
                    # Adicionando verifica√ß√£o de identificador do modelo
                    if key.endswith('_output.jsonl') and model_id.replace(':', '-') in key:
                        result["model"].append(model_id)
                        result["key"].append(key)
                        break
            
            except Exception as e:
                print(f"‚ùå Erro listando objetos para {model_id}: {str(e)}")
        else:
            print("\x1b[31mJob de avalia√ß√£o de qualidade ainda est√° em andamento, por favor aguarde..\x1b[0m")
            sys.exit()
    
    return result

print("‚úÖ Fun√ß√£o de verifica√ß√£o criada! Vamos detectar as chaves automaticamente.")

In [None]:
# üîç DETECTANDO CHAVES DE SA√çDA DO S3
print("üîç DETECTANDO CHAVES DE SA√çDA DO S3...")
print("=" * 50)

# Uso
s3_output_keys = get_s3_output_keys(evaluation_tracking)

# Agora s3_output_keys cont√©m um dicion√°rio mapeando IDs de modelo para suas chaves de sa√≠da S3
print("\nÔøΩÔøΩ Chaves de sa√≠da S3 detectadas automaticamente:")
for model, key in zip(s3_output_keys["model"], s3_output_keys["key"]):
    print(f"  {model}: {key}")

In [None]:
# ÔøΩÔøΩ EXTRAINDO M√âTRICAS DE QUALIDADE
print("ÔøΩÔøΩ EXTRAINDO M√âTRICAS DE QUALIDADE...")
print("=" * 50)

### M√©tricas de qualidade
file_key_df = pd.DataFrame(s3_output_keys)
model_quality_list = []

for index, row in file_key_df.iterrows():  
    metrics_dict = {}

    model = row["model"]
    if row["key"] == "":
        continue
        
    response = s3_client.get_object(Bucket=BUCKET_NAME, Key=row["key"])
    content = response['Body'].read().decode('utf-8')
    
    for line in content.strip().split('\n'):
        if line:
            data = json.loads(line)
            if 'automatedEvaluationResult' in data and 'scores' in data['automatedEvaluationResult']:
                for score in data['automatedEvaluationResult']['scores']:
                    metric_name = score['metricName']
                    if 'result' in score:
                        metric_value = score['result']
                        if metric_name not in metrics_dict:
                            metrics_dict[metric_name] = []
                        metrics_dict[metric_name].append(metric_value)
    
    df = pd.DataFrame(metrics_dict)
    df['model'] = model
    model_quality_average = df.groupby("model").mean()
    model_quality_average = model_quality_average.reset_index()
    model_quality_list.append(model_quality_average)

model_quality = pd.concat(model_quality_list, axis=0, ignore_index=True)
print("ÔøΩÔøΩ M√âTRICAS DE QUALIDADE EXTRA√çDAS:")
print(model_quality)

print("\nüí° Estes s√£o os scores de qualidade para cada modelo.")
print("ÔøΩÔøΩ Scores v√£o de 0 a 1, onde 1 √© a melhor qualidade poss√≠vel.")

> **üí° Nota do Workshop**: Esses resultados de avalia√ß√£o podem n√£o conseguir diferenciar o suficiente entre os modelos. Isso √© porque temos um tamanho de amostra muito pequeno (n=10), por quest√£o de tempo. Em implementa√ß√£o real, voc√™ precisar√° aumentar o tamanho da amostra para medir com precis√£o a qualidade dos modelos.

### **An√°lise Consolidada de M√©tricas**

#### **Combinando Dados de Performance, Qualidade e Custo**

Com nossas m√©tricas de qualidade agora adicionadas aos nossos dados de performance e custo, temos uma vis√£o completa das capacidades de cada modelo. Este framework de m√©tricas consolidado nos permite:

1. **Comparar trade-offs**: Ver como os modelos balanceiam velocidade, qualidade e custo
2. **Identificar pontos fortes**: Determinar quais modelos se destacam em dimens√µes espec√≠ficas
3. **Combinar com requisitos**: Alinhar capacidades com prioridades espec√≠ficas da aplica√ß√£o

Esta an√°lise multidimensional √© essencial para tomar decis√µes informadas que v√£o al√©m do pensamento simplista de "melhor modelo". Diferentes aplica√ß√µes t√™m requisitos √∫nicos - um chatbot de atendimento ao cliente pode priorizar qualidade de resposta e tom, enquanto uma aplica√ß√£o de processamento de alto volume pode favorecer velocidade e efici√™ncia de custo.

O dataframe de m√©tricas mescladas que criamos serve como base para nossas visualiza√ß√µes e relat√≥rio final, fornecendo uma imagem clara das vantagens relativas de cada op√ß√£o de modelo.

In [None]:
# ÔøΩÔøΩ MESCLANDO M√âTRICAS
print("ÔøΩÔøΩ MESCLANDO M√âTRICAS...")
print("=" * 30)

## Mesclando m√©tricas para o dataframe de m√©tricas
metrics = pd.merge(metrics, model_quality, on=['model'])
display(metrics)

print("\nüéâ Todas as m√©tricas foram consolidadas em um √∫nico dataframe!")
print("üí° Agora temos lat√™ncia, custo e qualidade para todos os modelos.")

### **Resumo de An√°lise Aprimorado por IA**

#### **Usando LLMs para Interpretar Resultados de Avalia√ß√£o**

Uma das capacidades poderosas dos LLMs avan√ßados √© sua habilidade de analisar dados complexos e gerar resumos perspicazes. Nesta se√ß√£o, vamos aproveitar essa capacidade perguntando ao Claude Haiku para interpretar nossos resultados de avalia√ß√£o e fornecer um resumo conciso dos principais achados.

Esta abordagem demonstra um padr√£o importante para trabalhar com modelos foundation: us√°-los n√£o apenas como geradores de conte√∫do, mas como ferramentas anal√≠ticas que podem extrair insights de dados estruturados.

O resumo resultante fornece uma interpreta√ß√£o leg√≠vel por humanos dos nossos dados, complementando nossas visualiza√ß√µes e dados brutos com insights narrativos.

> **üí° Nota do Workshop**: Este padr√£o de "LLM como analista de dados" pode ser aplicado a muitos cen√°rios de business intelligence al√©m da avalia√ß√£o de modelos. Considere como sua organiza√ß√£o pode aproveitar modelos foundation para gerar insights de outros datasets complexos.

In [None]:
# ü§ñ CONFIGURANDO CLIENTE BEDROCK
client = boto3.client("bedrock-runtime")

print("‚úÖ Cliente Bedrock configurado! Vamos gerar insights com IA.")

In [None]:
# ü§ñ GERANDO RESUMO DE AN√ÅLISE
print("ü§ñ GERANDO RESUMO DE AN√ÅLISE COM IA...")
print("=" * 50)

summary_prompt = """Usando o dataset fornecido abaixo, crie um resumo conciso de 3 frases que identifica qual modelo performa melhor em cada uma dessas tr√™s categorias de m√©tricas:
1. M√©tricas de lat√™ncia (latency_mean, latency_p50, latency_p90)
2. M√©tricas de custo (avg_cost)
3. M√©tricas de qualidade (Builtin.Correctness e completude de sa√≠da como sugerido por avg_output_tokens)
4. N√£o comece com "Baseado no fornecido...", apenas d√™ seu resumo
O resumo deve declarar claramente qual modelo √© √≥timo para usu√°rios priorizando velocidade, efici√™ncia de custo ou qualidade de sa√≠da.

Dataset: {dataset}
"""

max_tokens=1000
temperature=0
top_p=0.9

response = client.converse(
    modelId="us.anthropic.claude-3-5-haiku-20241022-v1:0",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "text": summary_prompt.format(dataset=metrics)
                }
            ]
        }
    ],
    inferenceConfig={
        "temperature": temperature,
        "maxTokens": max_tokens,
        "topP": top_p
    }
)

analysis_summary = response['output']['message']['content'][0]['text']

print("üìä RESUMO DE AN√ÅLISE GERADO:")
print("-" * 40)
print(analysis_summary)

print("\nüí° Este resumo foi gerado automaticamente pela IA analisando nossos dados!")
print(" Ele nos d√° uma vis√£o r√°pida e objetiva dos resultados.")

### **Gera√ß√£o do Relat√≥rio Final**

#### **Criando Documenta√ß√£o de An√°lise Abrangente**

O culminar do nosso processo de avalia√ß√£o √© um relat√≥rio formatado profissionalmente que apresenta nossos achados em um formato claro e visualmente atraente. Este relat√≥rio serve m√∫ltiplos prop√≥sitos:

1. **Documenta√ß√£o**: Cria um registro permanente da nossa metodologia de avalia√ß√£o e resultados
2. **Comunica√ß√£o**: Fornece artefatos compartilh√°veis para discuss√µes com stakeholders
3. **Suporte √† Decis√£o**: Organiza informa√ß√µes para facilitar escolhas informadas

Nossa utilidade `generate_analysis_report` lida com o trabalho complexo de:
- Criar visualiza√ß√µes consistentes entre dimens√µes
- Formatar tabelas para legibilidade
- Gerar gr√°ficos de distribui√ß√£o de performance
- Incluir nosso resumo gerado por IA junto com m√©tricas brutas

A sa√≠da final inclui tanto um relat√≥rio PDF quanto um resumo CSV, fornecendo op√ß√µes tanto para revis√µes de alto n√≠vel quanto para an√°lise detalhada.

> **üí° Nota do Workshop**: Ap√≥s executar esta c√©lula, verifique o diret√≥rio `../outputs-analysis/` para visualizar seu relat√≥rio gerado. Este relat√≥rio pode servir como template para sua pr√≥pria documenta√ß√£o de avalia√ß√£o de modelos.

In [None]:
# üìä GERANDO RELAT√ìRIO FINAL
print("üìä GERANDO RELAT√ìRIO FINAL...")
print("=" * 50)

report = generate_analysis_report.Analysis_Report()
report.generate_report(latency_evaluation_raw, directory, metrics, analysis_summary, total_quality_evaluation_cost, prompt_optimization_cost)

print("\nüéâ RELAT√ìRIO GERADO COM SUCESSO!")
print("ÔøΩÔøΩ Verifique o diret√≥rio ../outputs-analysis/ para ver os arquivos gerados.")
print("ÔøΩÔøΩ Voc√™ encontrar√° um relat√≥rio PDF e um resumo CSV.")

### **Resumo e Principais Takeaways**

#### **Parab√©ns por Completar o Workshop de Avalia√ß√£o de Modelos!**

Voc√™ navegou com sucesso por todo o processo de avalia√ß√£o e migra√ß√£o de modelos, ganhando experi√™ncia pr√°tica com uma metodologia que pode ser aplicada aos seus pr√≥prios projetos GenAI. Neste notebook final, voc√™:

1. ‚úÖ **Consolidou m√©tricas multidimensionais** entre lat√™ncia, qualidade e custo
2. ‚úÖ **Calculou implica√ß√µes econ√¥micas** de diferentes escolhas de modelo em escala  
3. ‚úÖ **Analisou avalia√ß√µes de qualidade** das avalia√ß√µes LLM-as-a-Judge
4. ‚úÖ **Gerou insights aprimorados por IA** para interpretar dados complexos de avalia√ß√£o
5. ‚úÖ **Criou documenta√ß√£o profissional** para apoiar tomada de decis√£o

### **Principais Takeaways**

1. **Sele√ß√£o de Modelo √© Multidimensional**: Raramente h√° um √∫nico modelo "melhor" - diferentes modelos se destacam em √°reas diferentes, e a escolha √≥tima depende dos seus requisitos espec√≠ficos.
2. **Migra√ß√£o Baseada em Dados**: Migra√ß√µes bem-sucedidas de modelos requerem medi√ß√µes objetivas em vez de apenas suposi√ß√µes ou especifica√ß√µes.
3. **An√°lise de Trade-offs**: Entender a rela√ß√£o entre velocidade, qualidade e custo permite decis√µes informadas que balanceiam prioridades concorrentes.
4. **Documenta√ß√£o Importa**: Documenta√ß√£o completa da sua metodologia de avalia√ß√£o e resultados ajuda a construir consenso e apoiar decis√µes futuras de migra√ß√£o.
5. **Avalia√ß√£o Cont√≠nua**: Conforme novos modelos s√£o lan√ßados e existentes s√£o atualizados, o processo de avalia√ß√£o deve ser repetido periodicamente para garantir que voc√™ est√° usando componentes √≥timos.

### **Pr√≥ximos Passos**

Considere aplicar este framework de avalia√ß√£o aos seus pr√≥prios casos de uso:
- **Personalize crit√©rios de sucesso**: Defina thresholds espec√≠ficos de aceita√ß√£o baseados nos requisitos da sua aplica√ß√£o
- **Amplie a compara√ß√£o**: Avalie mais modelos entre diferentes provedores e arquiteturas
- **Expanda as m√©tricas**: Adicione crit√©rios de avalia√ß√£o espec√≠ficos do dom√≠nio relevantes para suas aplica√ß√µes
- **Continue otimiza√ß√£o de prompts**: Lembre-se que engenharia de prompts √© um esfor√ßo cont√≠nuo - considere construir um pipeline sistem√°tico para testar varia√ß√µes de prompts com m√©tricas automatizadas ou avalia√ß√£o human-in-the-loop
- **Explore mais op√ß√µes de Infer√™ncia**: Aprenda e explore mais op√ß√µes de otimiza√ß√£o de infer√™ncia no Bedrock que podem melhorar a lat√™ncia para seus casos de uso, ex: [Infer√™ncia Otimizada](https://docs.aws.amazon.com/bedrock/latest/userguide/latency-optimized-inference.html), [Cache de Prompts](https://docs.aws.amazon.com/bedrock/latest/userguide/prompt-caching.html), [Perfil de Infer√™ncia](https://docs.aws.amazon.com/bedrock/latest/userguide/inference-profiles.html) e outros.
- **Construa componente de avalia√ß√£o RAG**: Se seu caso de uso requer uma base de conhecimento constru√≠da com RAG, considere adicionar um componente de avalia√ß√£o de qualidade para RAG. Op√ß√µes de avalia√ß√£o RAG incluem [Bedrock RAG evaluator](https://docs.aws.amazon.com/bedrock/latest/userguide/evaluation-kb.html), solu√ß√µes open source como [RAGAS](https://docs.ragas.io/en/stable/getstarted/rag_eval/). 
- **Automatize o workflow**: Integre estes passos de avalia√ß√£o no seu pipeline CI/CD para avalia√ß√£o cont√≠nua de modelos
- **Estabele√ßa loops de feedback**: Crie mecanismos para capturar dados de performance de produ√ß√£o para informar futuras otimiza√ß√µes de prompts e modelos

Obrigado por participar deste workshop! Esperamos que as habilidades e metodologia que voc√™ aprendeu ajudem voc√™ a tomar decis√µes confiantes e baseadas em dados sobre sele√ß√£o e migra√ß√£o de modelos na sua jornada GenAI.

---

**üí° Dica Final do Pedro**: Lembre-se, migra√ß√£o de modelo n√£o √© uma corrida - √© uma maratona! Tome seu tempo, teste bem, e sempre mantenha a qualidade em mente. √â melhor ter um modelo um pouco mais lento que funciona perfeitamente do que um super r√°pido que quebra toda hora!

**ÔøΩÔøΩ Pr√≥ximo passo**: Aplicar esta metodologia aos seus pr√≥prios projetos!