# üöÄ **Passo 4: Avaliando a Qualidade das Respostas**

## **Aula 4.1: Por Que Qualidade √© Importante?**

---

### **T√°, mas o que √© avalia√ß√£o de qualidade?**

Imagina que voc√™ pediu um hamb√∫rguer num restaurante. O gar√ßom trouxe em 2 minutos (r√°pido!), mas quando voc√™ mordeu, tava cru por dentro! Velocidade sem qualidade n√£o serve pra nada. √â exatamente isso que vamos avaliar aqui - n√£o s√≥ se o modelo √© r√°pido, mas se ele faz um trabalho BOM! üòÑ

**Por que avalia√ß√£o de qualidade √© importante?**

Um modelo pode ser super r√°pido e barato, mas se ele gera resumos que n√£o fazem sentido ou perdem informa√ß√µes importantes, de que adianta? √â como ter um funcion√°rio que trabalha r√°pido mas faz tudo errado - n√£o √© √∫til pra ningu√©m!

### **Entendendo a Avalia√ß√£o LLM-as-a-Judge**

LLM-as-a-Judge funciona assim:

1. **Pega** as respostas do seu modelo junto com respostas de refer√™ncia (verdade absoluta)
2. **Usa** um modelo avaliador especializado pra julgar a qualidade
3. **Fornece** scores padronizados em dimens√µes como corre√ß√£o, completude e estilo

Essa abordagem oferece v√°rias vantagens sobre avalia√ß√£o humana tradicional:
- **Consist√™ncia**: Aplica os mesmos padr√µes em todas as respostas
- **Escalabilidade**: Pode avaliar milhares de respostas rapidamente
- **Objetividade**: Reduz vi√©s humano no processo
- **Reprodutibilidade**: Produz resultados consistentes pra mesmos inputs

### **Nossa Abordagem de Avalia√ß√£o**

Pra esse workshop, vamos:
1. **Formatar** as respostas geradas no Passo 3 pra avalia√ß√£o
2. **Criar** jobs de avalia√ß√£o separados pra cada modelo
3. **Fazer upload** dos datasets pro S3 pra processamento
4. **Configurar** e iniciar os jobs de avalia√ß√£o
5. **Armazenar** refer√™ncias dos jobs pra an√°lise no pr√≥ximo passo

Vamos come√ßar garantindo que temos as depend√™ncias necess√°rias instaladas:

---

**üñºÔ∏è Sugest√£o de imagem**: Um juiz com martelo avaliando respostas de IA

In [None]:
# üõ†Ô∏è IMPORTANDO AS FERRAMENTAS NECESS√ÅRIAS
import boto3
import json
import random
from datetime import datetime
from typing import List, Dict, Any, Optional
import pandas as pd
import glob
import os
from IPython.display import display

# Inicializando clientes AWS
bedrock_client = boto3.client('bedrock')
s3_client = boto3.client('s3')

print("‚úÖ Ferramentas importadas! Vamos avaliar a qualidade!")

### **Pr√©-requisitos**

Pra esse notebook funcionar com sucesso, voc√™ precisa de:

- **Role IAM com Permiss√µes Adequadas**: Pra criar jobs de avalia√ß√£o e acessar S3
  - _Nota: No workshop hospedado, essas roles s√£o pr√©-configuradas pra voc√™_
  - _Pra aprendizes autodidatas: Siga as instru√ß√µes do workshop pra criar a role necess√°ria_
- **Bucket S3**: Pra armazenar datasets de avalia√ß√£o e resultados
  - _Nota: O workshop cria isso automaticamente com as permiss√µes corretas_
  - _Pra aprendizes autodidatas: Crie seu pr√≥prio bucket e atualize o nome do bucket neste notebook_
- **Modelos de Avalia√ß√£o**: Acesso a modelos como Claude Haiku/Sonnet, Amazon Nova

In [None]:
# ‚öôÔ∏è CONFIGURA√á√ÉO AWS
account_id = boto3.client('sts').get_caller_identity().get('Account')

ROLE_ARN = f"arn:aws:iam::{account_id}:role/service-role/Bedrock-LLM-as-a-Judge-ExecutionRole"

BUCKET_NAME = f"genai-evaluation-migration-bucket-{account_id}"
PREFIX = "genai_migration"

print(f"üè¢ Account ID: {account_id}")
print(f"üîë Role ARN: {ROLE_ARN}")
print(f"ü™£ Bucket: {BUCKET_NAME}")
print(f"üìÅ Prefix: {PREFIX}")

### **Carregando Nosso Progresso**

Vamos carregar nosso dataframe de tracking do Passo 3, que cont√©m informa√ß√µes sobre nosso modelo fonte e os modelos candidatos que vamos avaliar. Esse dataframe vai servir como nosso reposit√≥rio central pra todas as m√©tricas de avalia√ß√£o durante o workshop.

In [None]:
# üìä CARREGANDO NOSSO TRACKING
evaluation_tracking_file = '../data/evaluation_tracking.csv'
evaluation_tracking = pd.read_csv(evaluation_tracking_file)
display(evaluation_tracking)

print("\nüí° Perfeito! Agora temos nosso plano de avalia√ß√£o carregado.")

### **Prepara√ß√£o de Dados pra Avalia√ß√£o de Qualidade**

#### **Formatando Respostas pro LLM-as-a-Judge**

O LLM-as-a-Judge precisa dos dados num formato espec√≠fico. √â como preparar a comida pro juiz de um concurso culin√°rio - tem que estar na apresenta√ß√£o certa!

Vamos formatar as respostas que geramos no Passo 3 pro formato que o LLM-as-a-Judge espera:

In [None]:
# üìù FUN√á√ÉO PRA FORMATAR DADOS PRA AVALIA√á√ÉO
def format_data_for_evaluation(model_id, output_file_path):
    """
    Formata os dados de um modelo espec√≠fico pro formato do LLM-as-a-Judge.
    √â como traduzir um documento pra uma l√≠ngua que o juiz entende!
    """
    
    try:
        # Carregando os dados do modelo
        model_data = pd.read_csv(output_file_path)
        
        # Filtrando apenas resultados bem-sucedidos
        successful_data = model_data[model_data['status'] == 'success']
        
        if len(successful_data) == 0:
            print(f"‚ö†Ô∏è Nenhum resultado bem-sucedido encontrado para {model_id}")
            return None
        
        # Formatando pro formato do LLM-as-a-Judge
        evaluation_data = []
        
        for _, row in successful_data.iterrows():
            evaluation_entry = {
                'prompt': row['document'],  # O documento original
                'referenceResponse': row['referenceResponse'],  # Resposta de refer√™ncia
                'modelResponses': [
                    {
                        'response': row['model_response'],  # Resposta do modelo
                        'modelId': model_id
                    }
                ]
            }
            evaluation_data.append(evaluation_entry)
        
        print(f"‚úÖ {model_id}: {len(evaluation_data)} amostras formatadas")
        return evaluation_data
        
    except Exception as e:
        print(f"‚ùå Erro ao formatar dados para {model_id}: {str(e)}")
        return None

print("‚úÖ Fun√ß√£o de formata√ß√£o criada! Vamos preparar os dados.")

In [None]:
# ÔøΩÔøΩ PREPARANDO DADOS PRA TODOS OS MODELOS
print("ÔøΩÔøΩ PREPARANDO DADOS PRA AVALIA√á√ÉO...")
print("=" * 50)

# Encontrando todos os arquivos de sa√≠da
output_directory = '../outputs'
csv_files = glob.glob(os.path.join(output_directory, 'document_summarization_*.csv'))

evaluation_datasets = {}

for file_path in csv_files:
    # Extraindo o nome do modelo do nome do arquivo
    filename = os.path.basename(file_path)
    
    # Identificando o modelo baseado no nome do arquivo
    if 'source_model' in filename:
        model_id = 'source_model'
    elif 'amazon.nova-lite' in filename:
        model_id = 'amazon.nova-lite-v1:0'
    elif 'claude-3-5-haiku' in filename:
        model_id = 'us.anthropic.claude-3-5-haiku-20241022-v1:0'
    else:
        print(f"‚ö†Ô∏è Modelo n√£o reconhecido em: {filename}")
        continue
    
    print(f"\nüéØ Processando: {model_id}")
    
    # Formatando os dados
    formatted_data = format_data_for_evaluation(model_id, file_path)
    
    if formatted_data:
        evaluation_datasets[model_id] = formatted_data
        
        # Salvando localmente tamb√©m (pra backup)
        local_filename = f'../outputs/quality_evaluation.{model_id}.jsonl'
        with open(local_filename, 'w') as f:
            for entry in formatted_data:
                f.write(json.dumps(entry) + '\n')
        
        print(f"ÔøΩÔøΩ Dados salvos localmente: {local_filename}")

print(f"\n‚úÖ Total de modelos preparados: {len(evaluation_datasets)}")

### **Upload dos Datasets pro S3**

Agora vamos fazer upload dos datasets formatados pro S3. O LLM-as-a-Judge precisa dos dados no S3 pra processar. √â como enviar os documentos pro tribunal!

In [None]:
# ‚òÅÔ∏è FUN√á√ÉO PRA FAZER UPLOAD PRO S3
def upload_dataset_to_s3(model_id, evaluation_data):
    """
    Faz upload do dataset de avalia√ß√£o pro S3.
    √â como enviar os documentos pro tribunal via correio!
    """
    
    try:
        # Criando nome √∫nico pro arquivo
        timestamp = datetime.now().strftime('%Y-%m-%d-%H-%M-%S')
        s3_key = f"{PREFIX}/evaluation_datasets/{model_id.replace(':', '-')}_{timestamp}.jsonl"
        
        # Convertendo dados pra JSONL
        jsonl_content = ''
        for entry in evaluation_data:
            jsonl_content += json.dumps(entry) + '\n'
        
        # Fazendo upload pro S3
        s3_client.put_object(
            Bucket=BUCKET_NAME,
            Key=s3_key,
            Body=jsonl_content.encode('utf-8'),
            ContentType='application/json'
        )
        
        print(f"‚úÖ Upload conclu√≠do: s3://{BUCKET_NAME}/{s3_key}")
        return s3_key
        
    except Exception as e:
        print(f"‚ùå Erro no upload para {model_id}: {str(e)}")
        return None

print("‚úÖ Fun√ß√£o de upload criada! Vamos enviar os dados pro S3.")

In [None]:
# üöÄ FAZENDO UPLOAD DE TODOS OS DATASETS
print("‚òÅÔ∏è FAZENDO UPLOAD DOS DATASETS...")
print("=" * 50)

s3_keys = {}

for model_id, evaluation_data in evaluation_datasets.items():
    print(f"\nüì§ Upload para: {model_id}")
    
    s3_key = upload_dataset_to_s3(model_id, evaluation_data)
    
    if s3_key:
        s3_keys[model_id] = s3_key
        
        # Atualizando o tracking
        evaluation_tracking.loc[evaluation_tracking['model'] == model_id, 'quality_evaluation_output'] = s3_key

print(f"\n‚úÖ Uploads conclu√≠dos: {len(s3_keys)} datasets")
print("\nÔøΩÔøΩ Resumo dos uploads:")
for model_id, s3_key in s3_keys.items():
    print(f"‚Ä¢ {model_id}: {s3_key}")

### **Configurando e Iniciando Jobs de Avalia√ß√£o**

Agora vamos configurar e iniciar os jobs de avalia√ß√£o do LLM-as-a-Judge. √â como abrir os processos no tribunal!

In [None]:
# ‚öñÔ∏è FUN√á√ÉO PRA CRIAR JOB DE AVALIA√á√ÉO
def create_evaluation_job(model_id, s3_key):
    """
    Cria um job de avalia√ß√£o LLM-as-a-Judge pra um modelo espec√≠fico.
    √â como abrir um processo no tribunal com todas as evid√™ncias!
    """
    
    try:
        # Configurando o job de avalia√ß√£o
        job_name = f"llmaaj-{model_id.replace(':', '-').replace('.', '-')}-{datetime.now().strftime('%Y-%m-%d-%H-%M-%S')}"
        
        # Configura√ß√£o do job
        evaluation_config = {
            'jobName': job_name,
            'jobDescription': f'Avalia√ß√£o de qualidade para {model_id}',
            'roleArn': ROLE_ARN,
            'evaluationConfig': {
                'taskType': 'General',
                'datasetConfig': {
                    'datasetType': 'CustomDataset',
                    's3Uri': f's3://{BUCKET_NAME}/{s3_key}'
                },
                'modelConfig': {
                    'modelId': model_id
                },
                'evaluationMetrics': [
                    'Builtin.Correctness',
                    'Builtin.Completeness',
                    'Builtin.ProfessionalStyleAndTone'
                ],
                'evaluatorConfig': {
                    'evaluatorModelId': 'amazon.nova-pro-v1:0'
                }
            },
            'outputConfig': {
                's3Uri': f's3://{BUCKET_NAME}/{PREFIX}/evaluation_results/'
            }
        }
        
        # Criando o job
        response = bedrock_client.create_evaluation_job(**evaluation_config)
        
        job_arn = response['evaluationJobArn']
        
        print(f"‚úÖ Job criado: {job_name}")
        print(f"ÔøΩÔøΩ ARN: {job_arn}")
        
        return job_arn
        
    except Exception as e:
        print(f"‚ùå Erro ao criar job para {model_id}: {str(e)}")
        return None

print("‚úÖ Fun√ß√£o de cria√ß√£o de job criada! Vamos iniciar as avalia√ß√µes.")

In [None]:
# ÔøΩÔøΩ INICIANDO TODOS OS JOBS DE AVALIA√á√ÉO
print("‚öñÔ∏è INICIANDO JOBS DE AVALIA√á√ÉO...")
print("=" * 50)

job_arns = {}

for model_id, s3_key in s3_keys.items():
    print(f"\nüéØ Iniciando avalia√ß√£o para: {model_id}")
    
    job_arn = create_evaluation_job(model_id, s3_key)
    
    if job_arn:
        job_arns[model_id] = job_arn
        
        # Atualizando o tracking
        evaluation_tracking.loc[evaluation_tracking['model'] == model_id, 'quality_evaluation_jobArn'] = job_arn

print(f"\n‚úÖ Jobs iniciados: {len(job_arns)}")
print("\nÔøΩÔøΩ Resumo dos jobs:")
for model_id, job_arn in job_arns.items():
    print(f"‚Ä¢ {model_id}: {job_arn}")

### **Monitorando o Status dos Jobs**

Agora vamos monitorar o status dos jobs de avalia√ß√£o. √â como acompanhar o progresso dos processos no tribunal!

In [None]:
# ÔøΩÔøΩ FUN√á√ÉO PRA MONITORAR STATUS DOS JOBS
def check_job_status(job_arn):
    """
    Verifica o status de um job de avalia√ß√£o.
    √â como verificar se o processo j√° foi julgado!
    """
    
    try:
        response = bedrock_client.get_evaluation_job(jobIdentifier=job_arn)
        status = response['status']
        
        return status
        
    except Exception as e:
        print(f"‚ùå Erro ao verificar status: {str(e)}")
        return 'ERROR'

print("‚úÖ Fun√ß√£o de monitoramento criada! Vamos verificar os status.")

In [None]:
# ÔøΩÔøΩ VERIFICANDO STATUS DOS JOBS
print("ÔøΩÔøΩ STATUS DOS JOBS DE AVALIA√á√ÉO:")
print("=" * 50)

for model_id, job_arn in job_arns.items():
    print(f"\nüéØ {model_id}:")
    
    status = check_job_status(job_arn)
    
    if status == 'InProgress':
        print(f"  ÔøΩÔøΩ Status: {status} (Em andamento)")
    elif status == 'Completed':
        print(f"  ‚úÖ Status: {status} (Conclu√≠do)")
    elif status == 'Failed':
        print(f"  ‚ùå Status: {status} (Falhou)")
    else:
        print(f"  ‚ö†Ô∏è Status: {status} (Desconhecido)")

print("\nüí° Os jobs podem demorar alguns minutos para completar.")
print("üí° Voc√™ pode verificar o status novamente executando esta c√©lula.")

### **Salvando Nosso Progresso**

Vamos salvar nosso dataframe atualizado com todas as informa√ß√µes dos jobs de avalia√ß√£o. Isso vai ser crucial pro pr√≥ximo passo!

In [None]:
# üíæ SALVANDO O TRACKING ATUALIZADO
evaluation_tracking.to_csv('../data/evaluation_tracking.csv', index=False)

print("‚úÖ Tracking atualizado salvo!")
print("\nüìä RESUMO DO QUE FIZEMOS:")
print(f"‚Ä¢ Modelos preparados: {len(evaluation_datasets)}")
print(f"‚Ä¢ Datasets enviados pro S3: {len(s3_keys)}")
print(f"‚Ä¢ Jobs de avalia√ß√£o criados: {len(job_arns)}")
print(f"‚Ä¢ Arquivo salvo: ../data/evaluation_tracking.csv")

# Mostrando o status final
display(evaluation_tracking[['model', 'quality_evaluation_jobArn', 'quality_evaluation_output']])

### **Verifica√ß√£o Final dos Jobs**

Vamos fazer uma verifica√ß√£o final pra ver se todos os jobs est√£o rodando corretamente:

In [None]:
# üîç VERIFICA√á√ÉO FINAL DOS JOBS
print("üîç VERIFICA√á√ÉO FINAL DOS JOBS:")
print("=" * 40)

completed_jobs = 0
in_progress_jobs = 0
failed_jobs = 0

for model_id, job_arn in job_arns.items():
    status = check_job_status(job_arn)
    
    if status == 'Completed':
        completed_jobs += 1
        print(f"‚úÖ {model_id}: Conclu√≠do")
    elif status == 'InProgress':
        in_progress_jobs += 1
        print(f"ÔøΩÔøΩ {model_id}: Em andamento")
    elif status == 'Failed':
        failed_jobs += 1
        print(f"‚ùå {model_id}: Falhou")
    else:
        print(f"‚ö†Ô∏è {model_id}: Status desconhecido ({status})")

print(f"\nÔøΩÔøΩ RESUMO:")
print(f"‚Ä¢ Conclu√≠dos: {completed_jobs}")
print(f"‚Ä¢ Em andamento: {in_progress_jobs}")
print(f"‚Ä¢ Falharam: {failed_jobs}")

if in_progress_jobs > 0:
    print(f"\n‚è∞ {in_progress_jobs} jobs ainda est√£o rodando.")
    print("ÔøΩÔøΩ Voc√™ pode aguardar alguns minutos e executar esta c√©lula novamente.")
    print("ÔøΩÔøΩ Ou prosseguir para o pr√≥ximo passo e verificar os resultados depois.")

### **Resumo do Passo 4**

 **Parab√©ns!** Voc√™ acabou de completar o quarto passo da nossa jornada de migra√ß√£o. Vamos recapitular o que fizemos:

‚úÖ **Entendemos a import√¢ncia da qualidade**: Velocidade sem qualidade n√£o serve
‚úÖ **Formatamos dados pra avalia√ß√£o**: Preparamos tudo pro LLM-as-a-Judge
‚úÖ **Fizemos upload pro S3**: Enviamos os dados pro "tribunal"
‚úÖ **Criamos jobs de avalia√ß√£o**: Abrimos os processos
‚úÖ **Monitoramos o progresso**: Acompanhamos o status dos jobs
‚úÖ **Salvamos refer√™ncias**: Tracking atualizado com ARNs dos jobs

### **O Que Vem no Pr√≥ximo Passo**

No pr√≥ximo notebook, vamos fazer a **compara√ß√£o final**! √â como reunir todos os ju√≠zes pra dar o veredicto final. Vamos consolidar todas as m√©tricas (lat√™ncia, qualidade e custo) e gerar um relat√≥rio completo que vai nos ajudar a tomar a decis√£o final sobre qual modelo usar.

---

**üí° Dica do Pedro**: Avalia√ß√£o de qualidade √© crucial! Um modelo pode ser r√°pido e barato, mas se a qualidade for ruim, voc√™ vai ter que refazer tudo depois. √â como comprar um carro barato que quebra toda semana!

**üöÄ Pr√≥ximo passo**: Compara√ß√£o final e gera√ß√£o de relat√≥rio