# üöÄ **Passo 1: Preparando os Dados e Definindo o Que Queremos**

## **Aula 1.1: Entendendo o Problema**

---

### **T√°, mas o que √© migra√ß√£o de modelo?**

Imagina que voc√™ tem um funcion√°rio super caro que faz um trabalho √≥timo, mas t√° pesando no bolso da empresa. A√≠ voc√™ descobre que tem outros candidatos que fazem o mesmo trabalho, √†s vezes at√© melhor, por um pre√ßo muito menor. √â isso que a gente vai fazer aqui - s√≥ que em vez de funcion√°rios, s√£o modelos de IA! üòÑ

**Por que migra√ß√£o de modelo √© importante?**

√â como trocar de plano de celular: √†s vezes voc√™ paga caro por algo que nem usa tanto, e tem planos melhores por menos dinheiro. Com IA √© a mesma coisa - modelos novos aparecem todo dia, e alguns s√£o mais baratos e r√°pidos que os antigos.

---

**üñºÔ∏è Sugest√£o de imagem**: Um gr√°fico mostrando custos de diferentes modelos de IA

### **Nosso Cen√°rio de Neg√≥cio**

Vamos simular uma situa√ß√£o real:

- **Problema**: Uma empresa usa um modelo propriet√°rio caro pra fazer resumos de documentos
- **Dor**: O modelo √© bom, mas t√° custando uma fortuna pra rodar
- **Solu√ß√£o**: Vamos testar modelos mais baratos do Amazon Bedrock

### **Crit√©rios de Sucesso**

√â como quando voc√™ vai comprar um carro - voc√™ tem uma lista do que quer:

| Crit√©rio | O Que Queremos | Como Medir |
|----------|----------------|------------|
| **Qualidade** | Resumos t√£o bons quanto os atuais | IA avaliando os resumos |
| **Velocidade** | Pelo menos t√£o r√°pido quanto | Cron√¥metro nas respostas |
| **Custo** | Mais barato que o atual | Calculadora de pre√ßos |

Vamos come√ßar explorando nossos dados e analisando como o modelo atual t√° performando!

In [None]:
# üõ†Ô∏è INSTALANDO AS FERRAMENTAS
!pip install --upgrade numexpr

### **Preparando o Dataset**

#### **Sobre o Dataset**

Um dataset de qualidade √© fundamental pro sucesso da migra√ß√£o. √â como ter uma r√©gua boa pra medir - se a r√©gua t√° torta, todas as medidas v√£o dar errado!

Vamos usar o dataset [EdinburghNLP/xsum](https://huggingface.co/datasets/EdinburghNLP/xsum), que √© tipo um "padr√£o ouro" pra resumos. Ele tem not√≠cias da BBC com resumos escritos por humanos - perfeito pra testar se nossos modelos conseguem fazer resumos t√£o bons quanto pessoas reais.

Selecionamos 10 amostras representativas pra manter o workshop r√°pido e eficiente. Essas amostras representam v√°rios tamanhos e n√≠veis de complexidade pra dar uma avalia√ß√£o robusta.

> **üí° Dica do Pedro**: Se voc√™ t√° rodando isso no seu ambiente, pode substituir por seu pr√≥prio dataset. S√≥ certifique que tem as colunas `document` e `referenceResponse`. Se quiser ver como preprocessamos o dataset, d√° uma olhada no arquivo `src/dataset.py`.

Vamos dar uma olhada no que nossos dados parecem:

In [None]:
# ÔøΩÔøΩ DANDO UMA OLHADA NOS DADOS
! head -5 ../data/document_sample_10.csv

### **An√°lise do Modelo Fonte**

#### **Medindo a Performance Atual**

> **üí° Nota**: Num cen√°rio real de migra√ß√£o, voc√™ coletaria essas m√©tricas do seu sistema de produ√ß√£o. Se voc√™ t√° construindo uma aplica√ß√£o nova, pode n√£o ter um modelo fonte pra comparar.

Um passo cr√≠tico no processo de migra√ß√£o √© estabelecer uma linha de base confi√°vel pro seu modelo atual. √â como marcar onde voc√™ t√° antes de come√ßar uma corrida - sem isso, como voc√™ vai saber se melhorou?

Pra esse workshop, j√° geramos respostas do nosso modelo fonte hipot√©tico usando o dataset.

> **üí° Dica do Pedro**: Se quiser usar seu pr√≥prio modelo fonte (tipo GPT-4o-mini da OpenAI ou outro), pode gerar respostas seguindo o mesmo formato e substituir o arquivo CSV fornecido.

Vamos examinar uma das respostas do modelo fonte pra entender suas caracter√≠sticas de performance:

In [None]:
# ÔøΩÔøΩ ANALISANDO O MODELO FONTE
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configurando o visual
plt.style.use('default')
sns.set_palette("husl")

# Carregando os dados do modelo fonte
source_model_data = pd.read_csv('../outputs/document_summarization_source_model.csv')

print("üìä ESTAT√çSTICAS DO MODELO FONTE:")
print(f"ÔøΩÔøΩ Total de amostras: {len(source_model_data)}")
print(f"‚è±Ô∏è Lat√™ncia m√©dia: {source_model_data['latency'].mean():.3f} segundos")
print(f"üí∞ Custo m√©dio: ${source_model_data['cost'].mean():.6f} por infer√™ncia")
print(f"üî§ Tokens de entrada m√©dios: {source_model_data['model_input_tokens'].mean():.1f}")
print(f"üî§ Tokens de sa√≠da m√©dios: {source_model_data['model_output_tokens'].mean():.1f}")

# Vamos dar uma olhada numa resposta espec√≠fica
print("\nÔøΩÔøΩ EXEMPLO DE RESPOSTA:")
sample_response = source_model_data.iloc[0]
print(f"Documento original: {sample_response['document'][:200]}...")
print(f"Resumo gerado: {sample_response['model_response']}")
print(f"Resumo de refer√™ncia: {sample_response['referenceResponse']}")

### **Visualizando a Performance**

Vamos criar alguns gr√°ficos pra entender melhor como o modelo fonte t√° performando:

In [None]:
# ÔøΩÔøΩ CRIANDO VISUALIZA√á√ïES
fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# Gr√°fico 1: Distribui√ß√£o de lat√™ncia
axes[0, 0].hist(source_model_data['latency'], bins=20, alpha=0.7, color='skyblue')
axes[0, 0].set_title('‚è±Ô∏è Distribui√ß√£o de Lat√™ncia')
axes[0, 0].set_xlabel('Lat√™ncia (segundos)')
axes[0, 0].set_ylabel('Frequ√™ncia')

# Gr√°fico 2: Distribui√ß√£o de custos
axes[0, 1].hist(source_model_data['cost'], bins=20, alpha=0.7, color='lightgreen')
axes[0, 1].set_title('üí∞ Distribui√ß√£o de Custos')
axes[0, 1].set_xlabel('Custo por infer√™ncia ($)')
axes[0, 1].set_ylabel('Frequ√™ncia')

# Gr√°fico 3: Tokens de entrada vs sa√≠da
axes[1, 0].scatter(source_model_data['model_input_tokens'], 
                   source_model_data['model_output_tokens'], 
                   alpha=0.6, color='orange')
axes[1, 0].set_title('üî§ Tokens de Entrada vs Sa√≠da')
axes[1, 0].set_xlabel('Tokens de Entrada')
axes[1, 0].set_ylabel('Tokens de Sa√≠da')

# Gr√°fico 4: Lat√™ncia vs custo
axes[1, 1].scatter(source_model_data['latency'], 
                   source_model_data['cost'], 
                   alpha=0.6, color='purple')
axes[1, 1].set_title('‚è±Ô∏è Lat√™ncia vs Custo')
axes[1, 1].set_xlabel('Lat√™ncia (segundos)')
axes[1, 1].set_ylabel('Custo ($)')

plt.tight_layout()
plt.show()

print("\nüí° O que esses gr√°ficos nos dizem?")
print("‚Ä¢ A lat√™ncia varia bastante - alguns documentos s√£o mais complexos que outros")
print("‚Ä¢ O custo t√° relacionado com a quantidade de tokens")
print("‚Ä¢ Documentos maiores geram resumos maiores (faz sentido!)")

### **Definindo Nossos Crit√©rios de Sucesso**

Agora que entendemos como o modelo fonte t√° performando, vamos definir o que significa "sucesso" pra nossa migra√ß√£o. √â como definir as regras de um jogo - todo mundo precisa saber o que √© vit√≥ria!

Vamos criar um dataframe de tracking que vai acompanhar todas as nossas avalia√ß√µes:

In [None]:
# ÔøΩÔøΩ CRIANDO NOSSO SISTEMA DE TRACKING
import pandas as pd
from datetime import datetime

# Definindo os modelos que vamos testar
models_to_evaluate = [
    'source_model',  # Nosso baseline
    'amazon.nova-lite-v1:0',  # Modelo da Amazon (barato e r√°pido)
    'us.anthropic.claude-3-5-haiku-20241022-v1:0'  # Claude Haiku (bom custo-benef√≠cio)
]

# Criando o dataframe de tracking
evaluation_tracking = pd.DataFrame({
    'model': models_to_evaluate,
    'region': 'us-east-1',  # Regi√£o da AWS
    'inference_profile': 'standard',  # Perfil de infer√™ncia
    'text_prompt': '',  # Vamos preencher isso no pr√≥ximo passo
    'quality_evaluation_jobArn': '',  # Vamos preencher isso depois
    'quality_evaluation_output': ''  # Vamos preencher isso depois
})

print("üìä NOSSO PLANO DE AVALIA√á√ÉO:")
print(evaluation_tracking)

# Salvando o tracking
evaluation_tracking.to_csv('../data/evaluation_tracking.csv', index=False)
print("\n‚úÖ Tracking salvo! Vamos usar isso pra acompanhar todo o processo.")

### **Resumo do Passo 1**

ÔøΩÔøΩ **Parab√©ns!** Voc√™ acabou de completar o primeiro passo da nossa jornada de migra√ß√£o. Vamos recapitular o que fizemos:

‚úÖ **Entendemos o problema**: Modelo caro que precisa ser substitu√≠do
‚úÖ **Analisamos os dados**: Dataset de qualidade pra testar
‚úÖ **Estabelecemos baseline**: Performance atual do modelo fonte
‚úÖ **Definimos crit√©rios**: O que significa sucesso
‚úÖ **Criamos tracking**: Sistema pra acompanhar tudo

### **O Que Vem no Pr√≥ximo Passo**

No pr√≥ximo notebook, vamos fazer algo super legal: **otimizar prompts**! √â como ensinar cada modelo a falar da melhor forma poss√≠vel. Diferentes modelos respondem melhor a diferentes tipos de instru√ß√µes, ent√£o vamos usar o Amazon Bedrock Prompt Optimizer pra fazer essa m√°gica acontecer.

---

**ÔøΩÔøΩ Dica do Pedro**: Lembre-se, migra√ß√£o de modelo n√£o √© s√≥ trocar um pelo outro - √© um processo cuidadoso que precisa de dados, m√©tricas e muito teste!

**üöÄ Pr√≥ximo passo**: Otimiza√ß√£o de prompts com Bedrock Prompt Optimizer