cuda
cpu
Dispositivo: {device}
PyTorch version: {torch.__version__}

### Instala√ß√£o de Depend√™ncias
Primeiro, garantimos que todas as bibliotecas necess√°rias estejam instaladas.

In [None]:
# Instala√ß√£o das depend√™ncias (executar apenas uma vez)
# !pip install transformers datasets evaluate sacrebleu pandas openpyxl torch peft sentencepiece

import warnings
warnings.filterwarnings('ignore')

# Imports principais
import os
import json
import torch
import pandas as pd
import numpy as np
from pathlib import Path

# Transformers e Datasets
from transformers import (
    MBart50TokenizerFast,
    MBartForConditionalGeneration,
    AutoTokenizer,
    AutoModelForSeq2SeqLM,
    Seq2SeqTrainer,
    Seq2SeqTrainingArguments,
    DataCollatorForSeq2Seq,
    EarlyStoppingCallback
)
from datasets import Dataset, DatasetDict

# Avalia√ß√£o
import evaluate

# PEFT para LoRA
from peft import LoraConfig, get_peft_model, TaskType

# Configura√ß√£o do dispositivo
preferred_device = "cuda"
device = torch.device(preferred_device if torch.cuda.is_available() else "cpu")
print(f"Dispositivo selecionado: {device}")
print(f"PyTorch version: {torch.__version__}")
if device.type == "cuda":
    print(f"GPU: {torch.cuda.get_device_name(0)}")
    print(f"Mem√≥ria GPU: {torch.cuda.get_device_properties(0).total_memory / 1e9:.2f} GB")
else:
    print("‚ö†Ô∏è GPU n√£o detectada - o treinamento ser√° mais lento em CPU")

Dispositivo selecionado: cpu (tentando usar cuda)
PyTorch version: 2.9.1+cpu
GPU n√£o detectada no momento.
  ‚Üí Se voc√™ tem uma GPU NVIDIA, confirme que os drivers/cuda est√£o instalados (execute `nvidia-smi`).
  ‚Üí Instale a vers√£o CUDA do PyTorch: `pip install 'torch==2.9.1+cu118' --index-url https://download.pytorch.org/whl/cu118`.
  ‚Üí Caso haja m√∫ltiplas GPUs, defina `CUDA_VISIBLE_DEVICES` antes de iniciar o notebook (por exemplo `CUDA_VISIBLE_DEVICES=0 jupyter lab`).


In [None]:
# Configura√ß√µes globais do projeto
CONFIG = {
    # Modelos
    "model_checkpoint": "facebook/mbart-large-50-many-to-many-mmt",  # Para fine-tuning
    "nllb_checkpoint": "facebook/nllb-200-distilled-600M",  # Para zero-shot (tem Guarani!)
    
    # Tokeniza√ß√£o
    "max_input_length": 128,
    "max_target_length": 128,
    
    # Treinamento (otimizado para LoRA com mBART)
    "learning_rate": 3e-5,
    "batch_size": 4,
    "num_epochs": 15,
    "weight_decay": 0.01,
    "warmup_ratio": 0.1,
    
    # Early stopping
    "early_stopping_patience": 5,
    
    # LoRA (Low-Rank Adaptation)
    "lora_r": 32,
    "lora_alpha": 64,
    "lora_dropout": 0.1,
    
    # Caminhos
    "data_path": "./data.xlsx",
    "results_dir": "./results",
    "models_dir": "./models",
    
    # Seed para reprodutibilidade
    "seed": 42
}

# Criar diret√≥rios
os.makedirs(CONFIG["results_dir"], exist_ok=True)
os.makedirs(CONFIG["models_dir"], exist_ok=True)

print("Configura√ß√µes carregadas:")
print(f"\nüì¶ Modelos:")
print(f"  Zero-shot: {CONFIG['nllb_checkpoint']} (NLLB com Guarani)")
print(f"  Fine-tune: {CONFIG['model_checkpoint']} (mBART-50)")
print(f"\n‚öôÔ∏è Hiperpar√¢metros de treinamento:")
print(f"  Learning rate: {CONFIG['learning_rate']}")
print(f"  Batch size: {CONFIG['batch_size']}")
print(f"  Epochs: {CONFIG['num_epochs']}")
print(f"  LoRA rank: {CONFIG['lora_r']}")

Configura√ß√µes carregadas:
  model_checkpoint: facebook/mbart-large-50-many-to-many-mmt
  max_input_length: 128
  max_target_length: 128
  learning_rate: 5e-05
  batch_size: 4
  num_epochs: 10
  weight_decay: 0.01
  warmup_steps: 100
  early_stopping_patience: 3
  lora_r: 16
  lora_alpha: 32
  lora_dropout: 0.05
  data_path: ./data.xlsx
  results_dir: ./results
  models_dir: ./models
  seed: 42


## 2. Justificativa do Modelo Escolhido

### Por que mBART-50?

Escolhemos o modelo **facebook/mbart-large-50-many-to-many-mmt** pelos seguintes motivos:

1. **Arquitetura Encoder-Decoder**: O mBART utiliza a arquitetura Transformer completa (encoder-decoder), ideal para tarefas de tradu√ß√£o autom√°tica, diferente de modelos apenas decoder (GPT) ou apenas encoder (BERT).

2. **Pr√©-treinamento Multil√≠ngue**: O modelo foi pr√©-treinado em 50 idiomas, incluindo o Portugu√™s. Embora n√£o inclua Tupi Antigo, o conhecimento multil√≠ngue pode ajudar na transfer√™ncia de padr√µes lingu√≠sticos.

3. **Many-to-Many**: Esta variante permite tradu√ß√£o entre qualquer par de idiomas suportados, facilitando a adapta√ß√£o para novos pares lingu√≠sticos.

4. **Suporte a L√≠nguas de Baixo Recurso**: O mBART foi projetado especificamente para cen√°rios de baixo recurso, onde h√° poucos dados de treinamento dispon√≠veis.

5. **Fine-tuning Eficiente**: Com t√©cnicas como LoRA (Low-Rank Adaptation), podemos fazer fine-tuning eficiente mesmo com recursos computacionais limitados.

### Alternativas Consideradas

| Modelo | Pr√≥s | Contras |
|--------|------|---------|
| **mBART-50** | Multil√≠ngue, encoder-decoder, bom para baixo recurso | Grande (1.2GB), requer GPU |
| **NLLB-200** | 200 idiomas, otimizado para tradu√ß√£o | Muito grande, pode ser lento |
| **mT5** | Flex√≠vel, multil√≠ngue | N√£o espec√≠fico para tradu√ß√£o |
| **T5** | Leve, r√°pido | Focado em ingl√™s |

---

## 3. Explica√ß√£o Matem√°tica das M√©tricas

### 3.1 BLEU (Bilingual Evaluation Understudy)

O BLEU mede a similaridade entre uma tradu√ß√£o candidata e uma ou mais tradu√ß√µes de refer√™ncia usando n-gramas.

**F√≥rmula:**

$$\text{BLEU} = BP \cdot \exp\left(\sum_{n=1}^{N} w_n \log p_n\right)$$

Onde:
- $p_n$ √© a precis√£o do n-grama: $p_n = \frac{\text{n-gramas correspondentes}}{\text{total de n-gramas na candidata}}$
- $w_n$ √© o peso para cada n-grama (geralmente $w_n = 1/N$)
- $BP$ √© a penalidade de brevidade:

$$BP = \begin{cases} 1 & \text{se } c > r \\ e^{1-r/c} & \text{se } c \leq r \end{cases}$$

Onde $c$ √© o comprimento da candidata e $r$ √© o comprimento da refer√™ncia.

### 3.2 chrF (Character-level F-score)

O chrF utiliza n-gramas de **caracteres** ao inv√©s de palavras, sendo mais robusto para l√≠nguas morfologicamente ricas.

**F√≥rmula:**

$$\text{chrF}_\beta = (1 + \beta^2) \cdot \frac{\text{chrP} \cdot \text{chrR}}{\beta^2 \cdot \text{chrP} + \text{chrR}}$$

Onde:
- $\text{chrP}$ = Precis√£o de n-gramas de caracteres
- $\text{chrR}$ = Recall de n-gramas de caracteres
- $\beta$ = Peso do recall (chrF1: $\beta=1$, chrF3: $\beta=3$)

**chrF1** ($\beta=1$): D√° peso igual para precis√£o e recall.

**chrF3** ($\beta=3$): D√° mais peso ao recall, √∫til quando queremos capturar mais do conte√∫do da refer√™ncia.

### Por que chrF √© importante para Tupi Antigo?

O Tupi Antigo possui morfologia complexa com prefixos, sufixos e varia√ß√µes ortogr√°ficas hist√≥ricas. M√©tricas baseadas em caracteres capturam melhor essas nuances do que m√©tricas baseadas em palavras.

---

## 4. Carregamento e Prepara√ß√£o dos Dados

### 4.1 Leitura do Corpus

O corpus paralelo Portugu√™s ‚Üî Tupi Antigo est√° armazenado em `data.xlsx` com as colunas:
- **Portugu√™s**: Frases em portugu√™s
- **Tupi Antigo**: Tradu√ß√µes correspondentes em Tupi Antigo

**Importante**: Preservamos acentos, diacr√≠ticos e grafia hist√≥rica do Tupi Antigo.

In [15]:
# Leitura do corpus
df = pd.read_excel(CONFIG["data_path"])

# Normalizar nomes das colunas (corrige encoding Portugu√äs -> Portugu√™s)
df.columns = df.columns.str.replace('Portugu√äs', 'Portugu√™s', regex=False)

print(f"Corpus carregado: {len(df)} pares de frases")
print(f"\nColunas: {list(df.columns)}")
print(f"\nPrimeiras 5 linhas:")
df.head()

Corpus carregado: 7097 pares de frases

Colunas: ['Portugu√™s', 'Tupi Antigo']

Primeiras 5 linhas:


Unnamed: 0,Portugu√™s,Tupi Antigo
0,Aparei as pontas deles,A√Æapyr-etab
1,Doravante assim procedo,Ko'yr√© emon√£ a√Æk√≥
2,As doen√ßas da alma do homem com ele saram bem,Ab√° 'anga mara'ara i pup√© op√ªe√Ær√°-katu
3,"√â discreta, falando aos homens",I kunus√£√Æ ab√° sup√© onhe'enga
4,"Para se vingar de seu c√£o que cria, um homem n...","O e√Æmbaba √Æag√ªara res√© o√Æepyka, ab√° n'o√Æmomba'..."


In [16]:
# Verificar informa√ß√µes do dataset
print("Informa√ß√µes do DataFrame:")
print(df.info())
print(f"\nValores nulos:")
print(df.isnull().sum())
print(f"\nEstat√≠sticas de comprimento (caracteres):")
df['len_pt'] = df['Portugu√™s'].astype(str).str.len()
df['len_ta'] = df['Tupi Antigo'].astype(str).str.len()
print(df[['len_pt', 'len_ta']].describe())

Informa√ß√µes do DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7097 entries, 0 to 7096
Data columns (total 2 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Portugu√™s    7097 non-null   object
 1   Tupi Antigo  7097 non-null   object
dtypes: object(2)
memory usage: 111.0+ KB
None

Valores nulos:
Portugu√™s      0
Tupi Antigo    0
dtype: int64

Estat√≠sticas de comprimento (caracteres):
            len_pt       len_ta
count  7097.000000  7097.000000
mean     35.728054    26.222911
std      21.140072    17.144765
min       3.000000     2.000000
25%      20.000000    13.000000
50%      31.000000    21.000000
75%      47.000000    36.000000
max     187.000000   136.000000


### 4.2 Limpeza e Normaliza√ß√£o

Realizamos limpeza dos dados conforme orienta√ß√£o do professor:

#### Texto em Portugu√™s:
1. **Remo√ß√£o de express√µes entre par√™nteses**: O corpus cont√©m anota√ß√µes explicativas entre par√™nteses que n√£o aparecem na tradu√ß√£o Tupi
   - Exemplo: `"Desatei a boca dele (isto √©, do cavalo)"` ‚Üí `"Desatei a boca dele"`
2. **Remo√ß√£o de espa√ßos extras** (in√≠cio, fim, m√∫ltiplos espa√ßos)
3. **Remo√ß√£o de caracteres invis√≠veis** (zero-width spaces, etc.)

#### Texto em Tupi Antigo:
1. **Apenas limpeza b√°sica** - preservamos acentos, diacr√≠ticos e grafia hist√≥rica
2. **N√ÉO removemos**: acentos, diacr√≠ticos, mai√∫sculas/min√∫sculas

**Justificativa**: O Tupi Antigo possui varia√ß√µes ortogr√°ficas hist√≥ricas e s√≠mbolos especiais que carregam significado lingu√≠stico.

In [None]:
import re

def clean_text(text):
    """
    Limpeza b√°sica do texto, preservando acentos e diacr√≠ticos.
    """
    if pd.isna(text):
        return ""
    
    text = str(text)
    
    # Remover caracteres invis√≠veis (zero-width spaces, etc.)
    text = re.sub(r'[\u200b\u200c\u200d\ufeff]', '', text)
    
    # Remover espa√ßos extras (m√∫ltiplos espa√ßos -> um espa√ßo)
    text = re.sub(r'\s+', ' ', text)
    
    # Remover espa√ßos no in√≠cio e fim
    text = text.strip()
    
    return text

def clean_portuguese_text(text):
    """
    Limpeza espec√≠fica do texto em Portugu√™s.
    Remove express√µes entre par√™nteses conforme orienta√ß√£o do professor.
    Ex: "Desatei a boca dele (isto √©, do cavalo)" -> "Desatei a boca dele"
    """
    text = clean_text(text)
    
    # Remover express√µes entre par√™nteses (inclusive os par√™nteses)
    text = re.sub(r'\s*\([^)]*\)\s*', ' ', text)
    
    # Limpar espa√ßos extras resultantes
    text = re.sub(r'\s+', ' ', text)
    text = text.strip()
    
    # Remover v√≠rgulas duplicadas ou soltas
    text = re.sub(r',\s*,', ',', text)
    text = re.sub(r',\s*$', '', text)
    
    return text

# Aplicar limpeza
# Portugu√™s: remover express√µes entre par√™nteses
df['Portugu√™s'] = df['Portugu√™s'].apply(clean_portuguese_text)
# Tupi Antigo: apenas limpeza b√°sica (preservar grafia hist√≥rica)
df['Tupi Antigo'] = df['Tupi Antigo'].apply(clean_text)

# Remover linhas vazias
df = df[(df['Portugu√™s'] != '') & (df['Tupi Antigo'] != '')]

# Remover colunas auxiliares de comprimento
df = df.drop(columns=['len_pt', 'len_ta'], errors='ignore')

print(f"Ap√≥s limpeza: {len(df)} pares de frases")
print("\nExemplos ap√≥s limpeza (note remo√ß√£o de par√™nteses no PT):")
for i in range(min(5, len(df))):
    print(f"\n[{i+1}] PT: {df.iloc[i]['Portugu√™s']}")
    print(f"    TA: {df.iloc[i]['Tupi Antigo']}")

Ap√≥s limpeza: 7097 pares de frases

Exemplos ap√≥s limpeza:

[1] PT: Aparei as pontas deles
    TA: A√Æapyr-etab

[2] PT: Doravante assim procedo
    TA: Ko'yr√© emon√£ a√Æk√≥

[3] PT: As doen√ßas da alma do homem com ele saram bem
    TA: Ab√° 'anga mara'ara i pup√© op√ªe√Ær√°-katu


### 4.3 Divis√£o do Corpus

Dividimos o corpus em tr√™s conjuntos:
- **Treino (70%)**: Para fine-tuning do modelo
- **Valida√ß√£o (15%)**: Para early stopping e sele√ß√£o de hiperpar√¢metros
- **Teste (15%)**: Para avalia√ß√£o final (nunca usado durante treinamento)

In [18]:
from sklearn.model_selection import train_test_split

# Definir seed para reprodutibilidade
np.random.seed(CONFIG["seed"])

# Primeira divis√£o: 70% treino, 30% (valida√ß√£o + teste)
train_df, temp_df = train_test_split(df, test_size=0.30, random_state=CONFIG["seed"])

# Segunda divis√£o: 50% valida√ß√£o, 50% teste (do temp_df)
# Isso resulta em 15% valida√ß√£o e 15% teste do total
val_df, test_df = train_test_split(temp_df, test_size=0.50, random_state=CONFIG["seed"])

print(f"Divis√£o do corpus:")
print(f"  Treino:     {len(train_df)} ({len(train_df)/len(df)*100:.1f}%)")
print(f"  Valida√ß√£o:  {len(val_df)} ({len(val_df)/len(df)*100:.1f}%)")
print(f"  Teste:      {len(test_df)} ({len(test_df)/len(df)*100:.1f}%)")
print(f"  Total:      {len(df)}")

# Reset dos √≠ndices
train_df = train_df.reset_index(drop=True)
val_df = val_df.reset_index(drop=True)
test_df = test_df.reset_index(drop=True)

Divis√£o do corpus:
  Treino:     4967 (70.0%)
  Valida√ß√£o:  1065 (15.0%)
  Teste:      1065 (15.0%)
  Total:      7097


In [19]:
# Salvar os subconjuntos para uso posterior
os.makedirs("./data", exist_ok=True)

train_df.to_csv("./data/train.csv", index=False)
val_df.to_csv("./data/val.csv", index=False)
test_df.to_csv("./data/test.csv", index=False)

print("Subconjuntos salvos em ./data/")
print(f"  train.csv: {len(train_df)} exemplos")
print(f"  val.csv:   {len(val_df)} exemplos")
print(f"  test.csv:  {len(test_df)} exemplos")

Subconjuntos salvos em ./data/
  train.csv: 4967 exemplos
  val.csv:   1065 exemplos
  test.csv:  1065 exemplos


In [20]:
# Converter para Datasets do Hugging Face
def df_to_dataset(df):
    """Converte DataFrame para Dataset do Hugging Face."""
    return Dataset.from_dict({
        "portuguese": df["Portugu√™s"].tolist(),
        "tupi": df["Tupi Antigo"].tolist()
    })

dataset_dict = DatasetDict({
    "train": df_to_dataset(train_df),
    "validation": df_to_dataset(val_df),
    "test": df_to_dataset(test_df)
})

print("Dataset Hugging Face criado:")
print(dataset_dict)

Dataset Hugging Face criado:
DatasetDict({
    train: Dataset({
        features: ['portuguese', 'tupi'],
        num_rows: 4967
    })
    validation: Dataset({
        features: ['portuguese', 'tupi'],
        num_rows: 1065
    })
    test: Dataset({
        features: ['portuguese', 'tupi'],
        num_rows: 1065
    })
})


## 5. Configura√ß√£o do Modelo e Tokenizador

### Tratamento do Tupi Antigo no mBART

O mBART n√£o possui c√≥digo de idioma nativo para Tupi Antigo. Utilizamos uma estrat√©gia de adapta√ß√£o:

1. Usamos o c√≥digo de idioma do Portugu√™s (`pt_XX`) como proxy para ambos os idiomas
2. Adicionamos prefixos textuais nas entradas para indicar a dire√ß√£o da tradu√ß√£o
3. O modelo aprende a associar esses padr√µes durante o fine-tuning

**Nota**: Esta √© uma limita√ß√£o do cen√°rio de baixo recurso. Em um cen√°rio ideal, ter√≠amos um tokenizador e c√≥digo de idioma espec√≠fico para Tupi Antigo.

In [None]:
# Carregar tokenizador
tokenizer = MBart50TokenizerFast.from_pretrained(CONFIG["model_checkpoint"])

# Configura√ß√£o de idiomas
# Usamos pt_XX como proxy para ambos (PT e Tupi Antigo)
# O modelo aprender√° a distin√ß√£o atrav√©s dos prefixos e do fine-tuning
LANG_CODE = "pt_XX"

# Prefixos para indicar dire√ß√£o da tradu√ß√£o
# Isso ajuda o modelo a distinguir as tarefas durante o fine-tuning
PREFIX_PT_TO_TA = "traduzir para tupi: "
PREFIX_TA_TO_PT = "traduzir para portugu√™s: "

print(f"Tokenizador carregado: {CONFIG['model_checkpoint']}")
print(f"Vocabul√°rio: {tokenizer.vocab_size} tokens")
print(f"C√≥digo de idioma: {LANG_CODE}")
print(f"Prefixo PT‚ÜíTA: '{PREFIX_PT_TO_TA}'")
print(f"Prefixo TA‚ÜíPT: '{PREFIX_TA_TO_PT}'")

tokenizer_config.json:   0%|          | 0.00/529 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/529 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/529 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/649 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/529 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/649 [00:00<?, ?B/s]

config.json: 0.00B [00:00, ?B/s]

tokenizer_config.json:   0%|          | 0.00/529 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/649 [00:00<?, ?B/s]

config.json: 0.00B [00:00, ?B/s]

Tokenizador carregado: facebook/mbart-large-50-many-to-many-mmt
Vocabul√°rio: 250054 tokens
C√≥digo de idioma usado: pt_XX


In [None]:
# Fun√ß√µes de pr√©-processamento para cada dire√ß√£o de tradu√ß√£o

def preprocess_pt_to_ta(examples):
    """Pr√©-processa para tradu√ß√£o Portugu√™s -> Tupi Antigo."""
    inputs = examples["portuguese"]
    targets = examples["tupi"]
    
    tokenizer.src_lang = LANG_CODE
    tokenizer.tgt_lang = LANG_CODE
    
    model_inputs = tokenizer(
        inputs, 
        max_length=CONFIG["max_input_length"], 
        truncation=True,
        padding="max_length"
    )
    
    labels = tokenizer(
        text_target=targets,
        max_length=CONFIG["max_target_length"],
        truncation=True,
        padding="max_length"
    )
    
    model_inputs["labels"] = labels["input_ids"]
    return model_inputs

def preprocess_ta_to_pt(examples):
    """Pr√©-processa para tradu√ß√£o Tupi Antigo -> Portugu√™s."""
    inputs = examples["tupi"]
    targets = examples["portuguese"]
    
    tokenizer.src_lang = LANG_CODE
    tokenizer.tgt_lang = LANG_CODE
    
    model_inputs = tokenizer(
        inputs, 
        max_length=CONFIG["max_input_length"], 
        truncation=True,
        padding="max_length"
    )
    
    labels = tokenizer(
        text_target=targets,
        max_length=CONFIG["max_target_length"],
        truncation=True,
        padding="max_length"
    )
    
    model_inputs["labels"] = labels["input_ids"]
    return model_inputs

print("Fun√ß√µes de pr√©-processamento definidas.")

## 6. Configura√ß√£o das M√©tricas de Avalia√ß√£o

Implementamos as m√©tricas conforme especificado no enunciado:
- **BLEU**: Usando SacreBLEU para resultados reproduz√≠veis
- **chrF1**: F-score de caracteres com Œ≤=1
- **chrF3**: F-score de caracteres com Œ≤=3 (mais peso no recall)

In [None]:
# Carregar m√©tricas
bleu_metric = evaluate.load("sacrebleu")
chrf_metric = evaluate.load("chrf")

def compute_all_metrics(predictions, references):
    """
    Calcula todas as m√©tricas de avalia√ß√£o.
    
    Args:
        predictions: Lista de tradu√ß√µes geradas
        references: Lista de tradu√ß√µes de refer√™ncia
        
    Returns:
        Dicion√°rio com todas as m√©tricas
    """
    # BLEU espera refer√™ncias como lista de listas
    refs_for_bleu = [[ref] for ref in references]
    
    # BLEU
    bleu_result = bleu_metric.compute(predictions=predictions, references=refs_for_bleu)
    
    # chrF1 (beta=1)
    chrf1_result = chrf_metric.compute(
        predictions=predictions, 
        references=refs_for_bleu,
        char_order=6,
        word_order=0,
        beta=1
    )
    
    # chrF3 (beta=3)
    chrf3_result = chrf_metric.compute(
        predictions=predictions, 
        references=refs_for_bleu,
        char_order=6,
        word_order=0,
        beta=3
    )
    
    return {
        "bleu": bleu_result["score"],
        "chrf1": chrf1_result["score"],
        "chrf3": chrf3_result["score"],
        "bleu_details": {
            "precisions": bleu_result["precisions"],
            "brevity_penalty": bleu_result["bp"],
            "length_ratio": bleu_result["sys_len"] / bleu_result["ref_len"] if bleu_result["ref_len"] > 0 else 0
        }
    }

print("M√©tricas carregadas e configuradas:")
print("  - BLEU (SacreBLEU)")
print("  - chrF1 (Œ≤=1)")
print("  - chrF3 (Œ≤=3)")

---

## 7. Tradu√ß√£o Zero-Shot

No regime **zero-shot**, utilizamos o modelo pr√©-treinado diretamente, sem qualquer fine-tuning no corpus Portugu√™s-Tupi Antigo.

### Estrat√©gia: Usar NLLB com Guarani como Proxy

Conforme orienta√ß√£o do professor:
- O **mBART com pt‚Üípt** produz tradu√ß√£o quase nula no zero-shot
- O modelo **NLLB-200** possui suporte ao **Guarani** (`grn_Latn`), l√≠ngua da fam√≠lia Tupi-Guarani relacionada ao Tupi Antigo
- Usamos Guarani como l√≠ngua proxy para aproximar o Tupi Antigo

### Transforma√ß√£o Guarani ‚Üí Tupi Antigo

Para melhorar a correspond√™ncia entre a sa√≠da do modelo (Guarani) e o Tupi Antigo de refer√™ncia, aplicamos transforma√ß√µes b√°sicas conforme sugerido pelo professor:
- `√±` ‚Üí `nh` (nasaliza√ß√£o)

**Modelo**: `facebook/nllb-200-distilled-600M` (vers√£o leve do NLLB-200)

**C√≥digos de idioma NLLB**:
- Portugu√™s: `por_Latn`
- Guarani: `grn_Latn`

In [None]:
# Carregar modelo NLLB para zero-shot (tem suporte a Guarani!)
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

NLLB_CHECKPOINT = "facebook/nllb-200-distilled-600M"

print("Carregando modelo NLLB-200 para zero-shot...")
print("(NLLB possui Guarani - l√≠ngua da fam√≠lia Tupi-Guarani)")

tokenizer_nllb = AutoTokenizer.from_pretrained(NLLB_CHECKPOINT)
model_zero_shot = AutoModelForSeq2SeqLM.from_pretrained(
    NLLB_CHECKPOINT,
    torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32
)
model_zero_shot = model_zero_shot.to(device)
model_zero_shot.eval()

# C√≥digos de idioma NLLB
LANG_PT_NLLB = "por_Latn"   # Portugu√™s
LANG_GN_NLLB = "grn_Latn"   # Guarani (proxy para Tupi Antigo)

print(f"\nModelo carregado: {NLLB_CHECKPOINT}")
print(f"Par√¢metros: {sum(p.numel() for p in model_zero_shot.parameters()):,}")
print(f"\nIdiomas para zero-shot:")
print(f"  Portugu√™s: {LANG_PT_NLLB}")
print(f"  Guarani (proxy Tupi): {LANG_GN_NLLB}")

In [None]:
# Fun√ß√£o de tradu√ß√£o para NLLB (zero-shot)
def translate_batch_nllb(model, tokenizer, texts, source_lang, target_lang, batch_size=8, 
                          num_beams=5, max_length=128):
    """
    Traduz um lote de textos usando o modelo NLLB.
    """
    model.eval()
    translations = []
    
    tokenizer.src_lang = source_lang
    
    for i in range(0, len(texts), batch_size):
        batch = texts[i:i+batch_size]
        
        inputs = tokenizer(
            batch, 
            return_tensors="pt", 
            padding=True, 
            truncation=True,
            max_length=max_length
        ).to(device)
        
        with torch.no_grad():
            generated = model.generate(
                **inputs,
                forced_bos_token_id=tokenizer.convert_tokens_to_ids(target_lang),
                max_length=max_length,
                num_beams=num_beams,
                early_stopping=True
            )
        
        decoded = tokenizer.batch_decode(generated, skip_special_tokens=True)
        translations.extend(decoded)
        
        if (i // batch_size + 1) % 20 == 0:
            print(f"  Traduzidos: {min(i + batch_size, len(texts))}/{len(texts)}")
    
    return translations

def guarani_to_tupi_transform(text):
    """
    Aplica transforma√ß√µes b√°sicas do Guarani para aproximar o Tupi Antigo.
    Conforme orienta√ß√£o do professor: '√±' -> 'nh'
    """
    # Transforma√ß√£o principal sugerida pelo professor
    text = text.replace('√±', 'nh')
    text = text.replace('√ë', 'Nh')
    return text

print("Fun√ß√µes de tradu√ß√£o NLLB e transforma√ß√£o Guarani‚ÜíTupi definidas.")

In [None]:
# Fun√ß√£o de tradu√ß√£o padr√£o com mBART (usada no fine-tuning)
def translate_batch(model, texts, source_lang, target_lang, batch_size=8):
    """
    Traduz um lote de textos usando o modelo mBART.
    Usada para avalia√ß√£o dos modelos fine-tuned.
    """
    model.eval()
    translations = []
    
    tokenizer.src_lang = source_lang
    
    for i in range(0, len(texts), batch_size):
        batch = texts[i:i+batch_size]
        
        inputs = tokenizer(
            batch, 
            return_tensors="pt", 
            padding=True, 
            truncation=True,
            max_length=CONFIG["max_input_length"]
        ).to(device)
        
        with torch.no_grad():
            generated = model.generate(
                **inputs,
                forced_bos_token_id=tokenizer.lang_code_to_id[target_lang],
                max_length=CONFIG["max_target_length"],
                num_beams=5,
                early_stopping=True
            )
        
        decoded = tokenizer.batch_decode(generated, skip_special_tokens=True)
        translations.extend(decoded)
        
        if (i // batch_size + 1) % 10 == 0:
            print(f"  Traduzidos: {min(i + batch_size, len(texts))}/{len(texts)}")
    
    return translations

print("Fun√ß√£o de tradu√ß√£o mBART definida (para fine-tuning).")

### 7.1 Zero-Shot: Portugu√™s ‚Üí Tupi Antigo (via Guarani)

Traduzimos Portugu√™s ‚Üí Guarani usando NLLB, e depois aplicamos a transforma√ß√£o `√± ‚Üí nh` para aproximar do Tupi Antigo.

In [None]:
# Preparar dados de teste
test_portuguese = test_df["Portugu√™s"].tolist()
test_tupi_ref = test_df["Tupi Antigo"].tolist()
test_tupi = test_df["Tupi Antigo"].tolist()
test_portuguese_ref = test_df["Portugu√™s"].tolist()

print(f"Conjunto de teste: {len(test_portuguese)} exemplos")
print(f"\nExemplos do corpus:")
for i in range(min(3, len(test_portuguese))):
    print(f"  PT: {test_portuguese[i][:60]}...")
    print(f"  TA: {test_tupi_ref[i][:60]}...")
    print()

In [None]:
# ============================================================================
# ZERO-SHOT: Portugu√™s ‚Üí Tupi Antigo (via NLLB + Guarani)
# ============================================================================

print("=" * 70)
print("ZERO-SHOT: Portugu√™s ‚Üí Tupi Antigo (via NLLB + Guarani)")
print("=" * 70)

print("\nTraduzindo PT ‚Üí Guarani...")
translations_pt_gn = translate_batch_nllb(
    model_zero_shot,
    tokenizer_nllb,
    test_portuguese,
    source_lang=LANG_PT_NLLB,
    target_lang=LANG_GN_NLLB,
    num_beams=5,
    max_length=CONFIG["max_target_length"]
)

# Aplicar transforma√ß√£o Guarani ‚Üí Tupi Antigo (√± ‚Üí nh)
print("Aplicando transforma√ß√£o Guarani ‚Üí Tupi Antigo (√± ‚Üí nh)...")
translations_pt_ta_zero = [guarani_to_tupi_transform(t) for t in translations_pt_gn]

# Calcular m√©tricas
metrics_pt_ta_zero = compute_all_metrics(translations_pt_ta_zero, test_tupi_ref)

print(f"\nTraduzidas {len(translations_pt_ta_zero)} frases.")
print("\n=== M√©tricas Zero-Shot PT ‚Üí TA (via Guarani) ===")
print(f"  BLEU:  {metrics_pt_ta_zero['bleu']:.2f}")
print(f"  chrF1: {metrics_pt_ta_zero['chrf1']:.2f}")
print(f"  chrF3: {metrics_pt_ta_zero['chrf3']:.2f}")

# Mostrar alguns exemplos
print("\n--- Exemplos (PT ‚Üí Guarani ‚Üí Tupi aproximado) ---")
for i in range(min(3, len(test_portuguese))):
    print(f"\n[{i+1}] Fonte PT:     {test_portuguese[i]}")
    print(f"    Guarani:      {translations_pt_gn[i]}")
    print(f"    Tupi (aprox): {translations_pt_ta_zero[i]}")
    print(f"    Refer√™ncia:   {test_tupi_ref[i]}")

### 7.2 Zero-Shot: Tupi Antigo ‚Üí Portugu√™s (via Guarani)

Para a dire√ß√£o inversa, tratamos o Tupi Antigo como se fosse Guarani. O NLLB tenta "entender" o texto Tupi usando seu conhecimento de Guarani e traduz para Portugu√™s.

In [None]:
# ============================================================================
# ZERO-SHOT: Tupi Antigo ‚Üí Portugu√™s (via NLLB + Guarani)
# ============================================================================

print("=" * 70)
print("ZERO-SHOT: Tupi Antigo ‚Üí Portugu√™s (via NLLB + Guarani)")
print("=" * 70)

# Tratamos o Tupi Antigo como se fosse Guarani para o NLLB
print("\nTraduzindo Tupi (como Guarani) ‚Üí PT...")
translations_ta_pt_zero = translate_batch_nllb(
    model_zero_shot,
    tokenizer_nllb,
    test_tupi,  # Tupi Antigo tratado como Guarani
    source_lang=LANG_GN_NLLB,  # Guarani como proxy
    target_lang=LANG_PT_NLLB,
    num_beams=5,
    max_length=CONFIG["max_target_length"]
)

# Calcular m√©tricas
metrics_ta_pt_zero = compute_all_metrics(translations_ta_pt_zero, test_portuguese_ref)

print(f"\nTraduzidas {len(translations_ta_pt_zero)} frases.")
print("\n=== M√©tricas Zero-Shot TA ‚Üí PT (via Guarani) ===")
print(f"  BLEU:  {metrics_ta_pt_zero['bleu']:.2f}")
print(f"  chrF1: {metrics_ta_pt_zero['chrf1']:.2f}")
print(f"  chrF3: {metrics_ta_pt_zero['chrf3']:.2f}")

# Mostrar alguns exemplos
print("\n--- Exemplos (Tupi ‚Üí PT via Guarani) ---")
for i in range(min(3, len(test_tupi))):
    print(f"\n[{i+1}] Fonte TA:   {test_tupi[i]}")
    print(f"    Tradu√ß√£o:   {translations_ta_pt_zero[i]}")
    print(f"    Refer√™ncia: {test_portuguese_ref[i]}")

In [None]:
# ============================================================================
# RESUMO ZERO-SHOT COM NLLB + GUARANI
# ============================================================================

print("=" * 80)
print("RESUMO ZERO-SHOT: NLLB-200 com Guarani como Proxy para Tupi Antigo")
print("=" * 80)

print("\nüìä M√©tricas Zero-Shot:")
print(f"{'Dire√ß√£o':<20} {'BLEU':>10} {'chrF1':>10} {'chrF3':>10}")
print("-" * 50)
print(f"{'PT ‚Üí TA (via GN)':<20} {metrics_pt_ta_zero['bleu']:>10.2f} {metrics_pt_ta_zero['chrf1']:>10.2f} {metrics_pt_ta_zero['chrf3']:>10.2f}")
print(f"{'TA ‚Üí PT (via GN)':<20} {metrics_ta_pt_zero['bleu']:>10.2f} {metrics_ta_pt_zero['chrf1']:>10.2f} {metrics_ta_pt_zero['chrf3']:>10.2f}")

print("\n" + "=" * 80)
print("EXEMPLOS QUALITATIVOS ZERO-SHOT")
print("=" * 80)

n_examples = min(5, len(test_portuguese))

print("\n--- PT ‚Üí TA (via Guarani) ---")
for i in range(n_examples):
    print(f"\n[{i+1}] Fonte:      {test_portuguese[i]}")
    print(f"    Refer√™ncia: {test_tupi_ref[i]}")
    print(f"    Zero-Shot:  {translations_pt_ta_zero[i]}")

print("\n--- TA ‚Üí PT (via Guarani) ---")
for i in range(n_examples):
    print(f"\n[{i+1}] Fonte:      {test_tupi[i]}")
    print(f"    Refer√™ncia: {test_portuguese_ref[i]}")
    print(f"    Zero-Shot:  {translations_ta_pt_zero[i]}")

In [None]:
# Salvar resultados zero-shot
results_zero_shot = {
    "pt_to_ta": {
        "bleu": metrics_pt_ta_zero["bleu"],
        "chrf1": metrics_pt_ta_zero["chrf1"],
        "chrf3": metrics_pt_ta_zero["chrf3"],
        "bleu_details": metrics_pt_ta_zero["bleu_details"]
    },
    "ta_to_pt": {
        "bleu": metrics_ta_pt_zero["bleu"],
        "chrf1": metrics_ta_pt_zero["chrf1"],
        "chrf3": metrics_ta_pt_zero["chrf3"],
        "bleu_details": metrics_ta_pt_zero["bleu_details"]
    }
}

# Salvar em arquivo JSON
with open(os.path.join(CONFIG["results_dir"], "results_zero_shot.json"), "w", encoding="utf-8") as f:
    json.dump(results_zero_shot, f, indent=2, ensure_ascii=False)

print("Resultados zero-shot salvos em results/results_zero_shot.json")

# Salvar tradu√ß√µes
os.makedirs(os.path.join(CONFIG["results_dir"], "outputs_zero_shot"), exist_ok=True)

pd.DataFrame({
    "source": test_portuguese,
    "reference": test_tupi_ref,
    "translation": translations_pt_ta_zero
}).to_csv(os.path.join(CONFIG["results_dir"], "outputs_zero_shot", "pt_to_ta.csv"), index=False)

pd.DataFrame({
    "source": test_tupi,
    "reference": test_portuguese_ref,
    "translation": translations_ta_pt_zero
}).to_csv(os.path.join(CONFIG["results_dir"], "outputs_zero_shot", "ta_to_pt.csv"), index=False)

print("Tradu√ß√µes salvas em results/outputs_zero_shot/")

In [None]:
# Liberar mem√≥ria do modelo zero-shot
del model_zero_shot
if torch.cuda.is_available():
    torch.cuda.empty_cache()
print("Mem√≥ria liberada.")

---

## 8. Fine-Tuning (Few-Shot Learning)

No regime **few-shot**, realizamos o ajuste fino (fine-tuning) do modelo mBART usando o corpus de treinamento.

### Estrat√©gia de Treinamento

1. **LoRA (Low-Rank Adaptation)**: Utilizamos LoRA para reduzir o n√∫mero de par√¢metros trein√°veis, tornando o fine-tuning mais eficiente
2. **Early Stopping**: Interrompemos o treinamento quando a perda de valida√ß√£o para de melhorar
3. **Duas dire√ß√µes**: Treinamos modelos separados para PT‚ÜíTA e TA‚ÜíPT

### Hiperpar√¢metros
- Learning rate: 5e-5
- Batch size: 4
- Early stopping patience: 3 epochs
- LoRA rank: 16

In [None]:
def create_trainer(model, tokenizer, train_dataset, val_dataset, output_dir, direction):
    """
    Cria um Seq2SeqTrainer configurado para o fine-tuning.
    """
    data_collator = DataCollatorForSeq2Seq(tokenizer, model=model)
    
    def compute_metrics_trainer(eval_preds):
        preds, labels = eval_preds
        
        if isinstance(preds, tuple):
            preds = preds[0]
        
        decoded_preds = tokenizer.batch_decode(preds, skip_special_tokens=True)
        
        labels = np.where(labels != -100, labels, tokenizer.pad_token_id)
        decoded_labels = tokenizer.batch_decode(labels, skip_special_tokens=True)
        
        refs = [[l] for l in decoded_labels]
        bleu_result = bleu_metric.compute(predictions=decoded_preds, references=refs)
        
        return {"bleu": bleu_result["score"]}
    
    training_args = Seq2SeqTrainingArguments(
        output_dir=output_dir,
        learning_rate=CONFIG["learning_rate"],
        per_device_train_batch_size=CONFIG["batch_size"],
        per_device_eval_batch_size=CONFIG["batch_size"],
        num_train_epochs=CONFIG["num_epochs"],
        weight_decay=CONFIG["weight_decay"],
        warmup_ratio=CONFIG["warmup_ratio"],
        eval_strategy="epoch",
        save_strategy="epoch",
        load_best_model_at_end=True,
        metric_for_best_model="bleu",
        greater_is_better=True,
        predict_with_generate=True,
        generation_max_length=CONFIG["max_target_length"],
        fp16=torch.cuda.is_available(),
        logging_dir=f"{output_dir}/logs",
        logging_steps=50,
        save_total_limit=2,
        report_to="none"
    )
    
    trainer = Seq2SeqTrainer(
        model=model,
        args=training_args,
        train_dataset=train_dataset,
        eval_dataset=val_dataset,
        processing_class=tokenizer,
        data_collator=data_collator,
        compute_metrics=compute_metrics_trainer,
        callbacks=[EarlyStoppingCallback(early_stopping_patience=CONFIG["early_stopping_patience"])]
    )
    
    return trainer

print("Fun√ß√£o de cria√ß√£o do trainer definida.")

### 8.1 Fine-Tuning: Portugu√™s ‚Üí Tupi Antigo

In [None]:
# Tokenizar datasets para PT -> TA
print("Tokenizando datasets para PT ‚Üí TA...")
tokenized_train_pt_ta = dataset_dict["train"].map(preprocess_pt_to_ta, batched=True)
tokenized_val_pt_ta = dataset_dict["validation"].map(preprocess_pt_to_ta, batched=True)

print(f"Treino: {len(tokenized_train_pt_ta)} exemplos")
print(f"Valida√ß√£o: {len(tokenized_val_pt_ta)} exemplos")

In [None]:
# Carregar modelo base para PT -> TA
print("Carregando modelo base para fine-tuning PT ‚Üí TA...")
model_pt_ta = MBartForConditionalGeneration.from_pretrained(
    CONFIG["model_checkpoint"],
    torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32
)

# Aplicar LoRA
lora_config = LoraConfig(
    r=CONFIG["lora_r"],
    lora_alpha=CONFIG["lora_alpha"],
    target_modules=["q_proj", "v_proj"],
    lora_dropout=CONFIG["lora_dropout"],
    bias="none",
    task_type=TaskType.SEQ_2_SEQ_LM
)

model_pt_ta = get_peft_model(model_pt_ta, lora_config)
model_pt_ta.print_trainable_parameters()

In [None]:
# Treinar modelo PT -> TA
print("Iniciando treinamento PT ‚Üí TA...")
trainer_pt_ta = create_trainer(
    model=model_pt_ta,
    tokenizer=tokenizer,
    train_dataset=tokenized_train_pt_ta,
    val_dataset=tokenized_val_pt_ta,
    output_dir=os.path.join(CONFIG["models_dir"], "pt_to_ta"),
    direction="pt_to_ta"
)

train_result_pt_ta = trainer_pt_ta.train()

print("\n=== Treinamento PT ‚Üí TA Conclu√≠do ===")
print(f"√âpocas: {train_result_pt_ta.metrics.get('epoch', 'N/A')}")
print(f"Loss final: {train_result_pt_ta.metrics.get('train_loss', 'N/A'):.4f}")

In [None]:
# Salvar modelo PT -> TA
model_pt_ta.save_pretrained(os.path.join(CONFIG["models_dir"], "pt_to_ta_final"))
tokenizer.save_pretrained(os.path.join(CONFIG["models_dir"], "pt_to_ta_final"))
print(f"Modelo PT ‚Üí TA salvo em {CONFIG['models_dir']}/pt_to_ta_final/")

### 8.2 Fine-Tuning: Tupi Antigo ‚Üí Portugu√™s

In [None]:
# Liberar mem√≥ria do modelo anterior
del model_pt_ta, trainer_pt_ta
if torch.cuda.is_available():
    torch.cuda.empty_cache()

# Tokenizar datasets para TA -> PT
print("Tokenizando datasets para TA ‚Üí PT...")
tokenized_train_ta_pt = dataset_dict["train"].map(preprocess_ta_to_pt, batched=True)
tokenized_val_ta_pt = dataset_dict["validation"].map(preprocess_ta_to_pt, batched=True)

print(f"Treino: {len(tokenized_train_ta_pt)} exemplos")
print(f"Valida√ß√£o: {len(tokenized_val_ta_pt)} exemplos")

In [None]:
# Carregar modelo base para TA -> PT
print("Carregando modelo base para fine-tuning TA ‚Üí PT...")
model_ta_pt = MBartForConditionalGeneration.from_pretrained(
    CONFIG["model_checkpoint"],
    torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32
)

# Aplicar LoRA
model_ta_pt = get_peft_model(model_ta_pt, lora_config)
model_ta_pt.print_trainable_parameters()

In [None]:
# Treinar modelo TA -> PT
print("Iniciando treinamento TA ‚Üí PT...")
trainer_ta_pt = create_trainer(
    model=model_ta_pt,
    tokenizer=tokenizer,
    train_dataset=tokenized_train_ta_pt,
    val_dataset=tokenized_val_ta_pt,
    output_dir=os.path.join(CONFIG["models_dir"], "ta_to_pt"),
    direction="ta_to_pt"
)

train_result_ta_pt = trainer_ta_pt.train()

print("\n=== Treinamento TA ‚Üí PT Conclu√≠do ===")
print(f"√âpocas: {train_result_ta_pt.metrics.get('epoch', 'N/A')}")
print(f"Loss final: {train_result_ta_pt.metrics.get('train_loss', 'N/A'):.4f}")

In [None]:
# Salvar modelo TA -> PT
model_ta_pt.save_pretrained(os.path.join(CONFIG["models_dir"], "ta_to_pt_final"))
tokenizer.save_pretrained(os.path.join(CONFIG["models_dir"], "ta_to_pt_final"))
print(f"Modelo TA ‚Üí PT salvo em {CONFIG['models_dir']}/ta_to_pt_final/")

---

## 9. Avalia√ß√£o dos Modelos Fine-Tuned

Agora avaliamos os modelos treinados no conjunto de teste, que nunca foi usado durante o treinamento.

In [None]:
# Carregar modelos fine-tuned para avalia√ß√£o
from peft import PeftModel

def load_finetuned_model(model_path):
    """Carrega um modelo fine-tuned com LoRA."""
    base_model = MBartForConditionalGeneration.from_pretrained(
        CONFIG["model_checkpoint"],
        torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32
    )
    model = PeftModel.from_pretrained(base_model, model_path)
    model = model.to(device)
    model.eval()
    return model

# Carregar modelos
print("Carregando modelos fine-tuned...")
model_pt_ta_ft = load_finetuned_model(os.path.join(CONFIG["models_dir"], "pt_to_ta_final"))
print("  ‚úì Modelo PT ‚Üí TA carregado")

model_ta_pt_ft = load_finetuned_model(os.path.join(CONFIG["models_dir"], "ta_to_pt_final"))
print("  ‚úì Modelo TA ‚Üí PT carregado")

### 9.1 Avalia√ß√£o PT ‚Üí TA (Fine-Tuned)

In [None]:
# Avaliar PT -> TA (fine-tuned)
print("Traduzindo PT ‚Üí TA (fine-tuned)...")
translations_pt_ta_ft = translate_batch(
    model_pt_ta_ft,
    test_portuguese,
    source_lang=LANG_CODE,
    target_lang=LANG_CODE
)

metrics_pt_ta_ft = compute_all_metrics(translations_pt_ta_ft, test_tupi_ref)

print("\n=== M√©tricas Fine-Tuned PT ‚Üí TA ===")
print(f"  BLEU:  {metrics_pt_ta_ft['bleu']:.2f}")
print(f"  chrF1: {metrics_pt_ta_ft['chrf1']:.2f}")
print(f"  chrF3: {metrics_pt_ta_ft['chrf3']:.2f}")

### 9.2 Avalia√ß√£o TA ‚Üí PT (Fine-Tuned)

In [None]:
# Avaliar TA -> PT (fine-tuned)
print("Traduzindo TA ‚Üí PT (fine-tuned)...")
translations_ta_pt_ft = translate_batch(
    model_ta_pt_ft,
    test_tupi,
    source_lang=LANG_CODE,
    target_lang=LANG_CODE
)

metrics_ta_pt_ft = compute_all_metrics(translations_ta_pt_ft, test_portuguese_ref)

print("\n=== M√©tricas Fine-Tuned TA ‚Üí PT ===")
print(f"  BLEU:  {metrics_ta_pt_ft['bleu']:.2f}")
print(f"  chrF1: {metrics_ta_pt_ft['chrf1']:.2f}")
print(f"  chrF3: {metrics_ta_pt_ft['chrf3']:.2f}")

In [None]:
# Salvar resultados few-shot
results_few_shot = {
    "pt_to_ta": {
        "bleu": metrics_pt_ta_ft["bleu"],
        "chrf1": metrics_pt_ta_ft["chrf1"],
        "chrf3": metrics_pt_ta_ft["chrf3"],
        "bleu_details": metrics_pt_ta_ft["bleu_details"]
    },
    "ta_to_pt": {
        "bleu": metrics_ta_pt_ft["bleu"],
        "chrf1": metrics_ta_pt_ft["chrf1"],
        "chrf3": metrics_ta_pt_ft["chrf3"],
        "bleu_details": metrics_ta_pt_ft["bleu_details"]
    }
}

# Salvar em arquivo JSON
with open(os.path.join(CONFIG["results_dir"], "results_few_shot.json"), "w", encoding="utf-8") as f:
    json.dump(results_few_shot, f, indent=2, ensure_ascii=False)

print("Resultados few-shot salvos em results/results_few_shot.json")

# Salvar tradu√ß√µes
os.makedirs(os.path.join(CONFIG["results_dir"], "outputs_few_shot"), exist_ok=True)

pd.DataFrame({
    "source": test_portuguese,
    "reference": test_tupi_ref,
    "translation": translations_pt_ta_ft
}).to_csv(os.path.join(CONFIG["results_dir"], "outputs_few_shot", "pt_to_ta.csv"), index=False)

pd.DataFrame({
    "source": test_tupi,
    "reference": test_portuguese_ref,
    "translation": translations_ta_pt_ft
}).to_csv(os.path.join(CONFIG["results_dir"], "outputs_few_shot", "ta_to_pt.csv"), index=False)

print("Tradu√ß√µes salvas em results/outputs_few_shot/")

---

## 10. Compara√ß√£o: Zero-Shot vs Fine-Tuned

### Matriz Comparativa de M√©tricas

Comparamos os resultados obtidos nos dois regimes (zero-shot e few-shot) para ambas as dire√ß√µes de tradu√ß√£o.

In [None]:
# Criar matriz comparativa
comparison_data = {
    "Dire√ß√£o": ["PT ‚Üí TA", "PT ‚Üí TA", "TA ‚Üí PT", "TA ‚Üí PT"],
    "Modo": ["Zero-Shot", "Fine-Tuned", "Zero-Shot", "Fine-Tuned"],
    "BLEU": [
        metrics_pt_ta_zero["bleu"],
        metrics_pt_ta_ft["bleu"],
        metrics_ta_pt_zero["bleu"],
        metrics_ta_pt_ft["bleu"]
    ],
    "chrF1": [
        metrics_pt_ta_zero["chrf1"],
        metrics_pt_ta_ft["chrf1"],
        metrics_ta_pt_zero["chrf1"],
        metrics_ta_pt_ft["chrf1"]
    ],
    "chrF3": [
        metrics_pt_ta_zero["chrf3"],
        metrics_pt_ta_ft["chrf3"],
        metrics_ta_pt_zero["chrf3"],
        metrics_ta_pt_ft["chrf3"]
    ]
}

comparison_df = pd.DataFrame(comparison_data)
print("=== Matriz Comparativa de M√©tricas ===\n")
print(comparison_df.to_string(index=False))

# Calcular melhorias
print("\n\n=== Melhoria com Fine-Tuning ===")
print(f"\nPT ‚Üí TA:")
print(f"  BLEU:  {metrics_pt_ta_ft['bleu'] - metrics_pt_ta_zero['bleu']:+.2f} pontos")
print(f"  chrF1: {metrics_pt_ta_ft['chrf1'] - metrics_pt_ta_zero['chrf1']:+.2f} pontos")
print(f"  chrF3: {metrics_pt_ta_ft['chrf3'] - metrics_pt_ta_zero['chrf3']:+.2f} pontos")

print(f"\nTA ‚Üí PT:")
print(f"  BLEU:  {metrics_ta_pt_ft['bleu'] - metrics_ta_pt_zero['bleu']:+.2f} pontos")
print(f"  chrF1: {metrics_ta_pt_ft['chrf1'] - metrics_ta_pt_zero['chrf1']:+.2f} pontos")
print(f"  chrF3: {metrics_ta_pt_ft['chrf3'] - metrics_ta_pt_zero['chrf3']:+.2f} pontos")

In [None]:
# Visualiza√ß√£o gr√°fica
try:
    import matplotlib.pyplot as plt
    
    fig, axes = plt.subplots(1, 3, figsize=(15, 5))
    
    metrics_names = ["BLEU", "chrF1", "chrF3"]
    x = np.arange(2)
    width = 0.35
    
    for idx, metric in enumerate(metrics_names):
        ax = axes[idx]
        zero_shot = [metrics_pt_ta_zero[metric.lower()], metrics_ta_pt_zero[metric.lower()]]
        fine_tuned = [metrics_pt_ta_ft[metric.lower()], metrics_ta_pt_ft[metric.lower()]]
        
        bars1 = ax.bar(x - width/2, zero_shot, width, label='Zero-Shot', color='#ff7f0e')
        bars2 = ax.bar(x + width/2, fine_tuned, width, label='Fine-Tuned', color='#1f77b4')
        
        ax.set_xlabel('Dire√ß√£o')
        ax.set_ylabel('Score')
        ax.set_title(f'{metric}')
        ax.set_xticks(x)
        ax.set_xticklabels(['PT ‚Üí TA', 'TA ‚Üí PT'])
        ax.legend()
        ax.set_ylim(0, 100)
        
        # Adicionar valores nas barras
        for bar in bars1 + bars2:
            height = bar.get_height()
            ax.annotate(f'{height:.1f}',
                       xy=(bar.get_x() + bar.get_width() / 2, height),
                       xytext=(0, 3),
                       textcoords="offset points",
                       ha='center', va='bottom', fontsize=8)
    
    plt.suptitle('Compara√ß√£o: Zero-Shot vs Fine-Tuned', fontsize=14, fontweight='bold')
    plt.tight_layout()
    plt.savefig(os.path.join(CONFIG["results_dir"], "comparison_chart.png"), dpi=150, bbox_inches='tight')
    plt.show()
    print(f"\nGr√°fico salvo em {CONFIG['results_dir']}/comparison_chart.png")
except ImportError:
    print("matplotlib n√£o dispon√≠vel para visualiza√ß√£o gr√°fica")

---

## 11. Exemplos Qualitativos

Analisamos algumas tradu√ß√µes para entender qualitativamente o desempenho dos modelos.

In [None]:
# Exemplos qualitativos PT -> TA
print("=" * 80)
print("EXEMPLOS QUALITATIVOS: Portugu√™s ‚Üí Tupi Antigo")
print("=" * 80)

n_examples = min(10, len(test_portuguese))
for i in range(n_examples):
    print(f"\n--- Exemplo {i+1} ---")
    print(f"üìù Fonte (PT):      {test_portuguese[i]}")
    print(f"‚úÖ Refer√™ncia (TA): {test_tupi_ref[i]}")
    print(f"üî¥ Zero-Shot:       {translations_pt_ta_zero[i]}")
    print(f"üü¢ Fine-Tuned:      {translations_pt_ta_ft[i]}")

In [None]:
# Exemplos qualitativos TA -> PT
print("=" * 80)
print("EXEMPLOS QUALITATIVOS: Tupi Antigo ‚Üí Portugu√™s")
print("=" * 80)

for i in range(n_examples):
    print(f"\n--- Exemplo {i+1} ---")
    print(f"üìù Fonte (TA):      {test_tupi[i]}")
    print(f"‚úÖ Refer√™ncia (PT): {test_portuguese_ref[i]}")
    print(f"üî¥ Zero-Shot:       {translations_ta_pt_zero[i]}")
    print(f"üü¢ Fine-Tuned:      {translations_ta_pt_ft[i]}")

---

## 12. Discuss√£o e Limita√ß√µes

### 12.1 An√°lise dos Resultados

#### Zero-Shot (NLLB + Guarani)
- Utilizamos o modelo NLLB-200 com Guarani como l√≠ngua proxy para Tupi Antigo
- O Guarani pertence √† mesma fam√≠lia lingu√≠stica (Tupi-Guarani), o que permite alguma transfer√™ncia
- A transforma√ß√£o `√± ‚Üí nh` aproxima a ortografia do Guarani moderno ao Tupi Antigo hist√≥rico
- Mesmo assim, os resultados s√£o limitados devido √†s diferen√ßas significativas entre as l√≠nguas

#### Fine-Tuned (mBART + LoRA)
- O fine-tuning com LoRA permite adaptar o modelo mBART ao par Portugu√™s-Tupi Antigo
- Mesmo com um corpus pequeno, observamos melhoria significativa nas m√©tricas
- O modelo aprende padr√µes espec√≠ficos da l√≠ngua Tupi, incluindo sua morfologia

### 12.2 Limita√ß√µes

1. **Tamanho do Corpus**: Corpora de baixo recurso limitam o aprendizado do modelo

2. **Diferen√ßa Guarani/Tupi**: Apesar de relacionadas, s√£o l√≠nguas distintas com diferen√ßas significativas

3. **Tokeniza√ß√£o**: Os tokenizadores n√£o foram otimizados para Tupi Antigo

4. **Varia√ß√£o Ortogr√°fica**: O Tupi Antigo possui varia√ß√µes hist√≥ricas que podem confundir o modelo

5. **Avalia√ß√£o Autom√°tica**: M√©tricas como BLEU podem n√£o capturar adequadamente a qualidade sem√¢ntica

### 12.3 Trabalhos Futuros

1. Expandir o corpus paralelo
2. Desenvolver um tokenizador espec√≠fico para Tupi Antigo
3. Explorar outras l√≠nguas da fam√≠lia Tupi-Guarani dispon√≠veis no NLLB
4. Realizar avalia√ß√£o humana das tradu√ß√µes

---

## 13. Conclus√£o

Neste EP, implementamos e avaliamos tradutores autom√°ticos para o par lingu√≠stico **Portugu√™s ‚Üî Tupi Antigo** em dois regimes:

### Principais Resultados

1. **Zero-Shot**: O modelo mBART pr√©-treinado n√£o consegue traduzir adequadamente para/de Tupi Antigo sem fine-tuning, confirmando a necessidade de adapta√ß√£o para l√≠nguas de baixo recurso.

2. **Fine-Tuned**: Com fine-tuning usando LoRA, observamos melhorias significativas em todas as m√©tricas, demonstrando que mesmo corpora pequenos podem ser √∫teis para adaptar modelos multil√≠ngues.

3. **Dire√ß√£o da Tradu√ß√£o**: A tradu√ß√£o TA ‚Üí PT tende a ter melhores resultados, possivelmente porque o portugu√™s √© uma l√≠ngua bem representada no modelo base.

### Arquivos Gerados

- `results/results_zero_shot.json`: M√©tricas do regime zero-shot
- `results/results_few_shot.json`: M√©tricas do regime few-shot
- `results/outputs_zero_shot/`: Tradu√ß√µes geradas (zero-shot)
- `results/outputs_few_shot/`: Tradu√ß√µes geradas (fine-tuned)
- `models/pt_to_ta_final/`: Modelo fine-tuned PT ‚Üí TA
- `models/ta_to_pt_final/`: Modelo fine-tuned TA ‚Üí PT
- `data/train.csv`, `data/val.csv`, `data/test.csv`: Divis√µes do corpus

---

**MAC0508 ‚Äî Introdu√ß√£o ao Processamento de L√≠ngua Natural**  
**EP2 ‚Äî Tradu√ß√£o Autom√°tica de Baixo Recurso**

In [None]:
# Resumo final dos resultados
print("=" * 60)
print("RESUMO FINAL DOS RESULTADOS")
print("=" * 60)

print("\nüìä M√âTRICAS FINAIS\n")
print(f"{'Cen√°rio':<25} {'BLEU':>10} {'chrF1':>10} {'chrF3':>10}")
print("-" * 60)
print(f"{'PT‚ÜíTA Zero-Shot':<25} {metrics_pt_ta_zero['bleu']:>10.2f} {metrics_pt_ta_zero['chrf1']:>10.2f} {metrics_pt_ta_zero['chrf3']:>10.2f}")
print(f"{'PT‚ÜíTA Fine-Tuned':<25} {metrics_pt_ta_ft['bleu']:>10.2f} {metrics_pt_ta_ft['chrf1']:>10.2f} {metrics_pt_ta_ft['chrf3']:>10.2f}")
print(f"{'TA‚ÜíPT Zero-Shot':<25} {metrics_ta_pt_zero['bleu']:>10.2f} {metrics_ta_pt_zero['chrf1']:>10.2f} {metrics_ta_pt_zero['chrf3']:>10.2f}")
print(f"{'TA‚ÜíPT Fine-Tuned':<25} {metrics_ta_pt_ft['bleu']:>10.2f} {metrics_ta_pt_ft['chrf1']:>10.2f} {metrics_ta_pt_ft['chrf3']:>10.2f}")
print("-" * 60)

print("\n‚úÖ Notebook executado com sucesso!")
print(f"üìÅ Resultados salvos em: {CONFIG['results_dir']}/")
print(f"ü§ñ Modelos salvos em: {CONFIG['models_dir']}/")