# SPLADE v2 PT-BR - Treinamento Corrigido

Este notebook cont√©m todas as corre√ß√µes necess√°rias para rodar o treinamento do SPLADE em 2025, resolvendo incompatibilidades de bibliotecas (AdamW/Hydra) e depend√™ncias de arquivos.

## Corre√ß√µes Aplicadas:
1. ‚úÖ Caminhos corrigidos de `/content/` para caminhos relativos
2. ‚úÖ Download de datasets com verifica√ß√£o de sucesso
3. ‚úÖ Corre√ß√£o do dataloader para lidar com valores None
4. ‚úÖ Depend√™ncias atualizadas (torch, transformers, etc.)

**Aten√ß√£o:** Certifique-se de usar um Runtime com GPU (T4 ou A100) ou CPU se n√£o houver GPU dispon√≠vel.

In [7]:
# 1. Instala√ß√£o de Bibliotecas
# !pip install pytrec_eval
# !pip install git+https://github.com/leobavila/splade.git -q
# !pip install hydra-core --upgrade

In [8]:
# 2. Clonagem e Patch de Corre√ß√£o (AdamW)
import os

# Clona o reposit√≥rio se n√£o existir
if not os.path.exists("splade"):
    os.system("git clone https://github.com/leobavila/splade.git")

# Corrige o erro de importa√ß√£o do AdamW (Transformers antigo vs novo)
file_path = "splade/splade/optim/bert_optim.py"
if os.path.exists(file_path):
    with open(file_path, "r") as f:
        content = f.read()

    new_content = content.replace(
        "from transformers.optimization import AdamW, get_linear_schedule_with_warmup",
        "from transformers import get_linear_schedule_with_warmup; from torch.optim import AdamW"
    )

    with open(file_path, "w") as f:
        f.write(new_content)
    print("‚úÖ Patch aplicado: bert_optim.py corrigido.")
else:
    print("‚ùå Erro: Arquivo bert_optim.py n√£o encontrado.")

‚úÖ Patch aplicado: bert_optim.py corrigido.


In [9]:
# 3. Download e Prepara√ß√£o dos Datasets (mMARCO e mRobust)
import shutil
import os
from huggingface_hub import hf_hub_download

print("‚è≥ Baixando datasets p√∫blicos usando HuggingFace Hub... (Pode levar alguns minutos)")

# Criar pastas base (usando caminhos relativos ao projeto)
data_dir = "./data"
os.makedirs(f"{data_dir}/m_marco", exist_ok=True)
os.makedirs(f"{data_dir}/m_robust", exist_ok=True)

# Criar pastas de destino do SPLADE
os.makedirs("splade/data/pt/triplets", exist_ok=True)
os.makedirs("splade/data/pt/val_retrieval/collection", exist_ok=True)
os.makedirs("splade/data/pt/val_retrieval/queries", exist_ok=True)

def download_from_hf(repo_id, filename, output_path, description):
    """Download de arquivo do HuggingFace Hub"""
    if os.path.exists(output_path) and os.path.getsize(output_path) > 100:  # M√≠nimo 100 bytes
        print(f"‚úÖ {description} j√° existe ({os.path.getsize(output_path)} bytes), pulando download.")
        return True
    
    print(f"üì• Baixando {description}...")
    try:
        downloaded_path = hf_hub_download(
            repo_id=repo_id,
            filename=filename,
            repo_type="dataset",
            local_dir=None
        )
        # Copiar para o destino desejado
        shutil.copy(downloaded_path, output_path)
        if os.path.exists(output_path) and os.path.getsize(output_path) > 100:
            print(f"‚úÖ {description} baixado com sucesso ({os.path.getsize(output_path)} bytes)")
            return True
        else:
            print(f"‚ùå {description} falhou: arquivo muito pequeno ou vazio")
            return False
    except Exception as e:
        print(f"‚ùå Erro ao baixar {description}: {e}")
        return False

# --- mMARCO (Treino) ---
print("\nüì¶ Baixando datasets mMARCO...")
download_from_hf(
    "unicamp-dl/mmarco",
    "data/google/queries/train/portuguese_queries.train.tsv",
    f"{data_dir}/m_marco/queries_train.tsv",
    "queries_train.tsv"
)

download_from_hf(
    "unicamp-dl/mmarco",
    "data/google/collections/portuguese_collection.tsv",
    f"{data_dir}/m_marco/corpus.tsv",
    "corpus.tsv"
)

download_from_hf(
    "unicamp-dl/mmarco",
    "data/triples.train.ids.small.tsv",
    f"{data_dir}/m_marco/triples.train.ids.small.tsv",
    "triples.train.ids.small.tsv"
)

# Verificar se os arquivos foram baixados corretamente
mmarco_files = ["queries_train.tsv", "corpus.tsv", "triples.train.ids.small.tsv"]
if all(os.path.exists(f"{data_dir}/m_marco/{f}") and os.path.getsize(f"{data_dir}/m_marco/{f}") > 100 
       for f in mmarco_files):
    # Copiar para estrutura SPLADE
    shutil.copy(f"{data_dir}/m_marco/corpus.tsv", "splade/data/pt/triplets/corpus.tsv")
    shutil.copy(f"{data_dir}/m_marco/queries_train.tsv", "splade/data/pt/triplets/queries_train.tsv")
    shutil.copy(f"{data_dir}/m_marco/triples.train.ids.small.tsv", "splade/data/pt/triplets/raw.tsv")
    print("‚úÖ Arquivos mMARCO copiados para estrutura SPLADE")
else:
    print("‚ùå Erro: Alguns arquivos mMARCO n√£o foram baixados corretamente")
    print("Verificando arquivos:")
    for f in mmarco_files:
        path = f"{data_dir}/m_marco/{f}"
        if os.path.exists(path):
            print(f"  - {f}: {os.path.getsize(path)} bytes")
        else:
            print(f"  - {f}: N√ÉO ENCONTRADO")

# --- mRobust (Valida√ß√£o) ---
print("\nüì¶ Baixando datasets mRobust...")
download_from_hf(
    "unicamp-dl/mrobust",
    "data/queries/portuguese_queries.tsv",
    f"{data_dir}/m_robust/queries.tsv",
    "mrobust queries.tsv"
)

download_from_hf(
    "unicamp-dl/mrobust",
    "data/collections/portuguese_collection.tsv",
    f"{data_dir}/m_robust/corpus.tsv",
    "mrobust corpus.tsv"
)

download_from_hf(
    "unicamp-dl/mrobust",
    "qrels.robust04.txt",
    f"{data_dir}/m_robust/qrels.robust04.txt",
    "qrels.robust04.txt"
)

# Verificar e copiar arquivos mRobust
mrobust_files = ["queries.tsv", "corpus.tsv", "qrels.robust04.txt"]
if all(os.path.exists(f"{data_dir}/m_robust/{f}") and os.path.getsize(f"{data_dir}/m_robust/{f}") > 100 
       for f in mrobust_files):
    shutil.copy(f"{data_dir}/m_robust/corpus.tsv", "splade/data/pt/val_retrieval/collection/raw.tsv")
    shutil.copy(f"{data_dir}/m_robust/queries.tsv", "splade/data/pt/val_retrieval/queries/raw.tsv")
    print("‚úÖ Arquivos mRobust copiados para estrutura SPLADE")
else:
    print("‚ùå Erro: Alguns arquivos mRobust n√£o foram baixados corretamente")
    print("Verificando arquivos:")
    for f in mrobust_files:
        path = f"{data_dir}/m_robust/{f}"
        if os.path.exists(path):
            print(f"  - {f}: {os.path.getsize(path)} bytes")
        else:
            print(f"  - {f}: N√ÉO ENCONTRADO")

print("\n‚úÖ Processo de download conclu√≠do.")

‚è≥ Baixando datasets p√∫blicos usando HuggingFace Hub... (Pode levar alguns minutos)

üì¶ Baixando datasets mMARCO...
‚úÖ queries_train.tsv j√° existe (39281063 bytes), pulando download.
‚úÖ corpus.tsv j√° existe (3431011785 bytes), pulando download.
‚úÖ triples.train.ids.small.tsv j√° existe (905211990 bytes), pulando download.
‚úÖ Arquivos mMARCO copiados para estrutura SPLADE

üì¶ Baixando datasets mRobust...
‚úÖ mrobust queries.tsv j√° existe (28418 bytes), pulando download.
‚úÖ mrobust corpus.tsv j√° existe (1914138316 bytes), pulando download.
‚úÖ qrels.robust04.txt j√° existe (6543541 bytes), pulando download.
‚úÖ Arquivos mRobust copiados para estrutura SPLADE

‚úÖ Processo de download conclu√≠do.


In [10]:
# 4. Converter QRELS para JSON
import json
from collections import defaultdict
import os

qrel = defaultdict(dict)
data_dir = "./data"
qrel_path = f"{data_dir}/m_robust/qrels.robust04.txt"

if os.path.exists(qrel_path):
    with open(qrel_path, 'r') as file:
        for line in file:
            fields = line.split()
            if len(fields) >= 4:
                q_id = fields[0]
                doc_id = fields[2]
                rel = fields[3]
                qrel[q_id][doc_id] = int(rel)

    with open('splade/data/pt/val_retrieval/qrel.json', 'w') as file:
        json.dump(qrel, file)
    print("‚úÖ QREL convertido para JSON.")
else:
    print(f"‚ùå Erro: qrels.robust04.txt n√£o encontrado em {qrel_path}.")

‚úÖ QREL convertido para JSON.


In [11]:
# 5. Gerar Arquivos de Configura√ß√£o (CR√çTICO: Inclus√£o do par√¢metro 'loss')
# Corre√ß√£o: Adicionado 'loss: InBatchPairwiseNLL' para corrigir o ConfigKeyError.

import os

# Criar estrutura de pastas
os.makedirs("splade/conf/train/config", exist_ok=True)
os.makedirs("splade/conf/train/data", exist_ok=True)
os.makedirs("splade/conf/train/model", exist_ok=True)
os.makedirs("splade/conf/index", exist_ok=True)
os.makedirs("splade/conf/retrieve_evaluate", exist_ok=True)
os.makedirs("splade/conf/flops", exist_ok=True)

# 5.1 Modelo
with open("splade/conf/train/model/splade_bertimbau_base.yaml", "w") as f:
    f.write("""
_target_: splade.models.transformer_rep.Splade
# Nota: O par√¢metro real ser√° lido do init_dict abaixo
model_type_or_dir: neuralmind/bert-base-portuguese-cased
    """)

# 5.2 Dados
with open("splade/conf/train/data/pt.yaml", "w") as f:
    f.write(f"""
# @package _global_
data:
    type: triplets
    TRAIN_DATA_DIR: {os.getcwd()}/splade/data/pt/triplets
    VALIDATION_DATA_DIR: {os.getcwd()}/splade/data/pt/val_retrieval
    QREL_PATH: {os.getcwd()}/splade/data/pt/val_retrieval/qrel.json
    """)

# 5.3 Config de Treino (CORRE√á√ÉO AQUI: Adicionado 'loss')
with open("splade/conf/train/config/splade_pt.yaml", "w") as f:
    f.write("""
# @package _global_
config:
    lr: 2e-5
    seed: 123
    gradient_accumulation_steps: 1
    weight_decay: 0.01
    validation_metrics: [MRR@10]
    pretrained_no_yaml_config: false
    nb_iterations: 150000
    train_batch_size: 32
    eval_batch_size: 32
    index_retrieval_batch_size: 32
    record_frequency: 1000
    train_monitoring_freq: 500
    warmup_steps: 6000
    max_length: 256
    fp16: true
    matching_type: splade
    monitoring_ckpt: true
    tokenizer_type: neuralmind/bert-base-portuguese-cased

    # Par√¢metro de perda que faltava:
    loss: InBatchPairwiseNLL

    # Chaves obrigat√≥rias para o Hydra:
    checkpoint_dir: ""
    index_dir: ""
    out_dir: ""

    regularization:
        FLOPS:
            lambda_q: 0.0003
            lambda_d: 0.0001
            T: 50000
    """)

# 5.4 Config Geral
with open("splade/conf/config_splade_pt.yaml", "w") as f:
    f.write("""
defaults:
  - train/data: pt
  - train/model: splade_bertimbau_base
  - train/config: splade_pt
  - index: pt
  - retrieve_evaluate: pt
  - flops: pt
  - _self_

# init_dict com as corre√ß√µes anteriores
init_dict:
  model_type_or_dir: neuralmind/bert-base-portuguese-cased
  fp16: true

hydra:
  run:
    dir: experiments/pt/out
  job:
    chdir: true
    """)

# 5.5 Placeholders
with open("splade/conf/index/pt.yaml", "w") as f: f.write("# Placeholder")
with open("splade/conf/retrieve_evaluate/pt.yaml", "w") as f: f.write("# Placeholder")
with open("splade/conf/flops/pt.yaml", "w") as f: f.write("# Placeholder")

print("‚úÖ Configura√ß√µes recriadas com sucesso (loss: InBatchPairwiseNLL adicionado).")

‚úÖ Configura√ß√µes recriadas com sucesso (loss: InBatchPairwiseNLL adicionado).


In [None]:
# 6. Executar Treinamento
import os
import sys
import subprocess

# Configurar ambiente
os.environ['PYTHONPATH'] = os.environ.get('PYTHONPATH', '') + ":" + os.path.join(os.getcwd(), 'splade')
os.environ['SPLADE_CONFIG_NAME'] = "config_splade_pt.yaml"
os.environ['PYTHONUNBUFFERED'] = '1'  # Desabilita buffering para ver logs em tempo real

print("üöÄ Iniciando treinamento... Acompanhe os logs abaixo.")
print("Nota: Ignorar avisos 'Unable to register cuFFT/cuDNN' do TensorFlow/JAX.")
print("=" * 80)
print()

# Executar treinamento com output em tempo real usando subprocess
cmd = [
    sys.executable,  # Usa o Python do ambiente virtual
    '-m', 'splade.train_from_triplets_ids',
    'config.checkpoint_dir=experiments/pt/checkpoint',
    'config.index_dir=experiments/pt/index',
    'config.out_dir=experiments/pt/out'
]

# Mudar para o diret√≥rio splade
original_dir = os.getcwd()
os.chdir('splade')

try:
    # Executar com output em tempo real
    process = subprocess.Popen(
        cmd,
        stdout=subprocess.PIPE,
        stderr=subprocess.STDOUT,
        universal_newlines=True,
        bufsize=1,  # Line buffered
        env=os.environ.copy()
    )
    
    # Imprimir output em tempo real
    for line in process.stdout:
        print(line, end='', flush=True)
    
    process.wait()
    
    if process.returncode != 0:
        print(f"\n‚ùå Treinamento finalizado com c√≥digo de sa√≠da: {process.returncode}")
    else:
        print("\n‚úÖ Treinamento conclu√≠do com sucesso!")
        
except KeyboardInterrupt:
    print("\n‚ö†Ô∏è Treinamento interrompido pelo usu√°rio.")
    if 'process' in locals():
        process.terminate()
except Exception as e:
    print(f"\n‚ùå Erro durante o treinamento: {e}")
    import traceback
    traceback.print_exc()
finally:
    os.chdir(original_dir)

üöÄ Iniciando treinamento... Acompanhe os logs abaixo.
Nota: Ignorar avisos 'Unable to register cuFFT/cuDNN' do TensorFlow/JAX.

The version_base parameter is not specified.
Please specify a compatability version level, or None.
Will assume defaults for version 1.1
  @hydra.main(config_path=CONFIG_PATH, config_name=CONFIG_NAME)
data:
  type: triplets
  TRAIN_DATA_DIR: /home/user/Projects/SPLADE-PT-BR/splade/data/pt/triplets
  VALIDATION_DATA_DIR: /home/user/Projects/SPLADE-PT-BR/splade/data/pt/val_retrieval
  QREL_PATH: /home/user/Projects/SPLADE-PT-BR/splade/data/pt/val_retrieval/qrel.json
train:
  model:
    _target_: splade.models.transformer_rep.Splade
    model_type_or_dir: neuralmind/bert-base-portuguese-cased
config:
  lr: 2.0e-05
  seed: 123
  gradient_accumulation_steps: 4
  weight_decay: 0.01
  validation_metrics:
  - MRR@10
  pretrained_no_yaml_config: false
  nb_iterations: 150000
  train_batch_size: 8
  eval_batch_size: 16
  index_retrieval_batch_size: 16
  record_frequen