# Download mDeBERTa-v3 para uso Offline

**Este notebook baixa o mDeBERTa-v3 e salva como output para uso offline.**

- Modelo: `microsoft/mdeberta-v3-base`
- Multilingual DeBERTa (100+ idiomas)
- Tamanho: ~560 MB

---
**CONFIGURACAO KAGGLE:**
1. Settings -> Internet -> **ON** (necessario para download)
2. Settings -> Accelerator -> **None** (nao precisa GPU)
3. Execute **Run All**
4. Clique em **Save Version** -> **Save & Run All**

**Depois de salvar:**
- O modelo fica disponivel em **Add Input -> Your Work -> este notebook**
- Use em outros notebooks com Internet **OFF**

---

In [None]:
# Instalar/atualizar transformers
!pip install -q transformers sentencepiece

In [None]:
import os
from transformers import AutoTokenizer, AutoModel

# Modelo a baixar
MODEL_NAME = "microsoft/mdeberta-v3-base"
OUTPUT_DIR = "/kaggle/working/mdeberta-v3-base"

print(f"Baixando modelo: {MODEL_NAME}")
print(f"Destino: {OUTPUT_DIR}")

In [None]:
# Baixar tokenizer e modelo
print("[1/3] Baixando tokenizer...")
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)

print("[2/3] Baixando modelo...")
model = AutoModel.from_pretrained(MODEL_NAME)

print("[3/3] Salvando em disco...")
os.makedirs(OUTPUT_DIR, exist_ok=True)
tokenizer.save_pretrained(OUTPUT_DIR)
model.save_pretrained(OUTPUT_DIR)

print("Modelo salvo em:", OUTPUT_DIR)

In [None]:
# Verificar arquivos salvos
print("Arquivos salvos:")
print("-" * 50)
total = 0
for f in sorted(os.listdir(OUTPUT_DIR)):
    path = os.path.join(OUTPUT_DIR, f)
    if os.path.isfile(path):
        size = os.path.getsize(path)
        total += size
        print(f"{f:40} {size/1024/1024:>8.2f} MB")
print("-" * 50)
print(f"TOTAL: {total/1024/1024:.2f} MB")

In [None]:
# Testar carregamento local
print("Testando carregamento local...")
tok_test = AutoTokenizer.from_pretrained(OUTPUT_DIR)
mod_test = AutoModel.from_pretrained(OUTPUT_DIR)

# Teste rapido
text = "Mamografia sem alteracoes suspeitas. BI-RADS 2."
inputs = tok_test(text, return_tensors="pt")
outputs = mod_test(**inputs)

print("Teste OK!")
print(f"   Vocab: {tok_test.vocab_size}")
print(f"   Hidden: {mod_test.config.hidden_size}")
print(f"   Layers: {mod_test.config.num_hidden_layers}")

## Proximos Passos

1. Apos rodar, clique em **Save Version** -> **Save & Run All (Commit)**
2. Aguarde o notebook finalizar
3. O output ficara em: **Add Input -> Your Work -> este notebook**
4. Em outros notebooks, adicione como Input e use:

```python
MODEL_PATH = "/kaggle/input/download-mdeberta/mdeberta-v3-base"
tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH, local_files_only=True)
model = AutoModel.from_pretrained(MODEL_PATH, local_files_only=True)
```

**Notebooks que usam este modelo:**
- `submit_deberta.ipynb`
- `submit_mdeberta_classweights.ipynb`