In [4]:
from transformers import AutoTokenizer, AutoModel

# Nome do modelo no Hugging Face
model_name = "neuralmind/bert-base-portuguese-cased"
output_dir = "bert_original"

print(f"Baixando o modelo: {model_name}...")

# 1. Carrega (baixa) o Tokenizer e o Modelo
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

# 2. Salva na pasta local
print(f"Salvando em '{output_dir}'...")
tokenizer.save_pretrained(output_dir)
model.save_pretrained(output_dir)

print("Concluído! Pode verificar a pasta.")

Baixando o modelo: neuralmind/bert-base-portuguese-cased...
Salvando em 'bert_original'...
Concluído! Pode verificar a pasta.


In [3]:
import os
import shutil

OUTPUT_DIR = "bert_upload_github"
CHUNK_SIZE = 20 * 1024 * 1024  # 20MB exatos

def split_file(file_path, dest_folder):
    """Fatia um arquivo grande em pedaços menores."""
    filename = os.path.basename(file_path)
    file_size = os.path.getsize(file_path)
    
    # Se for menor que o limite, apenas copia
    if file_size <= CHUNK_SIZE:
        shutil.copy2(file_path, os.path.join(dest_folder, filename))
        print(f"[Copiado] {filename}")
        return

    # Se for maior, particiona
    print(f"[Particionando] {filename} ({file_size / (1024*1024):.2f} MB)...")
    part_num = 1
    with open(file_path, 'rb') as f:
        while True:
            chunk = f.read(CHUNK_SIZE)
            if not chunk:
                break
            
            part_name = f"{filename}.part{part_num:03d}"
            part_path = os.path.join(dest_folder, part_name)
            
            with open(part_path, 'wb') as chunk_file:
                chunk_file.write(chunk)
            
            print(f"  -> Criado: {part_name}")
            part_num += 1

# 2. Criar pasta de destino
if os.path.exists(OUTPUT_DIR):
    shutil.rmtree(OUTPUT_DIR)
os.makedirs(OUTPUT_DIR)

# 3. Processar arquivos
print("\nProcessando arquivos para upload...")
for root, dirs, files in os.walk(output_dir):
    for file in files:
        # Ignora arquivos ocultos ou irrelevantes do git
        if file.startswith('.'):
            continue
        
        full_path = os.path.join(root, file)
        split_file(full_path, OUTPUT_DIR)

print(f"\nConcluído! A pasta '{OUTPUT_DIR}' está pronta para o 'git push'.")


Processando arquivos para upload...
[Copiado] config.json
[Particionando] model.safetensors (415.53 MB)...
  -> Criado: model.safetensors.part001
  -> Criado: model.safetensors.part002
  -> Criado: model.safetensors.part003
  -> Criado: model.safetensors.part004
  -> Criado: model.safetensors.part005
  -> Criado: model.safetensors.part006
  -> Criado: model.safetensors.part007
  -> Criado: model.safetensors.part008
  -> Criado: model.safetensors.part009
  -> Criado: model.safetensors.part010
  -> Criado: model.safetensors.part011
  -> Criado: model.safetensors.part012
  -> Criado: model.safetensors.part013
  -> Criado: model.safetensors.part014
  -> Criado: model.safetensors.part015
  -> Criado: model.safetensors.part016
  -> Criado: model.safetensors.part017
  -> Criado: model.safetensors.part018
  -> Criado: model.safetensors.part019
  -> Criado: model.safetensors.part020
  -> Criado: model.safetensors.part021
[Copiado] special_tokens_map.json
[Copiado] tokenizer.json
[Copiado] toke