In [1]:
from transformers import AutoModelForMaskedLM, AutoTokenizer, pipeline


  from .autonotebook import tqdm as notebook_tqdm


In [2]:
tokenizer = AutoTokenizer.from_pretrained("neuralmind/bert-base-portuguese-cased")

print("Special tokens and their IDs:")
print(f"pad_token: {tokenizer.pad_token} - ID: {tokenizer.pad_token_id}")
print(f"cls_token: {tokenizer.cls_token} - ID: {tokenizer.cls_token_id}")
print(f"sep_token: {tokenizer.sep_token} - ID: {tokenizer.sep_token_id}")
print(f"mask_token: {tokenizer.mask_token} - ID: {tokenizer.mask_token_id}")
print(f"unk_token: {tokenizer.unk_token} - ID: {tokenizer.unk_token_id}")

# Para ver todos os tokens especiais juntos:
print("\nAll special tokens dictionary:")
print(tokenizer.special_tokens_map)

Special tokens and their IDs:
pad_token: [PAD] - ID: 0
cls_token: [CLS] - ID: 101
sep_token: [SEP] - ID: 102
mask_token: [MASK] - ID: 103
unk_token: [UNK] - ID: 100

All special tokens dictionary:
{'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'}


In [3]:
model = AutoModelForMaskedLM.from_pretrained("answerdotai/ModernBERT-base")

print("Special tokens IDs from the model config:")
print(f"pad_token_id: {model.config.pad_token_id}")
print(f"cls_token_id: {model.config.cls_token_id}")
print(f"sep_token_id: {model.config.sep_token_id}")
# print(f"mask_token_id: {model.config.mask_token_id}")
print(f"bos_token_id: {model.config.bos_token_id}")  # início de sequência (se aplicável)
print(f"eos_token_id: {model.config.eos_token_id}")  # fim de sequência (se aplicável)


Special tokens IDs from the model config:
pad_token_id: 50283
cls_token_id: 50281
sep_token_id: 50282
bos_token_id: 50281
eos_token_id: 50282


In [4]:
model_path = "checkpoints/ckpt-5"  # caminho local onde seu modelo foi salvo

model = AutoModelForMaskedLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
pipe = pipeline(task="fill-mask", model=model_path)

Device set to use cuda:0


In [5]:
model.get_input_embeddings().num_embeddings

29794

In [6]:
pipe("Hoje acordei [MASK]. Meu cachorro morreu.")



[{'score': 0.9989151954650879,
  'token': 103,
  'token_str': '[MASK]',
  'sequence': 'Hoje acordei. Meu cachorro morreu.'},
 {'score': 0.00027403116109780967,
  'token': 221,
  'token_str': 'para',
  'sequence': 'Hoje acordei para. Meu cachorro morreu.'},
 {'score': 0.00024261799990199506,
  'token': 223,
  'token_str': 'ma',
  'sequence': 'Hoje acordei ma. Meu cachorro morreu.'},
 {'score': 0.00011414106120355427,
  'token': 19247,
  'token_str': 'Magic',
  'sequence': 'Hoje acordei Magic. Meu cachorro morreu.'},
 {'score': 7.527216075686738e-05,
  'token': 110,
  'token_str': '%',
  'sequence': 'Hoje acordei %. Meu cachorro morreu.'}]

In [7]:
# model.push_to_hub("LucasOkamura/test-modbert")
# tokenizer.push_to_hub("LucasOkamura/test-modbert")