bert-character-mlm

character tokenizer using BertTokenizer (uncased)

Usages

Charcter tokenizer & Character MLM

from transformers import AutoTokenizer, BertForMaskedLM, BertConfig

MODEL_NAME = 'char-bert-base-uncased'
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, use_fast=True)

config = BertConfig(vocab_size=len(tokenizer))
model = BertForMaskedLM(config)

Name		Name	Last commit message	Last commit date
Latest commit History 44 Commits
char-bert-base-uncased		char-bert-base-uncased
legacy		legacy
.gitignore		.gitignore
README.md		README.md
char_bert_training.ipynb		char_bert_training.ipynb
create_char_tokenizer.ipynb		create_char_tokenizer.ipynb
data_processing.py		data_processing.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

bert-character-mlm

Usages

Charcter tokenizer & Character MLM

About

Releases

Packages

Languages

lhy0718/bert-character-mlm

Folders and files

Latest commit

History

Repository files navigation

bert-character-mlm

Usages

Charcter tokenizer & Character MLM

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages