Store tokenizer metadata/object within model #13

SeanNaren · 2021-01-04T14:50:26Z

When a model is saved, we do not store information pertaining to the tokenizer. This means we require the tokenizer to be re-created and assigned like below at inference/test time:

model = LitAutoModelTransformer.load_from_checkpoint('checkpoint.pt')
tokenizer = AutoTokenizer.from_pretrained('bert-base-cased')
model.tokenizer = tokenizer
...

It would be preferred that after specifying the tokenizer at training time, inference knows which tokenizer to use.

SeanNaren added bug / fix Something isn't working help wanted Extra attention is needed Priority P0 labels Jan 4, 2021

SeanNaren mentioned this issue Jan 8, 2021

Store tokenizer within the model #18

Merged

SeanNaren closed this as completed in #18 Jan 9, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Store tokenizer metadata/object within model #13

Store tokenizer metadata/object within model #13

SeanNaren commented Jan 4, 2021

Store tokenizer metadata/object within model #13

Store tokenizer metadata/object within model #13

Comments

SeanNaren commented Jan 4, 2021