GH-1774: get max subtokens from transformer model #1804

alanakbik · 2020-08-12T21:09:03Z

Previously, the TransformerDocumentEmbeddings truncated all text to 512 subtokens. But some transformer models can handle longer text. With this PR, the max number of subtokens is read from the transformer model and it is only truncated accordingly.

Closes #1774

GH-1774: get max subtokens from transformer model

2956306

alanakbik merged commit caa1db9 into master Aug 12, 2020

alanakbik deleted the GH-1774-document-transformer-length branch August 13, 2020 13:58

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

GH-1774: get max subtokens from transformer model #1804

GH-1774: get max subtokens from transformer model #1804

alanakbik commented Aug 12, 2020

GH-1774: get max subtokens from transformer model #1804

GH-1774: get max subtokens from transformer model #1804

Conversation

alanakbik commented Aug 12, 2020