Skip to content

Latest commit

 

History

History
42 lines (26 loc) · 1.64 KB

tokenization_utils.md

File metadata and controls

42 lines (26 loc) · 1.64 KB

Utilities for Tokenizers

このページには、トークナイザーによって使用されるすべてのユーティリティ関数 (主にクラス) がリストされます。 [~tokenization_utils_base.PreTrainedTokenizerBase] 間の共通メソッドを実装します。 [PreTrainedTokenizer] と [PreTrainedTokenizerFast] およびミックスイン [~tokenization_utils_base.SpecialTokensMixin]。

これらのほとんどは、ライブラリ内のトークナイザーのコードを学習する場合にのみ役に立ちます。

PreTrainedTokenizerBase

[[autodoc]] tokenization_utils_base.PreTrainedTokenizerBase - call - all

SpecialTokensMixin

[[autodoc]] tokenization_utils_base.SpecialTokensMixin

Enums and namedtuples

[[autodoc]] tokenization_utils_base.TruncationStrategy

[[autodoc]] tokenization_utils_base.CharSpan

[[autodoc]] tokenization_utils_base.TokenSpan