Tokenizer

トークナイザーは、モデルの入力の準備を担当します。ライブラリには、すべてのモデルのトークナイザーが含まれています。ほとんどトークナイザーの一部は、完全な Python 実装と、 Rust ライブラリ 🤗 Tokenizers。「高速」実装では次のことが可能になります。

特にバッチトークン化を行う場合の大幅なスピードアップと
元の文字列 (文字と単語) とトークン空間の間でマッピングする追加のメソッド (例: 特定の文字を含むトークンのインデックス、または特定のトークンに対応する文字の範囲）。

基本クラス [PreTrainedTokenizer] および [PreTrainedTokenizerFast] モデル入力の文字列入力をエンコードし (以下を参照)、Python をインスタンス化/保存するための一般的なメソッドを実装します。ローカルファイルまたはディレクトリ、またはライブラリによって提供される事前トレーニング済みトークナイザーからの「高速」トークナイザー (HuggingFace の AWS S3 リポジトリからダウンロード)。二人とも頼りにしているのは、共通メソッドを含む [~tokenization_utils_base.PreTrainedTokenizerBase] [~tokenization_utils_base.SpecialTokensMixin]。

したがって、[PreTrainedTokenizer] と [PreTrainedTokenizerFast] はメインを実装します。すべてのトークナイザーを使用するためのメソッド:

トークン化 (文字列をサブワードトークン文字列に分割)、トークン文字列を ID に変換したり、その逆の変換を行ったりします。エンコード/デコード (つまり、トークン化と整数への変換)。
基礎となる構造 (BPE、SentencePiece...) から独立した方法で、語彙に新しいトークンを追加します。
特別なトークン (マスク、文の始まりなど) の管理: トークンの追加、属性への割り当て。トークナイザーにより、簡単にアクセスでき、トークン化中に分割されないようにすることができます。

[BatchEncoding] は、 [~tokenization_utils_base.PreTrainedTokenizerBase] のエンコードメソッド (__call__、 encode_plus および batch_encode_plus) であり、Python 辞書から派生しています。トークナイザーが純粋な Python の場合 tokenizer の場合、このクラスは標準の Python 辞書と同じように動作し、によって計算されたさまざまなモデル入力を保持します。これらのメソッド (input_ids、attention_mask...)。トークナイザーが「高速」トークナイザーである場合 (つまり、 HuggingFace トークナイザーライブラリ)、このクラスはさらに提供します元の文字列 (文字と単語) とトークンスペース (例: 指定された文字または対応する文字の範囲を構成するトークンのインデックスの取得) 与えられたトークンに）。

PreTrainedTokenizer

[[autodoc]] PreTrainedTokenizer - call - apply_chat_template - batch_decode - decode - encode - push_to_hub - all

PreTrainedTokenizerFast

[PreTrainedTokenizerFast] は tokenizers ライブラリに依存します。 🤗 トークナイザーライブラリから取得したトークナイザーは、 🤗 トランスに非常に簡単にロードされます。これがどのように行われるかを理解するには、🤗 tokenizers からの tokenizers を使用するページを参照してください。

[[autodoc]] PreTrainedTokenizerFast - call - apply_chat_template - batch_decode - decode - encode - push_to_hub - all

BatchEncoding

[[autodoc]] BatchEncoding

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

tokenizer.md

tokenizer.md

Tokenizer

PreTrainedTokenizer

PreTrainedTokenizerFast

BatchEncoding

Files

tokenizer.md

Latest commit

History

tokenizer.md

File metadata and controls

Tokenizer

PreTrainedTokenizer

PreTrainedTokenizerFast

BatchEncoding