解码器

原始文本：huggingface.co/docs/tokenizers/api/decoders

PythonRustNode

BPEDecoder

`class tokenizers.decoders.BPEDecoder`

( suffix = '</w>' )

参数

suffix (str, 可选, 默认为 </w>) — 用于表示单词结尾的后缀。在解码过程中，此后缀将被空格替换。

BPEDecoder 解码器

ByteLevel

`class tokenizers.decoders.ByteLevel`

( )

ByteLevel 解码器

此解码器应与 ByteLevel PreTokenizer 一起使用。

CTC

`class tokenizers.decoders.CTC`

( pad_token = '<pad>' word_delimiter_token = '|' cleanup = True )

参数

pad_token (str, 可选, 默认为 <pad>) — CTC 用于分隔新标记的填充标记。
word_delimiter_token (str, 可选, 默认为 |) — 单词分隔符标记。它将被替换为一个空格
cleanup (bool, 可选, 默认为 True) — 是否清理一些标记化残留物。主要是标点符号前的空格，以及一些缩写的英文形式。

CTC 解码器

Metaspace

`class tokenizers.decoders.Metaspace`

( )

参数

replacement (str, 可选, 默认为 ▁) — 替换字符。必须正好是一个字符。默认情况下，我们使用 ▁ (U+2581) 元符号（与 SentencePiece 中相同）。
add_prefix_space (bool, 可选, 默认为 True) — 如果第一个单词没有空格，则是否在第一个单词前添加一个空格。这样我们可以将 hello 和 say hello 完全相同对待。

Metaspace 解码器

WordPiece

`class tokenizers.decoders.WordPiece`

( prefix = '##' cleanup = True )

参数

prefix (str, 可选, 默认为 ##) — 用于表示不是单词开头的子词的前缀
cleanup (bool, 可选, 默认为 True) — 是否清理一些标记化残留物。主要是标点符号前的空格，以及一些缩写的英文形式。

WordPiece 解码器

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

tok013_19.md

tok013_19.md

解码器

BPEDecoder

`class tokenizers.decoders.BPEDecoder`

ByteLevel

`class tokenizers.decoders.ByteLevel`

CTC

`class tokenizers.decoders.CTC`

Metaspace

`class tokenizers.decoders.Metaspace`

WordPiece

`class tokenizers.decoders.WordPiece`

Files

tok013_19.md

Latest commit

History

tok013_19.md

File metadata and controls

解码器

BPEDecoder

class tokenizers.decoders.BPEDecoder

ByteLevel

class tokenizers.decoders.ByteLevel

CTC

class tokenizers.decoders.CTC

Metaspace

class tokenizers.decoders.Metaspace

WordPiece

class tokenizers.decoders.WordPiece

`class tokenizers.decoders.BPEDecoder`

`class tokenizers.decoders.ByteLevel`

`class tokenizers.decoders.CTC`

`class tokenizers.decoders.Metaspace`

`class tokenizers.decoders.WordPiece`