Skip to content

Latest commit

 

History

History
81 lines (46 loc) · 1.96 KB

tok013_19.md

File metadata and controls

81 lines (46 loc) · 1.96 KB

解码器

原始文本:huggingface.co/docs/tokenizers/api/decoders

PythonRustNode

BPEDecoder

class tokenizers.decoders.BPEDecoder

( suffix = '</w>' )

参数

  • suffix (str, 可选, 默认为 </w>) — 用于表示单词结尾的后缀。在解码过程中,此后缀将被空格替换。

BPEDecoder 解码器

ByteLevel

class tokenizers.decoders.ByteLevel

( )

ByteLevel 解码器

此解码器应与 ByteLevel PreTokenizer 一起使用。

CTC

class tokenizers.decoders.CTC

( pad_token = '<pad>' word_delimiter_token = '|' cleanup = True )

参数

  • pad_token (str, 可选, 默认为 <pad>) — CTC 用于分隔新标记的填充标记。

  • word_delimiter_token (str, 可选, 默认为 |) — 单词分隔符标记。它将被替换为一个空格

  • cleanup (bool, 可选, 默认为 True) — 是否清理一些标记化残留物。主要是标点符号前的空格,以及一些缩写的英文形式。

CTC 解码器

Metaspace

class tokenizers.decoders.Metaspace

( )

参数

  • replacement (str, 可选, 默认为 ) — 替换字符。必须正好是一个字符。默认情况下,我们使用 (U+2581) 元符号(与 SentencePiece 中相同)。

  • add_prefix_space (bool, 可选, 默认为 True) — 如果第一个单词没有空格,则是否在第一个单词前添加一个空格。这样我们可以将 hellosay hello 完全相同对待。

Metaspace 解码器

WordPiece

class tokenizers.decoders.WordPiece

( prefix = '##' cleanup = True )

参数

  • prefix (str, 可选, 默认为 ##) — 用于表示不是单词开头的子词的前缀

  • cleanup (bool, 可选, 默认为 True) — 是否清理一些标记化残留物。主要是标点符号前的空格,以及一些缩写的英文形式。

WordPiece 解码器