PythonRustNode
( suffix = '</w>' )
参数
suffix
(str
, 可选, 默认为</w>
) — 用于表示单词结尾的后缀。在解码过程中,此后缀将被空格替换。
BPEDecoder 解码器
( )
ByteLevel 解码器
此解码器应与 ByteLevel PreTokenizer 一起使用。
( pad_token = '<pad>' word_delimiter_token = '|' cleanup = True )
参数
-
pad_token
(str
, 可选, 默认为<pad>
) — CTC 用于分隔新标记的填充标记。 -
word_delimiter_token
(str
, 可选, 默认为|
) — 单词分隔符标记。它将被替换为一个空格 -
cleanup
(bool
, 可选, 默认为True
) — 是否清理一些标记化残留物。主要是标点符号前的空格,以及一些缩写的英文形式。
CTC 解码器
( )
参数
-
replacement
(str
, 可选, 默认为▁
) — 替换字符。必须正好是一个字符。默认情况下,我们使用 ▁ (U+2581) 元符号(与 SentencePiece 中相同)。 -
add_prefix_space
(bool
, 可选, 默认为True
) — 如果第一个单词没有空格,则是否在第一个单词前添加一个空格。这样我们可以将 hello 和 say hello 完全相同对待。
Metaspace 解码器
( prefix = '##' cleanup = True )
参数
-
prefix
(str
, 可选, 默认为##
) — 用于表示不是单词开头的子词的前缀 -
cleanup
(bool
, 可选, 默认为True
) — 是否清理一些标记化残留物。主要是标点符号前的空格,以及一些缩写的英文形式。
WordPiece 解码器