如何自定义分词器

在哪里写，哪些文件要改

在text_splitter文件夹下新建一个文件，文件名为您的分词器名字，比如my_splitter.py，然后在__init__.py中导入您的分词器，如下所示：

from .my_splitter import MySplitter

修改config/model_config.py文件，将您的分词器名字添加到text_splitter_dict中，如下所示：

MySplitter: {
        "source": "huggingface",  ## 选择tiktoken则使用openai的方法
        "tokenizer_name_or_path": "your tokenizer", #如果选择huggingface则使用huggingface的方法，部分tokenizer需要从Huggingface下载
    }
TEXT_SPLITTER = "MySplitter"

完成上述步骤后，就能使用自己的分词器了。

如何贡献您的分词器

将您的分词器所在的代码文件放在text_splitter文件夹下，文件名为您的分词器名字，比如my_splitter.py，然后在__init__.py中导入您的分词器。
发起PR，并说明您的分词器面向的场景或者改进之处。我们非常期待您能举例一个具体的应用场景。
在Readme.md中添加您的分词器的使用方法和支持说明。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

splitter.md

splitter.md

如何自定义分词器

在哪里写，哪些文件要改

如何贡献您的分词器

Files

splitter.md

Latest commit

History

splitter.md

File metadata and controls

如何自定义分词器

在哪里写，哪些文件要改

如何贡献您的分词器