Skip to content

fix: 统一 NLTK 数据配置并修正描述#320

Merged
haolpku merged 1 commit intoOpenDCAI:mainfrom
zzy1127:main
Oct 17, 2025
Merged

fix: 统一 NLTK 数据配置并修正描述#320
haolpku merged 1 commit intoOpenDCAI:mainfrom
zzy1127:main

Conversation

@zzy1127
Copy link
Contributor

@zzy1127 zzy1127 commented Oct 17, 2025

  • 统一 NLTK 依赖算子的数据加载方式(BlocklistFilter, RemoveStopwordsRefiner, rule_based_filter中的多个类)
  • 所有算子在 init 中配置 NLTK 数据路径
  • 优先使用环境变量 NLTK_DATA
  • 自动检测数据存在性,不存在时才下载
  • 修正 rule_based_filter.py 中所有 get_desc 函数的描述
  • CapitalWordsFilter 在 use_tokenizer=True 时添加 NLTK 配置

- 统一 NLTK 依赖算子的数据加载方式(BlocklistFilter, RemoveStopwordsRefiner, rule_based_filter中的多个类)
- 所有算子在 __init__ 中配置 NLTK 数据路径
- 优先使用环境变量 NLTK_DATA
- 自动检测数据存在性,不存在时才下载
- 修正 rule_based_filter.py 中所有 get_desc 函数的描述
- CapitalWordsFilter 在 use_tokenizer=True 时添加 NLTK 配置
@haolpku haolpku merged commit e782ecc into OpenDCAI:main Oct 17, 2025
9 checks passed
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

2 participants

Comments