下面提供一些训练好的 Word2Vector 中文模型,供大家使用。
使用 2024 年 8 月 20 日的 Wiki 中文语料训练,使用 CBOW 模型训练,单词维数 300,训练窗口 5。
- 【模型】word2vec_zhwiki2408_stand_cbow_300d.bin(使用标准分词后的语料训练)
- 【模型】word2vec_zhwiki2408_nlp_cbow_300d.bin(使用NLP分词后的语料训练)
- 【语料】zhwiki_simp_2408.zip
注:语料仅做了初步处理,删除了标点符号以及转换为简体中文,未进行分词。
使用 2021 年 7 月 20 日的 Wiki 中文语料训练,使用 Skip-Gram 模型训练,单词维数 300,训练窗口 10。
- 【模型】Google_word2vec_zhwiki210720_300d.bin
- 【语料】zhwiki_210720_preprocessed.simplied.zip
下载:百度云盘 (提取码:w86y) | 城通网盘 (访问密码: 1570)
注:语料已经使用 AHANLP 做过分词处理(未去停用词)。
使用 2021 年 3 月的 Wiki 中文语料训练,使用 Skip-Gram 模型训练,单词维数 300,训练窗口 10。
- 【模型】Google_word2vec_zhwiki2103_300d.bin
- 【语料】zhwiki_2103_preprocessed.simplied.zip
下载:百度云盘 (提取码:gjy2) | 城通网盘 (访问密码: 1570)
注:语料已经使用 AHANLP 做过分词处理(未去停用词)。
使用 2017 年 10 月的 Wiki 中文语料训练,使用 Skip-Gram 模型训练,单词维数 300,训练窗口 10。
- 【模型】Google_word2vec_zhwiki1710_300d.bin
- 【语料】zhwiki_1710_preprocessed.simplied.zip
下载:百度云盘 (提取码:1b44) | 城通网盘 (访问密码: 1570)
注:语料已经使用 AHANLP 做过分词处理(未去停用词)。
使用 2017 年 9 月的 Wiki 中文语料训练,使用 Skip-Gram 模型训练,单词维数 300,训练窗口 5。
- 【模型】Google_word2vec_zhwiki1709_300d.bin
- 【语料】zhwiki_1709_preprocessed.simplied.zip
下载:百度云盘 (提取码:rdct) | 城通网盘 (访问密码: 1570)
注:语料已经使用 AHANLP 做过分词和去停用词处理。
单词维数 200。
- 【模型】wiki_chinese_word2vec(Google).model
- 【语料】wiki_chinese_preprocessed.simplied.txt.tar.gz
注:语料已做过预处理。