Word2Vector 模型

下面提供一些训练好的 Word2Vector 中文模型，供大家使用。

V202408

使用 2024 年 8 月 20 日的 Wiki 中文语料训练，使用 CBOW 模型训练，单词维数 300，训练窗口 5。

【模型】word2vec_zhwiki2408_stand_cbow_300d.bin（使用标准分词后的语料训练）
【模型】word2vec_zhwiki2408_nlp_cbow_300d.bin（使用NLP分词后的语料训练）
【语料】zhwiki_simp_2408.zip

注：语料仅做了初步处理，删除了标点符号以及转换为简体中文，未进行分词。

下载：百度网盘 | 城通网盘 (访问密码: 1570)

V20210720

使用 2021 年 7 月 20 日的 Wiki 中文语料训练，使用 Skip-Gram 模型训练，单词维数 300，训练窗口 10。

【模型】Google_word2vec_zhwiki210720_300d.bin
【语料】zhwiki_210720_preprocessed.simplied.zip

下载：百度云盘 (提取码：w86y) | 城通网盘 (访问密码: 1570)

注：语料已经使用 AHANLP 做过分词处理（未去停用词）。

V202103

使用 2021 年 3 月的 Wiki 中文语料训练，使用 Skip-Gram 模型训练，单词维数 300，训练窗口 10。

【模型】Google_word2vec_zhwiki2103_300d.bin
【语料】zhwiki_2103_preprocessed.simplied.zip

下载：百度云盘 (提取码：gjy2) | 城通网盘 (访问密码: 1570)

注：语料已经使用 AHANLP 做过分词处理（未去停用词）。

V201710

使用 2017 年 10 月的 Wiki 中文语料训练，使用 Skip-Gram 模型训练，单词维数 300，训练窗口 10。

【模型】Google_word2vec_zhwiki1710_300d.bin
【语料】zhwiki_1710_preprocessed.simplied.zip

下载：百度云盘 (提取码：1b44) | 城通网盘 (访问密码: 1570)

注：语料已经使用 AHANLP 做过分词处理（未去停用词）。

V201709

使用 2017 年 9 月的 Wiki 中文语料训练，使用 Skip-Gram 模型训练，单词维数 300，训练窗口 5。

【模型】Google_word2vec_zhwiki1709_300d.bin
【语料】zhwiki_1709_preprocessed.simplied.zip

下载：百度云盘 (提取码：rdct) | 城通网盘 (访问密码: 1570)

注：语料已经使用 AHANLP 做过分词和去停用词处理。

旧版

单词维数 200。

【模型】wiki_chinese_word2vec(Google).model
【语料】wiki_chinese_preprocessed.simplied.txt.tar.gz

下载：百度云盘 (提取码：w1p5) | 城通网盘

注：语料已做过预处理。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

w2v.md

w2v.md

Word2Vector 模型

V202408

V20210720

V202103

V201710

V201709

旧版

Files

w2v.md

Latest commit

History

w2v.md

File metadata and controls

Word2Vector 模型

V202408

V20210720

V202103

V201710

V201709

旧版