Skip to content

Latest commit

 

History

History
70 lines (39 loc) · 3.23 KB

w2v.md

File metadata and controls

70 lines (39 loc) · 3.23 KB

Word2Vector 模型

下面提供一些训练好的 Word2Vector 中文模型,供大家使用。

V202408

使用 2024 年 8 月 20 日的 Wiki 中文语料训练,使用 CBOW 模型训练,单词维数 300,训练窗口 5。

  • 【模型】word2vec_zhwiki2408_stand_cbow_300d.bin(使用标准分词后的语料训练)
  • 【模型】word2vec_zhwiki2408_nlp_cbow_300d.bin(使用NLP分词后的语料训练)
  • 【语料】zhwiki_simp_2408.zip

注:语料仅做了初步处理,删除了标点符号以及转换为简体中文,未进行分词。

下载:百度网盘 | 城通网盘 (访问密码: 1570)

V20210720

使用 2021 年 7 月 20 日的 Wiki 中文语料训练,使用 Skip-Gram 模型训练,单词维数 300,训练窗口 10。

  • 【模型】Google_word2vec_zhwiki210720_300d.bin
  • 【语料】zhwiki_210720_preprocessed.simplied.zip

下载:百度云盘 (提取码:w86y) | 城通网盘 (访问密码: 1570)

注:语料已经使用 AHANLP 做过分词处理(未去停用词)。

V202103

使用 2021 年 3 月的 Wiki 中文语料训练,使用 Skip-Gram 模型训练,单词维数 300,训练窗口 10。

  • 【模型】Google_word2vec_zhwiki2103_300d.bin
  • 【语料】zhwiki_2103_preprocessed.simplied.zip

下载:百度云盘 (提取码:gjy2) | 城通网盘 (访问密码: 1570)

注:语料已经使用 AHANLP 做过分词处理(未去停用词)。

V201710

使用 2017 年 10 月的 Wiki 中文语料训练,使用 Skip-Gram 模型训练,单词维数 300,训练窗口 10。

  • 【模型】Google_word2vec_zhwiki1710_300d.bin
  • 【语料】zhwiki_1710_preprocessed.simplied.zip

下载:百度云盘 (提取码:1b44) | 城通网盘 (访问密码: 1570)

注:语料已经使用 AHANLP 做过分词处理(未去停用词)。

V201709

使用 2017 年 9 月的 Wiki 中文语料训练,使用 Skip-Gram 模型训练,单词维数 300,训练窗口 5。

  • 【模型】Google_word2vec_zhwiki1709_300d.bin
  • 【语料】zhwiki_1709_preprocessed.simplied.zip

下载:百度云盘 (提取码:rdct) | 城通网盘 (访问密码: 1570)

注:语料已经使用 AHANLP 做过分词和去停用词处理。

旧版

单词维数 200。

  • 【模型】wiki_chinese_word2vec(Google).model
  • 【语料】wiki_chinese_preprocessed.simplied.txt.tar.gz

下载:百度云盘 (提取码:w1p5) | 城通网盘

注:语料已做过预处理。