Skip to content

guofei9987/nlp

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 

Repository files navigation

nlp

nlp相关资料汇总

中文 Embedding

原文:https://github.com/Embedding/Chinese-Word-Vectors

Word2vec / Skip-Gram with Negative Sampling (SGNS)
语料 上下文特征
词 + N元组 词 + 字 词 + 字 + N元组
Baidu Encyclopedia 百度百科 300d 300d 300d 300d
Wikipedia_zh 中文维基百科 300d 300d 300d 300d
People's Daily News 人民日报 300d 300d 300d 300d
Sogou News 搜狗新闻 300d 300d 300d 300d
Financial News 金融新闻 300d 300d 300d 300d
Zhihu_QA 知乎问答 300d 300d 300d 300d
Weibo 微博 300d 300d 300d 300d
Literature 文学作品 300d 300d / PWD: z5b4 300d 300d / PWD: yenb
Complete Library in Four Sections
四库全书*
300d 300d NAN NAN
Mixed-large 综合
Baidu Netdisk / Google Drive
300d
300d
300d
300d
300d
300d
300d
300d
Positive Pointwise Mutual Information (PPMI)
语料 上下文特征
词 + N元组 词 + 字 词 + 字 + N元组
Baidu Encyclopedia 百度百科 Sparse Sparse Sparse Sparse
Wikipedia_zh 中文维基百科 Sparse Sparse Sparse Sparse
People's Daily News 人民日报 Sparse Sparse Sparse Sparse
Sogou News 搜狗新闻 Sparse Sparse Sparse Sparse
Financial News 金融新闻 Sparse Sparse Sparse Sparse
Zhihu_QA 知乎问答 Sparse Sparse Sparse Sparse
Weibo 微博 Sparse Sparse Sparse Sparse
Literature 文学作品 Sparse Sparse Sparse Sparse
Complete Library in Four Sections
四库全书*
Sparse Sparse NAN NAN
Mixed-large 综合 Sparse Sparse Sparse Sparse

*由于古汉语中绝大部份词均为单字词,因此只需字向量。

不同的上下文共现信息

我们提供了基于不同共现信息训练而成的词向量。下述提到的中心向量和上下文向量在类似的论文中也被称为输入和输出向量。

这个部分中的向量不仅仅是词向量,还有其它的语言单位对应的向量。比如,在上下文是“词-字”的条件下,上下文向量会包含字向量。

所有的向量均采用SGNS在百度百科语料上训练而成。

                                                       
特征共现信息中心向量上下文向量
词 → 词300d 300d
N元组 词 → N元组 (1-2) 300d 300d
词 → N元组 (1-3) 300d 300d
N元组 (1-2) → N元组 (1-2) 300d 300d
词 → 字 (1) 300d 300d
词 → 字 (1-2) 300d 300d
词 → 字 (1-4) 300d 300d
偏旁部首 偏旁部首 300d 300d
位置词 → 词 (左/右) 300d 300d
词 → 词 (距离) 300d 300d
全局信息词 → 文章 300d 300d
语法特征词 → 词性 300d 300d
词 → 依存关系300d 300d

About

nlp相关资料汇总

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published