nlp相关资料汇总
原文:https://github.com/Embedding/Chinese-Word-Vectors
Word2vec / Skip-Gram with Negative Sampling (SGNS) | ||||
语料 | 上下文特征 | |||
词 | 词 + N元组 | 词 + 字 | 词 + 字 + N元组 | |
Baidu Encyclopedia 百度百科 | 300d | 300d | 300d | 300d |
Wikipedia_zh 中文维基百科 | 300d | 300d | 300d | 300d |
People's Daily News 人民日报 | 300d | 300d | 300d | 300d |
Sogou News 搜狗新闻 | 300d | 300d | 300d | 300d |
Financial News 金融新闻 | 300d | 300d | 300d | 300d |
Zhihu_QA 知乎问答 | 300d | 300d | 300d | 300d |
Weibo 微博 | 300d | 300d | 300d | 300d |
Literature 文学作品 | 300d | 300d / PWD: z5b4 | 300d | 300d / PWD: yenb |
Complete Library in Four Sections 四库全书* |
300d | 300d | NAN | NAN |
Mixed-large 综合 Baidu Netdisk / Google Drive |
300d 300d |
300d 300d |
300d 300d |
300d 300d |
Positive Pointwise Mutual Information (PPMI) | ||||
语料 | 上下文特征 | |||
词 | 词 + N元组 | 词 + 字 | 词 + 字 + N元组 | |
Baidu Encyclopedia 百度百科 | Sparse | Sparse | Sparse | Sparse |
Wikipedia_zh 中文维基百科 | Sparse | Sparse | Sparse | Sparse |
People's Daily News 人民日报 | Sparse | Sparse | Sparse | Sparse |
Sogou News 搜狗新闻 | Sparse | Sparse | Sparse | Sparse |
Financial News 金融新闻 | Sparse | Sparse | Sparse | Sparse |
Zhihu_QA 知乎问答 | Sparse | Sparse | Sparse | Sparse |
Weibo 微博 | Sparse | Sparse | Sparse | Sparse |
Literature 文学作品 | Sparse | Sparse | Sparse | Sparse |
Complete Library in Four Sections 四库全书* |
Sparse | Sparse | NAN | NAN |
Mixed-large 综合 | Sparse | Sparse | Sparse | Sparse |
*由于古汉语中绝大部份词均为单字词,因此只需字向量。
我们提供了基于不同共现信息训练而成的词向量。下述提到的中心向量和上下文向量在类似的论文中也被称为输入和输出向量。
这个部分中的向量不仅仅是词向量,还有其它的语言单位对应的向量。比如,在上下文是“词-字”的条件下,上下文向量会包含字向量。
所有的向量均采用SGNS在百度百科语料上训练而成。
特征 | 共现信息 | 中心向量 | 上下文向量 |
词 | 词 → 词 | 300d | 300d |
N元组 | 词 → N元组 (1-2) | 300d | 300d |
词 → N元组 (1-3) | 300d | 300d | |
N元组 (1-2) → N元组 (1-2) | 300d | 300d | |
字 | 词 → 字 (1) | 300d | 300d |
词 → 字 (1-2) | 300d | 300d | |
词 → 字 (1-4) | 300d | 300d | |
偏旁部首 | 偏旁部首 | 300d | 300d |
位置 | 词 → 词 (左/右) | 300d | 300d |
词 → 词 (距离) | 300d | 300d | |
全局信息 | 词 → 文章 | 300d | 300d |
语法特征 | 词 → 词性 | 300d | 300d |
词 → 依存关系 | 300d | 300d |