项目已停止,详情见文
Official Website
官方网址(博客):
https://xhou.me/chinese-word-embedding/
汉字是中华文化的瑰宝,是几千年文化沉淀的产物,其本身意义早已脱离最早的象形符号,而是一种包含了古人思想,意境,行为方式的结晶。汉字相比于世界上其他的文字,有着其无可替代的特殊性。相比于拉丁文,汉字并非由少量字母构成,而是由上万个方块字组成。每一个汉字有其单独的意义。因此,拉丁文中由几个字母组成的单词,成为一个word,而每一个汉字也都可称为一个Word。
本文基于Gensim.Word2Vec,将每个汉字投射到向量空间。
关于汉字的向量空间大小,目前没有,也很难有定论。这里我们可以依靠粗略的估计,给出可能的结果。
汉字的数量:
汉字由于是开放集合,数量并没有准确数字,日常所使用的汉字约为几千字。汉字数量的首次统计是汉朝许慎在《说文解字》中进行的,共收录9353字。其后,南朝时顾野王所撰的《玉篇》据记载共收16917字,在此基础上修订的《大广益会玉篇》则据说有22726字。此后收字较多的是宋朝官修的《类篇》,收字31319个;另一部宋朝官修的《集韵》中收字53525个,曾经是收字最多的一部书。 近代编集的字典收字量更高,如清朝的《康熙字典》收字47035个;台湾的《中文大字典》收字49905个;大陆的《汉语大字典》(第一版)收字54678个,(第二版)收字60370个;最新的《中华字海》收字85568个,包含了《汉语大字典》、《中文大字典》、《康熙字典》和《说文解字》的所有收字;日本的《大汉和字典》收字48902个,另有附录1062个。21世纪已出版的字数最多的是日本《今昔文字镜》,收字17万个。 --《维基百科》
就本文使用数据集而言,古诗词使用汉字8907个,明清小说使用汉字xxxx个,全部汉字共xxxxx个。这给出了向量空间大小之上限。
另一方面,就汉字特征而言,近现代普通话发音有四音,加之轻声。若以声调变化来分,则分为三点,起中尾,加之是否轻读,可成4点。因此向量大小多四。
就汉字读音来说,21声母,39韵母。出去不能发音的组合之外,一共约410个音节。音节本身并非特征,他可由组合而成,因此发音特征占有不到21+39=60个空间。
就语言意境来说,喜怒哀乐,悲欢离合。并且夹杂其成分的组合,恐怕难以估计。但就单一成分而言,以最粗略之估计,也当有十余种。加之其他各种复杂难以言表之情态变化。保守以36数估。
故此,总特征数当为4+60+36=100.
from gensim import Word2Vec
model = Word2Vec.load("*.w2v")
更多请参见Gensim.Word2Vec
Input=
model.wv.most_similar('好')
Output=
('愛', 0.5527015328407288),
('喜', 0.5114672183990479),
('賞', 0.509137749671936),
('有', 0.5064948201179504),
('美', 0.4867051839828491),
('少', 0.47607749700546265),
('遠', 0.4758395552635193),
('樂', 0.4729122221469879),
('此', 0.4720180034637451),
('得', 0.4710419178009033)
如有建议,需求等问题,欢迎联系。共建21世纪最完美的汉字语料数据集!