汉字语料向量库

Chinese Word Embedding

项目已停止，详情见文

Official Website

官方网址(博客)：

简介

汉字是中华文化的瑰宝，是几千年文化沉淀的产物，其本身意义早已脱离最早的象形符号，而是一种包含了古人思想，意境，行为方式的结晶。汉字相比于世界上其他的文字，有着其无可替代的特殊性。相比于拉丁文，汉字并非由少量字母构成，而是由上万个方块字组成。每一个汉字有其单独的意义。因此，拉丁文中由几个字母组成的单词，成为一个word，而每一个汉字也都可称为一个Word。

本文基于Gensim.Word2Vec，将每个汉字投射到向量空间。

向量空间

关于汉字的向量空间大小，目前没有，也很难有定论。这里我们可以依靠粗略的估计，给出可能的结果。

汉字的数量：

汉字由于是开放集合，数量并没有准确数字，日常所使用的汉字约为几千字。汉字数量的首次统计是汉朝许慎在《说文解字》中进行的，共收录9353字。其后，南朝时顾野王所撰的《玉篇》据记载共收16917字，在此基础上修订的《大广益会玉篇》则据说有22726字。此后收字较多的是宋朝官修的《类篇》，收字31319个；另一部宋朝官修的《集韵》中收字53525个，曾经是收字最多的一部书。近代编集的字典收字量更高，如清朝的《康熙字典》收字47035个；台湾的《中文大字典》收字49905个；大陆的《汉语大字典》（第一版）收字54678个，（第二版）收字60370个；最新的《中华字海》收字85568个，包含了《汉语大字典》、《中文大字典》、《康熙字典》和《说文解字》的所有收字；日本的《大汉和字典》收字48902个，另有附录1062个。21世纪已出版的字数最多的是日本《今昔文字镜》，收字17万个。 --《维基百科》

就本文使用数据集而言，古诗词使用汉字8907个，明清小说使用汉字xxxx个，全部汉字共xxxxx个。这给出了向量空间大小之上限。

另一方面，就汉字特征而言，近现代普通话发音有四音，加之轻声。若以声调变化来分，则分为三点，起中尾，加之是否轻读，可成4点。因此向量大小多四。

就汉字读音来说，21声母，39韵母。出去不能发音的组合之外，一共约410个音节。音节本身并非特征，他可由组合而成，因此发音特征占有不到21+39=60个空间。

就语言意境来说，喜怒哀乐，悲欢离合。并且夹杂其成分的组合，恐怕难以估计。但就单一成分而言，以最粗略之估计，也当有十余种。加之其他各种复杂难以言表之情态变化。保守以36数估。

故此，总特征数当为4+60+36=100.

使用方法

from gensim import Word2Vec
model = Word2Vec.load("*.w2v")

更多请参见Gensim.Word2Vec

结果

Input=
model.wv.most_similar('好')

Output=
('愛', 0.5527015328407288),
('喜', 0.5114672183990479),
('賞', 0.509137749671936),
('有', 0.5064948201179504),
('美', 0.4867051839828491),
('少', 0.47607749700546265),
('遠', 0.4758395552635193),
('樂', 0.4729122221469879),
('此', 0.4720180034637451),
('得', 0.4710419178009033)

结语

如有建议，需求等问题，欢迎联系。共建21世纪最完美的汉字语料数据集！

Name	Name	Last commit message	Last commit date
Latest commit imhlq Update Readme.md Mar 31, 2023 6f9cf47 · Mar 31, 2023 History 7 Commits
Classical_Article_Ensemble_szh.w2v	Classical_Article_Ensemble_szh.w2v	Upload w2v file	Jul 17, 2019
LICENSE	LICENSE	Create LICENSE	Jul 17, 2019
Poems_Article_szh.w2v	Poems_Article_szh.w2v	Upload w2v file	Jul 17, 2019
Poems_Article_tzh.w2v	Poems_Article_tzh.w2v	Upload w2v file	Jul 17, 2019
Poems_szh.w2v	Poems_szh.w2v	Upload w2v file	Jul 17, 2019
Poems_tzh.w2v	Poems_tzh.w2v	Upload w2v file	Jul 17, 2019
Readme.md	Readme.md	Update Readme.md	Mar 31, 2023
Recent_Novel.w2v	Recent_Novel.w2v	add novel	Jul 19, 2019

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

汉字语料向量库

Chinese Word Embedding

项目已停止，详情见文

简介

向量空间

使用方法

结果

结语

About

Releases

Packages

License

imhlq/ChineseWordEmbedding

Folders and files

Latest commit

History

Repository files navigation

汉字语料向量库

Chinese Word Embedding

项目已停止，详情见文

简介

向量空间

使用方法

结果

结语

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Packages