TmengT/Lsi-Lsa
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
#Lsi_Lsa 潜在语义分析 本项目是LSA的java实现 矩阵方法库使用的jama库1.0.3版本 #Latent Semantic Analysis (Latent Semantic Indexing) LSA(LSI)使用SVD来对单词-文档矩阵进行分解。SVD可以看作是从单词-文档矩阵中发现不相关的索引变量(因子),将原来的数据映射到语义空间内。 在单词-文档矩阵中不相似的两个文档,可能在语义空间内比较相似。 SVD,亦即奇异值分解,是对矩阵进行分解的一种方法,一个t*d维的矩阵(单词-文档矩阵)X,可以分解为T*S*DT, 其中T为t*m维矩阵,T中的每一列称为左奇异向量(left singular bector),S为m*m维对角矩阵,每个值称为奇异值(singular value),D为d*m维矩阵,D中的每一列称为右奇异向量。 在对单词文档矩阵X做SVD分解之后,我们只保存S中最大的K个奇异值,以及T和D中对应 的K个奇异向量,K个奇异值构成新的对角矩阵S’,K个左奇异向量和右奇异向量构成新的矩阵T’和D’:X’=T’*S’*D’T形成了一个新的t*d矩阵。 #使用做左奇异向量 embedding 数据数据的,然后与其他的文档做欧式距离计算
About
潜在语义分析
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published