Skip to content

TmengT/Lsi-Lsa

Repository files navigation

#Lsi_Lsa 潜在语义分析 
  本项目是LSA的java实现  
  矩阵方法库使用的jama库1.0.3版本
#Latent Semantic Analysis (Latent Semantic Indexing) 
  LSA(LSI)使用SVD来对单词-文档矩阵进行分解。SVD可以看作是从单词-文档矩阵中发现不相关的索引变量(因子),将原来的数据映射到语义空间内。
  在单词-文档矩阵中不相似的两个文档,可能在语义空间内比较相似。
  SVD,亦即奇异值分解,是对矩阵进行分解的一种方法,一个t*d维的矩阵(单词-文档矩阵)X,可以分解为T*S*DT, 其中T为t*m维矩阵,T中的每一列称为左奇异向量(left singular bector),S为m*m维对角矩阵,每个值称为奇异值(singular value),D为d*m维矩阵,D中的每一列称为右奇异向量。
  在对单词文档矩阵X做SVD分解之后,我们只保存S中最大的K个奇异值,以及T和D中对应 的K个奇异向量,K个奇异值构成新的对角矩阵S’,K个左奇异向量和右奇异向量构成新的矩阵T’和D’:X’=T’*S’*D’T形成了一个新的t*d矩阵。
#使用做左奇异向量 embedding 数据数据的,然后与其他的文档做欧式距离计算

Releases

No releases published

Packages

No packages published

Languages