## LSI 概念

LSI(Latent Semantic Indexing)，中文意译是潜在语义索引，即通过海量文献找出词汇之间的关系。

基本理念是当两个词或一组词大量出现在一个文档中时，这些词之间就是语义相关的。

有的文章也叫Latent Semantic  Analysis（LSA）。其实是一个东西，后面我们统称LSI，它是一种简单实用的主题模型。

LSI是基于奇异值分解（SVD-Singular Value Decomposition）的方法来得到文本的主题的。

## 什么是SVD？

参考：http://www.cnblogs.com/pinard/p/6251584.html

## LSI 理解
对于一个m×n的矩阵A，可以分解为下面三个矩阵：

	Am×n=Um×mΣm×nVn×nT
有时为了降低矩阵的维度到k，SVD的分解可以近似的写为：

	Am×n≈Um×kΣk×kVk×nT

输入的有m个文本，每个文本有n个词。

而Aij则对应第i个文本的第j个词的特征值，这里最常用的是基于预处理后的标准化TF-IDF值。
k是我们假设的主题数，一般要比文本数少。

SVD分解后，
Uil对应第i个文本和第l个主题的相关度。
Σlm对应第l个主题和第m个词义的相关度。
Vmj对应第m个词义和第j个词的相关度。

反过来解释：

输入的有m个词，对应n个文本。
而Aij则对应第i个词档的第j个文本的特征值，这里最常用的是基于预处理后的标准化TF-IDF值。
k是我们假设的主题数，一般要比文本数少。
SVD分解后，
Uil对应第i个词和第l个词义的相关度。
Σlm对应第l个词义和第m个主题的相关度。
Vjm对应第j个文本和第m个主题的相关度。


这样我们通过一次SVD，就可以得到文档和主题的相关度，词和词义的相关度以及词义和主题的相关度。

## LSI计算文本相似度

通过余弦相似度：

参考：http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html





## LSI主题模型总结

LSI是最早出现的主题模型了，它的算法原理很简单，一次奇异值分解就可以得到主题模型，同时解决词义的问题，非常漂亮。

但是LSI有很多不足，导致它在当前实际的主题模型中已基本不再使用。
主要的问题有：
+ SVD计算非常的耗时，尤其是我们的文本处理，词和文本数都是非常大的，对于这样的高维度矩阵做奇异值分解是非常难的。
+ 主题值的选取对结果的影响非常大，很难选择合适的k值。
+ LSI得到的不是一个概率模型，缺乏统计基础，结果难以直观的解释。

对于问题1），主题模型非负矩阵分解（NMF）可以解决矩阵分解的速度问题。
对于问题2），这是老大难了，大部分主题模型的主题的个数选取一般都是凭经验的，较新的层次狄利克雷过程（HDP）可以自动选择主题个数。
对于问题3），牛人们整出了pLSI(也叫pLSA)和隐含狄利克雷分布(LDA)这类基于概率分布的主题模型来替代基于矩阵分解的主题模型。

回到LSI本身，对于一些规模较小的问题，如果想快速粗粒度的找出一些主题分布的关系，则LSI是比较好的一个选择，其他时候，如果你需要使用主题模型，推荐使用LDA和HDP。


In [1]:
# -*- coding: utf-8 -*-
from gensim import corpora, models, similarities
import logging
import jieba
import jieba.posseg as pseg
# 防止乱码
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
# 打印log信息
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

In [2]:
# 读取分词后的文件

import re  
class MyCorpus(object):
    def __iter__(self):
        #for line in open('mycorpus.txt'):
        for line in open('2016G201000_result.txt'):
            #print line
            
  
            line = re.findall(ur"[\u4e00-\u9fa5]+", line.decode("utf-8"))
            yield [text for text in line]
            #yield line.lower().split()

In [3]:
# 
Corp = MyCorpus() # doesn't load the corpus into memory!
for i in Corp:
    print i

In [4]:
# 预处理
def preHandle(Corp):
    # remove common words and tokenize
    Corp = [x for x in Corp if x != []]
    stoplist = set('for a of the and to in rec trs docformat imageflag lasttime confid simrank simflag urltime  pagelevel pagerank infotype  purlid startid istop page / < > br gt p & nbsp = utf - ? xml ( # ! pcdata ) * | element lt ; : tbody tr td'.split())
    Corpn = [[word.encode('utf-8') for word in document if word not in stoplist]
             for document in Corp]
    
    # remove words that appear only once
    from collections import defaultdict
    frequency = defaultdict(int)
    for text in Corpn:
        for token in text:
            frequency[token] += 1

    texts = [[token for token in text if frequency[token] > 1] for text in Corpn]
    #for i in range(0,500):
        #print i,texts[i]
    
    return texts

In [5]:
texts = preHandle(Corp)
for x in texts:
    for i in x:
        print i,
    print ""

In [6]:
# 抽取一个bag-of-words，将文档的token映射为id
dictionary = corpora.Dictionary(texts)
# 保存词典
dictionary.save('2016G201000_result_LSI.dict')
print dictionary.token2id

In [7]:
# 产生文档向量，将用字符串表示的文档转换为用id和词频表示的文档向量
corpus = [dictionary.doc2bow(text) for text in texts]

In [8]:
# 基于这些“训练文档”计算一个TF-IDF模型
tfidf = models.TfidfModel(corpus)

In [9]:
# 转化文档向量，将用词频表示的文档向量表示为一个用tf-idf值表示的文档向量
corpus_tfidf = tfidf[corpus]

In [10]:
# 训练LSI模型 即将训练文档向量组成的矩阵SVD分解，并做一个秩为2的近似SVD分解
lsi = models.LsiModel(corpus_tfidf, id2word=dictionary, num_topics=100)

In [11]:
# 保存模型
lsi.save('LSI.pkl')
lsi.print_topics(20)

[(0,
  u'-0.996*"\u56fd\u5185" + -0.089*"\u7b80\u62a5" + -0.002*"\u7684" + -0.002*"\u56fd\u9645" + -0.002*"\u7ecf\u6d4e" + -0.002*"\u4e2d\u56fd" + -0.001*"\u5728" + -0.001*"\u548c" + -0.001*"\u53d1\u5c55" + -0.001*"\u5c06"'),
 (1,
  u'0.994*"\u56fd\u9645" + 0.034*"\u7684" + 0.026*"\u7ecf\u6d4e" + 0.023*"\u4e2d\u56fd" + 0.021*"\u5cf0\u4f1a" + 0.020*"\u4e16\u754c" + 0.019*"\u548c" + 0.018*"\u5168\u7403" + 0.018*"\u5728" + 0.017*"\u53d1\u5c55"'),
 (2,
  u'-0.728*"\u8054\u5408\u62a5" + -0.685*"\u53f0\u6e7e" + -0.006*"\u7684" + -0.004*"\u7ecf\u6d4e" + -0.004*"\u4e2d\u56fd" + -0.003*"\u5728" + -0.003*"\u5cf0\u4f1a" + 0.003*"\u56fd\u9645" + -0.003*"\u676d\u5dde" + -0.003*"\u4e16\u754c"'),
 (3,
  u'0.725*"\u65b0\u95fb\u7f51" + 0.683*"\u591a\u7ef4" + 0.048*"\u4e16\u754c" + 0.021*"\u7684" + 0.019*"\u7ecf\u6d4e" + 0.017*"\u9999\u6e2f" + 0.015*"\u4e2d\u56fd" + 0.014*"\u5cf0\u4f1a" + 0.012*"\u676d\u5dde" + 0.012*"\u5728"'),
 (4,
  u'-0.295*"\u7684" + -0.234*"\u7ecf\u6d4e" + -0.199*"\u4e2d\u56fd" + 