参考资料：[sklearn: 利用TruncatedSVD做文本主题分析](https://blog.csdn.net/blmoistawinde/article/details/83446529)

《Until the Day》作者：林俊杰

In [2]:
# namely LSA/LSI(即潜在语义分析)
from sklearn.decomposition import TruncatedSVD
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

# 《Until the Day》作者：林俊杰
docs = ["In the middle of the night",
        "When our hopes and fears collide",
        "In the midst of all goodbyes",
        "Where all human beings lie",
        "Against another lie"]
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(docs)
terms = vectorizer.get_feature_names()
print(terms)

['against', 'all', 'and', 'another', 'beings', 'collide', 'fears', 'goodbyes', 'hopes', 'human', 'in', 'lie', 'middle', 'midst', 'night', 'of', 'our', 'the', 'when', 'where']


In [7]:
len(terms)

20

In [6]:
X.toarray()

array([[0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.3319971 , 0.        , 0.41150185, 0.        , 0.41150185,
        0.3319971 , 0.        , 0.6639942 , 0.        , 0.        ],
       [0.        , 0.        , 0.40824829, 0.        , 0.        ,
        0.40824829, 0.40824829, 0.        , 0.40824829, 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.40824829, 0.        , 0.40824829, 0.        ],
       [0.        , 0.37601977, 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.46606681, 0.        , 0.        ,
        0.37601977, 0.        , 0.        , 0.46606681, 0.        ,
        0.37601977, 0.        , 0.37601977, 0.        , 0.        ],
       [0.        , 0.38898761, 0.        , 0.        , 0.48214012,
        0.        , 0.        , 0.        , 0.        , 0.48214012,
        0.        , 0.38898761, 0.        , 0

In [5]:
# 5 个数据，每个数据 20 个维度，每个维度是一个单词
X.toarray().shape

(5, 20)

+ 使用 `TruncatedSVD` 把原先规模为（文本数，词汇数）的特征矩阵 `X` 化为规模为（文本数，主题数）的新特征矩阵 `X2`；
+ 由于主题数一般比词汇数少，这一方法也可以用来降维，用以后续进行分类或聚类操作。

In [9]:
np.set_printoptions(suppress=True, precision=2)

In [10]:
n_pick_topics = 3            # 设定主题数为3
lsa = TruncatedSVD(n_pick_topics)
X2 = lsa.fit_transform(X)
X2

array([[ 0.83, -0.25,  0.  ],
       [-0.  , -0.  ,  1.  ],
       [ 0.87, -0.09,  0.  ],
       [ 0.28,  0.73,  0.  ],
       [ 0.1 ,  0.76,  0.  ]])

这个时候，列数就成为 3 ，表示 3 个主题，这就是降维。

+ `X2[i,t]`为第 `i` 篇文档在第 `t` 个主题上的分布，所以该值越高的文档 `i`，可以认为在主题 `t` 上更有代表性，我们便以此筛选出最能代表该主题的文档。