潜在语义分析（LSA）是一种常用于自然语言处理和信息检索的技术。LSA 的目的是挖掘文档集合中的概念结构，通过统计分析来识别词语和文档之间的模式。这里我将通过一个简单的例子详细说明 LSA 的使用过程：

### 例子：简单文档集合的 LSA 处理

假设我们有以下三个文档：

1. 文档1: "Apple banana fruit apple."
2. 文档2: "Banana orange fruit."
3. 文档3: "Fruit banana apple."

我们想要使用 LSA 来发现文档中的潜在主题。

#### 步骤1: 文本预处理
- 转换为小写：简化词项。
- 词干提取或词形还原（可选）：标准化不同形式的单词。
- 去除停用词（可选）：如 "and", "is", "the" 等。

#### 步骤2: 构建词项-文档矩阵（Term-Document Matrix, TDM）
基于上述文档，构建如下的 TDM (假设不进行词干提取和停用词去除):

|        | 文档1 | 文档2 | 文档3 |
|--------|-------|-------|-------|
| apple  | 2     | 0     | 1     |
| banana | 1     | 1     | 1     |
| orange | 0     | 1     | 0     |
| fruit  | 1     | 1     | 1     |

#### 步骤3: 使用奇异值分解（SVD）
接下来，对 TDM 进行奇异值分解，分解为三个矩阵 U, Σ, V^T：

TDM ≈ U Σ V^T

在这里，U 矩阵代表词项与潜在主题的关联，Σ 是对角矩阵（包含奇异值，表示主题的重要性），V^T 矩阵代表文档与潜在主题的关联。

#### 步骤4: 降维
选择保留前 k 个最大的奇异值及其对应的向量（这里假设 k=2），从而获得近似的低维表达：

TDM ≈ U_k Σ_k V_k^T

#### 步骤5: 解释和应用
- **U_k** 和 **V_k^T** 分别表示词语和文档在潜在主题空间的表示。
- 可以用这些表示来比较文档的相似性、归类文档、关联词项与主题等。

通过这个简化的例子，我们可以看到 LSA 如何帮助我们从一组文档中抽象出潜在的主题，并将词语和文档映射到这些主题上。在实际应用中，LSA 可以处理非常大的文档集合，并且常常用于推荐系统、文档分类等任务。

In [1]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import TruncatedSVD

# 定义文档集
documents = [
    "Apple banana fruit apple",
    "Banana orange fruit",
    "Fruit banana apple"
]

# 创建词项-文档矩阵
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(documents)


In [2]:
# 打印词项-文档矩阵
print("词项-文档矩阵 (TDM):")
print(X.toarray())
print("词汇:", vectorizer.get_feature_names_out())

词项-文档矩阵 (TDM):
[[2 1 1 0]
 [0 1 1 1]
 [1 1 1 0]]
词汇: ['apple' 'banana' 'fruit' 'orange']


In [3]:
# 执行奇异值分解（SVD）
svd = TruncatedSVD(n_components=2)
X_transformed = svd.fit_transform(X)

In [4]:
# 输出处理后的矩阵和主题
print("\n降维后的文档-主题矩阵:")
print(X_transformed)


降维后的文档-主题矩阵:
[[ 2.36137426e+00 -6.32455532e-01]
 [ 1.18068713e+00  1.26491106e+00]
 [ 1.71139388e+00 -3.33066907e-16]]


In [5]:
# 输出奇异值（表示主题的权重）
print("\n奇异值:")
print(svd.singular_values_)


奇异值:
[3.14626437 1.41421356]


In [6]:
# 输出主题-词项矩阵
print("\n主题-词项矩阵 (每一行是一个主题，每一列对应一个词):")
print(svd.components_)


主题-词项矩阵 (每一行是一个主题，每一列对应一个词):
[[ 0.64998037  0.53070675  0.53070675  0.11927362]
 [-0.63245553  0.31622777  0.31622777  0.63245553]]


解释

CountVectorizer 用于生成词项-文档矩阵。每个元素计数表示词在文档中出现的次数。

TruncatedSVD 用于进行奇异值分解，我们提取了两个主要主题（n_components=2）。

X_transformed 表示每个文档在新的主题空间中的表示。

svd.components_ 表示每个主题与各个词项的关联强度。