## 3.无监督学习

### 3. 1PCA

PCA 是一种用于减少数据中的变量的算法。它对变量之间存在相关性的数据很有效，是一种具有代表性的降维算法；<br>
PCA 基于原有的变量构造新的变量；<br>
PCA 可发现对象数据的方向和重要度

(a)图中画出正交的两条线，线的方向表示数据的方向，长度表示重要度。方向由构成新变量时对象数据变量的权重决定，而重要度与变量的偏差有关。<br>
(b)图以这两条线为新轴对原始数据进行变换后得到的图形，变换后的数据称为主成分得分。按主成分轴的重要度的值从高到低排序，依次称它们为第一主成分、第二主成分。

![title](./image/PCA.jpg)

接下来介绍PCA 寻找主成分的步骤
1. 计算协方差矩阵。
2. 对协方差矩阵求解特征值问题，求出特征向量和特征值。
3. 以数据表示各主成分方向。

下面是对 scikit-learn 内置的鸢尾花数据使用 PCA 的示例代码，用于将 4 个特征变量变换为 2个主成分。

In [6]:
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris
data = load_iris()
n_components = 2 #将减少后的维度设置为2
model = PCA(n_components=n_components)
model = model.fit(data.data)
print(model.transform(data.data)[:10]) # 变换后的数据

[[-2.68412563  0.31939725]
 [-2.71414169 -0.17700123]
 [-2.88899057 -0.14494943]
 [-2.74534286 -0.31829898]
 [-2.72871654  0.32675451]
 [-2.28085963  0.74133045]
 [-2.82053775 -0.08946138]
 [-2.62614497  0.16338496]
 [-2.88638273 -0.57831175]
 [-2.6727558  -0.11377425]]


PCA 可以将原始数据中的变量表示为新的轴的主成分。这些主成分按照贡献率大小排序，分别
为第一主成分、第二主成分……照此类推。这时通过计算累计贡献率，我们可以知道使用到第几个
主成分为止可以包含原始数据多少比例的信息。

### 3.2 LSA

使用 LSA 就可以根据大量文本自动计算单词和单词的相似度，以及单词和文本的相似度。
通过 LSA 对文本和单词的矩阵进行降维，将其变换为潜在语义空间（图 3-5）。这种变换使用
矩阵分解进行。矩阵分解是指将某个矩阵表示为多个矩阵的乘积的形式。

下面结合具体的例子来讲解矩阵分解和降维。
首先将以下文本变换为矩阵 X。矩阵 X 的各元素是文本中出现的单词的个数
- 坐汽车去公司
- 坐车去的
- 在餐厅吃汉堡牛肉饼
- 在餐厅吃意大利面

![title](./image/wordNum.jpg)

下一步：通过矩阵变换进行矩阵分解和降维，将4维的特征转换为2维<br>
![title](./image/wordNumChange.jpg)

此时得到的数据可以这样理解：<br>
“汽车”和“车”拥有变量 B 的值，<br>
“汉堡牛肉饼”和“意大利面”拥有变量 A 的值。<br>
A 和 B 的特征值显示了各个单词之间的关联性

下面使用 Python 代码解决前面探讨的问题。

In [7]:
from sklearn.decomposition import TruncatedSVD
data = [[1, 0, 0, 0],
[1, 0, 0, 0],
[1, 1, 0, 0],
[0, 1, 0, 0],
[0, 0, 1, 1],
[0, 0, 1, 0],
[0, 0, 1, 1],
[0, 0, 0, 1]]
n_components = 2 # 潜在变量的个数
model = TruncatedSVD(n_components=n_components)
model.fit(data)
print(model.transform(data)) # 变换后的数据
print(model.explained_variance_ratio_) # 贡献率
print(sum(model.explained_variance_ratio_)) # 累计贡献率

[[ 0.00000000e+00  8.50650808e-01]
 [ 0.00000000e+00  8.50650808e-01]
 [ 2.71947991e-16  1.37638192e+00]
 [ 2.71947991e-16  5.25731112e-01]
 [ 1.41421356e+00 -2.02192262e-16]
 [ 7.07106781e-01  0.00000000e+00]
 [ 1.41421356e+00 -2.02192262e-16]
 [ 7.07106781e-01 -2.02192262e-16]]
[0.38596491 0.27999429]
0.6659592065833293


LSA算法的注意事项
1. 变换后的矩阵有时难以解释。在通过奇异值分解降维时，各个维度可能是正交的，矩阵中的元素也可能是负值。
2. LSA 的计算成本有时很高。特别是在用于文本时，由于原始矩阵的维度就是单词的个数，所以 LSA 必须在非常大的矩阵上进行奇异值分解。
3. 随着新词的加入，原有的矩阵必须重新创建，我们必须在此基础上重新计算，所以模型的更新难度很大。