## 线性代数基础

### 对称矩阵

>如果一个矩阵 $S$ 的所有数据项都满足$S

## SVD (Singular Value Decomposition）奇异值分解
https://zhuanlan.zhihu.com/p/29846048
> 优点：简化数据，去除噪声，提高算法的结果
> 
> 缺点：数据的转换可能难以理解
> 
> 适用数据范围：数值型数据
利用SVD实现，可以能够用小的多的数据来表示原始数据，如此，实际上是去除了噪声和多余信息。
---
结合特征分解知识

特征值的分解使用于

SVD是将任意复杂（注意对比特征分解只能适用于方阵）的矩阵用更小，更简单的3个矩阵的相乘表示，用这3个小矩阵来描述大矩阵的重要特征。

利用SVD 可以从稀疏矩阵（矩阵中有大量元素值为0）中提取有价值的信息，减少计算量，在使用线性代数的地方，基本上都要使用SVD。

SVD不但应用在PCA、图像压缩、数字水印、推荐系统和文章分类、LSA中，是很多机器学习算法基石。

### SVD数学定义
与特征值分解不同，SVD不要求原始矩阵为方阵。

$$ A=U \Sigma V^T$$
-------
 A 为$m \times n$矩阵
*  $U$ 是一个$m \times m$的矩阵，
*  $ \Sigma$ 是一个 $m \times n$ 的矩阵，除了主对角线上的元素以外全为0，主对角线上的每个元素都称为奇异值
*  $V$ 是一个 $n \times n$ 的矩阵。
$U$和$V$ 都是酉矩阵，即满足
$U^T T=E_{m \times m} , V^TV=E_{n \times n}$
 
 

>SVD是对数据进行有效特征整理的过程。首先，对于一个m×n矩阵A，我们可以理解为其有m个数据，n个特征，（想象成一个n个特征组成的坐标系中的m个点），然而一般情况下，这n个特征并不是正交的，也就是说这n个特征并不能归纳这个数据集的特征。SVD的作用就相当于是一个坐标系变换的过程，从一个不标准的n维坐标系，转换为一个标准的k维坐标系，并且使这个数据集中的点，到这个新坐标系的欧式距离为最小值（也就是这些点在这个新坐标系中的投影方差最大化），其实就是一个最小二乘的过程。进一步，如何使数据在新坐标系中的投影最大化呢，那么我们就需要让这个新坐标系中的基尽可能的不相关，我们可以用协方差来衡量这种相关性。A^T·A中计算的便是n×n的协方差矩阵，每一个值代表着原来的n个特征之间的相关性。当对这个协方差矩阵进行特征分解之后，我们可以得到奇异值和右奇异矩阵，而这个右奇异矩阵则是一个新的坐标系，奇异值则对应这个新坐标系中每个基对于整体数据的影响大小，我们这时便可以提取奇异值最大的k个基，作为新的坐标，这便是PCA的原理。

In [2]:
!pip install numpy

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Collecting numpy
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/8b/11/75a93826457f94a4c857a38ea3f178915f27ff38ffee1753e36994be7810/numpy-1.23.1-cp310-cp310-win_amd64.whl (14.6 MB)
     ---------------------------------------- 14.6/14.6 MB 9.5 MB/s eta 0:00:00
Installing collected packages: numpy
Successfully installed numpy-1.23.1


You should consider upgrading via the 'C:\Users\tomis\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.10_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip' command.


In [8]:
import numpy as np 
from numpy import linalg as la 
A=np.array([1,5,7,6,1,2,1,10,4,4, 3,6,7,5,2]).reshape(3,5)
print("原始矩阵：",A,"原始矩阵形状:",A.shape)
print(A@A.T)
U,s,Vt=la.svd(A)
print("左奇异矩阵",U,"矩阵形状：",U.shape)
print("右奇异矩阵",Vt,"矩阵形状：",Vt.shape)

原始矩阵： [[ 1  5  7  6  1]
 [ 2  1 10  4  4]
 [ 3  6  7  5  2]] 原始矩阵形状: (3, 5)
[[112 105 114]
 [105 137 110]
 [114 110 123]]
左奇异矩阵 [[-0.55572489  0.40548161 -0.72577856]
 [-0.59283199 -0.80531618  0.00401031]
 [-0.58285511  0.43249337  0.68791671]] 矩阵形状： (3, 3)
右奇异矩阵 [[-0.18828164 -0.37055755 -0.74981208 -0.46504304 -0.22080294]
 [ 0.01844501  0.76254787 -0.4369731   0.27450785 -0.38971845]
 [ 0.73354812  0.27392013 -0.12258381 -0.48996859  0.36301365]
 [ 0.36052404 -0.34595041 -0.43411102  0.6833004   0.30820273]
 [-0.5441869   0.2940985  -0.20822387 -0.0375734   0.7567019 ]] 矩阵形状： (5, 5)


In [None]:
!pip uninstall pyzmq