In [262]:
import numpy as np

# 前言知识

第一个问题?就是如何使用numpy计算特征值和特征向量

```
import numpy as np
A = np.array([[3,-1],[-1,3]])
print('打印A：\n{}'.format(A))
a, b = np.linalg.eig(A)
print('打印特征值a：\n{}'.format(a))
print('打印特征向量b：\n{}'.format(b))
```

In [263]:
A = np.array([[3,-1],[-1,3]])
print(A)
a,b = np.linalg.eig(A)
print('打印特征值a：\n{}'.format(a))
print('打印特征向量b：\n{}'.format(b))

[[ 3 -1]
 [-1  3]]
打印特征值a：
[4. 2.]
打印特征向量b：
[[ 0.71  0.71]
 [-0.71  0.71]]


In [264]:
A = np.array([[-1,1,0],[-4,3,0],[1,0,2]])
print(A)
a,b = np.linalg.eig(A)
print('打印特征值a：\n{}'.format(a))
print('打印特征向量b：\n{}'.format(b))

[[-1  1  0]
 [-4  3  0]
 [ 1  0  2]]
打印特征值a：
[2. 1. 1.]
打印特征向量b：
[[ 0.    0.41  0.41]
 [ 0.    0.82  0.82]
 [ 1.   -0.41 -0.41]]


第二个问题? 如何根据特征值生成对角矩阵
```
np.diag([1,2,3])
```

In [265]:
np.diag([1,2,3])

array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 3]])

# 矩阵分解

> 首先先从矩阵分解开始.

矩阵分解的前提要求必须是N*N的矩阵且需要是实对称矩阵

In [266]:
A = np.array([
     [1,2,3],
     [2,2,3],
     [3,3,3]
])

A

array([[1, 2, 3],
       [2, 2, 3],
       [3, 3, 3]])

In [267]:
w,v = np.linalg.eig(A) # w代表特征值 v代表特征向量

In [268]:
print(w)
print(v)

[ 7.52 -1.18 -0.34]
[[-0.48 -0.77  0.43]
 [-0.55 -0.12 -0.83]
 [-0.68  0.63  0.36]]


在这里我们可以通过

$$
A=W \Sigma W^{T}
$$

还原回原来的矩阵A,$W$代表特征向量,$\Sigma$代表由特征值组成的对角矩阵

In [269]:
v.dot(np.diag(w)).dot(v.T) #我们可以看到输出的结果和原先计算的A是一模一样的.

array([[1., 2., 3.],
       [2., 2., 3.],
       [3., 3., 3.]])

上面的矩阵分解使用N*N的矩阵,但是我们生活中遇到的大部分的情况下都不一定刚好是N*N的矩阵,所有下面我们进入此次练习的重点.如果使用奇异值分解来解决不是N*N的情况

# SVD的定义

奇异值分解是特征分解在矩阵上的一个推广，也是是一种数据压缩的方法，可以把一个(任意形状的)矩阵分解为3个较小的矩阵，便于存储和计算。这个算法比较简单，但是应用非常广泛，在图像处理、推荐等领域作用很大。

奇异值分解的目标就是:

$$ A=U\Sigma V^T  $$

其中$U$是一个$m * m$的矩阵,$\Sigma$是一个$m*n$的矩阵,主对角线上的每个元素都称为奇异值.$V$是$n*n$的矩阵.$U$和$V$都是酉矩阵,既满足$U^T U = I$和$V^T V = I$,$I$代表单位矩阵.

In [270]:
# 定义相关的矩阵,进行SVD分解
A = np.array(
    [
     [0,1],
     [1,1],
     [1,0]
    ]
)
A

array([[0, 1],
       [1, 1],
       [1, 0]])

本质上就是求$AA^T$的特征向量和特征值

In [285]:
# 先计算出U
w1,U = np.linalg.eig(A.dot(A.T))
print(w1)
print(U.astype(np.float16))

# 此时这里的v就是我们需要计算出的U

[ 3.00e+00  1.00e+00 -3.37e-17]
[[-0.41  0.71  0.58]
 [-0.82  0.   -0.58]
 [-0.41 -0.71  0.58]]


本质上就是求$A^T A$的特征向量和特征值

In [280]:
# 再计算出V
w2,V = np.linalg.eig(A.T.dot(A))
print(w2)
print(V)

# 此时这里的v就是我们需要计算出的U

[3. 1.]
[[ 0.71 -0.71]
 [ 0.71  0.71]]


In [273]:
# pad,表示填充 上 下 左 右
np.pad(np.diag(w2),((0,1),(0,0)),'constant')


array([[3., 0.],
       [0., 1.],
       [0., 0.]])

可知:
$$
A=U \Sigma V^{T} \Rightarrow A^{T}=V \Sigma^{T} U^{T} \Rightarrow A^{T} A=V \Sigma^{T} U^{T} U \Sigma V^{T}=V \Sigma^{2} V^{T}
$$

我们可以看出特征值矩阵等于奇异值的平方,也就是满足如下的关系:

$$
\sigma_{i}=\sqrt{\lambda_{i}}
$$

In [274]:
Sigma = np.sqrt(np.pad(np.diag(w2),((0,1),(0,0)),'constant'))

Sigma

array([[1.73, 0.  ],
       [0.  , 1.  ],
       [0.  , 0.  ]])

In [275]:
print(U.shape,Sigma.shape,V.shape)

(3, 3) (3, 2) (2, 2)


In [282]:
print(U.astype(np.float16))
print(Sigma)
print(V.T)

[[-0.41  0.71  0.58]
 [-0.82  0.   -0.58]
 [-0.41 -0.71  0.58]]
[[1.73 0.  ]
 [0.   1.  ]
 [0.   0.  ]]
[[ 0.71  0.71]
 [-0.71  0.71]]


In [277]:
U.dot(Sigma).dot(V.T)

array([[-1.00e+00,  3.32e-16],
       [-1.00e+00, -1.00e+00],
       [-1.21e-16, -1.00e+00]])

正确结果:

```
array([[0, 1],
       [1, 1],
       [1, 0]])
```

[错误参考来源](https://blog.csdn.net/weixin_43383558/article/details/83145867)

这里的原因很清楚了.为什么会出现这个问题,原因在于计算过程中的U的第一列在Numpy中计算输出了负数.本来在特征向量中输出负数不会影响结果,但是在SVD当中会影响结果.



当SVD结果的矩阵出现以下这两种情况时：
1、需要整个矩阵添加相反的正负号才等于原矩阵；
2、SVD求出的矩阵中某一列（多列也一样）需要添加相反的正负号才等于原矩阵；
以上两种情况都认为：你求解SVD成功，求的这个SVD和原矩阵一致。

解SVD常遇见的疑问
1、需要添加正负符号问题
在例题2中出现了最后的矩阵需要再绝对值才等于原矩阵，或者出现某一列需要添加正负正反的符号才等于原矩阵，
为什么会这样？
答：原因是你所用的计算软件对“它”动的毛手毛脚。
我非常肯定这一点。在查阅网上大量相似问题又最后无解，自己在matlab中发现：如果你只是一步一步求解 
AA^{T} 或者 A^{T}A ，最后将结果分别依照公式拼凑上去，那么问题就在你求解 AA^{T} 和 A^{T}A 的特征向量时，
计算软件有时会给某一列添加和你预想结果完全每一个都相反的符号。
所以在最后得出的计算结果中，将会出现某一列或者整个矩阵出现需要添加正负号才等于原矩阵的原因。
但是，这并不干扰你求解SVD的正确性。它给你添加的相反符号也没有错。
因为它们本质是“特征向量”，本质是线性或非线性方程的基础解析，只要它是相应的线性方程组的基础解析就没问题。
同一特征值的特征向量的非零线性组合，仍然是这个特征值的特征向量。比如，若 x 是方阵A某个特征值对应的特征向量，
则kx 也是A对应于该特征值的特征向量。（k取正数或者负数，不取0）在之前的章节里，
很清楚得说明白了k是基础解析的k倍，基础解析的k倍，无论k几倍都是某个特征值的特征向量，
它们都存在在一条轴上，一条由同一个方向上各个长短不同的特征向量组成的“旋转轴”。
所以对某一列向量，或者所有的列向量添加相反的符号（乘于-1），得到的SVD分解结果都是正确的。
但若非整个列向量取相反符号，而是仅仅存在某一个分量有符号问题，那就是你求解中出现了问题。
但是！这种情况却有一个例外，请参考下一点 2

2、“求错”的地方刚好撞见“转置”
比如，在麻省理工大学Gilbert Strang教授讲的《线性代数》的奇异值分解那一课，他出现错误的问题在于，
“求错”的地方刚好撞见“转置”，V矩阵正确的符号应该是：
正 负
正 正
他求成了：
正 正
正 负
本来这样也是没错的，因为在1中，我说特征向量kx和x一样，在上面两个矩阵中，下面的列2只不过乘于-1就
等于上面的列2，本来是正确的，但是问题就在于，V矩阵最后在SVD公式里需要转置，而转置的位置刚好就是将E12变到E21，
将E21变到E12，所以原本在属于那一列中没有错误的计算，转置后就错误了。解决的方法并不是手解，
我想没人蠢到用手解解一个"万阶矩阵"吧？有的话请告诉我。。。解决的方法在下一段将出现。
（下一段为：计算软件求解SVD的要注意的问题）

3、其它常见出错的问题
有可能是V没有进行转置：反正我是看到Gilbert Strang教授那一课中，其实不仅没有发现“错误点”在转置位置，而且，
他还忘了对V进行转置。（所幸当时那个矩阵转不转置两者都一样，所以他忘了也没什么。解错，这不毫不奇怪，
但可笑是，国内的相关文章上都依照他错误的方式去解，不仅没有解答真正的本质在于转置位置，
就连V需要转置这么基础的也没有一个人记得。我看过很多文章，大家都生搬硬抄直接将黑板的写上去，
完全不怀疑他有没有可能写错了。真是读死书。也怪不得国外有Wolframalpha、Mathpad、Mathematics等等软件，
国内却只能在每个软件的评论区喊着“有没有中文版？”）

有可能是U的符号出现错误
在多次实验当中，我发现如果最后的数字出现了错误，那么很可能是因为左乘矩阵出现了问题，
在放到这个SVD的例子当中，SVD的左乘矩阵就是U。

也就是可以这么总结：
如果只是列向量的正负出现问题，要么你是在V上出心大意忘了添加某个符号，要么就是你刚好碰上"错误点"和"转置位置"；

In [286]:
U.dot(Sigma.dot(V.T)).astype(np.float16)

array([[-1.,  0.],
       [-1., -1.],
       [-0., -1.]], dtype=float16)

In [289]:
np.array([[0.41 ,0.71 ,0.58],
 [0.82 ,0.  ,-0.58],
 [0.41,-0.71 ,0.58]]).dot(Sigma.dot(V.T)).astype(np.float16)

array([[9.96e-05, 1.00e+00],
       [1.00e+00, 1.00e+00],
       [1.00e+00, 9.96e-05]], dtype=float16)

最后千万不要用Python包一个一个去求ATA以及AAT的特征值、特征向量，你会发现你求得的$U \Sigma V^T$与原矩阵不相等！！！
Python一定要用np.linalg.svd(A)求解SVD，千万不要单独求解，切记！

In [292]:
x,y,z = np.linalg.svd(A)

In [295]:
print(x.shape,y.shape,z.shape)

(3, 3) (2,) (2, 2)


In [296]:
# 测试numpy中的svd结果
x.dot(np.pad(np.diag(y),((0,1),(0,0)),'constant').dot(z)).astype(np.float16)

array([[ 0.,  1.],
       [ 1.,  1.],
       [ 1., -0.]], dtype=float16)