### 奇异值分解

到目前为止，你已经学习了一些奇异值分解知识。在此 notebook 中，你将练习这方面的技巧。

首先读取库和设置将在这个 notebook 中一直使用的数据。

`1.` 请运行以下单元格并创建 **user_movie_subset** DataFrame。你将在此 notebook 的第一部分使用该 DataFrame。

**注意：分解该矩阵需要大约 10 分钟的时间。**

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import svd_tests as t
%matplotlib inline

# Read in the datasets
movies = pd.read_csv('movies_clean.csv')
reviews = pd.read_csv('reviews_clean.csv')

del movies['Unnamed: 0']
del reviews['Unnamed: 0']

# Create user-by-item matrix
user_items = reviews[['user_id', 'movie_id', 'rating']]
user_by_movie = user_items.groupby(['user_id', 'movie_id'])['rating'].max().unstack()

user_movie_subset = user_by_movie[[73486, 75314,  68646, 99685]].dropna(axis=0)
print(user_movie_subset)

movie_id  73486  75314  68646  99685
user_id                             
265        10.0   10.0   10.0   10.0
1023       10.0    4.0    9.0   10.0
1683        8.0    9.0   10.0    5.0
6571        9.0    8.0   10.0   10.0
11639      10.0    5.0    9.0    9.0
13006       6.0    4.0   10.0    6.0
14076       9.0    8.0   10.0    9.0
14725      10.0    5.0    9.0    8.0
23548       7.0    8.0   10.0    8.0
24760       9.0    5.0    9.0    7.0
28713       9.0    8.0   10.0    8.0
30685       9.0   10.0   10.0    9.0
34110      10.0    9.0   10.0    8.0
34430       5.0    8.0    5.0    8.0
35150      10.0    8.0   10.0   10.0
43294       9.0    9.0   10.0   10.0
46849       9.0    8.0    8.0    8.0
50556      10.0    8.0    1.0   10.0
51382       5.0    6.0   10.0   10.0
51410       8.0    7.0   10.0    7.0


现在对用户-电影矩阵执行 SVD，并验证上述维度。

`4.` 以下是在 NumPy 中执行 SVD 的代码。要详细了解此功能，请参阅[此文档](https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.linalg.svd.html)。你发现这些矩阵的形状有什么规律？如果尝试对获得的三个对象执行点积运算，能够直接获得用户-电影矩阵吗？

In [9]:
u, s, vt = np.linalg.svd(user_movie_subset,full_matrices=1) # perform svd here on user_movie_subset
s.shape, u.shape, vt.shape
#full_matrices=0
#((4,), (20, 4), (4, 4))

((4,), (20, 20), (4, 4))

In [3]:
# Run this cell for our thoughts on the questions posted above
t.question4thoughts()

Looking at the dimensions of the three returned objects, we can see the following:

 1. The u matrix is a square matrix with the number of rows and columns equaling the number of users. 

 2. The v transpose matrix is also a square matrix with the number of rows and columns equaling the number of items.

 3. The sigma matrix is actually returned as just an array with 4 values, but should be a diagonal matrix.  Numpy has a diag method to help with this.  

 In order to set up the matrices in a way that they can be multiplied together, we have a few steps to perform: 

 1. Turn sigma into a square matrix with the number of latent features we would like to keep. 

 2. Change the columns of u and the rows of v transpose to match this number of dimensions. 

 If we would like to exactly re-create the user-movie matrix, we could choose to keep all of the latent features.


`5.` 请利用上个问题的思路创建有 4 个潜在特征的 U、S 和 V 转置矩阵。正确创建所有三个矩阵后，请运行以下测试，表示三个矩阵的点积能够创建原始用户-电影矩阵。这些矩阵的维度应该如下所示：

$$ U_{n x k} $$

$$\Sigma_{k x k} $$

$$V^T_{k x m} $$

其中：

1. n 表示用户数
2. k 表示潜在特征的数量（在此例中是 4 个）
3. m 表示电影数量

In [13]:
# Change the dimensions of u, s, and vt as necessary to use four latent features
# update the shape of u and store in u_new
u_new = u[:, :len(s)]

# update the shape of s and store in s_new
s_new = np.zeros((len(s), len(s)))
s_new[:len(s), :len(s)] = np.diag(s) 

# Because we are using 4 latent features and there are only 4 movies, 
# vt and vt_new are the same
vt_new = vt

print(u_new.shape,s_new.shape,vt_new.shape)
s_new

(20, 4) (4, 4) (4, 4)


array([[75.48556738,  0.        ,  0.        ,  0.        ],
       [ 0.        ,  9.67425201,  0.        ,  0.        ],
       [ 0.        ,  0.        ,  7.42235236,  0.        ],
       [ 0.        ,  0.        ,  0.        ,  5.49969554]])

∑ 矩阵能够告诉我们每个潜在特征从用户-电影矩阵中捕获的原始变化性程度如何。要解释的总变化量等于对角元素的平方和。第一个分量解释的变化量等于对角线中第一个值的平方。第二个分量解释的变化量等于对角线中第二个值的平方。   

`6.` 利用以上信息，你能判断仅使用前两个分量的话，能够解释原始用户-电影矩阵中的多少变化量吗？请在以下单元格中尝试一下，然后对照下个单元格中的解答检验你的答案。

In [14]:
total_var = np.sum(s**2)
var_exp_comp1_and_comp2 = s[0]**2 + s[1]**2
perc_exp = round(var_exp_comp1_and_comp2/total_var*100, 2)
print("The total variance in the original matrix is {}.".format(total_var))
print("Ther percentage of variability captured by the first two components is {}%.".format(perc_exp))

The total variance in the original matrix is 5877.0.
Ther percentage of variability captured by the first two components is 98.55%.


`7.` 与上个问题类似，但是更改下 U、∑ 和 V 转置矩阵的形状。这次仅使用前两个分量重现用户-电影矩阵，而不使用四个分量。设置好矩阵后，请运行测试并对照解答页面检查你的矩阵。这些矩阵的维度应该如下所示：

$$ U_{n x k} $$

$$\Sigma_{k x k} $$

$$V^T_{k x m} $$

其中：

1. n 表示用户数
2. k 表示潜在特征的数量（在此例中是 2 个）
3. m 表示电影数量

In [15]:
# Change the dimensions of u, s, and vt as necessary to use four latent features
# update the shape of u and store in u_new
k = 2
u_2 = u[:, :k]

# update the shape of s and store in s_new
s_2 = np.zeros((k, k))
s_2[:k, :k] = np.diag(s[:k]) 

# Because we are using 2 latent features, we need to update vt this time
vt_2 = vt[:k, :]

`8.` 使用所有 4 个潜在特征时，我们能够完全重现用户-电影矩阵。现在只有 2 个潜在特征，我们可以衡量下重现原始矩阵的效果，方法是查看点击运算生成的评分与实际评分之间的平方误差之和。仅使用两个潜在特征计算平方误差之和，并在以下单元格中对照解答页面测试你的答案。

In [16]:
# Compute the dot product
pred_ratings = np.dot(np.dot(u_2, s_2), vt_2)

# Compute the squared error for each predicted vs. actual rating
sum_square_errs = np.sum(np.sum((user_movie_subset - pred_ratings)**2))
sum_square_errs

85.33796548142435

这时候你可能会想.. 为何要选择一个不能返回包含所有原始评分的完整用户-电影矩阵的 k。问得好。一个是计算原因，我们肯定想要降低数据的维度，但这不是我们希望 k 小于电影数量和用户数量的主要原因。

我们暂时先思维往后退一步。在我们刚刚查看的这个示例中，矩阵很整洁。每个用户-电影组合都有一个评分。**没有丢失任何值。**但是从上节课我们知道，用户-电影矩阵有很多值丢失了。  

下面是与我们刚刚对其执行 SVD 的矩阵相似的矩阵：

<img src="nice_ex.png" width="400" height="400">

现实中：

<img src="real_ex.png" width="400" height="400">


所以，如果保留所有 k 个潜在特征，∑ 矩阵中值更小的潜在特征很有可能解释的变化性是由噪点导致的，而不是信号导致的。此外，如果我们在重构原始用户-电影矩阵时使用“有噪点的”潜在特征，可能会导致评分比仅使用与信号相关的潜在特征得出的评分更糟糕。   

`9.` 我们对缺少值的矩阵执行 SVD，使数据更加真实。下面我向矩阵中添加了一个新的用户，该用户尚未对所有四部电影都评分。请尝试对新的矩阵执行 SVD。会发生什么？

In [17]:
# This line adds one nan value as the very first entry in our matrix
user_movie_subset.iloc[0, 0] = np.nan

# Try svd with this new matrix
u, s, vt = np.linalg.svd(user_movie_subset)

LinAlgError: SVD did not converge

**请在这里填写答案。** 


```python

```