# PCA, Recommender System, and Association Analysis
`jskyzero` `2018/06/03`

In [1]:
import math
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

%matplotlib inline

# 主成分分析（Principal Component Analysis，PCA）


请从课程网站或[此链接](https://pan.baidu.com/s/1djZy69OmLWqJDpStjGcQaA)下载 Yale 人脸数据集进行降维。通过 MATLAB 命令 `load('yale_face.mat')`读
取数据，包含一个4096 × 165矩阵。此矩阵的每一列是由一张64 × 64灰度人脸图像所转成的向
量。例如，可以使用 `imshow(reshape(X(:,1),[64 64]),[])`命令显示第一张人脸图像。

1. 试使用 MATLAB 中的 svd 函数实现 PCA 算法，并显示均值图像和前五个特征向量所对应的
图像；
2. 试对协方差矩阵使用 MATLAB 中的 eig 函数计算特征值，显示前五个最大的特征向量所对
应的图像，并比较对数据矩阵使用 svd 函数的所得出的特征向量与运算时间；
3. 试计算当降维后的维数分别是 10 和 100 时，保留的方差的比例，并分别利用 10 维和 100
维坐标恢复原高维空间中的人脸图像，对前三张人脸图像，对比原图和两张恢复的图像。

![](./PCA/output.png)

1.实现代码请参考`./PCA/main.m`，下同。均值图像和SVD方法的前五个特征值对应图像如上图所示。

2.EIG方法的前五个特征值对应图像如上图所示，运行时间如上图红色框标记。

3.保留方差比例如上图红色框标记，对比三张图像，我们可以发现10维的降维效果是不错的，在保存数据量大幅减少的情况下，图片大体轮廓仍然保持，100维的时候已经产生了噪声，甚至图片细节比原图片还多。

## 推荐系统（Recommender System）

考虑以下的 8 个用户（A-H）对 7 部电影评级（1 到 5 级）的一个效用矩阵：

|      | A    | B    | C    | D    | E    | F    | G    | H    |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| HP1  | 4    | 4    |      |      | 1    | 1    | 5    |      |
| HP2  | 5    | 5    |      | 1     |      |      |      |      |
| HP3  |      | 4    | 1    |      |      | 1    | 5    | 4    |
| TW   | 5    |      | 2    | 5    |      | 1    | 2    |      |
| SW1  | 1    |      | 5    | 4    | 5    |      |      | 1    |
| SW2  | 1    |      | 5    |      |      | 4    |      |      |
| SW3  |      | 1    |      | 5    |      | 5    | 1    |      |

电影的名字 HP1、HP2、HP3 分别代表《哈利波特》（Harry Potter）I、II、III，TW 代表《暮光之城》（Twilight），SW1、SW2 和 SW3 分别代表《星球大战》（Star Wars）I、II、III。 

1. 试实现协同过滤算法（Collaborative filtering algorithm，课件第 19 页，不需要进行去均值操作），令正则化参数λ = 0.1，特征向量维数n = 4，学习率α = 0.01，分别计算描述电影特 征的7 × 4矩阵X和预测用户评级的8 × 4模型参数矩阵Θ（定义见课件第 23 页，所得结果 保留小数点后 4 位），并计算预测电影评级的7 × 8效用矩阵即XΘ ′（保留小数点后 1 位）； 

2. 试计算（1）中预测的电影评级与真实评级的平方误差，即∑ ((𝜃 (𝑗) ) 𝑇 𝑥 (𝑖) − 𝑦 (𝑖,𝑗) ) 2 (𝑖,𝑗): 𝑟(𝑖,𝑗)=1 ， 其中𝑟(𝑖,𝑗), 𝑦 (𝑖,𝑗) , 𝜃 (𝑗) , 𝑥 (𝑖)的定义见课件第 7 页；讨论哪两部电影和 HP1 最相似，哪两部电 影和和 SW1 最相似； 

3. 试使用一个非零常数对协同过滤算法中的变量𝑥 (1) , … , 𝑥 (𝑛𝑚) , 𝜃 (1) , … , 𝜃 (𝑛𝑢)进行初始化（即 更改课件第 19 页 Collaborative filtering algorithm 的第一步为𝑥 (1) = ⋯ = 𝑥 (𝑛𝑚) = 𝜃 (1) = ⋯ = 𝜃 (𝑛𝑢) = 𝑐𝟏，其中𝑐为非零实数，𝟏为所有元素都是 1 的n = 4维列向量；使用（1）中 相同的参数，分别计算描述电影特征的7 × 4矩阵X和预测用户评级的8 × 4模型参数矩阵Θ （所得结果保留小数点后 4 位），并计算预测电影评级的7 × 8效用矩阵即XΘ ′（保留小数 点后1位）和预测的电影评级与真实评级的平方误差，即∑ ((𝜃 (𝑗) ) 𝑇 𝑥 (𝑖) − 𝑦 (𝑖,𝑗) ) 2 (𝑖,𝑗): 𝑟(𝑖,𝑗)=1 ； 与（1）和（2）中的结果比较，讨论此初始化方法的问题。 



In [2]:
data_str = '''
| HP1  | 4    | 4    |      |      | 1    | 1    | 5    |      |
| HP2  | 5    | 5    |      | 1     |      |      |      |      |
| HP3  |      | 4    | 1    |      |      | 1    | 5    | 4    |
| TW   | 5    |      | 2    | 5    |      | 1    | 2    |      |
| SW1  | 1    |      | 5    | 4    | 5    |      |      | 1    |
| SW2  | 1    |      | 5    |      |      | 4    |      |      |
| SW3  |      | 1    |      | 5    |      | 5    | 1    |      |
'''
data_str = map(lambda str : str.strip(' '), data_str.replace('\n', '').split('|'))
data = np.delete(np.array(list(data_str))[0:-1].reshape(7, 10), [0,1], 1)

def Error(actual, hypothesis):
    total_error = 0;
    for (x,y), value in np.ndenumerate(actual):
        if not value == "":
            total_error = total_error + (float(value) - hypothesis[x][y]) ** 2
    return total_error

def Hypothesis(user, theta):
    result = np.zeros((theta.shape[0], user.shape[0]))
    for (j, i), value in np.ndenumerate(result):
        result[j][i] = np.dot(theta[j], user[i])
    return result

def CF(data, theta, user, lambda_value=0.1, alpha=0.01):
    
    derivative = lambda theta, user, x : sum([0 if value == "" else (np.dot(theta[j], user[i]) - float(value)) * x  for (j,i), value in np.ndenumerate(data)]) 
  
    times = 0
    last_error = Error(data, Hypothesis(user, theta))
    while times < 100:
        for j in range(0, item_size, 1):
            for i in range(0, user_size, 1):
                user[i] = user[i] - alpha * (derivative(theta, user, theta[j]) + lambda_value * user[i])
                theta[j] = theta[j] - alpha * (derivative(theta, user, user[i]) + lambda_value * theta[j])
        new_error = Error(data, Hypothesis(user, theta))
#         print(new_error)
        if abs(new_error - last_error) < 0.01:
            break
        else:
            last_error = new_error
    times = times + 1

theta_size=4
item_size, user_size = data.shape
theta = np.random.rand(item_size, theta_size)
user = np.random.rand(user_size, theta_size)
CF(data, theta, user)

1. 如下

In [3]:
np.set_printoptions(precision=4)
print("theta = \n", theta)
print("user = \n", user)
np.set_printoptions(precision=1)
hypothesis = Hypothesis(user, theta)
print("hypothesis = \n", hypothesis)

theta = 
 [[0.906  0.8553 0.9727 1.1754]
 [0.8424 0.7809 0.874  1.071 ]
 [0.7816 0.774  0.893  1.0216]
 [0.7893 0.7428 0.8574 1.0182]
 [0.7462 0.7565 0.877  0.9709]
 [0.7575 0.7511 0.8837 1.0255]
 [0.7586 0.7222 0.8826 1.0163]]
user = 
 [[0.7626 0.8266 0.9245 1.089 ]
 [0.8478 0.8369 0.9026 1.0398]
 [0.8455 0.7697 0.8874 1.0919]
 [0.796  0.7502 0.9371 1.0946]
 [0.8249 0.7364 0.8645 1.001 ]
 [0.8386 0.7428 0.8553 1.0292]
 [0.7608 0.7602 0.8936 0.9863]
 [0.7273 0.7191 0.848  1.0076]]
hypothesis = 
 [[3.6 3.6 3.6 3.6 3.4 3.4 3.4 3.3]
 [3.3 3.3 3.3 3.2 3.1 3.1 3.1 3. ]
 [3.2 3.2 3.2 3.2 3.  3.  3.  2.9]
 [3.1 3.1 3.1 3.1 3.  3.  2.9 2.9]
 [3.1 3.1 3.1 3.  2.9 2.9 2.9 2.8]
 [3.1 3.1 3.1 3.1 3.  3.  2.9 2.9]
 [3.1 3.1 3.1 3.1 2.9 3.  2.9 2.8]]


2. 误差如下

HP1最相似：
SW1最相似：

In [4]:
error = Error(data, Hypothesis(user, theta))
print("error = \n", error)

error = 
 95.31320707825245


3.尝试初始化如下

In [5]:
C = 0.1
theta_size=4
item_size, user_size = data.shape
theta = np.ones((item_size, theta_size)) * C
user = np.ones((user_size, theta_size)) * C
CF(data, theta, user)

In [6]:
np.set_printoptions(precision=4)
print("theta = \n", theta)
print("user = \n", user)
np.set_printoptions(precision=1)
hypothesis = Hypothesis(user, theta)
print("hypothesis = \n", hypothesis)
error = Error(data, Hypothesis(user, theta))
print("error = \n", error)

theta = 
 [[0.9257 0.9257 0.9257 0.9257]
 [0.8953 0.8953 0.8953 0.8953]
 [0.8805 0.8805 0.8805 0.8805]
 [0.8728 0.8728 0.8728 0.8728]
 [0.8692 0.8692 0.8692 0.8692]
 [0.8736 0.8736 0.8736 0.8736]
 [0.876  0.876  0.876  0.876 ]]
user = 
 [[0.8654 0.8654 0.8654 0.8654]
 [0.8706 0.8706 0.8706 0.8706]
 [0.8796 0.8796 0.8796 0.8796]
 [0.896  0.896  0.896  0.896 ]
 [0.9145 0.9145 0.9145 0.9145]
 [0.9071 0.9071 0.9071 0.9071]
 [0.8778 0.8778 0.8778 0.8778]
 [0.8678 0.8678 0.8678 0.8678]]
hypothesis = 
 [[3.2 3.2 3.3 3.3 3.4 3.4 3.3 3.2]
 [3.1 3.1 3.2 3.2 3.3 3.2 3.1 3.1]
 [3.  3.1 3.1 3.2 3.2 3.2 3.1 3.1]
 [3.  3.  3.1 3.1 3.2 3.2 3.1 3. ]
 [3.  3.  3.1 3.1 3.2 3.2 3.1 3. ]
 [3.  3.  3.1 3.1 3.2 3.2 3.1 3. ]
 [3.  3.1 3.1 3.1 3.2 3.2 3.1 3. ]]
error = 
 96.36760625513625


不知道是不是迭代过程有问题，训练出的参数会趋于相同值，对初始化方法的评判没能提供帮助，不过，理论上随机选取初始化值一定程度上有利于避免收敛到局部最优的情况。

# 3. 关联规则

![hw4_q3](../docs/hw4_q3.jpg)

上面六个图（a）到（f）中的每一个图包含 1000 个商品和 10000 个交易的记录。灰色位置表
示存在商品交易，而白色表示不存在商品交易。我们使用 Apriori 算法提取频繁项集，并设定
频繁项集的最小支持度为 10%，即 minsup=10%（即频繁项集包含在至少 1000 个交易中）。
根据上图回答以下问题：

1. 哪一个或几个数据集的频繁项集数目最多？哪一个或几个数据集的频繁项集数目最少？
2. 哪一个或几个数据集的频繁项集长度最长（即包含最多商品）？
3. 哪一个或几个数据集的频繁项集有最高的最大支持度（highest maximum support）？
4. 哪一个或几个数据集的频繁项集有最大的支持度范围（例如频繁项集的支持度范围可以从小于 20%变化到大于 70%）？

由于图上并没有标尺，所以只用用目测的估计结果
1. 
    + 频繁项集数目最多？ a
    + 频繁项集数目最少？ b，f
2. 哪一个或几个数据集的频繁项集长度最长（即包含最多商品）？a
3. 哪一个或几个数据集的频繁项集有最高的最大支持度（highest maximum support）？b,e
4. 哪一个或几个数据集的频繁项集有最大的支持度范围（例如频繁项集的支持度范围可以从小于 20%变化到大于 70%）？f,b