# <center> Ch8 Recommendation Algorithms  </center>

## Overview

- TF-IDF
- Vector Space Model
- Latent Semantic Analysis（隐含语义分析）
- PageRank
- Collaborative Filtering（协同过滤）

Information Overload 信息过载现象

### Recommendation System

- 协同过滤：问问朋友购买的建议
![image.png](attachment:image.png)

Targeted Advertisement 精准广告营销

## Tf-idf

- 关键词与文本之间的关联度的量化指标
- tf: 单词在文档中出现的频率，the都会出现，没有意义
- idf：单词在其它文档中是否出现，the所有文档都出现，idf为0
- 有用的：该文档中出现多，其它文章中出现很少
![image.png](attachment:image.png)

- Term-Document Matrix
![image.png](attachment:image.png)

- **文本转换为数据**：Vector Space Model(向量空间模型)
    - 一篇文档就是一个向量
    - 每一位标识单词是否出现
    - 通过向量计算两篇文档是否接近：向量的夹角
![image.png](attachment:image.png)

**Difficults**
- Synonymy: 一义多词
- Polysemy：一词多义

- 解决方法：SVD(Singular Value Decomposition 矩阵分解，信息压缩，空间变换)
![image.png](attachment:image.png)

## Latent Semantic Analysis

**隐含语义分析**
- $X$: Term-Document Matrix, 文档矩阵。每一行代表一个单词，每一列代表一篇文章
- 对$X$进行分解(类似奇异值分解)：$T$和$D$是正交阵，$S$是对角阵
- $XX^T$: $m\times m$,第$i$行第$j$列就是原来X的第$i$行和第$j$行做一个内积
- 使用$TS$: 使用TS矩阵中的第$i$行代表第$i$个单词
- $DS$: 标识文档

![image.png](attachment:image.png)

### Example

**原始文档**
![image.png](attachment:image.png)

**原始Term-Document Matrix**
- 行：单词
- 列：文档
![image-2.png](attachment:image-2.png)

**SVD 分解**
- $X=TSD^T$ 矩阵分解
![image-3.png](attachment:image-3.png)

![image-4.png](attachment:image-4.png)



### Rank K Approximation 降维

- 降维：保留前2维，特征值最大
- 降维后乘回去得到$\hat{X}$
![image.png](attachment:image.png)


**Items in 2D Space**
- 距离近：从原点连线的夹角比较小
![image-2.png](attachment:image-2.png)


**Documents in 2D Space**
- 余弦夹角
![image-3.png](attachment:image-3.png)


**Document Cosine Similarity**
- 量化：同一类文本中的相似度
- LSC后相似度提高，类似提取更多信息的操作
![image-4.png](attachment:image-4.png)


**Query**
- 新的关键词进行所有，先降为2维，然后与文档计算相似度
![image-5.png](attachment:image-5.png)

## PageRank

- 网页：Linked Documents

**核心思想**
- 用指向自己网页的链接数进行评价

![image.png](attachment:image.png)

**计算**
- $PR(B)$除以2：除以自己指向的连接数，进行平摊
- 迭代计算：所有网页的PR加起来都是1
![image.png](attachment:image.png)

**矩阵表示**
- $R(t+1)$： t时刻所有网页的PR值
- $M$: 邻接矩阵
![image.png](attachment:image.png)

## Collaborative Filtering 协同过滤

- 协同过滤：买商品问问朋友的购买体验

- 工作流：
    - 打分矩阵：行是买家，列是商品。然后打分
    - 挖掘购买信息
  
- 分类：
    - 基于记忆的CF
    - 基于模型的CF
- 注意点：
    - 水军
    - 个别偏激的案例(gray Sheep)
    - Gold Start 新的商品/新的用户

![image.png](attachment:image.png)

### User-Based CF

- $W_{u, \mu}$:计算两个用户购买商品之间的相关性
- $P_{a,i}$: 用户$a$可以给商品$i$打的分数

**注意**
- 考虑平均分：人和人是不一样的。有的人可能最高只能打4分。考虑每个人打分的尺度

![image.png](attachment:image.png)

- 实例：
![image.png](attachment:image.png)

### Item-Based CF

- $w_{i,j}$：第$i$个商品与第$j$个商品之间的相关性
- $P_{a,j}$: 根据用户对其它商品的打分以及商品之间的相关性预测用户$a$可能给商品$i$的打分
![image.png](attachment:image.png)

- $P_{a,j}$根据所有用户对某商品的打分和用户平均打分的差距。
- $dev_{i,j}$：某商品与其它商品的平均打分进行对比
![image-2.png](attachment:image-2.png)

**Example**

![image-3.png](attachment:image-3.png)

### Model-Based CF

- 基于用户的分类问题：知道很多用户的输入，预测输出结果是多少
- 标签：用户$U_i$
![image.png](attachment:image.png)


![image.png](attachment:image.png)

**Like&Dislike 预测模型**
- 转化为分类问题，再进行预测
![image.png](attachment:image.png)

## 大赛

- Netflix Price：百万美元推荐竞赛
- KDD Cup

- 实际营销：打折营销(双11)
- 学术上：推荐算法

## Reality Mining

- 学生在校园的活动范围
    - 判断新生老生
    - 找出学生关系
![image.png](attachment:image.png)


- 打电话
    - 根据电话信息判断关系
![image-2.png](attachment:image-2.png)  

## Open Questions

![image.png](attachment:image.png)

## Reading Materials

- P. Resnick, N. Iacovou, M. Suchak, P. Bergstrom, and J. Riedl, “Grouplens: an Open Architecture for Collaborative Filtering of Netnews”, in Proceedings of the ACM Conference on Computer Supported Cooperative Work, pp. 175–186, 1994.

- D. Billsus and M. Pazzani, “Learning Collaborative Information Filters”, in Proceedings of the 15th International Conference on Machine Learning, pp. 46-54, 1998.

- B. Sarwar, G. Karypis, J. Konstan, and J. Riedl, “Item-Based Collaborative Filtering Recommendation Algorithms”, in Proceedings of the 10th international Conference on World Wide Web, pp. 285-295, 2001.

- X. Su and T. Khoshgoftaar, “A Survey of Collaborative Filtering Techniques”, Advances in Artificial Intelligence, Article ID: 421425, 2009. 

- L. Page, S. Brin, R. Motwani, and T. Winograd, “The PageRank Citation Ranking: Bringing Order to the Web”, Technical Report, Stanford InfoLab, 1999.

- S. Deerwester, S. Dumais, G. Furnas, T. Landauer, and R. Harshman, “Indexing by Latent Semantic Analysis”, JASIS, vol. 41(6), pp. 391-407, 1990.

- E. Nathan and A. Pentland, “Reality Mining: Sensing Complex Social Systems”, Personal and Ubiquitous Computing, vol. 10(4), pp. 255-268, 2006.