# 根据品味相似度进行电影推荐

---

基本思路：
	从一大群人中找出与我们品味相近的一小群人，对这些人所喜爱的其他内容进行考查，并把它们组合起来创建一个经过排名的推荐列表。（协作过滤 Collaborative Filtering)

步骤：
+ 1.搜集偏好
+ 2.寻找相似的用户
+ 3.推荐电影	

---

## 1.搜集偏好

首先找到一种表示不同人及其偏好的电影的方法。

可以使用人对几部电影的评分来刻画他们的偏好，评分从1到5，分数越高，表示某人对该电影越喜欢。

如何建立这种从人到电影的对应关系？
Python中有一个很简单的方法来表示这种数据结构：
使用*嵌套的字典*。


创建名为recommandations.py 的数据文件：

In [34]:
critics={
'Lisa Rose': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3.5,'Just My Luck': 3.0, 'Superman Returns': 3.5, 'You, Me and Dupree': 2.5,'The Night Listener': 3.0},
'Gene Seymour': {'Lady in the Water': 3.0, 'Snakes on a Plane': 3.5,'Just My Luck': 1.5, 'Superman Returns': 5.0, 'The Night Listener': 3.0,'You, Me and Dupree': 3.5},
'Toby': {'Snakes on a Plane':4.5,'You, Me and Dupree':1.0, 'Superman Returns':4.0}
}


##  2.寻找相似的用户

收集了人们的偏好数据后，我们需要方法来计算某两个人电影品味的相似度。
有两种基本的方法可以实现这个目的：
+ 欧几里得距离
+ 皮尔逊相关度


### 2.1欧几里得距离评价

以二维空间中的情形为例：设坐标轴为人们都评价过的两部电影，然后将参与评价的人根据他们对这两部电影的评分绘制到图上，并考察他们彼此间的距离，如图：

![%E6%AC%A7%E5%87%A0%E9%87%8C%E5%BE%97%E8%B7%9D%E7%A6%BB.png](attachment:%E6%AC%A7%E5%87%A0%E9%87%8C%E5%BE%97%E8%B7%9D%E7%A6%BB.png)

图中的点距离越近，表明两个人的偏好越接近。推广到多维向量空间，欧几里得法可表示为：计算每一轴上两点的差值求平方，再将各轴相加，最后取平方根。

如计算Toby和LaSalle的距离：

In [2]:
from math import sqrt
sqrt(pow(5-4,2)+pow(4-1,2))

3.1622776601683795

为了给偏好接近的情况给出较大的值，可取该值的倒数，并+1避免除数为0：

In [3]:
1/(1+sqrt(pow(5-4,2)+pow(4-1,2)))

0.2402530733520421

使用这种方法 构造出如下相似度函数:

In [12]:
def sim_distance(prefs,person1,person2):
    # 得到共同的电影
    si={}
    for item in prefs[person1]:
        if item in prefs[person2]:
            si[item]=1
    
    # 如果没有共同的电影则返回0
    if len(si)==0: return 0
    #计算欧几里得距离，返回相似度 
    sum_of_squares=sum([pow(prefs[person1][item]-prefs[person2][item],2) for item in prefs[person1] if item in prefs[person2]])
    return 1/(1+sum_of_squares)


### 2.2皮尔逊相关度

皮尔逊相关系数是一种更复杂的方法，它通过计算两组数据与某一直线拟合的程度来判断它们的相似程度。
该方法有助于克服所谓的“夸大评价”现象对结果的影响。
右图中，虽然Jack对电影的评价比Lisa更为极端(更容易给出高分和低分）,但这个坐标系中的点都相当靠近拟合曲线(图中虚线)，可以说两人的品味较为相近。

![%E7%9A%AE%E5%B0%94%E9%80%8A%E7%9B%B8%E5%85%B3%E5%BA%A6.png](attachment:%E7%9A%AE%E5%B0%94%E9%80%8A%E7%9B%B8%E5%85%B3%E5%BA%A6.png)

使用如下函数计算皮尔逊相关度，该函数返回一个-1到1的值：

In [5]:
import math
def sim_pearson(prefs,p1,p2):
    # 得到共同评价的电影
    si={}
    for item in prefs[p1]:
        if item in prefs[p2]: si[item]=1
            
    # 如果没有共同评价的电影，返回0
    if len(si)==0: return 0
    
    # 将两人的偏好相加
    sum1=sum([prefs[p1][it] for it in si])
    sum2=sum([prefs[p2][it] for it in si])
    # 计算平方和
    sum1Sq=sum([pow(prefs[p1][it],2) for it in si])
    sum2Sq=sum([pow(prefs[p2][it],2) for it in si])
    # 计算对应项的乘积和
    pSum=sum([prefs[p1][it]*prefs[p2][it] for it in si])
    # 计算皮尔逊相关度
    n=len(si)
    num=pSum-(sum1*sum2/n)
    den=math.sqrt((sum1Sq-pow(sum1,2)/n)*(sum2Sq-pow(sum2,2)/n))
    if den==0: return 0
    r=num/den
    return r



In [6]:
from recommendations import critics

0.14814814814814814
0.39605901719066977


In [26]:
critics['Lisa Rose']['Lady in the Water']

2.5

In [24]:
critics['Toby']['Snakes on a Plane']=4.5

In [29]:
critics['Toby']

{'Snakes on a Plane': 4.5, 'You, Me and Dupree': 1.0, 'Superman Returns': 4.0}

在交互式控制台中使用上述两种计算方法：

In [25]:
sim_distance(critics, 'Lisa Rose','Gene Seymour')

0.14814814814814814

### 2.3给评论者打分
有了对两个人进行比较的函数，下面就可以找出与某人品味最接近的人了，进而，可以根据这些人的喜好来推荐电影。

In [16]:
def topMatches(prefs,person,n=5,similarity=sim_pearson):
    scores=[(similarity(prefs,person,other),other)
    for other in prefs if other!=person]
    # 对list排序，相似度最高的人排在最前
    scores.sort( )
    scores.reverse( )
    return scores[0:n]


In [15]:
sim_pearson(critics,'Lisa Rose','Gene Seymour')

0.39605901719066977

In [17]:
topMatches(critics,'Toby',n=3)

[(0.9912407071619299, 'Lisa Rose'), (0.38124642583151164, 'Gene Seymour')]

## 3.推荐电影
我们固然可以选择只看那些和我们品味相近的人推荐的电影，但这样做太武断，也许某部电影大家普遍都觉得不错，而恰好与我们最相近的那个人没有看过。
所以，我们需要一种对推荐人进行加权的推荐，如下表：


![%E7%BB%99toby%E7%9A%84%E7%94%B5%E5%BD%B1%E6%8E%A8%E8%8D%90%E8%A1%A8.png](attachment:%E7%BB%99toby%E7%9A%84%E7%94%B5%E5%BD%B1%E6%8E%A8%E8%8D%90%E8%A1%A8.png)

S.X打头的列是经过加权的电影评分。
下面的代码给出了上述过程的具体实现：

In [31]:
def getRecommendations(prefs,person,similarity=sim_pearson):
    totals={}
    simSums={}
    for other in prefs:
        # 不和自己比
        if other==person: continue
        sim=similarity(prefs,person,other)
        # 忽略小于等于0的评分
        if sim<=0: continue
        for item in prefs[other]:
            # 只计算我没看过的电影
            if item not in prefs[person] or prefs[person][item]==0:
                # 相似度乘以得分
                totals.setdefault(item,0)
                totals[item]+=prefs[other][item]*sim
                # 相似度求和
                simSums.setdefault(item,0)
                simSums[item]+=sim
    # 对结果进行归一化
    rankings=[(total/simSums[item],item) for item,total in totals.items( )]
    # 排序并返回结果
    rankings.sort( )
    rankings.reverse( )
    return rankings


In [32]:
getRecommendations(critics,'Toby')

[(3.0, 'The Night Listener'),
 (2.638888888888889, 'Lady in the Water'),
 (2.583333333333333, 'Just My Luck')]

In [33]:
getRecommendations(critics,'Toby',similarity=sim_distance)

[(3.0, 'The Night Listener'),
 (2.663636363636364, 'Lady in the Water'),
 (2.5090909090909093, 'Just My Luck')]

## 4.总结
到此为止，我们建立了一个完整的推荐系统，它适用于任何的商品推荐以及基于相似度的数据关系挖掘。
而这一切在Python中，仅仅是建立一个涉及人、商品以及评价值的字典，然后根据某些相似度算法得出的人与人的相似度，就可以进行推荐了。
