### 协同过滤算法

* 基于用户的协同过滤

用户1和用户2都给商品A,B,C打了高分，那么可以将用户1和用户2划分在同一个用户群体，若此时用户2还给商品D打了高分，那么就可以将商品D推荐给用户1

* 基于物品的协同过滤

图书A和图书B都被用户1,2,3购买过，那么可认为图书A和图书B具有较强的相似度，进而推测喜欢图书A的用户同样也喜欢图书B。当用户4购买图书B时，就可将图书A推荐给用户4。

### 皮尔逊相关系数

除了返回相关系数，还会返回显著水平值P。一般P < 0.05表示显著相关，即两个变量之间的相关性真的存在，而不是偶然因素引起。只有在显著相关的前提下，r值才有意义。

（对于检验假设，显著水平是指犯第一类错误的概率，第一类错误是当原假设为真的拒绝原假设，这里可以将原假设理解为：假设两个变量不相关，那么当P很小，小于<0.05这个不可能事件概率，表明犯这个错误的概率极低，所以可以拒绝原假设，即认为两个变量其实是相关的)

In [24]:
import pandas as pd

In [25]:
movies = pd.read_excel('./data/电影.xlsx')
score = pd.read_excel('./data/评分.xlsx')


In [26]:
movies

Unnamed: 0,电影编号,名称,类别
0,1,玩具总动员（1995）,冒险|动画|儿童|喜剧|幻想
1,2,勇敢者的游戏（1995）,冒险|儿童|幻想
2,3,斗气老顽童2（1995）,喜剧|爱情
3,4,待到梦醒时分（1995）,喜剧|剧情|爱情
4,5,新娘之父2（1995）,喜剧
...,...,...,...
9707,193581,黑执事：大西洋之书（2017）,动作|动画|喜剧|幻想
9708,193583,游戏人生（2017）,动画|喜剧|幻想
9709,193585,弗林特（2017）,戏剧
9710,193587,文豪野犬（2018）,动作|动画


In [27]:
score

Unnamed: 0,用户编号,电影编号,评分
0,1,1,4.0
1,1,3,4.0
2,1,6,4.0
3,1,47,5.0
4,1,50,5.0
...,...,...,...
100831,610,166534,4.0
100832,610,168248,5.0
100833,610,168250,5.0
100834,610,168252,5.0


In [28]:
df = pd.merge(movies, score, on='电影编号')

In [29]:
df.to_excel('./output/电影推荐系统.xlsx')

In [30]:
df.head()

Unnamed: 0,电影编号,名称,类别,用户编号,评分
0,1,玩具总动员（1995）,冒险|动画|儿童|喜剧|幻想,1,4.0
1,1,玩具总动员（1995）,冒险|动画|儿童|喜剧|幻想,5,4.0
2,1,玩具总动员（1995）,冒险|动画|儿童|喜剧|幻想,7,4.5
3,1,玩具总动员（1995）,冒险|动画|儿童|喜剧|幻想,15,2.5
4,1,玩具总动员（1995）,冒险|动画|儿童|喜剧|幻想,17,4.5


In [31]:
ratings = pd.DataFrame(df.groupby('名称')['评分'].mean())
ratings.sort_values('评分', ascending=False).head()

Unnamed: 0_level_0,评分
名称,Unnamed: 1_level_1
假小子（1997）,5.0
福尔摩斯和华生医生历险记：讹诈之王（1980）,5.0
机器人（2016）,5.0
奥斯卡（1967）,5.0
人类状况III（1961）,5.0


In [32]:
ratings['评分次数'] = pd.DataFrame(df.groupby('名称')['评分'].count())
ratings.sort_values('评分次数', ascending=False).head()

Unnamed: 0_level_0,评分,评分次数
名称,Unnamed: 1_level_1,Unnamed: 2_level_1
阿甘正传（1994）,4.164134,329
肖申克的救赎（1994）,4.429022,317
低俗小说（1994）,4.197068,307
沉默的羔羊（1991）,4.16129,279
黑客帝国（1999）,4.192446,278


In [33]:
# 以《阿甘正传》为例，分析应该向观看了《阿甘正传》的用户推荐什么样的电影。

user_movie = df.pivot_table(index='用户编号', columns='名称', values='评分')

In [34]:
user_movie

名称,007之黄金眼（1995）,100个女孩（2000）,100条街道（2016）,101忠狗续集:伦敦大冒险（2003）,101忠狗（1961）,101雷克雅未克（2000）,102只斑点狗（2000）,10件或更少（2006）,10（1979）,11:14（2003）,...,龙珠：神秘冒险（1988）,龙珠：血红宝石的诅咒（1986）,龙珠：魔鬼城堡中的睡公主（1987）,龙种子（1944）,龙纹身的女孩（2011）,龙舌兰日出（1988）,龙虾（2015）,龙：夜之怒的礼物（2011）,龙：李小龙的故事（1993）,龟日记（1985）
用户编号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,,,,,,,,,,,...,,,,,,,,,,
2,,,,,,,,,,,...,,,,,2.5,,,,,
3,,,,,,,,,,,...,,,,,,,,,,
4,,,,,,,,,,,...,,,,,,,,,,
5,,,,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
606,,,,,,,,,,,...,,,,,,,,,,
607,,,,,,,,,,,...,,,,,,,,,,
608,4.0,,,,,,,3.5,,,...,,,,,,,,,,
609,4.0,,,,,,,,,,...,,,,,,,,,,


In [35]:
user_movie.describe()

名称,007之黄金眼（1995）,100个女孩（2000）,100条街道（2016）,101忠狗续集:伦敦大冒险（2003）,101忠狗（1961）,101雷克雅未克（2000）,102只斑点狗（2000）,10件或更少（2006）,10（1979）,11:14（2003）,...,龙珠：神秘冒险（1988）,龙珠：血红宝石的诅咒（1986）,龙珠：魔鬼城堡中的睡公主（1987）,龙种子（1944）,龙纹身的女孩（2011）,龙舌兰日出（1988）,龙虾（2015）,龙：夜之怒的礼物（2011）,龙：李小龙的故事（1993）,龟日记（1985）
count,132.0,4.0,1.0,1.0,44.0,1.0,9.0,3.0,4.0,4.0,...,1.0,1.0,2.0,1.0,42.0,13.0,7.0,1.0,8.0,2.0
mean,3.496212,3.25,2.5,2.5,3.431818,3.5,2.777778,2.666667,3.375,3.75,...,3.5,3.5,3.25,3.5,3.488095,3.038462,4.0,5.0,2.8125,4.0
std,0.859381,0.5,,,0.751672,,0.833333,1.040833,1.030776,0.5,...,,,0.353553,,1.327422,0.431158,0.707107,,1.03294,0.0
min,0.5,2.5,2.5,2.5,1.5,3.5,2.0,1.5,2.0,3.0,...,3.5,3.5,3.0,3.5,0.5,2.0,3.0,5.0,0.5,4.0
25%,3.0,3.25,2.5,2.5,3.0,3.5,2.0,2.25,3.125,3.75,...,3.5,3.5,3.125,3.5,2.625,3.0,3.5,5.0,2.875,4.0
50%,3.5,3.5,2.5,2.5,3.5,3.5,2.5,3.0,3.5,4.0,...,3.5,3.5,3.25,3.5,4.0,3.0,4.0,5.0,3.0,4.0
75%,4.0,3.5,2.5,2.5,4.0,3.5,3.0,3.25,3.75,4.0,...,3.5,3.5,3.375,3.5,4.0,3.0,4.5,5.0,3.125,4.0
max,5.0,3.5,2.5,2.5,5.0,3.5,4.5,3.5,4.5,4.0,...,3.5,3.5,3.5,3.5,5.0,4.0,5.0,5.0,4.0,4.0


In [36]:
FG = user_movie['阿甘正传（1994）']
pd.DataFrame(FG).head()  # 即“阿甘正传”的特征就是每个用户的评分

Unnamed: 0_level_0,阿甘正传（1994）
用户编号,Unnamed: 1_level_1
1,4.0
2,
3,
4,
5,


In [37]:
corr_FG = user_movie.corrwith(FG)  # 计算其他电影与"阿甘正传"的皮尔逊相关系数
similarity = pd.DataFrame(corr_FG, columns=['相关系数'])

  c = cov(x, y, rowvar, dtype=dtype)
  c *= np.true_divide(1, fact)


In [38]:
similarity.head()  

Unnamed: 0_level_0,相关系数
名称,Unnamed: 1_level_1
007之黄金眼（1995）,0.217441
100个女孩（2000）,
100条街道（2016）,
101忠狗续集:伦敦大冒险（2003）,
101忠狗（1961）,0.141023


In [39]:
similarity.dropna(inplace=True)

In [40]:
similarity.head()

Unnamed: 0_level_0,相关系数
名称,Unnamed: 1_level_1
007之黄金眼（1995）,0.217441
101忠狗（1961）,0.141023
102只斑点狗（2000）,-0.857589
10件或更少（2006）,-1.0
11:14（2003）,0.5


In [41]:
similarity.loc['101忠狗（1961）']

相关系数    0.141023
Name: 101忠狗（1961）, dtype: float64

In [42]:
similarity_new = pd.merge(similarity, ratings['评分次数'], left_index=True, right_index=True)

In [43]:
similarity_new.head()

Unnamed: 0_level_0,相关系数,评分次数
名称,Unnamed: 1_level_1,Unnamed: 2_level_1
007之黄金眼（1995）,0.217441,132
101忠狗（1961）,0.141023,44
102只斑点狗（2000）,-0.857589,9
10件或更少（2006）,-1.0,3
11:14（2003）,0.5,4


In [44]:
# 因为电影数量庞大，每个用户评过分的电影数量有限，导致许多电影的评分次数很少，所以可能有偶然因素导致部分电影的评分偏高或偏低，无法反映真实水平。
# 所以这里设置阈值，只有评分次数大于该阈值才认为该电影总体评分有效。

similarity_new[similarity_new['评分次数'] > 20].sort_values(by='相关系数', ascending=False).head(20)

Unnamed: 0_level_0,相关系数,评分次数
名称,Unnamed: 1_level_1,Unnamed: 2_level_1
阿甘正传（1994）,1.0,329
抓狂双宝（1996）,0.723238,31
雷神：黑暗世界（2013）,0.715809,21
致命吸引力（1987）,0.701856,36
X战警：未来的日子（2014）,0.682284,30
假期历险记（1983）,0.677043,26
绯闻计划（2010）,0.670081,27
伴娘（2011）,0.663176,21
林中小屋（2012）,0.653015,22
妙手情真（1998）,0.652302,27


In [45]:
from scipy.stats import pearsonr

In [46]:
X = [1, 3, 5, 7, 9]
Y = [9, 8, 6, 4, 2]
corr = pearsonr(X, Y)
print(f'相关系数r值： r = {corr[0]}, 显著水平P值：P = {corr[1]}') 
# P值与显著性检验相关，P < 0.05代表显著相关，即两个变量之间的相关性真的存在，而不是偶然因素引起的。只有在显著相关的前提下，r值才有意义。

相关系数r值： r = -0.9938837346736191, 显著水平P值：P = 0.0005736731093321747
