In [1]:
import pandas as pd
%matplotlib inline
import matplotlib
import matplotlib.pyplot as plt
import numpy as np

In [8]:
#读用户数据表:
u_cols = ['用户ID','用户年龄','用户性别','用户职业','用户邮编']
users = pd.read_csv('./ml-100k/u.user', sep='|', names=u_cols, encoding='utf-8')
print(users.shape)
print(users.head())

(943, 5)
   用户ID  用户年龄 用户性别        用户职业   用户邮编
0     1    24    M  technician  85711
1     2    53    F       other  94043
2     3    23    M      writer  32067
3     4    24    M  technician  43537
4     5    33    F       other  15213


In [51]:
#读评分数据表:
r_cols = ['用户ID','电影ID','评分','评分日期']
ratings = pd.read_csv('ml-100k/u.data', sep='\t', names=r_cols,encoding='utf-8')
print(ratings.shape)
print(ratings.head())

(100000, 4)
   用户ID  电影ID  评分       评分日期
0   196   242   3  881250949
1   186   302   3  891717742
2    22   377   1  878887116
3   244    51   2  880606923
4   166   346   1  886397596


In [10]:
#读电影数据表
i_cols = ['电影ID','电影名','上映期','录入日期','IMDB网址','未知','动作','冒险','动画','儿童片',
         '喜剧','犯罪','纪录片','戏剧','科幻片','悲剧','鬼片','音乐剧','悬疑片','浪漫片',
         '科技片','恐怖片','战争片','西部作品']
items = pd.read_csv('ml-100k/u.item', sep='|', names=i_cols, encoding='utf-8')
print(items.shape)
print(items.head())

(1682, 24)
   电影ID                电影名          上映期  录入日期  \
0     1   Toy Story (1995)  01-Jan-1995   NaN   
1     2   GoldenEye (1995)  01-Jan-1995   NaN   
2     3  Four Rooms (1995)  01-Jan-1995   NaN   
3     4  Get Shorty (1995)  01-Jan-1995   NaN   
4     5     Copycat (1995)  01-Jan-1995   NaN   

                                              IMDB网址  未知  动作  冒险  动画  儿童片  \
0  http://us.imdb.com/M/title-exact?Toy%20Story%2...   0   0   0   1    1   
1  http://us.imdb.com/M/title-exact?GoldenEye%20(...   0   1   1   0    0   
2  http://us.imdb.com/M/title-exact?Four%20Rooms%...   0   0   0   0    0   
3  http://us.imdb.com/M/title-exact?Get%20Shorty%...   0   1   0   0    0   
4  http://us.imdb.com/M/title-exact?Copycat%20(1995)   0   0   0   0    0   

   ...   科幻片  悲剧  鬼片  音乐剧  悬疑片  浪漫片  科技片  恐怖片  战争片  西部作品  
0  ...     0   0   0    0    0    0    0    0    0     0  
1  ...     0   0   0    0    0    0    0    1    0     0  
2  ...     0   0   0    0    0    0    0    1    0    

In [13]:
#从10万的真实评分数据表中拿出9430条做为模型的测试数据

#这测试数据是每一个用户对10个电影的评分,所以943个人产生9430条数据

#读取测试评分数据表
r_cols = ['用户ID','电影ID','评分','评分日期']
ratings_test = pd.read_csv('ml-100k/ua.test',sep='\t',names=r_cols,encoding='utf-8')
print(ratings_test.shape)
print(ratings_test.head())

(9430, 4)
   用户ID  电影ID  评分       评分日期
0     1    20   4  887431883
1     1    33   4  878542699
2     1    61   4  878542420
3     1   117   3  874965739
4     1   155   2  878542201


In [14]:
#剩余的90570条数据拿来制作我们的推荐模型

ratings_train = pd.read_csv('ml-100k/ua.base',sep='\t',names=r_cols,encoding='utf-8')
print(ratings_train.shape)
print(ratings_train.head())

(90570, 4)
   用户ID  电影ID  评分       评分日期
0     1     1   5  874965758
1     1     2   3  876893171
2     1     3   4  878542960
3     1     4   3  876893119
4     1     5   3  889751712


In [15]:
#以上我们已经准备好了建立推荐模型所有数据了,LETS GO

In [18]:
#我们如果是基于用户与用户间的相似度推荐模型的话,先看看用户数据表剔除重复用户后的用户量

n_users = ratings.用户ID.unique().shape[0]
print("不重复用户数量: ",n_users)

唯一用户数量:  943


In [19]:
#我们如果是基于电影与电影间的相似度推荐模型的话,先看看电影数据表剔除重复用户后的用户量

n_items = ratings.电影ID.unique().shape[0]
print("不重复电影数量: ",n_items)

不重复电影数量:  1682


In [66]:
#现在我们会建立以Y轴为用户ID，X轴为电影ID的矩阵（理解成数据表也行,但是矩阵会更客观）

user_movie_matrix = np.zeros((n_users, n_items)) #建立943行1682列的数值被0填满的矩阵,总共有1586126空

#现在为Y轴填充用户ID(0-最大)，为X轴填充电影ID(0-最大)
for line in ratings.itertuples():
    #line[1]为用户ID,减去1是为了让用户以0作为index的起始
    #line[2]为电影ID，减去1是为了让电影以0作为index的其实
    #line[3]为该用户对该电影的评分, 该用户确定了行的位置,该电影确定了列的位置,然后将评分值塞到正确位置上
    user_movie_matrix[line[1]-1, line[2]-1] = line[3] #拿10万带有评分的去塞空，所以会有很多打分是0的，
    #说明用户还没有对这个电影评过分

    
print(user_movie_matrix.shape)
print(user_movie_matrix)

(943, 1682)
[[5. 3. 4. ... 0. 0. 0.]
 [4. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 ...
 [5. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 5. 0. ... 0. 0. 0.]]


In [25]:
#现在建立好以用户ID为Y轴，以电影ID为X轴的矩阵后,我们就可以开始计算相似度了

#我们可以使用sklearn的pairwise_distance的函数计算cosine相似度

from sklearn.metrics.pairwise import pairwise_distances
#每一个用户以列数据,就是该用户对所有电影的评分,就是每一个用户所在的行,与其它行做cosine相似度的计算，
#该函数封装了矩阵的“点积相乘”（如果概念跟学名没有搞错的话...）
user_similarity = pairwise_distances(user_movie_matrix,metric='cosine') #得到每个用户与其它用户相似度的矩阵
print(user_similarity.shape)
print(user_similarity)
#同一个用户相似度被弄成0

#同一个用户难道不是百分百相似吗？没事，不管它：》 下面预测评分模型的时候0的作用就体现出来了

(943, 943)
[[0.         0.83306902 0.95254046 ... 0.85138306 0.82049212 0.60182526]
 [0.83306902 0.         0.88940868 ... 0.83851522 0.82773219 0.89420212]
 [0.95254046 0.88940868 0.         ... 0.89875744 0.86658385 0.97344413]
 ...
 [0.85138306 0.83851522 0.89875744 ... 0.         0.8983582  0.90488042]
 [0.82049212 0.82773219 0.86658385 ... 0.8983582  0.         0.81753534]
 [0.60182526 0.89420212 0.97344413 ... 0.90488042 0.81753534 0.        ]]


In [27]:
#这里计算电影与电影的相似度

item_similarity = pairwise_distances(user_movie_matrix.T,metric='cosine')
print(item_similarity.shape)
print(item_similarity)

(1682, 1682)
[[0.         0.59761782 0.66975521 ... 1.         0.95281693 0.95281693]
 [0.59761782 0.         0.72693082 ... 1.         0.92170064 0.92170064]
 [0.66975521 0.72693082 0.         ... 1.         1.         0.90312495]
 ...
 [1.         1.         1.         ... 0.         1.         1.        ]
 [0.95281693 0.92170064 1.         ... 1.         0.         1.        ]
 [0.95281693 0.92170064 0.90312495 ... 1.         1.         0.        ]]


In [29]:
#以上我们得到了用户与用户的相似度,那么理论上我们已经可以根据用户的相似度推荐商品了

#同时我们很牛，我们也得到了电影与电影的相似度，那么理论上我们也可以选择根据电影的相似度推荐商品了

#实际场景是用户会暴增,毕竟看流量的世界,用户越多越好,这就导致了用户的数量级恐怖上升,百万级已经很少了,
#所以如果在这个量级上基于用户与用户的相似度去做推荐是非常不现实的

#因此一般像电商这类的，商品顶多上去1万件了不起了，选择基于产品与产品的相似度去做推荐引擎是
#更加明智和合理的做法

In [47]:
#上面得到的相似度，可以在即时场景应用，比如：用户逛微博，然后点开了一个视频，那么我们推荐给他的其它视频
#按照相似度去推

#有2种方式，按相似度从大到小做推荐，确定一个阈值，大于这个阈值的推给该用户

#我们的预测模型，预测用户会给电影打多少分，这个东西是用户没有点开任何东西，
#我们在首页做推荐场景的时候用的，是长线推荐

def predict(ratings, similarity, type='user'):
    if type == 'user': #如果type是user，则基于用户与用户的相似度，推测该用户对未评分的电影的评分
        pred = similarity.dot(ratings) / np.array([np.abs(similarity.sum(axis=1))]).T
        #被除数就是用户与用户的相似度（行）点乘 所有用户对某一个电影的评分（列）
        #除数的长相[x
        #         y],除数的每一行是每一个用户与其它用户相似度的和
    elif type == 'item': #如果type是电影，则基于电影与电影的相似度。推测该用户对未评分的电影的评分
        pred = ratings.dot(similarity) / np.array([np.abs(similarity).sum(axis=1)])
        #被除数就是某一个用户对电影的评分（行）点乘 电影与电影的相似度（列）
        #除数的长相是[x,y],每一列就是某一个电影与其它电影相似度的和
    return pred #得到预测的矩阵
        

In [48]:
#那么我们现在就开始预测吧

user_prediction = predict(user_movie_matrix, user_similarity, type='user') #基于用户的相似度做预测
print(user_prediction.shape)
print(user_prediction)

(943, 1682)
[[1.67437294e+00 3.43349631e-01 2.38970693e-01 ... 2.63729634e-03
  2.09562375e-03 1.81808094e-03]
 [1.85328696e+00 4.74238792e-01 2.86377496e-01 ... 1.82071483e-03
  3.28031113e-03 3.48678052e-03]
 [1.93413349e+00 4.67276838e-01 2.97058358e-01 ... 1.23728002e-03
  3.26099444e-03 3.46463391e-03]
 ...
 [1.76113528e+00 4.44889039e-01 2.71815487e-01 ... 2.26853225e-03
  3.04563616e-03 3.20638348e-03]
 [1.82156495e+00 4.16001047e-01 2.86652414e-01 ... 2.12869738e-03
  2.73640943e-03 3.15369564e-03]
 [1.69421944e+00 3.35436519e-01 2.40751065e-01 ... 2.65489953e-03
  2.08622458e-03 2.20269348e-03]]


In [49]:
item_prediction = predict(user_movie_matrix, item_similarity, type='item') #基于电影的相似度做预测
print(item_prediction.shape)
print(item_prediction)

(943, 1682)
[[0.44627765 0.475473   0.50593755 ... 0.58815455 0.5731069  0.56669645]
 [0.10854432 0.13295661 0.12558851 ... 0.13445801 0.13657587 0.13711081]
 [0.08568497 0.09169006 0.08764343 ... 0.08465892 0.08976784 0.09084451]
 ...
 [0.03230047 0.0450241  0.04292449 ... 0.05302764 0.0519099  0.05228033]
 [0.15777917 0.17409459 0.18900003 ... 0.19979296 0.19739388 0.20003117]
 [0.24767207 0.24489212 0.28263031 ... 0.34410424 0.33051406 0.33102478]]
