In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
np.random.seed(37) 

In [2]:
# 定义一个函数来计算两个用户之间的欧式距离
def euclidean_distance(dataset,user1,user2):
    # 首先要排除一种情况，如果数据集中不存在同时被两个用户评价过的电影，
    # 则表示两个用户之间的没有相似度，直接返回0
    both_rated_num=0 # 表示同时被两个用户都评价过的电影的数目
    for item in dataset[user1]: # 在user1评价过的电影中
        if item in dataset[user2]: # 如果user2也评价过，则+1
            both_rated_num+=1
    if both_rated_num==0:# 不存在同时被两个用户都评价过的电影
        return 0 # 直接返回0，表示两个用户之间相似度为0
    
    squared_difference=[] # 每一个元素表示同时被两个用户都评价过的电影得分的欧式距离
    for item in dataset[user1]:
        if item in dataset[user2]:
            squared_difference.append(np.square(dataset[user1][item]-dataset[user2][item]))
    return 1/(1+np.sqrt(np.sum(squared_difference)))


In [3]:
# 原始的电影评价数据都放置在 movie_ratings.json文件中，我们加载进来看看结果
import json
with open("E:\PyProjects\DataSet\FireAI\movie_ratings.json",'r') as file:
    dataset=json.loads(file.read())
    
# 现在计算两个随机用户之间的欧式距离
user1='John Carson'
user2='Michelle Peterson'
print(" Euclidean score: ",euclidean_distance(dataset,user1,user2))

 Euclidean score:  0.29429805508554946


In [4]:
# 定义一个函数来计算两个用户之间的皮尔逊相关系数
def pearson_score(dataset,user1,user2):
    # 和上面的函数类似，先排除相似度为0的情况
#     both_rated_num=0 # 表示同时被两个用户都评价过的电影的数目
#     for item in dataset[user1]: # 在user1评价过的电影中
#         if item in dataset[user2]: # 如果user2也评价过，则+1
#             both_rated_num+=1
#     if both_rated_num==0:# 不存在同时被两个用户都评价过的电影
#         return 0 # 直接返回0，表示两个用户之间相似度为0

    both_rated={}
    for item in dataset[user1]:
        if item in dataset[user2]:
            both_rated[item]=1
    num_ratings=len(both_rated)
    if num_ratings==0: # 不存在同时被两个用户都评价过的电影
        return 0
    
    # 计算每个用户对每个相同电影的评价之和
    user1_sum=np.sum([dataset[user1][item] for item in both_rated])
    user2_sum=np.sum([dataset[user2][item] for item in both_rated])
    
    # 计算每个用户对每个相同电影的评价的平方和
    user1_squared_sum = np.sum([np.square(dataset[user1][item]) for item in both_rated])
    user2_squared_sum = np.sum([np.square(dataset[user2][item]) for item in both_rated])

    # 计算两个用户的相同电影的乘积
    product_sum=np.sum([dataset[user1][item]*dataset[user2][item] for item in both_rated])
    
    # 计算Pearson 相关系数
    Sxy = product_sum - (user1_sum * user2_sum / num_ratings)
    Sxx = user1_squared_sum - np.square(user1_sum) / num_ratings
    Syy = user2_squared_sum - np.square(user2_sum) / num_ratings
    
    if Sxx * Syy == 0:
        return 0

    return Sxy / np.sqrt(Sxx * Syy)

In [5]:
# 原始的电影评价数据都放置在 movie_ratings.json文件中，我们加载进来看看结果
import json
with open("E:\PyProjects\DataSet\FireAI\movie_ratings.json",'r') as file:
    dataset=json.loads(file.read())
    
# 现在计算两个随机用户之间的欧式距离
user1='John Carson'
user2='Michelle Peterson'
print(" Peason score: ",pearson_score(dataset,user1,user2))

 Peason score:  0.39605901719066977
