In [56]:

import numpy as np
import math
from operator import itemgetter


# 近邻数目最多为20
K=20  

# 推荐物品数目最多为10
N=10

In [57]:
data=[
    ['A','b'],
    ['A','d'],
    ['B','a'],
    ['B','b'],
    ['B','c'],
    ['C','a'],
    ['C','b'],
    ['C','d'],
    ['D','a'],
    ['D','e']
]
data=np.array(data)

In [58]:
# user->item的映射
# key：user
# value：item的set
train_data = {}

for user, item in data:
    train_data.setdefault(user,set())
    train_data[user].add(item)

# 用户数量和物品数量
n_users = len(list(set(data[:,0])))
n_items = len(list(set(data[:,1])))

In [59]:
train_data

{'A': {'b', 'd'}, 'B': {'a', 'b', 'c'}, 'C': {'a', 'b', 'd'}, 'D': {'a', 'e'}}

In [60]:
# 计算每个物品被用户评分的个数
item_cnt = {}
for user, items in train_data.items():
    for i in items:
        # count item popularity
        item_cnt.setdefault(i,0)
        item_cnt[i] += 1
item_cnt

{'d': 2, 'b': 3, 'c': 1, 'a': 3, 'e': 1}

In [61]:
 # 计算物品之间共同评分的物品数,C为修正后的，count为修正前的。
C = dict()
count=dict()
for user, items in train_data.items():
    for u in items:
        for v in items:
            if u == v:
                continue
            C.setdefault(u,{})
            C[u].setdefault(v,0)
            C[u][v] += math.log(n_items/len(items))

            count.setdefault(u, {})
            count[u].setdefault(v, 0)
            count[u][v] += 1


In [62]:
C

{'d': {'b': 1.4271163556401458, 'a': 0.5108256237659907},
 'b': {'d': 1.4271163556401458,
  'c': 0.5108256237659907,
  'a': 1.0216512475319814},
 'c': {'a': 0.5108256237659907, 'b': 0.5108256237659907},
 'a': {'c': 0.5108256237659907,
  'b': 1.0216512475319814,
  'd': 0.5108256237659907,
  'e': 0.9162907318741551},
 'e': {'a': 0.9162907318741551}}

In [63]:
count

{'d': {'b': 2, 'a': 1},
 'b': {'d': 2, 'c': 1, 'a': 2},
 'c': {'a': 1, 'b': 1},
 'a': {'c': 1, 'b': 2, 'd': 1, 'e': 1},
 'e': {'a': 1}}

In [64]:
# 计算原始的余弦相似度
def calCosineSimi():
    item_sim = dict()
    for u, related_items in C.items():
        item_sim[u]={}
        for v, cuv in related_items.items():
            item_sim[u][v] = count[u][v] / math.sqrt(item_cnt[u] * item_cnt[v])
    return item_sim

In [65]:
# 计算修正后的余弦相似度
def calCorrectionCosineSimi():
    item_sim = dict()
    for u, related_items in C.items():
        item_sim[u]={}
        for v, cuv in related_items.items():
            item_sim[u][v] = cuv / math.sqrt(item_cnt[u] * item_cnt[v])
    return item_sim

In [66]:
# 计算条件概率相似度
def calConditionalProbabilitySimi():
    item_sim = dict()
    for u, related_items in C.items():
        item_sim[u]={}
        for v, cuv in related_items.items():
            item_sim[u][v] = count[u][v] / (item_cnt[u])
    return item_sim

In [67]:
def predict(item_sim, user):
    rank = dict()
    interacted_items = train_data[user]

    # 对每个评分的物品寻找最近K个物品，构建评分列表
    for item in interacted_items:
        for similar_item, similarity_factor in sorted(item_sim[item].items(),
                                                       key=itemgetter(1), reverse=True)[:K]:
            if similar_item in interacted_items:
                continue
            rank.setdefault(similar_item, 0)
            rank[similar_item] += similarity_factor

    rec_list = []
    rec_items = sorted(rank.items(), key=itemgetter(1), reverse=True)[0:N]
    for item, score in rec_items:
        rec_list.append([item,score])

    # 返回最大N个物品
    return rec_list

In [68]:
# 余弦相似度
item_sim1=calCosineSimi()
item_sim1

{'d': {'b': 0.8164965809277261, 'a': 0.4082482904638631},
 'b': {'d': 0.8164965809277261,
  'c': 0.5773502691896258,
  'a': 0.6666666666666666},
 'c': {'a': 0.5773502691896258, 'b': 0.5773502691896258},
 'a': {'c': 0.5773502691896258,
  'b': 0.6666666666666666,
  'd': 0.4082482904638631,
  'e': 0.5773502691896258},
 'e': {'a': 0.5773502691896258}}

In [69]:
# 修正后的余弦相似度
item_sim2=calCorrectionCosineSimi()
item_sim2

{'d': {'b': 0.582617812483108, 'a': 0.2085436876276022},
 'b': {'d': 0.582617812483108,
  'c': 0.29492531139025324,
  'a': 0.3405504158439938},
 'c': {'a': 0.29492531139025324, 'b': 0.29492531139025324},
 'a': {'c': 0.29492531139025324,
  'b': 0.3405504158439938,
  'd': 0.2085436876276022,
  'e': 0.5290207007035027},
 'e': {'a': 0.5290207007035027}}

In [70]:
# 条件概率相似度
item_sim3=calConditionalProbabilitySimi()
item_sim3

{'d': {'b': 1.0, 'a': 0.5},
 'b': {'d': 0.6666666666666666,
  'c': 0.3333333333333333,
  'a': 0.6666666666666666},
 'c': {'a': 1.0, 'b': 1.0},
 'a': {'c': 0.3333333333333333,
  'b': 0.6666666666666666,
  'd': 0.3333333333333333,
  'e': 0.3333333333333333},
 'e': {'a': 1.0}}

In [71]:
# 使用余弦相似度进行推荐
for user in ['A','B','C','D']:
        rec_list=predict(item_sim1,user)
        print("给",user,"推荐：",rec_list)

给 A 推荐： [['a', 1.0749149571305296], ['c', 0.5773502691896258]]
给 B 推荐： [['d', 1.2247448713915892], ['e', 0.5773502691896258]]
给 C 推荐： [['c', 1.1547005383792517], ['e', 0.5773502691896258]]
给 D 推荐： [['b', 0.6666666666666666], ['c', 0.5773502691896258], ['d', 0.4082482904638631]]


In [72]:
# 使用修正后的余弦相似度进行推荐
for user in ['A','B','C','D']:
        rec_list=predict(item_sim2,user)
        print("给",user,"推荐：",rec_list)

给 A 推荐： [['a', 0.549094103471596], ['c', 0.29492531139025324]]
给 B 推荐： [['d', 0.7911615001107102], ['e', 0.5290207007035027]]
给 C 推荐： [['c', 0.5898506227805065], ['e', 0.5290207007035027]]
给 D 推荐： [['b', 0.3405504158439938], ['c', 0.29492531139025324], ['d', 0.2085436876276022]]


In [73]:
# 使用条件概率进行推荐
for user in ['A','B','C','D']:
        rec_list=predict(item_sim3,user)
        print("给",user,"推荐：",rec_list)

给 A 推荐： [['a', 1.1666666666666665], ['c', 0.3333333333333333]]
给 B 推荐： [['d', 1.0], ['e', 0.3333333333333333]]
给 C 推荐： [['c', 0.6666666666666666], ['e', 0.3333333333333333]]
给 D 推荐： [['b', 0.6666666666666666], ['c', 0.3333333333333333], ['d', 0.3333333333333333]]
