# 对应第4个课件

# 杰卡德

In [1]:
users = ["User1", "User2", "User3", "User4", "User5"]
items = ["Item A", "Item B", "Item C", "Item D", "Item E"]
# 用户购买记录数据集
datasets = [
    [1,0,1,1,0],
    [1,0,0,1,1],
    [1,0,1,0,0],
    [0,1,0,1,1],
    [1,1,1,0,1],
]
import pandas as pd

df = pd.DataFrame(datasets,
                  columns=items,
                  index=users)
print(df)

       Item A  Item B  Item C  Item D  Item E
User1       1       0       1       1       0
User2       1       0       0       1       1
User3       1       0       1       0       0
User4       0       1       0       1       1
User5       1       1       1       0       1


In [2]:
# 直接计算某两项的杰卡德相似系数
from sklearn.metrics import jaccard_score
# 计算Item A 和Item B的相似度
print(jaccard_score(df["Item A"], df["Item C"]))

# 分子是3,分母是7-3

0.75


In [3]:
df.values

array([[1, 0, 1, 1, 0],
       [1, 0, 0, 1, 1],
       [1, 0, 1, 0, 0],
       [0, 1, 0, 1, 1],
       [1, 1, 1, 0, 1]], dtype=int64)

In [4]:
# 计算所有的数据两两的杰卡德相似系数
from sklearn.metrics.pairwise import pairwise_distances
# 计算用户间杰卡德相似度----默认计算的是index的杰卡德相似度
# pairwise_distances是jaccard距离
# jaccard距离范围为[0, 1]，距离越大相似度越小，所以1 - distance = similarity
print(df.values)
user_similar = 1 - pairwise_distances(df.values==1, metric="jaccard")
print(user_similar)


[[1 0 1 1 0]
 [1 0 0 1 1]
 [1 0 1 0 0]
 [0 1 0 1 1]
 [1 1 1 0 1]]
[[1.         0.5        0.66666667 0.2        0.4       ]
 [0.5        1.         0.25       0.5        0.4       ]
 [0.66666667 0.25       1.         0.         0.5       ]
 [0.2        0.5        0.         1.         0.4       ]
 [0.4        0.4        0.5        0.4        1.        ]]


In [5]:
user_similar = pd.DataFrame(user_similar, columns=users, index=users)
print("用户之间的两两的杰卡德相似度：")
print(user_similar)

用户之间的两两的杰卡德相似度：
          User1  User2     User3  User4  User5
User1  1.000000   0.50  0.666667    0.2    0.4
User2  0.500000   1.00  0.250000    0.5    0.4
User3  0.666667   0.25  1.000000    0.0    0.5
User4  0.200000   0.50  0.000000    1.0    0.4
User5  0.400000   0.40  0.500000    0.4    1.0


In [6]:
# 计算物品间相似度，把原有的df进行转置
item_similar = 1 - pairwise_distances(df.T.values==1, metric="jaccard")
item_similar = pd.DataFrame(item_similar, columns=items, index=items)
print("物品之间的两两相似度：")
print(item_similar)

物品之间的两两相似度：
        Item A    Item B  Item C  Item D    Item E
Item A    1.00  0.200000    0.75    0.40  0.400000
Item B    0.20  1.000000    0.25    0.25  0.666667
Item C    0.75  0.250000    1.00    0.20  0.200000
Item D    0.40  0.250000    0.20    1.00  0.500000
Item E    0.40  0.666667    0.20    0.50  1.000000


In [7]:
#上面算出了相似度，下面进行推荐

In [8]:
user_similar.loc['User1'].drop('User1')

User2    0.500000
User3    0.666667
User4    0.200000
User5    0.400000
Name: User1, dtype: float64

In [9]:
from pprint import pprint
topN_users = {}
# 遍历每一行数据
for i in user_similar.index:
    # 取出每一行数据，并删除自身，然后排序数据
    _df = user_similar.loc[i].drop([i])  #把自己和自己相似度丢弃
    _df_sorted = _df.sort_values(ascending=False)  #降序排列

    top2 = list(_df_sorted.index[:2]) #取前2个用户
    topN_users[i] = top2 #存储结果

print("Top2相似用户：")
pprint(topN_users)



Top2相似用户：
{'User1': ['User3', 'User2'],
 'User2': ['User1', 'User4'],
 'User3': ['User1', 'User5'],
 'User4': ['User2', 'User5'],
 'User5': ['User3', 'User1']}


In [10]:
import numpy as np
df.loc['User3'].replace(0,np.nan).dropna().index

Index(['Item A', 'Item C'], dtype='object')

In [11]:
df

Unnamed: 0,Item A,Item B,Item C,Item D,Item E
User1,1,0,1,1,0
User2,1,0,0,1,1
User3,1,0,1,0,0
User4,0,1,0,1,1
User5,1,1,1,0,1


In [12]:
import numpy as np
rs_results = {}  #存最终结果
# 构建推荐结果
for user, sim_users in topN_users.items():
    rs_result = set()    # 存储推荐结果
    for sim_user in sim_users:
        # 构建初始的推荐结果,要去重 
        rs_result = rs_result.union(set(df.loc[sim_user].replace(0,np.nan).dropna().index))
    # 过滤掉自己已经购买过的物品
    rs_result -= set(df.loc[user].replace(0,np.nan).dropna().index)
    rs_results[user] = rs_result
print("最终推荐结果：")
pprint(rs_results)

最终推荐结果：
{'User1': {'Item E'},
 'User2': {'Item C', 'Item B'},
 'User3': {'Item E', 'Item B', 'Item D'},
 'User4': {'Item C', 'Item A'},
 'User5': {'Item D'}}


# 皮尔逊

In [13]:
import pandas as pd
#接下来来看皮尔逊，皮尔逊适合用于有数值大小的
users = ["User1", "User2", "User3", "User4", "User5"]
items = ["Item A", "Item B", "Item C", "Item D", "Item E"]
# 用户购买记录数据集
datasets = [
    [5,3,4,4,None],
    [3,1,2,3,3],
    [4,3,4,3,5],
    [3,3,1,5,4],
    [1,5,5,2,1],
]

In [14]:
df = pd.DataFrame(datasets,
                  columns=items,
                  index=users)
print(df)
print('-'*50)
print("用户之间的两两相似度：")
# 直接计算皮尔逊相关系数
# 默认是按列进行计算，因此如果计算用户间的相似度，当前需要进行转置
user_similar = df.T.corr()
print(user_similar.round(4))


       Item A  Item B  Item C  Item D  Item E
User1       5       3       4       4     NaN
User2       3       1       2       3     3.0
User3       4       3       4       3     5.0
User4       3       3       1       5     4.0
User5       1       5       5       2     1.0
--------------------------------------------------
用户之间的两两相似度：
        User1   User2   User3   User4   User5
User1  1.0000  0.8528  0.7071  0.0000 -0.7921
User2  0.8528  1.0000  0.4677  0.4900 -0.9001
User3  0.7071  0.4677  1.0000 -0.1612 -0.4666
User4  0.0000  0.4900 -0.1612  1.0000 -0.6415
User5 -0.7921 -0.9001 -0.4666 -0.6415  1.0000


In [15]:
print("物品之间的两两相似度：")  #默认计算的时候colomns的皮尔逊相似度
item_similar = df.corr()
print(item_similar.round(4))

物品之间的两两相似度：
        Item A  Item B  Item C  Item D  Item E
Item A  1.0000 -0.4767 -0.1231  0.5322  0.9695
Item B -0.4767  1.0000  0.6455 -0.3101 -0.4781
Item C -0.1231  0.6455  1.0000 -0.7206 -0.4276
Item D  0.5322 -0.3101 -0.7206  1.0000  0.5817
Item E  0.9695 -0.4781 -0.4276  0.5817  1.0000


In [16]:
df.loc['User2'].mean()

2.4

In [17]:
df.loc['User3'].mean()

3.8

In [18]:
((df.loc['User2']-2.4)*(df.loc['User2']-2.4)).sum()  #分母的1项

3.2

In [19]:
((df.loc['User3']-3.8)*(df.loc['User3']-3.8)).sum()

2.8

In [20]:
import numpy as np
((df.loc['User2']-2.4)*(df.loc['User3']-3.8)).sum()/np.sqrt(3.2*2.8)

0.46770717334674267