# 当评分矩阵是稠密的

In [1]:
users = ["User1", "User2", "User3", "User4", "User5"]  # 用户列表
items = ["Item A", "Item B", "Item C", "Item D", "Item E"]  # 物品列表

# 用户购买记录数据集
datasets = [
    [5, 3, 4, 4, None],  # User1 对应的评分记录
    [3, 1, 2, 3, 3],     # User2 的评分
    [4, 3, 4, 3, 5],     # User3 的评分
    [3, 3, 1, 5, 4],     # User4 的评分
    [1, 5, 5, 2, 1],     # User5 的评分
]

In [2]:
datasets

[[5, 3, 4, 4, None],
 [3, 1, 2, 3, 3],
 [4, 3, 4, 3, 5],
 [3, 3, 1, 5, 4],
 [1, 5, 5, 2, 1]]

In [3]:
import pandas as pd

# 将用户购买记录转换为 DataFrame
df = pd.DataFrame(datasets, columns=items, index=users)

print("用户之间的两两相似度：")
# 直接计算皮尔逊相关系数
user_similar = df.T.corr()  # 转置以计算用户间的相似度
print(user_similar.round(4))

print("物品之间的两两相似度：")
item_similar = df.corr()  # 计算物品间的相似度
print(item_similar.round(4))

用户之间的两两相似度：
        User1   User2   User3   User4   User5
User1  1.0000  0.8528  0.7071  0.0000 -0.7921
User2  0.8528  1.0000  0.4677  0.4900 -0.9001
User3  0.7071  0.4677  1.0000 -0.1612 -0.4666
User4  0.0000  0.4900 -0.1612  1.0000 -0.6415
User5 -0.7921 -0.9001 -0.4666 -0.6415  1.0000
物品之间的两两相似度：
        Item A  Item B  Item C  Item D  Item E
Item A  1.0000 -0.4767 -0.1231  0.5322  0.9695
Item B -0.4767  1.0000  0.6455 -0.3101 -0.4781
Item C -0.1231  0.6455  1.0000 -0.7206 -0.4276
Item D  0.5322 -0.3101 -0.7206  1.0000  0.5817
Item E  0.9695 -0.4781 -0.4276  0.5817  1.0000


In [11]:
# 预测用户1对物品5的评分
user_id = 'User1'
item_id = 'Item E'

# 获取与用户1相似的用户及其相似度
similar_users = user_similar[user_id].drop(user_id).dropna()
similar_users = similar_users[similar_users > 0.7]
print(similar_users)
# 获取这些相似用户的评分
similar_users_score = df[item_id].dropna()

# 只取与用户1相似且对物品5有评分的用户
relevant_similar_users = similar_users[similar_users.index.isin(similar_users_score.index)]

# 计算加权平均评分
if not relevant_similar_users.empty:
    weighted_sum = sum(relevant_similar_users * similar_users_score[relevant_similar_users.index])
    sum_of_weights = relevant_similar_users.sum()

    predicted_rating = weighted_sum / sum_of_weights if sum_of_weights != 0 else 0
else:
    predicted_rating = None  # 无法预测评分

User2    0.852803
User3    0.707107
Name: User1, dtype: float64


In [17]:
print(f"用户1对物品5的预测评分: {int(round(predicted_rating))}")

用户1对物品5的预测评分: 4


In [1]:
import pandas as pd

data = {
    'A': [1, 4, 7],
    'B': [2, 5, 8],
    'C': [3, 6, 9]
}

df = pd.DataFrame(data)
column_sum = df.sum(axis=0)  # 返回 A, B, C 列的和
row_sum = df.sum(axis=1)  # 返回每一行的和

In [4]:
df

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9


In [3]:
column_sum

A    12
B    15
C    18
dtype: int64

In [2]:
row_sum

0     6
1    15
2    24
dtype: int64

In [9]:
import pandas as pd

# 创建第一个 DataFrame
df1 = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6]
})

# 创建第二个 DataFrame
df2 = pd.DataFrame({
    'C': [7, 8, 9],
    'D': [10, 11, 12]
})

# 使用 concat 进行列合并
result = pd.concat([df1, df2], axis=1)

In [10]:
result

Unnamed: 0,A,B,C,D
0,1,4,7,10
1,2,5,8,11
2,3,6,9,12
