In [11]:
import pandas as pd

# 创建一个简单的用户-物品DataFrame
data = {
    'userID': [1, 1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4],
    'itemID': ['A', 'B', 'C', 'D', 'A', 'C', 'E', 'B', 'C', 'D', 'C', 'D'],
    'rating': [5, 3, 0, 1, 4, 0, 2, 1, 0, 5, 5, 4]
}

df = pd.DataFrame(data)

# 创建用户-物品矩阵
user_item_matrix = df.pivot(index='userID', columns='itemID', values='rating').fillna(0)

# 计算行向量之间的皮尔逊相关系数
pearson_corr = user_item_matrix.T.corr(method='pearson')

print("用户-物品矩阵行向量之间的皮尔逊相关系数:")
print(pearson_corr)

用户-物品矩阵行向量之间的皮尔逊相关系数:
userID         1         2         3         4
userID                                        
1       1.000000  0.593067 -0.148936 -0.565009
2       0.593067  1.000000 -0.464140 -0.606168
3      -0.148936 -0.464140  1.000000  0.426072
4      -0.565009 -0.606168  0.426072  1.000000


# 皮尔逊计算公式
皮尔逊相关系数与余弦相似度的计算公式如下：

$
\mathrm{pearson}(u, v)=\frac{\sum_{i \in I}(r_{ui}-\bar{r}_{u})(r_{vi}-\bar{r}_{v})}{\sqrt{\sum_{i \in I}(r_{ui}-\bar{r}_{u})^2}\sqrt{\sum_{i \in I}(r_{vi}-\bar{r}_{v})^2}}
$

其中：
- $(r_{ui}, r_{vi})$ 分别表示用户 \(u\) 和用户 \(v\) 对物品 \(i\) 是否有交互（或具体评分值）；
- $(\bar{r}_{u}, \bar{r}_{v})$ 分别表示用户 \(u\) 和用户 \(v\) 交互的所有物品交互数量或者评分的平均值。

In [43]:
import numpy as np
import pandas as pd

def calculate_pearson_corr(row1, row2):
    """
    计算两个行向量之间的皮尔逊相关系数

    参数:
    row1 (pd.Series): 第一个行向量
    row2 (pd.Series): 第二个行向量

    返回:
    float: 皮尔逊相关系数
    """
    # 计算均值
    mean_row1 = np.mean(row1)
    mean_row2 = np.mean(row2)

    # 计算分子
    numerator = np.sum((row1 - mean_row1) * (row2 - mean_row2))

    # 计算分母
    denominator = np.sqrt(np.sum((row1 - mean_row1) ** 2)) * np.sqrt(np.sum((row2 - mean_row2) ** 2))

    # 计算皮尔逊相关系数
    pearson_corr = numerator / denominator

    return pearson_corr


# 单元测试
def test_calculate_pearson_corr():
    """
    测试 calculate_pearson_corr 方法
    """
    # 示例数据
    data = {
        'userID': [1, 3],
        'itemID': ['A', 'B'],
        'rating': [5, 2]
    }

    # 创建用户-物品矩阵
    df = pd.DataFrame(data)

    # 创建用户-物品矩阵
    user_item_matrix = df.pivot(index='userID', columns='itemID', values='rating').fillna(0)

    # 计算 DataFrame 中两个行向量之间的皮尔逊相关系数
    row1 = user_item_matrix.iloc[0]
    row2 = user_item_matrix.iloc[1]
    pearson_corr = calculate_pearson_corr(row1, row2)
    print(pearson_corr)

    # 预期结果
    expected_corr = np.corrcoef(row1, row2)[0, 1]
    print(expected_corr)
    assert np.isclose(pearson_corr, expected_corr), f"Expected {expected_corr}, but got {pearson_corr}"

# 运行单元测试
test_calculate_pearson_corr()
print("单元测试通过")

-0.9999999999999998
-0.9999999999999999
单元测试通过


In [45]:
import pandas as pd
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# 定义向量
v1 = np.array([5, 3, 4, 3, 1])
v3 = np.array([3, 1, 3, 3, 5])

# 创建DataFrame
df = pd.DataFrame([v1, v3], index=['v1', 'v3'])

# 计算余弦相似度
cosine_sim = cosine_similarity(df)

# 将结果转换为DataFrame
cosine_sim_df = pd.DataFrame(cosine_sim, index=df.index, columns=df.index)
pearson  = np.corrcoef(df)

print("余弦相似度矩阵:")
print(cosine_sim_df)

print("pearson相似度")
print(pearson)

余弦相似度矩阵:
         v1       v3
v1  1.00000  0.78026
v3  0.78026  1.00000
pearson相似度
[[ 1.         -0.47673129]
 [-0.47673129  1.        ]]
