In [10]:
import numpy as np
from scipy.sparse import csr_matrix

np.random.seed(seed=2023)
# 读取.npy文件
file_path = '/home/s3963616/ADM/user_movie_rating.npy'
data = np.load(file_path)

# 打印数据的形状
print("数据形状:", data.shape)

# 预览数据的一部分
print("部分数据:")
print(data[:10, :5])  # 这里使用切片选择数据的前5行和前5列，您可以根据需要进行调整


data[:, 2] = 1

# 创建稀疏矩阵
# 用户ID和电影ID需要减1，因为矩阵的索引是从0开始的
row = data[:, 0] - 1  # 用户ID
col = data[:, 1] - 1  # 电影ID
rating = data[:, 2]   # 评分（现在都是1）

# 创建CSR矩阵
user_movie_matrix = csr_matrix((rating, (row, col)))

# 检查矩阵形状
print(user_movie_matrix.shape)
num_user = data[:, 0].max()
num_movie = data[:, 1].max()
print(num_user, num_movie)
print(user_movie_matrix[1, 8])
print("稀疏矩阵的一部分 (前5行, 前30列):")
print(user_movie_matrix[:5, :30].toarray())

数据形状: (65225506, 3)
部分数据:
[[  1  30   3]
 [  1 157   3]
 [  1 173   4]
 [  1 175   5]
 [  1 191   2]
 [  1 197   3]
 [  1 241   3]
 [  1 295   4]
 [  1 299   3]
 [  1 329   4]]
(103703, 17770)
103703 17770
0
稀疏矩阵的一部分 (前5行, 前30列):
[[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1]
 [0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0]]


In [11]:
num_hyperplanes = 150

# 生成随机超平面
num_movies = user_movie_matrix.shape[1]
random_hyperplanes = np.random.randn(num_movies, num_hyperplanes)

# 投影数据到超平面并生成哈希签名
hash_signatures = (user_movie_matrix.dot(random_hyperplanes) >= 0).astype(int)
print(hash_signatures, hash_signatures.shape)

[[0 1 1 ... 1 1 1]
 [1 0 1 ... 0 1 0]
 [1 0 1 ... 1 1 1]
 ...
 [1 0 1 ... 1 1 1]
 [1 0 1 ... 1 1 0]
 [1 1 1 ... 1 1 0]] (103703, 150)


In [35]:
print("一些哈希签名示例:", hash_signatures[:5])

一些哈希签名示例: [[1 1 0 0 0 0 1 1 1 0 0 0 0 1 0 1 1 1 1 1 0 1 1 1 0 0 0 0 0 1 0 1 0 0 0 0
  0 0 1 0 0 1 0 1 0 1 0 1 0 1 1 1 0 0 0 0 1 0 0 0 1 1 1 0 1 1 0 1 1 1 0 1
  1 0 0 0 1 1 0 0 0 1 0 1 1 0 0 0 0 1 0 0 0 1 1 1 0 1 1 0]
 [0 1 0 0 1 0 0 0 1 1 1 0 1 1 1 0 1 0 1 0 0 0 0 1 1 0 0 0 1 0 1 1 0 0 0 1
  1 1 1 1 1 0 1 0 1 1 0 0 0 0 1 0 1 0 0 1 1 0 0 1 1 1 0 0 1 1 0 1 0 1 1 1
  1 1 1 1 0 1 1 0 0 0 1 1 0 0 0 1 0 0 0 0 1 1 0 1 1 0 0 0]
 [0 1 0 1 1 0 1 0 1 1 0 0 1 0 1 1 1 0 1 0 0 0 0 0 0 0 0 1 0 0 0 1 0 1 0 1
  1 0 1 1 0 0 0 0 1 1 0 0 0 0 0 1 1 1 1 0 0 0 0 1 1 1 1 0 0 0 0 1 0 1 0 0
  1 0 1 0 0 1 1 1 0 0 1 1 1 0 0 0 0 0 1 0 1 0 0 1 1 1 1 0]
 [0 0 0 1 0 0 0 0 1 0 1 0 1 1 1 0 0 0 1 1 1 0 1 1 0 1 0 0 0 1 1 0 0 1 0 1
  1 1 1 1 0 0 1 1 0 1 1 1 0 1 1 1 1 1 0 1 1 0 1 1 1 1 0 0 0 1 1 1 0 1 1 1
  1 1 0 0 0 1 1 1 0 0 1 1 1 1 0 1 0 0 0 0 1 1 0 1 1 0 0 1]
 [0 1 0 0 1 1 1 1 1 1 0 0 1 1 0 1 0 1 1 0 0 0 0 0 1 0 0 0 1 0 1 0 1 1 0 1
  0 0 1 1 1 0 0 1 0 1 0 1 0 1 0 0 1 0 1 0 1 0 1 0 1 1 1 0 1 0 0 0 0 1 1 0
  1 1 1 1 0 1 

In [12]:
# 分段哈希
num_segments = 10
segment_length = 15
buckets = {}

import time

start_time = time.time()  # 记录开始时间
print(start_time)
max_duration = 29 * 60  # 29分钟转换成秒
timeout_occurred = False  # 超时标志

for user_id, signature in enumerate(hash_signatures):
    for i in range(num_segments):
        start = i * segment_length
        end = start + segment_length
        segment_hash = hash(tuple(signature[start:end]))
        if segment_hash not in buckets:
            buckets[segment_hash] = []
        buckets[segment_hash].append(user_id)

print(len(buckets))        
for i, (hash_key, users) in enumerate(buckets.items()):
    print(f"桶 {i} (哈希值: {hash_key}): 用户数量 {len(users)}")
    if i >= 20:  # 只打印前几个桶的信息
        break

# 计算DCS
# def calculate_dcs(user_id1, user_id2):
#     vector1 = user_movie_matrix[user_id1].toarray().flatten()
#     vector2 = user_movie_matrix[user_id2].toarray().flatten()
# #     vector1 = np.where(vector1 > 0, 1, 0)
# #     vector2 = np.where(vector2 > 0, 1, 0)
#     dcs = np.dot(vector1, vector2) / (np.linalg.norm(vector1) * np.linalg.norm(vector2))
#     return dcs

def calculate_adjusted_cosine_similarity(user_id1, user_id2, user_movie_matrix):
    vector1 = user_movie_matrix[user_id1].toarray().flatten()
    vector2 = user_movie_matrix[user_id2].toarray().flatten()
    cos_sim = np.dot(vector1, vector2) / (np.linalg.norm(vector1) * np.linalg.norm(vector2))
    theta = np.arccos(np.clip(cos_sim, -1, 1))  # 限制cos_sim的值在[-1, 1]范围内
    adjusted_cos_sim = 1 - (theta / np.pi)  # 使用π而不是180度，因为np.arccos返回弧度制
    return adjusted_cos_sim

# 存储相似度大于0.73的用户对
similar_users_set = set()

for bucket_users in buckets.values():
    for i in range(len(bucket_users)):
        if time.time() - start_time > max_duration:  # 如果已经超过25分钟
            if not timeout_occurred:  # 如果之前没有发生过超时
                print("搜索超时，当前已超过25分钟.")
                timeout_occurred = True  # 设置超时标志
            break  # 终止桶内的循环
        for j in range(i + 1, len(bucket_users)):
            user_id1 = bucket_users[i]
            user_id2 = bucket_users[j]
            if user_id1 != user_id2:  # 确保不是同一个用户
                similarity = calculate_adjusted_cosine_similarity(user_id1, user_id2, user_movie_matrix)
                if similarity > 0.73:  # 调整后的余弦相似度阈值
                    user_pair = (min(user_id1, user_id2), max(user_id1, user_id2))
                    similar_users_set.add(user_pair)  # 添加到集合中，自动去重
    if timeout_occurred:  # 如果发生了超时
        break  # 终止桶之间的循环

print("找到的相似用户对数量:", len(similar_users_set))

# 将相似用户对写入文件
output_file_path = '/home/s3963616/ADM/dcs.txt'
with open(output_file_path, 'w') as file:
    for u1, u2 in similar_users_set:
        file.write(f"{u1},{u2}\n")

if timeout_occurred:
    print(f"搜索超时，结果可能不完整。结果已写入到文件 {output_file_path}")
else:
    print(f"搜索完成。结果已写入到文件 {output_file_path}")

1700670207.3898485
32762
桶 0 (哈希值: 3384094992869957455): 用户数量 29
桶 1 (哈希值: -665021432962210394): 用户数量 100
桶 2 (哈希值: 6823582272256082177): 用户数量 55
桶 3 (哈希值: 5778251561438285146): 用户数量 11
桶 4 (哈希值: -1841233659428516782): 用户数量 191
桶 5 (哈希值: 4302108495228361385): 用户数量 25
桶 6 (哈希值: -935171036717257205): 用户数量 97
桶 7 (哈希值: 4791158927019333480): 用户数量 57
桶 8 (哈希值: 5746632828357537900): 用户数量 34
桶 9 (哈希值: 142055375972533955): 用户数量 78
桶 10 (哈希值: 6716249439478172346): 用户数量 163
桶 11 (哈希值: -1743057707156729008): 用户数量 53
桶 12 (哈希值: -8348017283153604714): 用户数量 38
桶 13 (哈希值: -7196684984617430197): 用户数量 97
桶 14 (哈希值: 6441012925187826705): 用户数量 32
桶 15 (哈希值: -5166230340757824785): 用户数量 47
桶 16 (哈希值: 2980847157595365121): 用户数量 84
桶 17 (哈希值: -3362116599748770554): 用户数量 341
桶 18 (哈希值: -1215576700902394108): 用户数量 6
桶 19 (哈希值: -783782585023583406): 用户数量 10
桶 20 (哈希值: 5806945380444076799): 用户数量 33
搜索超时，当前已超过25分钟.
找到的相似用户对数量: 42
搜索超时，结果可能不完整。结果已写入到文件 /home/s3963616/ADM/dcs.txt


In [8]:
def build_rating_vector(user_id, data, num_movies):
    # 创建一个初始为0的向量
    rating_vector = np.zeros(num_movies)
    # 提取该用户的评分记录
    user_ratings = data[data[:, 0] == user_id + 1]  # 在原始数据中用户ID从1开始，故加1
    # 在相应的位置上填充评分
    for _, movie_id, rating in user_ratings:
        rating_vector[movie_id - 1] = rating  # 在原始数据中电影ID从1开始，故减1
    return rating_vector

def calculate_adjusted_cosine_similarity(vector1, vector2):
    cos_sim = np.dot(vector1, vector2) / (np.linalg.norm(vector1) * np.linalg.norm(vector2))
    theta = np.arccos(np.clip(cos_sim, -1, 1))  # 限制cos_sim的值在[-1, 1]范围内
    adjusted_cos_sim = 1 - (theta / np.pi)  # 使用π，因为np.arccos返回弧度制
    return adjusted_cos_sim

# 验证similar_users_set中的用户对
true_positives = set()
for user_pair in similar_users_set:
    user_id1, user_id2 = user_pair
    user1_vector = build_rating_vector(user_id1, data, num_movies)
    user2_vector = build_rating_vector(user_id2, data, num_movies)
    adjusted_dcs = calculate_adjusted_cosine_similarity(user1_vector, user2_vector)
    if adjusted_dcs > 0.73:  # 使用调整后的余弦相似度阈值
        true_positives.add(user_pair)

print("验证后的真阳性用户对数量:", len(true_positives))

# 将验证后的真阳性用户对写入文件
verified_output_file_path = '/home/s3963616/ADM/verified_dcs.txt'
with open(verified_output_file_path, 'w') as file:
    for u1, u2 in true_positives:
        file.write(f"{u1},{u2}\n")

print(f"验证后的结果已写入到文件 {verified_output_file_path}")


验证后的真阳性用户对数量: 56
验证后的结果已写入到文件 /home/s3963616/ADM/verified_dcs.txt


In [15]:
# def calculate_dcs_optimized(user_id1, user_id2, user_movie_matrix):
#     # 获取两个用户的评分向量
#     vector1 = user_movie_matrix[user_id1]
#     vector2 = user_movie_matrix[user_id2]

#     # 计算点积
#     dot_product = vector1.dot(vector2.T).toarray().flatten()[0]

#     # 计算范数，并添加一个小的常数以提高数值稳定性
#     norm1 = np.sqrt(vector1.dot(vector1.T).toarray()[0, 0] + 1e-10)
#     norm2 = np.sqrt(vector2.dot(vector2.T).toarray()[0, 0] + 1e-10)

#     # 计算DCS
#     dcs = dot_product / (norm1 * norm2)
#     return dcs


def calculate_cosine_similarity(vector1, vector2):
    # 计算余弦相似度
    cos_sim = np.dot(vector1, vector2) / (np.linalg.norm(vector1) * np.linalg.norm(vector2))
    return cos_sim

def calculate_adjusted_cosine_similarity(vector1, vector2):
    # 计算余弦相似度
    cos_sim = calculate_cosine_similarity(vector1, vector2)
    # 将余弦相似度转换为角度（在0到π之间）
    theta = np.arccos(cos_sim)  # 返回的角度是弧度制
    # 将角度转换为度
    theta_degrees = np.degrees(theta)
    # 计算调整后的余弦相似度
    adjusted_cos_sim = 1 - (theta_degrees / 180)
    return adjusted_cos_sim

# 假设您有两个向量 vector1 和 vector2
# vector1 = ...
# vector2 = ...

# # 计算调整后的余弦相似度
# adjusted_similarity = calculate_adjusted_cosine_similarity(vector1, vector2)
# print("Adjusted Cosine Similarity:", adjusted_similarity)



bucket_to_check = buckets[list(buckets.keys())[0]]  # 选择第一个桶

# 检查桶中的前几个用户对
for i in range(min(len(bucket_to_check), 5)):
    for j in range(i + 1, min(len(bucket_to_check), 5)):
        user_id1 = bucket_to_check[i]
        user_id2 = bucket_to_check[j]
        dcs = calculate_adjusted_cosine_similarity(user_id1, user_id2)
        print(f"用户 {user_id1} 和 用户 {user_id2} 的原始评分数据的离散余弦相似度: {dcs}")


用户 0 和 用户 6068 的原始评分数据的离散余弦相似度: nan
用户 0 和 用户 13977 的原始评分数据的离散余弦相似度: nan
用户 0 和 用户 22623 的原始评分数据的离散余弦相似度: nan
用户 0 和 用户 43961 的原始评分数据的离散余弦相似度: nan
用户 6068 和 用户 13977 的原始评分数据的离散余弦相似度: 1.0
用户 6068 和 用户 22623 的原始评分数据的离散余弦相似度: 1.0
用户 6068 和 用户 43961 的原始评分数据的离散余弦相似度: 1.0
用户 13977 和 用户 22623 的原始评分数据的离散余弦相似度: 1.0
用户 13977 和 用户 43961 的原始评分数据的离散余弦相似度: 1.0
用户 22623 和 用户 43961 的原始评分数据的离散余弦相似度: 1.0




In [9]:
import numpy as np

# 假设 user_movie_matrix 是你的用户-电影评分矩阵
# 假设已经得到了用户的ID：1, 40566, 60413, 82238

# 提取用户的评分向量并进行二值化
def get_binary_vector(user_id, user_movie_matrix):
    return np.where(user_movie_matrix[user_id, :].toarray().flatten() > 0, 1, 0)

# 计算汉明距离的上限
def calculate_hamming_distance_upper_bound(user_vector_a, user_vector_b, dcs_threshold=0.73):
    N_A = np.sum(user_vector_a)
    N_B = np.sum(user_vector_b)
    C_lower_bound = dcs_threshold * np.sqrt(N_A * N_B)
    D_H_upper_bound = N_A + N_B - 2 * C_lower_bound
    return D_H_upper_bound

# 获取二值化向量
user1_vector = get_binary_vector(1, user_movie_matrix)
user40566_vector = get_binary_vector(40566, user_movie_matrix)
user60413_vector = get_binary_vector(60413, user_movie_matrix)
user82238_vector = get_binary_vector(82238, user_movie_matrix)

# 计算各对用户间的汉明距离上限
D_H_upper_1_40566 = calculate_hamming_distance_upper_bound(user1_vector, user40566_vector)
D_H_upper_1_60413 = calculate_hamming_distance_upper_bound(user1_vector, user60413_vector)
D_H_upper_1_82238 = calculate_hamming_distance_upper_bound(user1_vector, user82238_vector)
D_H_upper_40566_60413 = calculate_hamming_distance_upper_bound(user40566_vector, user60413_vector)
D_H_upper_40566_82238 = calculate_hamming_distance_upper_bound(user40566_vector, user82238_vector)
D_H_upper_60413_82238 = calculate_hamming_distance_upper_bound(user60413_vector, user82238_vector)

print(D_H_upper_1_40566, D_H_upper_1_60413, D_H_upper_1_82238, D_H_upper_40566_60413, D_H_upper_40566_82238, D_H_upper_60413_82238)


434.4583653438485 445.6911988918307 424.7635633177367 394.20423410704166 328.6243829656297 357.8267541534002


In [4]:
import numpy as np

# 假设 num_movies 和 random_hyperplanes 已经根据你的原始代码定义
# num_movies = user_movie_matrix.shape[1]
# random_hyperplanes = np.random.randn(num_movies, num_hyperplanes)

# 构造两个相似的用户向量
test_user1 = np.zeros(num_movies)
test_user2 = np.zeros(num_movies)

# 假设两个用户对前50部电影的评分都是1
test_user1[:50] = 1
test_user2[:50] = 1

# 为测试用户生成哈希签名
test_user1_signature = (test_user1.dot(random_hyperplanes) >= 0).astype(int)
test_user2_signature = (test_user2.dot(random_hyperplanes) >= 0).astype(int)

# 分段哈希
num_segments = 6  # 这应该与你原始算法中的相同
segment_length = 15  # 这也应该与你原始算法中的相同
test_user1_buckets = set()
test_user2_buckets = set()

for i in range(num_segments):
    start = i * segment_length
    end = start + segment_length
    test_user1_buckets.add(hash(tuple(test_user1_signature[start:end])))
    test_user2_buckets.add(hash(tuple(test_user2_signature[start:end])))

# 检查两个用户是否至少在一个段上被分配到了同一个桶中
is_similar = not test_user1_buckets.isdisjoint(test_user2_buckets)

print("两个测试用户是否被识别为相似（在至少一个段上在同一个桶中）:", is_similar)
print(test_user1_buckets)
print(test_user2_buckets)

两个测试用户是否被识别为相似（在至少一个段上在同一个桶中）: True
{8826468661610234658, -4504116218881331353, -1729849483972979895, -7949120838422848556, 463261613160879897, 3219261174611366906}
{8826468661610234658, -4504116218881331353, -1729849483972979895, -7949120838422848556, 463261613160879897, 3219261174611366906}
