In [5]:
import numpy as np
import pandas as pd
import time
import random

# 1. 加载数据
train_data = np.load('./index/game_train_edge_index.npy')
eval_data = np.load('./index/game_eval_edge_index.npy') 
test_data = np.load('./index/game_test_edge_index.npy')

interactions = []

# 2. 处理训练集数据
# 假设train_data形状为[2, n]，其中第一行是用户ID，第二行是物品ID
if len(train_data.shape) > 1 and train_data.shape[0] == 2:
    # 形状为[2, n]的数据
    for i in range(train_data.shape[1]):
        user_id = train_data[0, i]
        item_id = train_data[1, i]
        # 使用当前时间作为时间戳，或者使用递增的时间戳
        timestamp = int(time.time()) - (train_data.shape[1] - i)  # 使时间递增
        interactions.append([user_id, item_id, timestamp, 0])  # 0表示训练集
else:
    # 如果是其他形状，例如[n, 2]
    for i in range(len(train_data)):
        user_id = train_data[i][0]
        item_id = train_data[i][1]
        timestamp = int(time.time()) - (len(train_data) - i)
        interactions.append([user_id, item_id, timestamp, 0])

# 3. 处理验证集数据
# 假设eval_data形状与train_data相同
if len(eval_data.shape) > 1 and eval_data.shape[0] == 2:
    for i in range(eval_data.shape[1]):
        user_id = eval_data[0, i]
        item_id = eval_data[1, i]
        timestamp = int(time.time()) - (eval_data.shape[1] - i)
        interactions.append([user_id, item_id, timestamp, 1])  # 1表示验证集
else:
    for i in range(len(eval_data)):
        user_id = eval_data[i][0]
        item_id = eval_data[i][1]
        timestamp = int(time.time()) - (len(eval_data) - i)
        interactions.append([user_id, item_id, timestamp, 1])

# 4. 处理测试集数据
# 假设test_data形状与train_data相同
if len(test_data.shape) > 1 and test_data.shape[0] == 2:
    for i in range(test_data.shape[1]):
        user_id = test_data[0, i]
        item_id = test_data[1, i]
        timestamp = int(time.time()) - (test_data.shape[1] - i)
        interactions.append([user_id, item_id, timestamp, 2])  # 2表示测试集
else:
    for i in range(len(test_data)):
        user_id = test_data[i][0]
        item_id = test_data[i][1]
        timestamp = int(time.time()) - (len(test_data) - i)
        interactions.append([user_id, item_id, timestamp, 2])

# 5. 创建DataFrame
df = pd.DataFrame(interactions, columns=['userID', 'itemID', 'timestamp', 'label'])

# 6. 确保用户ID和物品ID是从0开始的连续整数
if df['userID'].min() != 0 or df['itemID'].min() != 0:
    print("警告: 用户ID或物品ID不是从0开始的。MMRec通常需要ID从0开始。")
    
    # 重新映射ID (如果需要)
    # user_id_map = {old_id: new_id for new_id, old_id in enumerate(df['userID'].unique())}
    # item_id_map = {old_id: new_id for new_id, old_id in enumerate(df['itemID'].unique())}
    # df['userID'] = df['userID'].map(user_id_map)
    # df['itemID'] = df['itemID'].map(item_id_map)

# 7. 保存为.inter文件
# 将文件名更改为您的数据集名称
dataset_name = 'steam'  # 修改为您的数据集名称
df.to_csv(f'{dataset_name}.inter', sep='\t', index=False)

print(f"生成的交互数据集大小: {len(df)}")
print(f"用户数量: {df['userID'].nunique()}")
print(f"物品数量: {df['itemID'].nunique()}")
print(f"训练集大小: {len(df[df['label']==0])}")
print(f"验证集大小: {len(df[df['label']==1])}")
print(f"测试集大小: {len(df[df['label']==2])}")

# 检查ID的连续性
user_ids = sorted(df['userID'].unique())
item_ids = sorted(df['itemID'].unique())
print(f"用户ID是否连续: {len(user_ids) == (max(user_ids) - min(user_ids) + 1)}")
print(f"物品ID是否连续: {len(item_ids) == (max(item_ids) - min(item_ids) + 1)}")
print(f"用户ID范围: {min(user_ids)} - {max(user_ids)}")
print(f"物品ID范围: {min(item_ids)} - {max(item_ids)}")

警告: 用户ID或物品ID不是从0开始的。MMRec通常需要ID从0开始。
生成的交互数据集大小: 1065669
用户数量: 63659
物品数量: 4812
训练集大小: 618549
验证集大小: 216377
测试集大小: 230743
用户ID是否连续: False
物品ID是否连续: False
用户ID范围: 0 - 87623
物品ID范围: 27 - 22243
