In [5]:
import pandas as pd
import numpy as np

# Параметры
n_users = 5000
min_interactions = 5
max_interactions = 50
np.random.seed(42)

# Загрузка данных
tracks_df = pd.read_csv("../edadata.csv")

# Нормализуем популярность в вероятности
pop_weights = tracks_df['popularity'].values.astype(float)
if pop_weights.sum() == 0:
    pop_weights = np.ones_like(pop_weights)
pop_weights = pop_weights / pop_weights.sum()

track_ids = tracks_df['item_id'].values

interactions = []

for user_id in range(n_users):
    n_interactions = np.random.randint(min_interactions, max_interactions + 1)
    n_sample = min(n_interactions, len(track_ids))
    sampled_items = np.random.choice(
        track_ids,
        size=n_sample,
        replace=False,
        p=pop_weights
    )
    for item_id in sampled_items:
        # 1. Определяем тип взаимодействия (1, 2 или 3)
        interaction_type = np.random.choice([1, 2, 3], p=[0.2, 0.5, 0.3])  # настраиваемые вероятности

        # 2. С вероятностью, например, 30% пользователь ставит оценку от 1 до 5
        if np.random.rand() < 0.3:
            rating = np.random.randint(1, 6)  # от 1 до 5
        else:
            rating = 0  # не оценил

        # 3. Итоговый relevance = тип взаимодействия + рейтинг
        relevance = interaction_type + rating

        interactions.append({
            'user_id': user_id,
            'item_id': item_id,
            'relevance': relevance,
        })

interactions_df = pd.DataFrame(interactions)

# Генерация timestamp
start = pd.Timestamp('2024-10-26')
end = pd.Timestamp('2025-10-26')
time_diff = (end - start).total_seconds()
random_seconds = np.random.rand(len(interactions_df)) * time_diff
interactions_df['timestamp'] = start + pd.to_timedelta(random_seconds, unit='s')

# Сохраняем
interactions_df.to_csv("../interaction_data.csv", index=False)