### В рамках выполнения тестового задания для gamedev компании в данном файле генерируется набор данных для дальнейшего анализа

In [1]:
import pandas as pd
import numpy as np
import uuid
from tqdm import tqdm

Библиотека **uuid** предоставляет функционал для генерации и управления уникальными идентификаторами (UUID - Universally Unique Identifier). UUID - это 128-битное значение, которое представляет собой уникальный идентификатор, который может быть использован для идентификации объектов в различных системах без риска конфликта идентификаторов.

Модуль **tqdm** нужен для создания красивых прогресс-баров в циклах или операциях, которые занимают продолжительное время. Название tqdm означает "taqaddum" на арабском, что переводится как "прогресс" или "продвижение".Основная цель tqdm - упростить процесс отслеживания прогресса выполнения задачи и обеспечить визуальное представление о том, сколько времени осталось до завершения.

Датафрейм представляет из себя данные о монетизационной акции, которая была проведена на игровом проекте компании. Она длилась 3 дня. В рамках акции игрокам предлагалось купить игровые ресурсы по более выгодным, чем обычно, ценам. Данные содержат информацию об активности пользователей, заходивших в приложение за неделю до акции, во время акции, а также за неделю после окончания акции. Группирующие колонки: Date, Platform, User_id, Reg_date. Расчетные колонки: Revenue (сколько денег потратил юзер), Payments (сколько платежей сделал юзер), Sessions (колиечтво сессий), Playing_time (время в игре).

In [2]:
# Создаем константы
PLATFORMS = ['Windows', 'MacOS', 'Linux', 'iOS']
DAYS = 14
USERS_CNT = 1000

In [3]:
# Генерируем юзеров с уникальными id
users = [str(uuid.uuid4()) for _ in range(USERS_CNT)]

In [4]:
# Генерируем возможные даты регистрации
dates_reg = pd.date_range(start='2022-03-01', periods=365, freq='D')

In [5]:
# Генерируем возможные даты активности пользователей (7 + 3 + 7)
activity_days = pd.date_range(start='2023-03-01', periods=17, freq='D')

In [6]:
#Формируем заготовки
baseline_data = {
    'user_id': [],
    'platform': [],
    'reg_date': []
}

report = pd.DataFrame({
    'date': [],
    'user_id': [],
    'revenue': [],
    'payments': [],
    'sessions': [],
    'playing_time': []
})

In [7]:
# Генерируем датафрейм (со встроенным статус-баром)
for user in tqdm(users):
    # дата регистрации и платформа
    reg_date = np.random.choice(dates_reg)
    platform = np.random.choice(PLATFORMS)
    
    baseline_data['user_id'].append(user)
    baseline_data['platform'].append(platform)
    baseline_data['reg_date'].append(reg_date)
    
    # количество дней активности и даты активности
    activity_days_cnt = np.random.randint(1, DAYS)
    activity_dates = np.random.choice(activity_days, activity_days_cnt, replace=False)
    
    # Оплаты
    revenue = np.random.randint(0, 10000, activity_days_cnt)
    
    #формируем массив данных для одного юзера
    tmp = pd.DataFrame({
    'date': activity_dates,
    'user_id': [user] * activity_days_cnt,
    'revenue': revenue,
    'payments': [np.random.randint(1, 5) if x != 0 else 0 for x in revenue],
    'sessions': np.random.randint(1, 7, activity_days_cnt),
    'playing_time': np.random.randint(1, 3600, activity_days_cnt)
})
    
    report = pd.concat([report, tmp])

100%|██████████| 1000/1000 [00:00<00:00, 1462.15it/s]


In [8]:
df = report.merge(pd.DataFrame(baseline_data), on = 'user_id')

In [9]:
df = df.sort_values(by='date')

In [10]:
# Датафрейм готов к анализу
df

Unnamed: 0,date,user_id,revenue,payments,sessions,playing_time,platform,reg_date
1627,2023-03-01,266d3738-138d-4f79-94f1-1ebb1a4474df,9586.0,3.0,5.0,1471.0,Linux,2022-10-17
2327,2023-03-01,2f04001c-36af-4d79-acca-ec2dc64f5c94,4758.0,4.0,6.0,1021.0,MacOS,2023-02-22
374,2023-03-01,65eb3e27-9b96-4b4d-b605-5c1127241a1e,263.0,4.0,4.0,3522.0,Windows,2022-03-11
3447,2023-03-01,24770eb3-52c9-4506-8bd6-39eb4ad3aec8,9057.0,1.0,6.0,2596.0,Windows,2022-09-18
2649,2023-03-01,152990d2-85c4-4359-8045-61857262aa78,1348.0,3.0,3.0,1152.0,MacOS,2022-08-18
...,...,...,...,...,...,...,...,...
690,2023-03-17,175a691a-02b9-48f0-b8be-18ce7fa9d01b,3386.0,1.0,3.0,829.0,Linux,2023-01-29
1966,2023-03-17,37644a72-afe6-4482-8ca2-6d6b73ffcbae,2275.0,1.0,4.0,1677.0,iOS,2022-03-31
5810,2023-03-17,98e85306-442d-43cd-bef8-696f8134deda,1819.0,3.0,2.0,864.0,Linux,2022-03-04
2473,2023-03-17,83653f30-1815-4302-baed-dd1abeeef695,7887.0,1.0,3.0,1083.0,iOS,2022-07-29
