In [1]:
import pandas as pd
import numpy as np
import psycopg2 as pg2

from sqlalchemy import create_engine
from datetime import datetime, timedelta

# Моделирование действий пользователей

In [2]:
import pandas as pd
import numpy as np

def generate_user_events(user_id, start_time):
    # Вероятности перехода на разные этапы
    to_register = 0.8      # вероятность того, что пользователь зарегистрируется после запуска
    to_page_visit = 0.6    # вероятность посещения страницы продукта после регистрации
    to_download = 0.5      # вероятность загрузки после посещения страницы продукта
    to_buy = 0.3           # вероятность покупки после загрузки
    to_update = 0.2        # вероятность обновления после покупки

    # Начинаем с запуска приложения
    events = [{
        'userId': user_id,
        'eventName': 'launch',
        'time': start_time,
        'product': None
    }]
    
    # Регистрируем пользователя с вероятностью to_register
    current_time = start_time + pd.Timedelta(seconds=10)
    if np.random.binomial(1, to_register, 1)[0]:
        events.append({
            'userId': user_id,
            'eventName': 'register',
            'time': current_time,
            'product': None
        })
        
        # Посещение страницы продукта с вероятностью to_page_visit
        current_time += pd.Timedelta(seconds=10)
        if np.random.binomial(1, to_page_visit, 1)[0]:
            product_id = np.random.randint(100, 200)  # случайный идентификатор продукта
            events.append({
                'userId': user_id,
                'eventName': 'pageVisit',
                'time': current_time,
                'product': product_id
            })
            
            # Загрузка приложения с вероятностью to_download
            current_time += pd.Timedelta(seconds=10)
            if np.random.binomial(1, to_download, 1)[0]:
                events.append({
                    'userId': user_id,
                    'eventName': 'download',
                    'time': current_time,
                    'product': product_id
                })
                
                # Покупка приложения с вероятностью to_buy
                current_time += pd.Timedelta(seconds=10)
                if np.random.binomial(1, to_buy, 1)[0]:
                    events.append({
                        'userId': user_id,
                        'eventName': 'buy',
                        'time': current_time,
                        'product': product_id
                    })
                    
                    # Обновление приложения с вероятностью to_update
                    current_time += pd.Timedelta(seconds=10)
                    if np.random.binomial(1, to_update, 1)[0]:
                        events.append({
                            'userId': user_id,
                            'eventName': 'update',
                            'time': current_time,
                            'product': product_id
                        })
    
    return pd.DataFrame(events)

In [3]:
start_time = pd.Timestamp('2023-03-01 10:00:00')


In [4]:
user_data = pd.concat([generate_user_events(user_id, start_time + pd.Timedelta(minutes=5 * user_id)) 
                       for user_id in range(1, 10001)], ignore_index=True)

  user_data = pd.concat([generate_user_events(user_id, start_time + pd.Timedelta(minutes=5 * user_id))


In [6]:
user_data.to_csv('../data/user_data.csv', index=False)

# Когортный анализ

In [7]:
df = pd.read_csv('../data/user_data.csv', parse_dates=['time'])

In [8]:
df.head()

Unnamed: 0,userId,eventName,time,product
0,1,launch,2023-03-01 10:05:00,
1,1,register,2023-03-01 10:05:10,
2,2,launch,2023-03-01 10:10:00,
3,2,register,2023-03-01 10:10:10,
4,2,pageVisit,2023-03-01 10:10:20,158.0


## Используя PostgreSQL

In [9]:
engine = create_engine('postgresql://postgres:password@this_postgres')
name = 'user_data'
df.to_sql(name, engine, if_exists='replace')

224

In [10]:
con = pg2.connect(host='this_postgres',
                  user='postgres',
                  password='password',
                  database='postgres')
con.autocommit = True
cur = con.cursor()

def select(sql):
    return pd.read_sql(sql,con)

In [11]:
sql = """
-- собираем данные о зарегистрировавшихся пользователях
WITH registered_users AS (
    SELECT "userId", 
           DATE_TRUNC('week', time) AS week
    FROM user_data
    WHERE "eventName" = 'register'
),

-- находим дату первой загрузки для каждого пользователя
first_downloads AS (
    SELECT "userId", 
           DATE_TRUNC('week', time) AS week
    FROM (
        SELECT "userId", time,
               ROW_NUMBER() OVER (PARTITION BY "userId" ORDER BY time) AS rn
        FROM user_data
        WHERE "eventName" = 'download'
    ) sub
    WHERE rn = 1
),

-- вычисляем количество регистраций по неделям
registered_users_per_week AS (
    SELECT week, 
           COUNT("userId") AS registrations
    FROM registered_users
    GROUP BY week
),

-- вычисляем количество первых загрузок по неделям
first_downloads_per_week AS (
    SELECT r.week, 
           COUNT(DISTINCT r."userId") AS first_downloads
    FROM registered_users r
    JOIN first_downloads d ON r."userId" = d."userId" AND r.week = d.week
    GROUP BY r.week
)

-- рассчитываем конверсию в загрузку по неделям
SELECT COALESCE(fd.week, ru.week) AS week, 
       COALESCE(ru.registrations, 0) AS users, 
       COALESCE(fd.first_downloads::FLOAT / NULLIF(ru.registrations, 0), 0) AS "CR"
FROM registered_users_per_week ru
FULL OUTER JOIN first_downloads_per_week fd ON ru.week = fd.week
ORDER BY week;
"""

In [12]:
select(sql)

  return pd.read_sql(sql,con)


Unnamed: 0,week,users,CR
0,2023-02-27,1072,0.301306
1,2023-03-06,1636,0.304401
2,2023-03-13,1646,0.321993
3,2023-03-20,1595,0.295298
4,2023-03-27,1590,0.294969
5,2023-04-03,502,0.318725


## Используя Pandas

In [13]:
register_df = df[df['eventName'] == 'register'][['userId', 'time']].sort_values('time').rename(columns={'time': 'week'})
download_df = df[df['eventName'] == 'download'][['userId', 'time']].sort_values('time').drop_duplicates(subset='userId', keep='first').rename(columns={'time': 'week'})

In [14]:
register_df.week = register_df.week.apply(lambda x: x - pd.to_timedelta(x.weekday(), unit='d')).dt.date
download_df.week = download_df.week.apply(lambda x: x - pd.to_timedelta(x.weekday(), unit='d')).dt.date

In [15]:
amount_of_reg_df = pd.DataFrame(register_df.groupby('week', as_index=False).userId.count().rename(columns={'userId': 'registrations'}))

In [16]:
down_reg_df = register_df.merge(download_df, on=['userId', 'week']) \
    .groupby('week', as_index=False).userId.count() \
    .rename(columns={'userId': 'first_downloads'}) \
    .merge(amount_of_reg_df)

In [17]:
down_reg_df['CR'] = (down_reg_df.first_downloads / down_reg_df.registrations).mask(down_reg_df['registrations'] == 0, 0)

In [18]:
conversion_rate_df = down_reg_df[['week', 'registrations', 'CR']].rename(columns={'registrations': 'users'})

In [19]:
cr_df = amount_of_reg_df.rename(columns={'registrations': 'users'}).merge(conversion_rate_df, how='left').fillna(0)

In [20]:
cr_df

Unnamed: 0,week,users,CR
0,2023-02-27,1072,0.301306
1,2023-03-06,1636,0.304401
2,2023-03-13,1646,0.321993
3,2023-03-20,1595,0.295298
4,2023-03-27,1590,0.294969
5,2023-04-03,502,0.318725
