In [221]:
!pip install pandahouse
!pip install swifter



In [260]:
import pandas as pd
import swifter
import numpy as np
import scipy.stats as ss

import pandahouse

import seaborn as sns
from tqdm import tqdm

# Сравнить retention по источникам траффика
Математически самым простым вариантом видится расчёт retention с помощью churn:

$retention = 1-churn\_rate$

$churn\_rate = \frac{Ушедшие \; пользователи}{Все \; пользователи}$

При этом возникает вопрос кого считать ушедшим пользоватлем

### Определение приемлемого порога ($n$ дней) для записи пользователя в отток

In [223]:
# Подключение к БД
connection = {
    'host': 'https://clickhouse.lab.karpov.courses',
    'password': 
    'user': 'student',
    'database': 'simulator_20240320'
}

Критерии оттёкшего пользователя:
- не заходил $\ge n$ дней

Критерии реально оттёкшего пользователя
- с последней активности не заходил $\ge n$ дней
- до этого не было такого, чтобы пользователь не заходил $\ge n$ дней

При этом стоит учитывать, что статистику можно собирать лишь по пользователям, которые впервые зашли $\ge n$ дней назад

In [245]:
def get_churn_stats(churn_break_n, db='simulator_20240320', where_cond=''):
  '''
  Функция для получения статистики по оттоку по заданному порогу, по которому считать пользователя оттёкшим

  Arguments:
    churn_break_n: int
      Порог, при котором пользователь считается оттёкшим (отток при date_break>=churn_break_n)
    db: str, default 'simulator_20240320'
      БД для подключения
    where_cond: str
      Дополнительное условие для фильтрации исходных данных
  --------
  Returns:
    pd.DataFrame
      churn_break_n - порог, при котором пользователь считается оттёкшим
      uniq_users - количество уникальных пользователей, которых можно использовать для расчёта оттока
      churn - всего уникальных пользователей, которых можно было считать оттёкшими
      real_churn - уникальных пользователей, которых считаем реально оттёкшими
      churn_precision - часть реально оттёкших пользователей (от тех, кого можно было бы считать оттёкшим на каком-то этапе)
      churn_rate - по пользователям, которые считаются реально ушедшими
  '''

  q = f"""
  WITH
    t_user_activity_dates_1 AS (
      -- Дни, когда активничал пользователь
      SELECT DISTINCT
        user_id,
        DATE(time) AS date
      FROM {db}.feed_actions
      {where_cond}
    ),
    t_user_activity_dates_2 AS (
      -- Дата первой активности пользователей
      SELECT
        user_id,
        date,
        MIN(date) OVER (
          PARTITION BY user_id
        ) AS first_date
      FROM t_user_activity_dates_1
    ),
    t_user_activity_dates AS (
      -- Отбрасываем юзеров, по которым не получится собрать статистику по их оттоку
      SELECT
        user_id,
        date,
        first_date
      FROM t_user_activity_dates_2
      WHERE DATE(now()) - first_date >= {n}
    ),
    t_is_final_churn_1 AS (
      -- Последняя дата активности пользователя
      SELECT
        user_id,
        MAX(date) AS last_date
      FROM t_user_activity_dates
      GROUP BY user_id
    ),
    t_is_final_churn AS (
      -- Считать ли пользователя оттёкшим по последнему временому перерыву
      SELECT
        user_id,
        last_date,
        DATE(now()) - last_date AS date_break,
        date_break >= {n} AS is_final_churn
      FROM t_is_final_churn_1
    ),
    t_prev_dates AS (
      -- Даты предыдущей активности пользователей
      SELECT
        user_id,
        date,
        MIN(date) OVER (
          PARTITION BY user_id
          ORDER BY date
          ROWS BETWEEN 1 PRECEDING AND CURRENT ROW
        ) AS prev_date
      FROM t_user_activity_dates
    ),
    t_user_date_breaks AS (
      -- Временные перерывы пользователей (не включая последний)
      SELECT
        user_id,
        date,
        prev_date,
        date - prev_date AS date_break,
        date_break >= {n} AS is_churn
      FROM t_prev_dates
    ),
    t_final_churn_users AS (
      SELECT DISTINCT user_id
      FROM t_is_final_churn
      WHERE is_final_churn = 1
    ),
    t_not_final_churn_users AS (
      SELECT DISTINCT user_id
      FROM t_user_date_breaks
      WHERE is_churn = 1
    ),
    t_all_churn AS (
      -- Все пользователи, которых записали в отток
      SELECT DISTINCT user_id
      FROM
      (
        (
          SELECT *
          FROM t_final_churn_users
        )
        UNION ALL
        (
          SELECT *
          FROM t_not_final_churn_users
        )
      )
    ),
    t_real_churn AS (
      -- Реальный отток (пользователи, которые до этого не уходили на количество дней >= порогового)
      SELECT *
      FROM t_final_churn_users
        LEFT ANTI JOIN t_not_final_churn_users
          USING user_id
    ),
    t_churns AS (
      -- Итоговая таблица
      SELECT
        {n} AS churn_break_n,
        uniq_users,
        all_churn AS churn,
        real_churn,
        real_churn / all_churn AS churn_precision,
        real_churn / uniq_users AS churn_rate
      FROM (
        SELECT COUNT(*) AS real_churn
        FROM t_real_churn
      ) AS l
        CROSS JOIN (
            SELECT COUNT(*) AS all_churn
            FROM t_all_churn
          ) AS r1
        CROSS JOIN (
          SELECT COUNT(DISTINCT user_id) AS uniq_users
          FROM t_user_activity_dates
        ) AS r2
    )

  SELECT *
  FROM t_churns
  """
  return pandahouse.read_clickhouse(q, connection=connection)

In [246]:
# Запрос для определения удачности порога, при котором пользователь записывается в отток
n = 7  # Порог в днях для того, чтобы считать пользователя оттёкшим (отток при date_break>=n)

get_churn_stats(n)

Unnamed: 0,churn_break_n,uniq_users,churn,real_churn,churn_precision,churn_rate
0,7,98018,79195,16529,0.208713,0.168632


Перебор $n$

In [226]:
# Всего дней в БД
q = """
  SELECT DATE(now()) - DATE(MIN(time)) AS min_date
  FROM {db}.feed_actions
  """

db_days = pandahouse.read_clickhouse(q, connection=connection).values[0][0]
db_days

57

In [227]:
ns = list(range(7, db_days, 7))  # Возможные пороги для того, чтобы считать пользователя ушедшим
ns

[7, 14, 21, 28, 35, 42, 49, 56]

In [228]:
n = ns[0]
churn_th_df = get_churn_stats(n)

for n in tqdm(ns[1:-1]):
  churn_th_df = pd.concat([churn_th_df, get_churn_stats(n)], ignore_index=True)
churn_th_df

100%|██████████| 6/6 [00:30<00:00,  5.14s/it]


Unnamed: 0,churn_break_n,uniq_users,churn,real_churn,churn_precision,churn_rate
0,7,98018,79195,16553,0.209016,0.168877
1,14,84529,39162,15151,0.38688,0.17924
2,21,70067,14313,6717,0.469294,0.095865
3,28,57153,5061,2795,0.552262,0.048904
4,35,42175,1575,1023,0.649524,0.024256
5,42,28045,375,288,0.768,0.010269
6,49,14710,50,45,0.9,0.003059


Результаты довольно неожиданные в контексте расчёта retention

В любом случае будем считать ушедшими пользователей, которые не заходили 4 недели (поскольку при этом пороге мы с вероятностью > 50% не ошибёмся, назвав пользователя ушедшим)

---------------

### Сравнение retention пользователей по источнику

Поскольку churn_rate и retention связаны, определим есть ли отличия между органическими и рекламными пользователями с помощью churn_rate

In [257]:
n = 28

df_churn_ads = get_churn_stats(n, where_cond="WHERE source='ads'")
df_churn_organic = get_churn_stats(n, where_cond="WHERE source='organic'")

In [258]:
df_churn_ads

Unnamed: 0,churn_break_n,uniq_users,churn,real_churn,churn_precision,churn_rate
0,28,29037,4103,2346,0.571777,0.080793


In [259]:
df_churn_organic

Unnamed: 0,churn_break_n,uniq_users,churn,real_churn,churn_precision,churn_rate
0,28,28116,958,446,0.465553,0.015863


=> отток в рекламной группе выше (retention меньше)

Проверим статзначимость отличий с помощью теста хи-квадрат

In [271]:
data = [
    [df_churn_ads.real_churn.values[0],                           df_churn_organic.real_churn.values[0]],
    [(df_churn_ads.uniq_users - df_churn_ads.real_churn).values[0], (df_churn_organic.uniq_users - df_churn_organic.real_churn).values[0]]
]
data

[[2346, 446], [26691, 27670]]

In [272]:
ss.chi2_contingency(data)

Chi2ContingencyResult(statistic=1294.7089388872967, pvalue=1.5960455469003421e-283, dof=1, expected_freq=array([[ 1418.49603695,  1373.50396305],
       [27618.50396305, 26742.49603695]]))

**Выводы**:
- между группами пользователей по их источнику (органические, рекламные) имеются статзначимые отличия
- retention больше у органических пользователей (отток меньше на порядок)