In [1]:
!pip install pymysql



In [36]:
from sqlalchemy import create_engine
import pandas as pd

In [3]:
!pip install cryptography



In [37]:
# подключение к БД
con = create_engine('mysql+pymysql://username:password@host/databasename')

In [38]:
def select(sql):
  return pd.read_sql(sql,con)

## Датасет
Пользователи платят за доступ к облачному хранилищу (таблица payments). Доступ можно купить на
разное количество дней (поле days).  С продуктом
проводятся АВ-тесты — пользователи попадают в тесты (таблица experiments_join) и исключаются из
них (таблица experiments_escape), когда перестают удовлетворять условиям. Пользователи
распределяются по разным вариантам теста (поле variant), фиксируется время попадания в тест и
время исключения из него (поля join_time и escape_time).

## Задача 2
Основная метрика для АВ-теста — процент сделавших платежи пользователей от общего количества
пользователей, попавших в тест. Напишите SQL-запрос, рассчитывающий данную метрику для
вариантов теста. Ожидаемый формат вывода:
<table>
   <tr>
      <td>Вариант теста</td>
      <td>Конверсия в оплативших пользователей</td>
   </tr>
  <tr>
      <td>variant_1</td>
      <td>0,1756</td>
   </tr>
  <tr>
      <td>Variant_2</td>
      <td>0,3499</td>
   </tr>
</table>

## Решение

In [100]:
# Структура таблицы payments
sql = """
 SELECT *
 FROM payments 
 LIMIT 5
"""
select(sql)

Unnamed: 0,id,user_id,date_paid,days
0,1,1,2018-10-01 07:59:57,365
1,2,2,2018-10-01 08:00:01,365
2,3,3,2018-10-01 08:00:05,365
3,4,4,2018-10-01 08:00:08,365
4,5,5,2018-10-01 08:00:11,365


In [101]:
# Структура таблицы experiments_join
sql = """
 SELECT *
 FROM experiments_join
 LIMIT 5
"""
select(sql)

Unnamed: 0,id,user_id,variant,join_time
0,1,11899,variant_1,2020-09-10 15:10:43
1,2,3388,variant_2,2020-08-24 07:08:58
2,3,26669,variant_2,2020-08-23 04:58:18
3,4,117437,variant_2,2020-08-21 14:29:54
4,5,125860,variant_1,2020-08-26 13:45:43


In [102]:
# Проверяем количество вариантов теста
sql = """
 SELECT DISTINCT variant
 FROM experiments_join
"""
select(sql)

Unnamed: 0,variant
0,variant_1
1,variant_2


In [103]:
# Общее количество пользователей, попавших в каждый из вариантов теста
sql = """
SELECT COUNT(*), COUNT(user_id), COUNT(DISTINCT user_id)
FROM experiments_join
GROUP BY variant
"""
select(sql)

Unnamed: 0,COUNT(*),COUNT(user_id),COUNT(DISTINCT user_id)
0,21235,21235,21235
1,50107,50107,50107


In [104]:
# Проверим число исключений из тестов: количество записей в таблице experiments_escape. 
sql = """
SELECT COUNT(*), COUNT(user_id), COUNT(DISTINCT user_id)
FROM experiments_escape
"""
select(sql)

Unnamed: 0,COUNT(*),COUNT(user_id),COUNT(DISTINCT user_id)
0,55038,55038,55038


In [105]:
# Ожидалось, что это значение (55038) совпадет с общим числом попаданий в тест (21235+50107), однако оно меньше.
# Значит, не у каждого времени подключения к тесту (join_time) есть соответствующее время отключения (escape_time)
# Проверим, можно ли связать таблицы experiments_join и experiments_escape по полю id
# В этих таблицах существуют записи с одинаковыми id, но разными user_id.
sql = """
SELECT *
FROM experiments_join j, experiments_escape e
WHERE j.id = e.id AND j.user_id != e.user_id
LIMIT 5
"""
select(sql)

Unnamed: 0,id,user_id,variant,join_time,id.1,user_id.1,escape_time
0,8,20993,variant_1,2020-11-12 16:47:52,8,54780,2020-10-17 03:22:58
1,9,54780,variant_2,2020-08-24 12:09:27,9,173264,2020-10-16 04:24:47
2,10,319105,variant_2,2020-09-08 16:35:40,10,13777,2020-10-15 14:32:12
3,11,173264,variant_2,2020-08-22 02:45:58,11,59723,2020-10-19 22:57:21
4,12,13777,variant_2,2020-08-22 20:22:03,12,69872,2020-10-15 07:58:51


In [106]:
# Связь таблиц experiments_join и experiments_escape осуществляется только по полю user_id
# Выберем всех пользователей, которых нет в таблице experiments_escape
sql = """
SELECT COUNT(user_id) 
FROM experiments_join
WHERE user_id NOT IN (SELECT user_id
                      FROM experiments_escape
                      )
"""
select(sql)

Unnamed: 0,COUNT(user_id)
0,16304


In [107]:
# Значит при объединении таблиц experiments_join и experiments_escape нужно использовать LEFT JOIN, что бы не потерять данные
# о 16304 пользователях, для которых нет "пары" в таблице experiments_escape
# При этом будем считать, что пользователь всё еще в эксперименте, если escape_time = NULL
# Объединим таблицы 
sql = """
 SELECT j.user_id, variant, join_time, escape_time
 FROM experiments_join j LEFT JOIN experiments_escape e ON j.user_id = e.user_id
 ORDER BY escape_time
 LIMIT 5
"""
select(sql)

Unnamed: 0,user_id,variant,join_time,escape_time
0,245034,variant_2,2020-08-25 10:56:06,
1,319105,variant_2,2020-09-08 16:35:40,
2,157606,variant_1,2020-11-09 20:54:20,
3,344176,variant_2,2020-11-16 06:21:14,
4,20993,variant_1,2020-11-12 16:47:52,


In [108]:
# Для того, чтобы было проще проверять, был ли сделан платеж в тестовый период, добавим поле escape_time_no_null, 
# которому, в случае, если escape_time=NULL, присвоим большое значение, например 10.10.2900.
# И проверим число пользователей в каждом из вариантов теста
# Тут всё в порядке, количество ненулевых значений в столбце escape_time_no_null совпадает с общим числом строк
# Значение COUNT(escape_time) меньше, т.к. нулевые значения в столбце escape_time игнорируются.
sql = """
WITH users AS (
 SELECT j.user_id, variant, join_time, escape_time,
         CASE WHEN escape_time IS NULL THEN DATE("2900-10-10")
              ELSE escape_time
         END as escape_time_no_null
 FROM experiments_join j LEFT JOIN experiments_escape e ON j.user_id = e.user_id
 )

SELECT variant, COUNT(*), COUNT(escape_time), COUNT(escape_time_no_null)
FROM users
GROUP BY variant
"""
select(sql)

Unnamed: 0,variant,COUNT(*),COUNT(escape_time),COUNT(escape_time_no_null)
0,variant_1,21235,13104,21235
1,variant_2,50107,41934,50107


Далее требуется объединить представление users с таблицей payments, добавив колонку has_payment, которая будет принимать значение 1 - если в период join_time - escape_time_no_null пользователем user_id были проведены оплаты, и 0 - в противном случае. 
Такое объединение можно осуществить как минимум двумя способами.
После чего остается агрегировать данные и посчитать среднее.


## Ответ


### 1-й способ решения


In [109]:
sql = '''
WITH 
users as (
 SELECT t.user_id, t.variant, t.join_time, ee.escape_time,
       CASE WHEN ee.escape_time is null THEN DATE('2900-10-10')
            ELSE ee.escape_time 
       END AS escape_time_no_null
 FROM experiments_join t
     LEFT JOIN experiments_escape ee ON t.user_id = ee.user_id),

report as (
 SELECT t.user_id, t.variant,
        MAX(CASE WHEN p.date_paid IS NOT NULL THEN 1 ELSE 0 END) AS has_payment
 FROM users t
      LEFT JOIN payments p ON t.user_id = p.user_id 
                              AND p.date_paid > t.join_time
                              AND p.date_paid < t.escape_time_no_null
 GROUP BY t.user_id, t.variant)


SELECT t.variant as 'Вариант теста', avg(t.has_payment) as 'Конверсия в оплативших пользователей'
FROM report t
GROUP BY t.variant

'''
select(sql)

Unnamed: 0,Вариант теста,Конверсия в оплативших пользователей
0,variant_1,0.1756
1,variant_2,0.3499


### 2-й способ решения


In [95]:
sql = """
WITH users AS (
 SELECT j.user_id, variant, join_time, escape_time,
         CASE WHEN escape_time IS NULL THEN DATE("2900-10-10")
              ELSE escape_time
         END as escape_time_no_null
 FROM experiments_join j LEFT JOIN experiments_escape e ON j.user_id = e.user_id
 ),
 
report AS (
 SELECT u.*, 
        CASE WHEN (SELECT COUNT(*) 
                    FROM payments  p
                    WHERE u.user_id = p.user_id 
                    AND date_paid > join_time 
                    AND date_paid < escape_time_no_null
                    ) > 0 THEN 1
             ELSE 0
        END AS has_payment
 FROM users u 
)

SELECT variant as 'Вариант теста', AVG(has_payment) as 'Конверсия в оплативших пользователей'
FROM report
GROUP BY variant
"""
select(sql)

Unnamed: 0,Вариант теста,Конверсия в оплативших пользователей
0,variant_1,0.1756
1,variant_2,0.3499


В представлении report принадлежность диапазону проверяется с помощью пары строгих неравенств "p.date_paid > t.join_time and p.date_paid < t.escape_time_no_null", т.к. в этом случае ответ в точности соответствует тексту задания.

Можно было бы использовать выражение "p.date_paid between t.join_time and t.escape_time_no_null" (нестрогое неравенство), результат естественно немного меняется.