# SQL and metrics

Образовательные курсы состоят из различных уроков, каждый из которых состоит из нескольких маленьких заданий. Каждое такое маленькое задание называется "горошиной".

Образовательная платформа предлагает пройти студентам курсы по модели trial: студент может решить бесплатно лишь 30 горошин в день. Для неограниченного количества заданий в определенной дисциплине студенту необходимо приобрести полный доступ. Команда провела эксперимент, где был протестирован новый экран оплаты.

Посчитать и вывести в одном запросе следующую информацию о группах пользователей:
* ARPU, 
* ARPAU, 
* CR в покупку, 
* СR активного пользователя в покупку, 
* CR активного пользователя по математике в покупку по математике

Активным считается пользователь, за все время решивший больше 10 задач правильно в любых дисциплинах.

Активным по математике считается пользователь, за все время решивший 2 или больше задач правильно по математике.

In [1]:
import pandahouse as ph

In [2]:
connection = {'host': 'http://clickhouse.beslan.pro:8080',
              'database':'default',
              'user':'', 
              'password': ''}

Выведу таблицы, из которых с помощью SQL-запроса получу искомую таблицу

In [3]:
query = """
SELECT st_id, cast(timest as DateTime) as timest, correct, subject
FROM default.peas
"""
peas = ph.read_clickhouse(query, connection=connection)
peas.head()

Unnamed: 0,st_id,timest,correct,subject
0,100379,2021-10-30 13:32:29,1,Theory of probability
1,100379,2021-10-30 14:11:19,0,Vizualization
2,100379,2021-10-30 15:54:22,1,Theory of probability
3,100379,2021-10-30 16:44:50,1,Vizualization
4,100379,2021-10-30 17:15:05,1,Theory of probability


In [4]:
query = """
SELECT *
FROM default.studs
"""
studs = ph.read_clickhouse(query, connection=connection)
studs.head()

Unnamed: 0,st_id,test_grp
0,100379,pilot
1,101432,control
2,104818,pilot
3,104885,pilot
4,104966,pilot


In [5]:
query = """
SELECT st_id, cast(sale_time as DateTime) as sale_time, money, subject
FROM default.final_project_check
"""
check = ph.read_clickhouse(query, connection=connection)
check.head()

Unnamed: 0,st_id,sale_time,money,subject
0,101432,2021-10-31 04:44:32,85000,Math
1,101432,2021-10-31 12:43:50,65000,Vizualization
2,104885,2021-10-30 17:05:55,65000,Vizualization
3,104885,2021-10-30 22:49:33,75000,Statistics
4,106464,2021-10-31 13:17:13,85000,Math


Далее сам запрос для вывода искомой таблицы:

In [6]:
query = """

WITH filter as
        (SELECT st_id
         FROM peas
         WHERE st_id not in (SELECT st_id 
                             FROM final_project_check)
         GROUP BY st_id, date(timest)
         HAVING sum(correct) > 30),
     
     active_in_math as
        (SELECT st_id
         FROM peas 
         WHERE subject = 'Math' 
         GROUP BY st_id
         HAVING sum(correct) >= 2),
     
     paid_for_math as
        (SELECT st_id
         FROM final_project_check 
         WHERE subject = 'Math' 
         GROUP BY st_id)

SELECT test_grp,
       sum(money) / count(st_id) as ARPU,
       sumIf(money, num_of_correct_peas > 10) / countIf(num_of_correct_peas, num_of_correct_peas > 10) as ARPAU,
       countIf(money, money > 0) / count(st_id) as CR,
       countIf(money, money > 0 and num_of_correct_peas > 10) / countIf(num_of_correct_peas, num_of_correct_peas > 10) as CR_active,
       countIf(st_id, st_id in active_in_math and st_id in paid_for_math)  / countIf(st_id, st_id in active_in_math) as CR_math
       
FROM
    (SELECT t1.st_id as st_id, t1.test_grp as test_grp, num_of_correct_peas, money
     
     FROM      (SELECT * 
                FROM studs 
                WHERE st_id not in filter) as t1
     
     LEFT JOIN (SELECT st_id, sum(correct) as num_of_correct_peas 
                FROM peas 
                GROUP BY st_id) as t2
     ON t1.st_id = t2.st_id
     
     LEFT JOIN (SELECT st_id, sum(money) as money 
                FROM final_project_check group by st_id) as t3
     ON t1.st_id = t3.st_id)
    
GROUP BY test_grp

"""

In [7]:
result = ph.read_clickhouse(query, connection=connection)

In [8]:
result  # таблица с требуемыми в задании метриками

Unnamed: 0,test_grp,ARPU,ARPAU,CR,CR_active,CR_math
0,control,4679.054054,11186.440678,0.050676,0.118644,0.066667
1,pilot,11788.194444,32078.651685,0.111111,0.280899,0.102564


#### Ход решения:

Сначала создаю подзапрос, где джойню 3 таблицы по st_id: главная - studs с информацией о группах, остальные джойню с помощью LEFT JOIN. Пропущенные значения заполняются нулями. При этом к таблице применяется фильтр (filter), полученный в общем табличном выражении. Фильтр удаляет тех, кто сделал больше 30 горошин за день и при это не купил курс во время эксперимента. Считаю, что такие студенты купили какой-либо курс еще до эксперимента.  

В итоге получается такая таблица:

In [9]:
query = """

WITH filter as
        (SELECT st_id
         FROM peas
         WHERE st_id not in (SELECT st_id 
                             FROM final_project_check)
         GROUP BY st_id, date(timest)
         HAVING sum(correct) > 30)

SELECT t1.st_id as st_id, t1.test_grp as test_grp, num_of_correct_peas, money
     
FROM      (SELECT * 
           FROM studs 
           WHERE st_id not in filter) as t1
     
LEFT JOIN (SELECT st_id, sum(correct) as num_of_correct_peas 
           FROM peas 
           GROUP BY st_id) as t2
           
ON t1.st_id = t2.st_id
     
LEFT JOIN (SELECT st_id, sum(money) as money 
           FROM final_project_check group by st_id) as t3
           
ON t1.st_id = t3.st_id

"""
result = ph.read_clickhouse(query, connection=connection)
result.head()

Unnamed: 0,st_id,test_grp,num_of_correct_peas,money
0,100379,pilot,27,0
1,101432,control,14,150000
2,104818,pilot,0,0
3,104885,pilot,6,140000
4,104966,pilot,26,0


Далее, на основе полученной таблицы с помощью операторов ClickHouse (sumIf и countIf), а также стандартных (count и sum) считаю необходимые метрики. При этом для расчета CR по математике вывел дополнительно с помощью CTE студентов, кто решил по математике от 2-х горошин и тех, кто купил математику.

Несколько другая версия решения. По сути то же самое, но SumIF и CountIF от Clickhouse заменены на стандартые IF от SQL:

In [10]:
query = """

WITH filter as
        (SELECT st_id
         FROM peas
         WHERE st_id not in (SELECT st_id 
                             FROM final_project_check)
         GROUP BY st_id, date(timest)
         HAVING sum(correct) > 30),
     
     active_in_math as
        (SELECT st_id
         FROM peas 
         WHERE subject = 'Math' 
         GROUP BY st_id
         HAVING sum(correct) >= 2),
     
     paid_for_math as
        (SELECT st_id
         FROM final_project_check 
         WHERE subject = 'Math' 
         GROUP BY st_id)

SELECT test_grp,
       sum(money) / count(st_id) as ARPU,
       sum(IF(num_of_correct_peas > 10, money, 0)) / count(IF(num_of_correct_peas > 10, num_of_correct_peas, NULL)) as ARPAU,
       count(If(money > 0, money, NULL)) / count(st_id) as CR,
       count(If(money > 0 and num_of_correct_peas > 10, money, NULL))
                            / count(If(num_of_correct_peas > 10, num_of_correct_peas, NULL)) as CR_active,
       count(If(st_id in active_in_math and st_id in paid_for_math, st_id, NULL))
                            / count(If(st_id in active_in_math, st_id, NULL)) as CR_math
       
FROM
    (SELECT t1.st_id as st_id, t1.test_grp as test_grp, num_of_correct_peas, money
     
     FROM      (SELECT * 
                FROM studs 
                WHERE st_id not in filter) as t1
     
     LEFT JOIN (SELECT st_id, sum(correct) as num_of_correct_peas 
                FROM peas 
                GROUP BY st_id) as t2
     ON t1.st_id = t2.st_id
     
     LEFT JOIN (SELECT st_id, sum(money) as money 
                FROM final_project_check group by st_id) as t3
     ON t1.st_id = t3.st_id)
    
GROUP BY test_grp

"""

In [11]:
result = ph.read_clickhouse(query, connection=connection)
result

Unnamed: 0,test_grp,ARPU,ARPAU,CR,CR_active,CR_math
0,control,4679.054054,11186.440678,0.050676,0.118644,0.066667
1,pilot,11788.194444,32078.651685,0.111111,0.280899,0.102564
