## Задача 2. SQL
**2.1** Очень усердные ученики  
**2.1.1** Условие  
Образовательные курсы состоят из различных уроков, каждый из которых состоит из нескольких маленьких заданий.  
Каждое такое маленькое задание называется "горошиной".  
**2.1.2** Задача  
Дана таблица:  
**default.peas**  
`st_id` - ID ученика (int)  
`timest` - Время решения карточки (timestamp)  
`correct` - Правильно ли решена горошина (bool)  
`subject` - Дисциплина, в которой находится горошина (text)  

- Необходимо написать оптимальный запрос, который даст информацию о количестве очень усердных студентов.  

!Очень усердный студент - это студент который правильно решил 20 задач за текущий месяц.  

**2.2** Оптимизация воронки  
**2.2.1** Условие  
Образовательная платформа предлагает пройти студентам курсы по модели trial: студент может решить бесплатно лишь 30 горошин в день. Для неограниченного количества заданий в определенной дисциплине студенту необходимо приобрести полный доступ. Команда провела эксперимент, где был протестирован новый экран оплаты.  
**2.2.2** Задача  
Даны таблицы:  
**default.peas**  
`st_id` - ID ученика (int)  
`timest` - Время решения карточки (timestamp)  
`correct` - Правильно ли решена горошина (bool)  
`subject` - Дисциплина, в которой находится горошина (text)  
**default.studs**  
`st_id` - ID ученика (int)  
`test_grp` - Метка ученика в данном эксперименте (text)  
**default.final_project_check**  
`st_id`	- ID ученика (int)  
`sale_time`	- Время покупки (timestamp)  
`money`	- Цена, по которой приобрели данный курс (int)  
`subject`	- Дисциплина, на которую приобрели полный доступ (text)  

- Необходимо в одном запросе выгрузить следующую информацию о группах пользователей:  
ARPU   
ARPAU  
CR в покупку  
СR активного пользователя в покупку  
CR пользователя из активности по математике (subject = ’math’) в покупку курса по математике  


! ARPU считается относительно всех пользователей, попавших в группы.  
! Активным считается пользователь, за все время решивший больше 10 задач правильно в любых дисциплинах.  
! Активным по математике считается пользователь, за все время решивший 2 или больше задач правильно по математике.

In [1]:
# Загружаем необходимые библиотеки

import pandahouse as ph

In [2]:
# Задаем параметры подключения

connection = dict(database='default',
                  host='https://clickhouse.lab.karpov.courses',
                  user='student',
                  password='dpo_python_2020')

**Комментарий**  
Смутила фраза в первом задании - "за текущий месяц".  
При проверке данных выяснилось, что в базе собрана информация только за два дня. Ниже показан запрос с выводом минимальной и максимальной даты

In [3]:
query_min_max = """
SELECT
    MIN(toStartOfDay(timest)) AS min_data,
    MAX(toStartOfDay(timest)) AS max_data
FROM peas
"""
min_max = ph.read_clickhouse(query_min_max, connection=connection)
min_max

Unnamed: 0,min_data,max_data
0,2021-10-30,2021-10-31


### Задача 1. Очень усердные ученики
Формируем запрос к базе данных и выводим информацию о количестве очень усердных студентов.  
Используем подзапрос для вывода информации о пользователях, которые решили 20 и более задач.  
Из получившегося подзапроса считаем количество пользователей.

In [4]:
query_one = """
SELECT
    COUNT(st_id) AS studs_count
FROM (
    SELECT
        st_id,
        SUM(correct) as cor_sum
    FROM peas
    WHERE toStartOfMonth(timest)
        IN (SELECT 
                toStartOfMonth(MAX(timest))
            FROM peas)
    GROUP BY st_id
    HAVING cor_sum >= 20)
"""
studs_count = ph.read_clickhouse(query_one, connection=connection)
print("Количество очень усердных студентов:", studs_count.iat[0, 0])

Количество очень усердных студентов: 136


### Задача 2. Оптимизация воронки
Формируем запрос к базе данных и выгружаем информацию о группах пользователей:  
- ARPU
- ARPAU
- CR в покупку
- СR активного пользователя в покупку
- CR пользователя из активности по математике (subject = ’math’) в покупку курса по математике

**Комментарий**  
Последовательность:  

`Первое`. Собираю общую таблицу на основе которой необходимо считать заданные метрики, для этого выполняю следующие действия:  
- к таблице `studs` джойним таблицу `final_project_check` при этом группируем по пользователю, считаем общую сумму оплаты по каждому пользователю и отдельно создаем колонку с отметкой пользователей которые совершили оплату по математике;  
- к получившейся таблице джойним таблицу `peas`, но дополнительно преобразовав её. Сначала группируем по пользователю и названию курса, считаем сумму баллов по каждому курсу и создаем колонку с отметкой пользователей которые решали математику и получили 2 балла и более. Далее еще раз преобразуем данную таблицу, группируем теперь только по пользователю, считаем сумму баллов. Джойним;  
- в получившейся таблице выводим только нужные колонки. Плюс создаем дополнительную в которой будет отображаться сумма оплаты пользователей, которые совершили оплату и решили больше 10 задач правильно.  

`Второе`. На основе получившейся таблицы считаю заданные метрики. Дополнительно вывел отдельно значения по пользователям для перепроверки

In [5]:
query_two = """
SELECT
    grp AS group_value,
    (SUM(money) / COUNT(money)) AS ARPU,
    (SUM(money_10) / SUM(score > 10)) AS ARPAU,
    (SUM(money > 0) / COUNT(money)) AS CR,
    (SUM(money > 0 and score > 10) / SUM(score > 10)) AS CR_score_10,
    (SUM(math_pay = 1) / SUM(math = 1)) AS CR_math,
    -- Значения для проверки расчетов метрик
    grp AS group,
    --Всего пользователей
    COUNT(money) AS user_count,
    --Количество пользователей, которые совершили оплату
    SUM(money > 0) AS user_pay,
    --Количество пользователей, которые не совершали оплату
    SUM(money = 0) AS user_no_pay,
    --Количество пользователей решивших, более 10 задач правильно
    SUM(score > 10) AS user_score_10,
    --Количество пользователей решивших, более 10 задач правильно и совершивших оплату
    SUM(money > 0 and score > 10) AS user_pay_score_10,
    --Сумма оплат
    SUM(money) AS money_sum,
    --Сумма оплат пользователей решивших, более 10 задач правильно
    SUM(money_10) AS money_score_10_sum,
    --Количество пользователей, решивших 2 и более задач правильно по математике
    SUM(math = 1) AS user_math,
    --Количество пользователей, оплативших математику
    SUM(math_pay = 1) AS user_math_pay
FROM (
    SELECT
        a.st_id AS id,
        a.test_grp AS grp,
        b.money AS money,
        c.score AS score,
        CASE WHEN c.score > 10 THEN b.money ELSE 0 END AS money_10,
        b.math_pay AS math_pay,
        c.math AS math
    FROM studs AS a
LEFT JOIN (
        SELECT
            st_id,
            SUM(money) AS money,
            MAX(CASE WHEN subject = 'Math' THEN 1 ELSE 0 END) AS math_pay
        FROM final_project_check 
        GROUP BY st_id) AS b 
ON a.st_id = b.st_id
LEFT JOIN (
        SELECT
            st_id,
            SUM(score) AS score,
            SUM(math) AS math
        FROM (
            SELECT
                st_id,
                SUM(correct) AS score,
                CASE WHEN subject = 'Math' and score >= 2 THEN 1 ELSE 0 END AS math
            FROM peas
            GROUP BY
                st_id,
                subject)
        GROUP BY st_id) AS c
ON a.st_id = c.st_id)
GROUP BY grp
"""
df_query_two = ph.read_clickhouse(query_two, connection=connection)
df_query_two.head().round(2).T

Unnamed: 0,0,1
group_value,control,pilot
ARPU,4540.98,11508.5
ARPAU,10393.7,29739.6
CR,0.05,0.11
CR_score_10,0.11,0.26
CR_math,0.16,0.38
group,control,pilot
user_count,305,295
user_pay,15,32
user_no_pay,290,263
