# Задача 1

Составить sql запрос по задаче:  
Сделать выгрузку по терминалам, в которых в течение короткого периода времени (временного окна) провели оплаты несколько клиентов

Входные данные:  
- Период выгрузки с сентября 2019 по конец января 2020  
- Временное окно операций - 2 часа  
- Кол-во уникальных клиентов, которые совершили операции в «окне» - 3 и более клиентов  

Какие поля содержит рабочая таблица (operations):
- id - индекс (номер операции), тип int  
- amount - сумма операции, тип float  
- user_id - номер клиента, тип int  
- term_id - номер банкомата, тип int  
- created_at - дата операции, тип time stamp  

На выходе должна получиться таблица со списком терминалов и операций, удовлетворяющих условию.


#### Решение 
Решение задачи реализовано непосредственно в jupyter на базе PostgreSQL с помощью библеотеки sqlalchemy.

In [1]:
# Импортируем библеотеки. 

import pandas as pd
import numpy as np

В начале создадим датасет аналогично таблице **operations** для проверки создаваемого кода. 

In [2]:
# Создаём вручную небольшой датасет из 10 строк, в котором:
    # id - индекс (номер операции), тип int - ОТ "9990" ДО "9999"
    # amount - сумма операции, тип float - СЛУЧАЙНЫЕ СУММЫ
    # user_id - номер клиента, тип int - ОТ 1 ДО 10
    # term_id - номер банкомата, тип int - ДВА ТЕРМИНАЛА "70" И "75"
    # created_at - дата операции, тип time stamp - СЛУЧАЙНЫЕ ДАТЫ


df = pd.DataFrame({
    'id':[
        9990,9991,9992,9993,9994,
        9995,9996,9997,9998,9999], 
    'amount':[
        100.2,109.5,130.5,150.7,170.8,
        210.8,222.5,240.4,280.3,290.9], 
    'user_id':[
        1,2,3,4,5,
        6,7,8,9,10], 
    'term_id':[
        70,70,70,70,70,
        75,75,75,75,75],
    'created_at':pd.to_datetime([
        '2020-03-01 00:01:00','2020-03-01 00:23:00','2020-03-01 01:36:00','2020-03-01 02:45:00','2020-03-01 02:50:00',
        '2020-01-01 00:01:00','2020-01-01 00:36:00','2020-01-01 01:47:00','2020-01-01 02:00:00','2020-01-01 05:27:00'],
        format='%Y-%m-%d %H:%M:%S')
})

# Посмотрим на датасет.
df

Unnamed: 0,id,amount,user_id,term_id,created_at
0,9990,100.2,1,70,2020-03-01 00:01:00
1,9991,109.5,2,70,2020-03-01 00:23:00
2,9992,130.5,3,70,2020-03-01 01:36:00
3,9993,150.7,4,70,2020-03-01 02:45:00
4,9994,170.8,5,70,2020-03-01 02:50:00
5,9995,210.8,6,75,2020-01-01 00:01:00
6,9996,222.5,7,75,2020-01-01 00:36:00
7,9997,240.4,8,75,2020-01-01 01:47:00
8,9998,280.3,9,75,2020-01-01 02:00:00
9,9999,290.9,10,75,2020-01-01 05:27:00


In [3]:
# Проверим правильность форматов данных в датасете.

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   id          10 non-null     int64         
 1   amount      10 non-null     float64       
 2   user_id     10 non-null     int64         
 3   term_id     10 non-null     int64         
 4   created_at  10 non-null     datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(3)
memory usage: 528.0 bytes


In [4]:
# Все отлично. Заливаем таблицу в sql.

from sqlalchemy import create_engine
con = create_engine('postgresql+psycopg2://fnvidjvc:bvCt7HVPVhjmphQGbtgw0W_RcyyQoxih@hattie.db.elephantsql.com/fnvidjvc')

df.to_sql('operations',con,index=False,if_exists='replace',method='multi')

**Переходим к SQL.**

In [5]:
# Посмотрим на получившуюся таблицу через sql.

sql = '''
SELECT 
op.*
FROM operations AS op
'''

In [6]:
pd.read_sql(sql, con)

Unnamed: 0,id,amount,user_id,term_id,created_at
0,9990,100.2,1,70,2020-03-01 00:01:00
1,9991,109.5,2,70,2020-03-01 00:23:00
2,9992,130.5,3,70,2020-03-01 01:36:00
3,9993,150.7,4,70,2020-03-01 02:45:00
4,9994,170.8,5,70,2020-03-01 02:50:00
5,9995,210.8,6,75,2020-01-01 00:01:00
6,9996,222.5,7,75,2020-01-01 00:36:00
7,9997,240.4,8,75,2020-01-01 01:47:00
8,9998,280.3,9,75,2020-01-01 02:00:00
9,9999,290.9,10,75,2020-01-01 05:27:00


В решении задачи необходимо задействовать оконные функции и скользящие операторы. 

In [7]:
# ШАГ 1: вычисляем разницу между соседними датами.
# Используем этот столбец для визуального удобства проверки правильности вычисляемого запроса.

# Создаём новый столбец "time_diff", который является разницей между текущей и предыдущей датой.
# Используем оконную функцию для расчета по каждому терминалу.



sql = '''
SELECT
op.*,
op.created_at - lag(op.created_at)
    OVER (partition by op.term_id
    ORDER BY  op.created_at, op.term_id) AS time_diff
FROM operations AS op
'''

In [8]:
pd.read_sql(sql, con)

Unnamed: 0,id,amount,user_id,term_id,created_at,time_diff
0,9990,100.2,1,70,2020-03-01 00:01:00,NaT
1,9991,109.5,2,70,2020-03-01 00:23:00,0 days 00:22:00
2,9992,130.5,3,70,2020-03-01 01:36:00,0 days 01:13:00
3,9993,150.7,4,70,2020-03-01 02:45:00,0 days 01:09:00
4,9994,170.8,5,70,2020-03-01 02:50:00,0 days 00:05:00
5,9995,210.8,6,75,2020-01-01 00:01:00,NaT
6,9996,222.5,7,75,2020-01-01 00:36:00,0 days 00:35:00
7,9997,240.4,8,75,2020-01-01 01:47:00,0 days 01:11:00
8,9998,280.3,9,75,2020-01-01 02:00:00,0 days 00:13:00
9,9999,290.9,10,75,2020-01-01 05:27:00,0 days 03:27:00


In [9]:
# ШАГ 2: считаем клиентов в временном окне.

# Создаём вспомогательные столбцы подсчёта количества клиентов в временном окне (2 часа) для каждого терминала:
    # Столбец "moving_cnt_userid" - скользящий подсчёт количество клиентов в окне от текущей даты - 2 часа;
    # Столбец "moving_cnt_userid_rev" - скользящий подсчёт количество клиентов в окне от текущей даты + 2 часа.
# Используем оконную функцию для расчета по каждому терминалу.



sql = '''
SELECT
op.*,
(op.created_at - lag(op.created_at)
    OVER (partition by op.term_id
    ORDER BY  op.created_at, op.term_id)) AS time_diff,
count(op.user_id)
    OVER (partition by op.term_id
    ORDER BY cast(op.created_at as timestamp)
    range BETWEEN interval '2' hour preceding AND current row) AS moving_cnt_userid,
count(op.user_id)
    OVER (partition by op.term_id
    ORDER BY cast(op.created_at as timestamp)
    range BETWEEN current row AND interval '2' hour following) AS moving_cnt_userid_rev
FROM operations AS op
'''

In [10]:
pd.read_sql(sql, con)

Unnamed: 0,id,amount,user_id,term_id,created_at,time_diff,moving_cnt_userid,moving_cnt_userid_rev
0,9990,100.2,1,70,2020-03-01 00:01:00,NaT,1,3
1,9991,109.5,2,70,2020-03-01 00:23:00,0 days 00:22:00,2,2
2,9992,130.5,3,70,2020-03-01 01:36:00,0 days 01:13:00,3,3
3,9993,150.7,4,70,2020-03-01 02:45:00,0 days 01:09:00,2,2
4,9994,170.8,5,70,2020-03-01 02:50:00,0 days 00:05:00,3,1
5,9995,210.8,6,75,2020-01-01 00:01:00,NaT,1,4
6,9996,222.5,7,75,2020-01-01 00:36:00,0 days 00:35:00,2,3
7,9997,240.4,8,75,2020-01-01 01:47:00,0 days 01:11:00,3,2
8,9998,280.3,9,75,2020-01-01 02:00:00,0 days 00:13:00,4,1
9,9999,290.9,10,75,2020-01-01 05:27:00,0 days 03:27:00,1,1


In [11]:
# ШАГ 3: отмечаем максимальное количество клиентов в окне для каждой операции.

# Убираем код с предыдущего шага в подзапрос через with.
# Создаём вспомогательные столбцы с указанием максимального количества клиентов в окне для каждой операции:
    # Столбец "max_cnt" - скользящий подсчёт максимального количества клиентов в окне от текущей даты - 2 часа;
    # Столбец "max_cnt_rev" - скользящий подсчёт максимального количества клиентов в окне от текущей даты + 2 часа.
# Это необходимо, чтобы после правильно выделить операции, подходящие под условия задачи.
# Используем оконную функцию для расчета по каждому терминалу.



sql = '''
with operations_new as
    (SELECT
    op.*,
    (op.created_at - lag(op.created_at)
        OVER (partition by op.term_id
        ORDER BY  op.created_at, op.term_id)) AS time_diff,
    count(op.user_id)
        OVER (partition by op.term_id
        ORDER BY cast(op.created_at as timestamp)
        range BETWEEN interval '2' hour preceding AND current row) AS moving_cnt_userid,
    count(op.user_id)
        OVER (partition by op.term_id
        ORDER BY cast(op.created_at as timestamp)
        range BETWEEN current row AND interval '2' hour following) AS moving_cnt_userid_rev
    FROM operations AS op)



SELECT
opn.*,
max(opn.moving_cnt_userid)
    OVER (partition by opn.term_id
    ORDER BY cast(opn.created_at as timestamp)
    range BETWEEN interval '2' hour preceding AND current row) AS max_cnt,
max(opn.moving_cnt_userid_rev)
    OVER (partition by opn.term_id
    ORDER BY cast(opn.created_at as timestamp)
    range BETWEEN current row AND interval '2' hour following) AS max_cnt_rev
FROM operations_new AS opn
'''

In [12]:
pd.read_sql(sql, con)

Unnamed: 0,id,amount,user_id,term_id,created_at,time_diff,moving_cnt_userid,moving_cnt_userid_rev,max_cnt,max_cnt_rev
0,9990,100.2,1,70,2020-03-01 00:01:00,NaT,1,3,1,3
1,9991,109.5,2,70,2020-03-01 00:23:00,0 days 00:22:00,2,2,2,3
2,9992,130.5,3,70,2020-03-01 01:36:00,0 days 01:13:00,3,3,3,3
3,9993,150.7,4,70,2020-03-01 02:45:00,0 days 01:09:00,2,2,3,2
4,9994,170.8,5,70,2020-03-01 02:50:00,0 days 00:05:00,3,1,3,1
5,9995,210.8,6,75,2020-01-01 00:01:00,NaT,1,4,1,4
6,9996,222.5,7,75,2020-01-01 00:36:00,0 days 00:35:00,2,3,2,3
7,9997,240.4,8,75,2020-01-01 01:47:00,0 days 01:11:00,3,2,3,2
8,9998,280.3,9,75,2020-01-01 02:00:00,0 days 00:13:00,4,1,4,1
9,9999,290.9,10,75,2020-01-01 05:27:00,0 days 03:27:00,1,1,1,1


In [13]:
# ШАГ 4: маркеруем операции с максимальным количеством клиентов в окне не менее 3.

# Убираем код с предыдущего шага в подзапрос через with.
# Маркеруем в отдельном столбце "flag" операции, в которых максимальное количество клиентов в окне не менее 3.
    # при маркеровании смотрим одновременно на столбецы "max_cnt" и "max_cnt_rev".



sql = '''
with operations_new as
    (SELECT
    op.*,
    (op.created_at - lag(op.created_at)
        OVER (partition by op.term_id
        ORDER BY  op.created_at, op.term_id)) AS time_diff,
    count(op.user_id)
        OVER (partition by op.term_id
        ORDER BY cast(op.created_at as timestamp)
        range BETWEEN interval '2' hour preceding AND current row) AS moving_cnt_userid,
    count(op.user_id)
        OVER (partition by op.term_id
        ORDER BY cast(op.created_at as timestamp)
        range BETWEEN current row AND interval '2' hour following) AS moving_cnt_userid_rev
    FROM operations AS op),

operations_new_2 as 
    (SELECT
    opn.*,
    max(opn.moving_cnt_userid)
        OVER (partition by opn.term_id
        ORDER BY cast(opn.created_at as timestamp)
        range BETWEEN interval '2' hour preceding AND current row) AS max_cnt,
    max(opn.moving_cnt_userid_rev)
        OVER (partition by opn.term_id
        ORDER BY cast(opn.created_at as timestamp)
        range BETWEEN current row AND interval '2' hour following) AS max_cnt_rev
    FROM operations_new AS opn)



SELECT
opn2.*,
CASE WHEN opn2.max_cnt >= 3 OR opn2.max_cnt_rev >= 3
    THEN 1
    ELSE 0 end as flag
FROM operations_new_2 as opn2
'''

In [14]:
pd.read_sql(sql, con)

Unnamed: 0,id,amount,user_id,term_id,created_at,time_diff,moving_cnt_userid,moving_cnt_userid_rev,max_cnt,max_cnt_rev,flag
0,9990,100.2,1,70,2020-03-01 00:01:00,NaT,1,3,1,3,1
1,9991,109.5,2,70,2020-03-01 00:23:00,0 days 00:22:00,2,2,2,3,1
2,9992,130.5,3,70,2020-03-01 01:36:00,0 days 01:13:00,3,3,3,3,1
3,9993,150.7,4,70,2020-03-01 02:45:00,0 days 01:09:00,2,2,3,2,1
4,9994,170.8,5,70,2020-03-01 02:50:00,0 days 00:05:00,3,1,3,1,1
5,9995,210.8,6,75,2020-01-01 00:01:00,NaT,1,4,1,4,1
6,9996,222.5,7,75,2020-01-01 00:36:00,0 days 00:35:00,2,3,2,3,1
7,9997,240.4,8,75,2020-01-01 01:47:00,0 days 01:11:00,3,2,3,2,1
8,9998,280.3,9,75,2020-01-01 02:00:00,0 days 00:13:00,4,1,4,1,1
9,9999,290.9,10,75,2020-01-01 05:27:00,0 days 03:27:00,1,1,1,1,0


In [15]:
# ШАГ 5: оставляем в качестве ответа только список терминалов и операций, удовлетворяющих требованиям задачи.

# Убираем код с предыдущего шага в подзапрос через with.
# В выводе оставляем только нужные данные.
# Добавляем ещё условие периода вывода данных с сентября 2019 по конец января 2020.


sql = '''
with operations_new as
    (SELECT
    op.*,
    (op.created_at - lag(op.created_at)
        OVER (partition by op.term_id
        ORDER BY  op.created_at, op.term_id)) AS time_diff,
    count(op.user_id)
        OVER (partition by op.term_id
        ORDER BY cast(op.created_at as timestamp)
        range BETWEEN interval '2' hour preceding AND current row) AS moving_cnt_userid,
    count(op.user_id)
        OVER (partition by op.term_id
        ORDER BY cast(op.created_at as timestamp)
        range BETWEEN current row AND interval '2' hour following) AS moving_cnt_userid_rev
    FROM operations AS op),

operations_new_2 as 
    (SELECT
    opn.*,
    max(opn.moving_cnt_userid)
        OVER (partition by opn.term_id
        ORDER BY cast(opn.created_at as timestamp)
        range BETWEEN interval '2' hour preceding AND current row) AS max_cnt,
    max(opn.moving_cnt_userid_rev)
        OVER (partition by opn.term_id
        ORDER BY cast(opn.created_at as timestamp)
        range BETWEEN current row AND interval '2' hour following) AS max_cnt_rev
    FROM operations_new AS opn),

operations_new_3 as 
    (SELECT
    opn2.*,
    CASE WHEN opn2.max_cnt >= 3 OR opn2.max_cnt_rev >= 3
        THEN 1
        ELSE 0 end as flag
    FROM operations_new_2 as opn2)



SELECT
opn3.id,
opn3.term_id
FROM operations_new_3 as opn3
WHERE flag = 1 AND 
    opn3.created_at >= '2019-09-01 00:00:00' AND
    opn3.created_at <= '2020-12-31 23:59:59'   
'''

In [16]:
pd.read_sql(sql, con)

Unnamed: 0,id,term_id
0,9990,70
1,9991,70
2,9992,70
3,9993,70
4,9994,70
5,9995,75
6,9996,75
7,9997,75
8,9998,75


**Тестируем итоговый код на данных.**

In [17]:
# Импортируем библеотеки. 

import pandas as pd
import numpy as np

In [18]:
# Загружаем подготовленный датасет в 10 тыс. строк, в котором:
    # id - уникальный номер от 10000 до 19999
    # amount - случайное число в диапозоне от 100 до 10000
    # user_id - уникальный номер от 1 до 100
    # term_id - случайное число в диапозоне от 70 до 79
    # created_at - случайная дата от '2019-01-01 00:00:00' до '2020-12-31 23:59:59'

df_test = pd.read_csv('https://raw.githubusercontent.com/zhukov-analyst/test_tasks/main/Foxford/data_test/operations_test.csv', sep=';')

In [19]:
# Конвертируем правильный формат даты.

df_test['created_at'] = pd.to_datetime(df_test['created_at'],format='%Y-%m-%d %H:%M:%S')

# Посмотрим на данные.

df_test

Unnamed: 0,id,amount,user_id,term_id,created_at
0,10000,2643,90,70,2020-05-04 19:37:08
1,10001,9468,2,75,2020-07-03 16:38:07
2,10002,9996,60,70,2019-02-04 18:55:19
3,10003,9005,59,75,2020-09-18 14:58:19
4,10004,5032,57,73,2019-09-17 14:00:00
...,...,...,...,...,...
9995,19995,4338,34,75,2020-07-17 10:04:40
9996,19996,6243,60,70,2020-06-04 20:49:41
9997,19997,2175,47,73,2019-03-02 12:41:11
9998,19998,9412,56,77,2019-01-04 13:57:52


In [20]:
# Проверим правильность форматов данных в датасете.

df_test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   id          10000 non-null  int64         
 1   amount      10000 non-null  int64         
 2   user_id     10000 non-null  int64         
 3   term_id     10000 non-null  int64         
 4   created_at  10000 non-null  datetime64[ns]
dtypes: datetime64[ns](1), int64(4)
memory usage: 390.8 KB


In [21]:
# Все отлично. Заливаем таблицу в sql.

from sqlalchemy import create_engine
con_test = create_engine('postgresql+psycopg2://fnvidjvc:bvCt7HVPVhjmphQGbtgw0W_RcyyQoxih@hattie.db.elephantsql.com/fnvidjvc')

df_test.to_sql('operations_test',con_test,index=False,if_exists='replace',method='multi')

In [22]:
# Посмотрим на получившуюся таблицу через sql.

sql_test = '''
SELECT 
op.*
FROM operations_test AS op
'''

In [23]:
pd.read_sql(sql_test, con_test)

Unnamed: 0,id,amount,user_id,term_id,created_at
0,10000,2643,90,70,2020-05-04 19:37:08
1,10001,9468,2,75,2020-07-03 16:38:07
2,10002,9996,60,70,2019-02-04 18:55:19
3,10003,9005,59,75,2020-09-18 14:58:19
4,10004,5032,57,73,2019-09-17 14:00:00
...,...,...,...,...,...
9995,19995,4338,34,75,2020-07-17 10:04:40
9996,19996,6243,60,70,2020-06-04 20:49:41
9997,19997,2175,47,73,2019-03-02 12:41:11
9998,19998,9412,56,77,2019-01-04 13:57:52


In [24]:
# Выполним итоговый запрос.



sql_test = '''
with operations_new as
    (SELECT
    op.*,
    (op.created_at - lag(op.created_at)
        OVER (partition by op.term_id
        ORDER BY  op.created_at, op.term_id)) AS time_diff,
    count(op.user_id)
        OVER (partition by op.term_id
        ORDER BY cast(op.created_at as timestamp)
        range BETWEEN interval '2' hour preceding AND current row) AS moving_cnt_userid,
    count(op.user_id)
        OVER (partition by op.term_id
        ORDER BY cast(op.created_at as timestamp)
        range BETWEEN current row AND interval '2' hour following) AS moving_cnt_userid_rev
    FROM operations_test AS op),

operations_new_2 as 
    (SELECT
    opn.*,
    max(opn.moving_cnt_userid)
        OVER (partition by opn.term_id
        ORDER BY cast(opn.created_at as timestamp)
        range BETWEEN interval '2' hour preceding AND current row) AS max_cnt,
    max(opn.moving_cnt_userid_rev)
        OVER (partition by opn.term_id
        ORDER BY cast(opn.created_at as timestamp)
        range BETWEEN current row AND interval '2' hour following) AS max_cnt_rev
    FROM operations_new AS opn),

operations_new_3 as 
    (SELECT
    opn2.*,
    CASE WHEN opn2.max_cnt >= 3 OR opn2.max_cnt_rev >= 3
        THEN 1
        ELSE 0 end as flag
    FROM operations_new_2 as opn2)



SELECT
opn3.id,
opn3.term_id
FROM operations_new_3 as opn3
WHERE flag = 1 AND 
    opn3.created_at >= '2019-09-01 00:00:00' AND
    opn3.created_at <= '2020-12-31 23:59:59'   
'''

In [25]:
pd.read_sql(sql_test, con_test)

Unnamed: 0,id,term_id
0,11956,70
1,17969,70
2,18028,70
3,13571,70
4,10412,70
...,...,...
260,12345,79
261,17511,79
262,12882,79
263,14534,79


**Запрос работает.**

Задача выполнена частично - запрос учитывает всех клиентов, совершающих операцию "в окне".  
Проблему учёта только уникальных клиентов можно было бы реализовать через функция DISTINCT, но она не реализована в оконных функциях.
Можно попробовать решить через функцию ранжирования user_id внутри "окон".

Запрос в целом получился слишком громоздким и не оптимальным.  
Лучшее решение я, к сожалению, сейчас не готов предложить.



---

# Задача 2

Команда видеотрансляций хочет провести тест вебинарных комнат, как влияет качество на успеваемость учеников и их образовательный результат.  

Мы имеем следующие условия:  
Есть курс по математике на старте которого учится 385 учеников, всего в курсе 10 уроков. И есть курс по русскому языку, в котором 8 уроков и 103 ученика на старте. Допускается пересечение учеников между курсами.  

Суть а\б теста:  
Начиная с 3 урока математики мы проводим занятия в улучшенной вебинарке, которая отличается от старой качеством звука и изображения, так же преподаватель использует стеклянную доску, благодаря которой он весь урок стоит лицом к ученикам и не поворачивается спиной. Параллельно этому, в группе по русскому языку проходит 2-ой урок и там мы ничего не меняем, люди продолжают заниматься в той же самой вебинарке.  

Что требуется от аналитика:  
Спроектировать дизайн а\б теста – какие метрики должны отслеживать, определить достаточно ли у нас данных для статистической значимости эксперимента, что делать с пользователи которые учатся на двух предметах сразу.  
Если при данных условиях а\б тест провести нельзя – доказать почему или предложить новые вводные при которых такой тест можно провести.



#### Решение 

#### ФОРМУЛИРОВАНИЕ ГИПОТЕЗ ИССЛЕДОВАНИЯ

Качество видеотрансляции влияет на образовательный результат учеников.  
Новая вебинарная комната (с улучшеным звуком и картинкой, а также использование стеклянной доски) повысит успеваемость учеников.

Для проверки гипотезы воспользуемся двухсторонним A/B-тестом на базе двух образовательных курсов, где:  
- A - контрольная группа, курс "Русский язык";
- B - эксперементальная группа, курс "Математика".

#### ВЫБОР МЕТРИК

**1. Ключевая метрика**.

Самый оптимальная метрика для проверки описанной гипотезы - **средняя успеваемость учеников**, выраженная в баллах.  
Однако заданные условия провоцируют ряд проблем:  

<font color='red'>Проблема №1.</font> Некорректно сравнивать между собой успеваемость в разных предметах и разных преподавателях.  
Успеваемость предметов может быть детерминирована слишком многими факторами (сезонность, квалификация преподавателя, специализация онлайн-школы на определенных предметах и т.д.), поэтому не релеватно сравнивать оценки учеников между курсами "Русский язык" и "Математика".  

<font color='red'>Проблема №2.</font> Нет информации о том, как организована оценка успеваемости учеников.  
Оценка успеваемости может выражаться в виде теста или иной форме, подразумевающей бальную оценку. Такая форма оценивания может проводится каждый урок или только единожны в конце курса. Или же учеников вобще не оценивают - недостаточно информации.

Если оценка учеников проходит только по итогам всего курса, то заданные условия не позволяют это корректно замерить, т.к. курсы имеют разную продолжительность:
- группа A: курс "Математика" с 3 по 10 урок = 8 уроков;
- группа B: курс "Русский язык" с 2 по 8 урок = 7 уроков.

<font color='red'>Проблема №3.</font> Неравномерность выборок.  
Объем выборки учеников в курсе "Математики" больше почти в четыре раза объем выборки курса "Русский язык".  
Крайне желательно иметь одинаковые по объему выборки. К тому же любые средние велечины чувствительны к выбросам.  

Проблема пересечения выборок не кажется значимо влияющей на исследование на фоне описанных выше проблем.

---


**2. Второстепенные метрики.**  
Существуют ещё ряд метрик, которые могут помочь в проверке гипотез исследования.


<table align="centre">
	<tr>
		<th>Название метрики</th>
		<th>Расчёт метрики</th>
		<th>Ограничения</th>
 	</tr>
 	<tr>
  		<td>Удовлетноренность ученика технической стороной урока</td>
   		<td>Бальная шкала оценка</td>
		<td>Необходимо напрямую замерять через форму обратной связи. Субъективная оценка.</td>
 	</tr>
	<tr>
  		<td>Вовлеченность ученика в процесс урока</td>
   		<td>Количество взаимодействий ученика с интерфейсом. Или длительность взгляда ученика на экран (ай-трекинг).</td>
		<td>Некорректно сравнивать для разных предметов и разных преподавателей</td>
 	</tr>
	<tr>
  		<td>Удержание ученика во время урока</td>
   		<td>Количество учеников, присутствующих на вебинаре до конца</td>
		<td>Потенциально сомнительная метрика в рамках проверки установленной гипотезы</td>
 	</tr>
	<tr>
  		<td>Удержание ученика во время курса</td>
   		<td>Количество учеников, прошедших курс от начала до конца</td>
		<td>Потенциально очень малозначимая метрика в рамках проверки установленной гипотезы</td>
 	</tr>
</table> 

---

**3. Барьерные метрики.**  
Дополнительно возможно фиксировать показатели, которые не должны "просесть" по итогам эксперемента:
- скорость загрузки страницы вебинарной комнаты;
- количество технических проблем с вебинарной комантой у учеников (вылеты, ошибки и т.д.);
- и прочее.

#### Идеальные условия для проведения A/B-теста

Идеальные условия A/B-теста для оценки зависимости вида вебинарной комнаты от метрики "средняя успеваемость учеников".  

Выборка:  
Один предмет, один преподаватель. Несколько равноразделенных групп учеников.

Метрика:  
Оценка успеваемости учеников проходит каждый урок.

Длительность:  
Одинаковое количество уроков.

---

# Задача 3

Используя язык программирования Python автоматизировать выгрузку данных из API системы трекинга мобильных установок.  

Входные данные:  
- токен = 65196fe7aafb
- временной диапазон - за последние 60 дней, но со вчерашнего дня
- поля для выгрузки - attributed_touch_time, install_time, media_source, campaign, customer_user_id, appsflyer_id
- ссылка для выгрузки данных - 'https://hq.appsflyer.com/export/ru.foxford.foxfordtextbook/installs_report/v5?api_token=&from=&to=&fields='

Сырые данные нужно обогатить полями:
- Неделя установки
- Месяц установки
- Год установки
- CTIT - в секундах, считается как разница между временем установки и кликом на рекламное размещение
- CTIT type - группировка по критериям: меньше 10 сек, от 10 до 30 сек, и более 30 сек.

Первично собранный набор данных нужно записать в БД и при повторной реализации скрипта в таблицу должны записываться только новые данные.  
Токен не рабочий, поэтому при выполнении запроса будет выдаваться ошибка  

Если по этой задаче будут вопросы – 
https://support.appsflyer.com/hc/ru/articles/207034346-%D0%98%D1%81%D0%BF%D0%BE%D0%BB%D1%8C%D0%B7%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5-Pull-API-%D0%B4%D0%BB%D1%8F-%D0%B0%D0%B3%D1%80%D0%B5%D0%B3%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D1%85-%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85


#### Решение 

!Дисклеймер!  

Впервые работаю над выгрузкой данных через API. Что-то может не работать, а проверить нет возможности.

In [26]:
# Импортируем библиотеки.
import requests
from datetime import datetime, timedelta

# Задаём даты для временного периода.
tomorrow = datetime.today() - timedelta(days=1)
data_from = (tomorrow - timedelta(days=60)).strftime('%Y-%m-%d')
data_to = tomorrow.strftime('%Y-%m-%d')

# Адрес API.
url_param = 'https://hq.appsflyer.com/export/ru.foxford.foxfordtextbook/installs_report/v5?'

# Задаем параметры для API.
param_request = {
    'api_token': '65196fe7aafb', 
    'from': data_from,
    'to': data_to, 
    'additional_fields': 'attributed_touch_time, install_time, media_source, campaign, customer_user_id, appsflyer_id'
}

# Формируем и отправляем запрос.
response = requests.get(url_param, params=param_request)

# Проверяем на ошибки.
print('Status code:', response.status_code)
if response.status_code != 200:
  if response.status_code == 404:
    print('There is a problem with the request URL. Make sure that it is correct')
  else:
    print('There was a problem retrieving data:', response.text)
else:
# Сохраняем результаты запроса.
  data = pd.read_csv(response.text, sep=';')

Status code: 401
There was a problem retrieving data: The supplied API token is invalid



In [None]:
# Импортируем библеотеки для работы с sql.
import sqlite3

# Сохраняем резульаты запроса в локальной БД.
con = sqlite3.connect('db_foxford')
data.to_sql('foxford_request', con, index=False, if_exists='replace')

In [None]:
# Сырые данные обогащаем дополнительными полями.

sql = '''
SELECT
fr.*,
strftime('%W', fr.install_time) as install_week,
strftime('%m', fr.install_time) as install_month,
strftime('%Y', fr.install_time) as install_year,
((julianday(fr.install_time) - julianday(fr.attributed_touch_time)) * 24 * 60 * 60) as CTIT,
CASE 
    WHEN ((julianday(fr.install_time) - julianday(fr.attributed_touch_time)) * 24 * 60 * 60) <= 10 THEN 'меньше 10 сек'
    WHEN ((julianday(fr.install_time) - julianday(fr.attributed_touch_time)) * 24 * 60 * 60) > 10 AND ((julianday(fr.install_time) - julianday(fr.attributed_touch_time)) * 24 * 60 * 60) <= 30 THEN 'от 10 до 30 сек'
    WHEN ((julianday(fr.install_time) - julianday(fr.attributed_touch_time)) * 24 * 60 * 60) > 30 THEN 'более 30 сек'
    END AS CTIT_type
FROM foxford_request AS fr
'''
pd.read_sql(sql, con)

**Тестируем sql-запрос на данных.**

In [27]:
# Импортируем библеотеки. 

import pandas as pd
import numpy as np
import sqlite3

In [28]:
# Загружаем подготовленный вручную датасет.

data_test = pd.read_csv('https://raw.githubusercontent.com/zhukov-analyst/test_tasks/main/Foxford/data_test/request_test.csv', sep=';')

data_test['attributed_touch_time'] = pd.to_datetime(data_test['attributed_touch_time'],format='%Y-%m-%d %H:%M:%S')
data_test['install_time'] = pd.to_datetime(data_test['install_time'],format='%Y-%m-%d %H:%M:%S')


In [29]:
# Заливаем датасет в локальный БД.

con = sqlite3.connect('db_foxford')
data_test.to_sql('foxford_request_test', con, index=False, if_exists='replace')

In [30]:
# Проверяем SQL-запрос.

sql = '''
SELECT
fr.*,
strftime('%W', fr.install_time) as install_week,
strftime('%m', fr.install_time) as install_month,
strftime('%Y', fr.install_time) as install_year,
((julianday(fr.install_time) - julianday(fr.attributed_touch_time)) * 24 * 60 * 60) as CTIT,
CASE 
    WHEN ((julianday(fr.install_time) - julianday(fr.attributed_touch_time)) * 24 * 60 * 60) <= 10 THEN 'меньше 10 сек'
    WHEN ((julianday(fr.install_time) - julianday(fr.attributed_touch_time)) * 24 * 60 * 60) > 10 AND ((julianday(fr.install_time) - julianday(fr.attributed_touch_time)) * 24 * 60 * 60) <= 30 THEN 'от 10 до 30 сек'
    WHEN ((julianday(fr.install_time) - julianday(fr.attributed_touch_time)) * 24 * 60 * 60) > 30 THEN 'более 30 сек'
    END AS CTIT_type
FROM foxford_request_test AS fr
'''
pd.read_sql(sql, con)

Unnamed: 0,attributed_touch_time,install_time,media_source,campaign,customer_user_id,appsflyer_id,install_week,install_month,install_year,CTIT,CTIT_type
0,2020-05-04 19:37:08,2020-05-04 19:37:25,Facebook,90,2643,10000,18,05,2020,16.999988,от 10 до 30 сек
1,2020-07-03 16:38:07,2020-07-03 16:38:11,Instagram,2,9468,10001,26,07,2020,3.999978,меньше 10 сек
2,2019-02-04 18:55:19,2019-02-04 18:55:51,Facebook,60,9996,10002,05,02,2019,32.000028,более 30 сек
3,2020-09-18 14:58:19,2020-09-18 14:58:27,Instagram,59,9005,10003,37,09,2020,7.999997,меньше 10 сек
4,2019-09-17 14:00:00,2019-09-17 14:00:57,Facebook,57,5032,10004,37,09,2019,56.999972,более 30 сек
...,...,...,...,...,...,...,...,...,...,...,...
9995,2020-07-17 10:04:40,2020-07-17 10:05:30,Instagram,34,4338,19995,28,07,2020,50.000010,более 30 сек
9996,2020-06-04 20:49:41,2020-06-04 20:50:25,Facebook,60,6243,19996,22,06,2020,43.999963,более 30 сек
9997,2019-03-02 12:41:11,2019-03-02 12:41:30,Facebook,47,2175,19997,08,03,2019,19.000018,от 10 до 30 сек
9998,2019-01-04 13:57:52,2019-01-04 13:58:30,VK,56,9412,19998,00,01,2019,38.000035,более 30 сек


**Полность проверить работу скрипта невозможно.**  


Скрипт выгрузки данных реализован частично - не реализована запись только новых данных при повторном выполнении скрипта.