<a href="https://colab.research.google.com/github/AlinaOtr/data/blob/master/sql_masters_activity.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Задача 1

**Задача:**

Разные мастера начали работать с нами в разное время. Нам важно, чтобы мастера оставались с нами как можно дольше, потому что тогда мы экономим на их привлечении. Для каждого дня нужно вывести в колонках:
* количество «старых» мастеров (работают с нами 90 и более дней)
* количество «средних» мастеров (работают с нами меньше 90 дней, но больше 2 недель)
* количество «новых» мастеров (работают с нами 2 недели и меньше)

Сначала подключусь к БД:

In [None]:
import pandas as pd
from sqlalchemy import create_engine

In [None]:
con = create_engine('postgresql+psycopg2://test_user:Jooch9vae9Po@analytics-pg.pik-pro.ru:5432/analytics')

  """)


Создам функцию select, которая заворачивает пандосовкую функцию:

In [None]:
def select(sql):
    return pd.read_sql(sql, con)

Прежде всего изучу немного данные, чтобы избежать логических ошибок в процессе решения задачи:

In [None]:
sql = '''
select a.*
from t.activity a
limit 5
'''

In [None]:
select(sql)

Unnamed: 0,dt,master_id,section_id
0,2020-01-29,460,13
1,2020-01-29,562,39
2,2020-01-29,868,28
3,2020-01-29,1072,40
4,2020-01-29,1446,28


In [None]:
sql = '''
select m.*
from t.masters m
limit 5
'''

In [None]:
select(sql)

Unnamed: 0,id,first_name
0,324,Иван
1,409,Александр
2,426,Виктор
3,11102,Алексей
4,477,Дмитрий


In [None]:
sql = '''
SELECT a.dt,
       a.master_id,
       count(1)
FROM t.activity a
GROUP BY a.dt,
         a.master_id
HAVING count(1) > 1
LIMIT 5;
'''

In [None]:
select(sql)

Unnamed: 0,dt,master_id,count
0,2020-01-29,2704,2
1,2020-01-29,6546,2
2,2020-01-29,6988,2
3,2020-01-29,7260,2
4,2020-01-30,6546,2


Есть мастера, которые выходили в 1 день более 2-х раз. Нужно будет это учесть, чтобы не посчитать одного мастера дважды

In [None]:
sql = '''
SELECT max(a.dt)-min(a.dt) AS general_cnt_dt,
       count(DISTINCT (a.dt)) AS cnt_table_dt
FROM t.activity a;
'''

In [None]:
select(sql)

Unnamed: 0,general_cnt_dt,cnt_table_dt
0,757,726


В датах таблицы есть пропуски(general_cnt_dt != cnt_table_dt). Поэтому в конце сгенерирую все даты

## 1 способ

Здесь я декомпозировала задачу и создала множество временных функций

In [None]:
sql ='''
-- Для каждого мастера нахожу день его первого выхода
WITH min_dt_activity AS
  (SELECT a.master_id,
          min(a.dt) AS min_dt
   FROM t.activity a
   GROUP BY master_id),

-- Нахожу предшествующую дату выхода мастера
dates_activity AS
  (SELECT a.*,
          lag(a.dt) OVER (PARTITION BY a.master_id
                          ORDER BY a.dt) AS prev_activity
   FROM t.activity a),

-- Уберу информацию о повторных выходах одного и того же мастера в один и тот же день
unique_dates_activity AS
  (SELECT da.*
   FROM dates_activity da
   WHERE da.dt != da.prev_activity
     	OR da.prev_activity IS NULL),

-- Считаю на каждую дату, сколько дней работает каждый мастер и к какому группе он относится
info_masters_activity AS
  (SELECT uda.*,
          mda.min_dt,
          uda.dt - mda.min_dt + 1 AS cnt_days,
          CASE WHEN uda.dt - mda.min_dt + 1 >= 90 THEN 1 ELSE 0 END AS old_masters,
          CASE WHEN uda.dt - mda.min_dt + 1 < 90
                   	AND uda.dt - mda.min_dt + 1 > 14 THEN 1 ELSE 0 END AS middle_masters,
          CASE WHEN uda.dt - mda.min_dt + 1 <= 14 THEN 1 ELSE 0 END AS new_masters
   FROM unique_dates_activity uda
   LEFT JOIN min_dt_activity mda
   ON uda.master_id = mda.master_id),

-- Считаю количество мастеров в каждой группе (старые, средние, новые) за каждую дату таблицы
type_masters_cnt AS
  (SELECT ima.dt,
          sum(ima.old_masters) AS old_masters_cnt,
          sum(ima.middle_masters) AS middle_masters_cnt,
          sum(ima.new_masters) AS new_masters_cnt
   FROM info_masters_activity ima
   GROUP BY ima.dt),
   
-- Сгенерирую список дат с самой ранней даты по текущую
dates AS
  (SELECT date_trunc('day', gs):: date generate_dt
   FROM generate_series (
                           (SELECT min(a.dt) FROM t.activity a)::TIMESTAMP,
	   						CURRENT_DATE::TIMESTAMP,
	   						'1 day'::interval) gs)

SELECT d.generate_dt,
       coalesce(tmc.old_masters_cnt, 0),
       coalesce(tmc.middle_masters_cnt, 0),
       coalesce(tmc.new_masters_cnt, 0)
FROM dates d
LEFT JOIN type_masters_cnt tmc
ON d.generate_dt = tmc.dt;
'''

In [None]:
select(sql)

Unnamed: 0,generate_dt,coalesce,coalesce.1,coalesce.2
0,2020-01-29,0,0,29
1,2020-01-30,0,0,36
2,2020-01-31,0,0,35
3,2020-02-01,0,0,19
4,2020-02-02,0,0,3
...,...,...,...,...
756,2022-02-23,25,4,0
757,2022-02-24,30,6,0
758,2022-02-25,31,5,0
759,2022-02-26,28,4,0


## 2 способ

Применила оконную функцию min вместо группировки и сократила количество временных функций. 

In [None]:
sql = '''
-- Для каждой строки определяю, к какому группе относится данный мастер в данную дату
WITH masters_types AS
  (SELECT DISTINCT a.dt,
                   a.master_id,
                   CASE WHEN a.dt - (min(a.dt) OVER (PARTITION BY a.master_id)) + 1 >= 90 THEN 1
                       ELSE 0 END AS old_masters,
                   CASE WHEN a.dt - (min(a.dt) OVER (PARTITION BY a.master_id)) + 1 < 90 AND a.dt - (min(a.dt) OVER (PARTITION BY a.master_id)) + 1 > 14 THEN 1
                       ELSE 0 END AS middle_masters,
                   CASE WHEN a.dt - (min(a.dt) OVER (PARTITION BY a.master_id)) + 1 <= 14 THEN 1
                       ELSE 0 END AS new_masters
   FROM t.activity a),

-- Для каждой даты из представленных в таблице считаю количество мастеров в каждой группе (старые, средние, новые)
type_masters_cnt AS
  (SELECT mt.dt,
          sum(mt.old_masters) AS old_masters_cnt,
          sum(mt.middle_masters) AS middle_masters_cnt,
          sum(mt.new_masters) AS new_masters_cnt
   FROM masters_types mt
   GROUP BY mt.dt),

-- Сгенерирую список дат с самой ранней даты по текущую
dates AS
  (SELECT date_trunc('day', gs):: date generate_dt
   FROM generate_series (
                           (SELECT min(a.dt)
                            FROM t.activity a)::TIMESTAMP, CURRENT_DATE::TIMESTAMP, '1 day'::interval) gs)

SELECT d.generate_dt AS dt,
       coalesce(tmc.old_masters_cnt, 0),
       coalesce(tmc.middle_masters_cnt, 0),
       coalesce(tmc.new_masters_cnt, 0)
FROM dates d
LEFT JOIN type_masters_cnt tmc ON d.generate_dt = tmc.dt;
'''

In [None]:
select(sql)

Unnamed: 0,dt,coalesce,coalesce.1,coalesce.2
0,2020-01-29,0,0,29
1,2020-01-30,0,0,36
2,2020-01-31,0,0,35
3,2020-02-01,0,0,19
4,2020-02-02,0,0,3
...,...,...,...,...
756,2022-02-23,25,4,0
757,2022-02-24,30,6,0
758,2022-02-25,31,5,0
759,2022-02-26,28,4,0


Этот скрипт выполняется быстрее, чем предыдущий, но некритично. Зато способ выглядит менее громоздко

# Задача 2

**Задача:**

На каждый день нужно вывести секцию-лидера, на которой работает больше всего старых мастеров. Если таких секций несколько, выведите секцию с наименьшим id.

Сначала убежусь, что в данных нет дубликатов:

In [None]:
sql = '''
SELECT a.dt,
       a.master_id,
       a.section_id,
       count(1)
FROM t.activity a
GROUP BY a.dt,
         a.master_id,
         a.section_id
HAVING count(1) > 1;
'''

In [None]:
select(sql)

Unnamed: 0,dt,master_id,section_id,count


Для данной задачи полный список дат генерировать не буду, т.к. если дата отсутствует, то и секции-лидера не будет.

## 1 способ

In [None]:
sql = '''
-- Для каждого мастера нахожу день его первого выхода
WITH min_dt_activity AS
  (SELECT a.master_id,
          min(a.dt) AS min_dt
   FROM t.activity a
   GROUP BY master_id),

-- Считаю на каждую дату, сколько дней работает каждый мастер и является ли он "старым"
info_masters_activity AS
  (SELECT a.*,
          mda.min_dt,
          a.dt - mda.min_dt + 1 AS cnt_days,
          CASE WHEN a.dt - mda.min_dt + 1 >= 90 THEN 1 ELSE 0 END AS old_masters
   FROM t.activity a
   LEFT JOIN min_dt_activity mda
   ON a.master_id = mda.master_id),

-- Считаю, сколько в разные даты в каждой секции "старых" мастеров
sections_old_masters AS
  (SELECT ima.dt,
          ima.section_id,
          sum(ima.old_masters) AS old_masters_cnt
   FROM info_masters_activity ima
   WHERE ima.old_masters = 1
   GROUP BY ima.dt,
            ima.section_id),		
            	
-- Считаю для каждой даты ранги секций по количеству "старых" мастеров,
-- которые работают в секции в эту дату
sections_rnk AS
  (SELECT som.*,
          rank() OVER (PARTITION BY som.dt
                       ORDER BY som.old_masters_cnt DESC) AS rnk
   FROM sections_old_masters som)

-- Секции-лидеры - это секции с рангом 1.
-- Если таких секций несколько в одну дату, вывожу секцию с наименьшим id.
SELECT sr.dt,
       min(sr.section_id) AS section_leader
FROM sections_rnk AS sr
WHERE sr.rnk = 1
GROUP BY sr.dt
ORDER BY sr.dt;
'''

In [None]:
select(sql)

Unnamed: 0,dt,section_leader
0,2020-05-12,76
1,2020-05-13,73
2,2020-05-14,14
3,2020-05-15,76
4,2020-05-16,76
...,...,...
650,2022-02-23,437
651,2022-02-24,437
652,2022-02-25,593
653,2022-02-26,593


## 2 способ

In [None]:
sql = '''
-- Для каждой строки определяю, сколько дней проработал данный мастер на данную дату
WITH cnt_days AS
  (SELECT a.dt,
          a.master_id,
          a.section_id,
          min(a.dt) OVER (PARTITION BY a.master_id) AS min_dt,
          a.dt - (min(a.dt) OVER (PARTITION BY a.master_id)) + 1 AS cnt_days
   FROM t.activity a),

-- Считаю, сколько в разные даты в каждой секции "старых" мастеров
sections_old_masters AS
  (SELECT cd.dt,
          cd.section_id,
          count(cd.master_id) AS old_masters_cnt
   FROM cnt_days cd
   WHERE cd.cnt_days >= 90
   GROUP BY cd.dt,
            cd.section_id),

-- Считаю для каждой даты ранги секций по количеству "старых" мастеров,
-- которые работают в секции в эту дату
sections_rnk AS
  (SELECT som.*,
          rank() OVER (PARTITION BY som.dt
                       ORDER BY som.old_masters_cnt DESC) AS rnk
   FROM sections_old_masters som)

-- Секции-лидеры - это секции с рангом 1.
-- Если таких секций несколько в одну дату, вывожу секцию с наименьшим id.
SELECT sr.dt,
       min(sr.section_id) AS section_leader
FROM sections_rnk AS sr
WHERE sr.rnk = 1
GROUP BY sr.dt
ORDER BY sr.dt;
'''

In [None]:
select(sql)

Unnamed: 0,dt,section_leader
0,2020-05-12,76
1,2020-05-13,73
2,2020-05-14,14
3,2020-05-15,76
4,2020-05-16,76
...,...,...
650,2022-02-23,437
651,2022-02-24,437
652,2022-02-25,593
653,2022-02-26,593


# Задача 3

**Задача:**

Каждую неделю мы поощряем мастеров, которые регулярно приходят на объект. Бонусы выплачиваются мастерам, которые работали за неделю 5 дней или больше. Нужно вывести список мастеров, которым нужно выплатить бонус, за каждую из последних 4 недель (дата начала недели, id мастера, имя мастера). Выплаты производятся каждую неделю, поэтому запрос должен быть написан таким образом, чтобы не менять его каждую неделю.

In [None]:
sql ='''
SELECT date_trunc('week', a.dt) AS begin_week,
       a.master_id,
       m.first_name
FROM t.activity a
LEFT JOIN t.masters m
ON a.master_id = m.id
WHERE date_trunc('week', a.dt) >= date_trunc('week', CURRENT_DATE) - interval '21 day'
GROUP BY 1,
         2,
         3
HAVING count(DISTINCT a.dt) >= 5;
'''

In [None]:
select(sql)

Unnamed: 0,begin_week,master_id,first_name
0,2022-01-31 00:00:00+00:00,2262,ДМИТРИЙ
1,2022-01-31 00:00:00+00:00,2279,АНДРЕЙ
2,2022-01-31 00:00:00+00:00,2704,МУРАД
3,2022-01-31 00:00:00+00:00,3401,АЗАМАТ
4,2022-01-31 00:00:00+00:00,4659,Саадула
...,...,...,...
119,2022-02-14 00:00:00+00:00,40648,Олмухамаджон
120,2022-02-14 00:00:00+00:00,40971,Икромжон
121,2022-02-14 00:00:00+00:00,41056,ШАМИЛЬ
122,2022-02-14 00:00:00+00:00,41226,Валерий
