# Тестовое задание NielsenIQ

In [None]:
### ФИО

In [None]:
# В базе данных niq_test_db начинающий аналитик сохранил промо продажи одного SKU в разбивке по неделям.
# Схема public состоит из 3 таблиц:

![Схема таблиц](db.png)

#### Таблица sales

In [5]:
# store_id     - идентификатор магазина
# period_id    - порядковый номер периода
# sales_volume - продажи в рублях

# сэмпл данных:

Unnamed: 0,store_id,period_id,sales_volume,sale_id
0,42313622,226,1004.6,1
1,43346774,226,989.0,2


#### Таблица store_chars

In [12]:
# store_id      - идентификатор магазина
# store_type_id - индентификатор типа магазина

# сэмпл данных

Unnamed: 0,store_id,store_type_id
0,65219780,1
1,27104935,2


#### Таблица store_chars

In [17]:
# store_type_id - индентификатор типа магазина
# type_name - описание типа канала (мы будем работать только с супермаркетами)

# сэмпл данных

Unnamed: 0,type_id,type_name
0,3,hypermarkets
1,2,supermarkets
2,1,minimarkets


#### Промопериодом мы считаем непрерывный(!) отрезок времени, когда были продажи в рамках одного магазина:

![Пример](example.jfif)

### Задание:
#### Используя данные фактических продаж в канале супермаркетов необходимо найти:
 1. Общее количество промопериодов (во всех магазинах)
 2. Медиану продолжительности промопериода (количество недель)
 3. Объем  продаж по каждому промопериоду
 4. Медиану количества промопериодов на один магазин

**ВАЖНО: Задачу можно решить двумя способами — с использованием SQL или на Python. Мы приветствуем оба подхода, и если вы выполните оба варианта, это будет дополнительным преимуществом.** Такое решение позволит продемонстрировать ваши навыки работы как с базами данных и написания запросов, так и с инструментами аналитики и обработки данных на Python.

### Реализация

#### Импорт библиотек

In [None]:
#импорт библиотек
#!pip install psycopg2
from sqlalchemy import create_engine
from sqlalchemy import text
import pandas as pd

#### Импорт данных

In [3]:
def create_temp_engine():
    """
    Create connection
    """
    
    engine = create_engine('postgresql://niq_test_user:niq_test_pwd@rc1d-9nhcng0zw57wke57.mdb.yandexcloud.net:6432/niq_test_db')   
        
    return engine

In [None]:
# пример запроса к базе
# request = """SELECT * FROM public.store_types LIMIT 10 """ 
request = # Напишите ваш запрос, получающий все продажи в канале супермаркетов
"""
SELECT sales.*
FROM sales
JOIN store_chars ON sales.store_id = store_chars.store_id
JOIN store_types ON store_chars.store_type_id = store_types.type_id
WHERE store_types.type_name = 'supermarkets'
"""
engine = create_temp_engine()
with engine.connect() as con:
    df = pd.read_sql(text(request), con)
engine.dispose()
df.head(3)

In [24]:
### обработка данных с использованием SQL


In [None]:
### обработка данных с использованием Python
def store_periods(group):
    """
    Групирует периоды в промопериод.
    Промопериодом мы считаем непрерывный(!) отрезок времени,
    когда были продажи в рамках одного магазина.
    """
    promo_periods = group.sort_values('period_id')
    promo_periods['is_new_period'] = (
        (promo_periods['period_id'] - promo_periods['period_id'].shift(1)) != 1
    )
    periods = promo_periods['is_new_period'].cumsum()
    promo_periods['period_group'] = periods
    return promo_periods

#### 1. Общее количество промопериодов (во всех магазинах)

In [None]:
#### Ваш код с ответом
def continuous_period_by_store(df):
    counts_promo_by_store = df.groupby('store_id').apply(
        lambda group: len(store_periods(group)['period_group'].unique())
    )
    return counts_promo_by_store.sum()

print(f'Общее количество промопериодов (во всех магазинах): {continuous_period_by_store(df)}')

#### 2. Медиана продолжительности промопериода (количество недель)


In [None]:
#### Ваш код с ответом

def median_duration_periods(df):
    median_period_by_store = df.groupby('store_id').apply(
        lambda group: store_periods(group).groupby('period_group').size().median())
    return median_period_by_store.median()

print(f'Медиана продолжительности промопериода (количество недель): {median_duration_periods(df)}')

#### 3. Объем  продаж по каждому промопериоду


In [None]:
#### Ваш код с ответом
def sales_by_store_by_period(df):
    median_period_by_store = df.groupby('store_id').apply(
        lambda group: store_periods(group).groupby('period_group')['sales_volume'].median())
    return median_period_by_store
medians = sales_by_store_by_period(df)
for store_id, period_group, median_value in medians.items():
    print(f'Магазин: {store_id}.Промопериод: {period_group}. Объем продаж: {median_value}')

#### 4. Медиану количества промопериодов на один магазин

In [None]:
#### Ваш код с ответом
def median_periods_by_store(df):
    """Медиану количества промопериодов на один магазин"""
    median_period_by_store = df.groupby('store_id').apply(
        lambda group: store_periods(group)['period_group'].nunique(),
        include_groups=False
    )
    return median_period_by_store.median()

medians = median_periods_by_store(df)
print(f'Медиана количества промопериодов магазина {median_periods_by_store(df)}')



#### *Дополнительное задание

Дайте рекомендации начинающему аналитику как доработать текущую структуру базы данных
1. Следует сделать отдельные таблицы, которая будет хранить периоды и промопериоды, это позволит делать простые и быстрые запросы к бд, вместо сложной логики вычисления этих промопериодов в процессе запроса. Также мы получим дополнительные полозные данные, например у периодов кроме id очевидно должно быть поле с конкретной датой этого периода.
2. Следует уделить внимание неймингу таблин и полей. Конкретнее, неясно зачем таблица store_chars. По данным и связям это скорее просто stores. (Тогда кстати там должно быть больше информативных полей, звязанных с сущностью магазина. Адрес, время работы, какие-то еще данные которые пригодятся для анализа). Возвращаюясь к неймингу, в полях айди таблиц незачем дублировать название таблицы, это путает(вместо sales_id используем id, и сразу понятно что это айди именно этой таблицы, а не ссылка куда-то еще)