# Тестовое задание NielsenIQ

In [159]:
### Абрамов Роман Русланович

In [160]:
# В базе данных niq_test_db начинающий аналитик сохранил промо продажи одного SKU в разбивке по неделям.
# Схема public состоит из 3 таблиц:

![Схема таблиц](db.png)

#### Таблица sales

In [161]:
# store_id     - идентификатор магазина
# period_id    - порядковый номер периода
# sales_volume - продажи в рублях

# сэмпл данных:

#### Таблица store_chars

In [162]:
# store_id      - идентификатор магазина
# store_type_id - индентификатор типа магазина

# сэмпл данных

#### Таблица store_chars

In [163]:
# store_type_id - индентификатор типа магазина
# type_name - описание типа канала (мы будем работать только с супермаркетами)

# сэмпл данных

#### Промопериодом мы считаем непрерывный(!) отрезок времени, когда были продажи в рамках одного магазина:

![Пример](example.jfif)

### Задание:
#### Используя данные фактических продаж в канале супермаркетов необходимо найти:
 1. Общее количество промопериодов (во всех магазинах)
 2. Медиану продолжительности промопериода (количество недель)
 3. Объем  продаж по каждому промопериоду
 4. Медиану количества промопериодов на один магазин


### Реализация

#### Импорт библиотек

In [164]:
from sqlalchemy import create_engine
from sqlalchemy import text
import pandas as pd
import numpy as np

#### Импорт данных

In [165]:
def create_temp_engine():
    """Create connection"""
    engine = create_engine('postgresql://niq_test_user:niq_test_pwd@rc1d-9nhcng0zw57wke57.mdb.yandexcloud.net:6432/niq_test_db')
        
    return engine

In [166]:
 # Запрос для получения всех продаж в канале супермаркетов
request = """
SELECT s.store_id, s.period_id, s.sales_volume
FROM public.sales s
JOIN public.store_chars sc ON s.store_id = sc.store_id
JOIN public.store_types st ON sc.store_type_id = st.type_id
WHERE st.type_name = 'supermarkets'
ORDER BY s.store_id, s.period_id
LIMIT 25; 
"""

engine = create_temp_engine()
with engine.connect() as con:
    df = pd.read_sql(text(request), con)
engine.dispose()
df.head(25)

Unnamed: 0,store_id,period_id,sales_volume
0,4168621,191,2.25
1,4168621,192,6.35
2,4168621,193,7.05
3,4168621,194,2.5
4,4168621,195,1.7
5,4168621,196,4.75
6,4168621,197,4.9
7,4168621,198,4.7
8,4168621,199,10.0
9,4168621,200,4.1


In [167]:
# Преобразуем типы данных
df['period_id'] = pd.to_numeric(df['period_id'], errors='coerce')
df['sales_volume'] = pd.to_numeric(df['sales_volume'], errors='coerce')

#### 1. Общее количество промопериодов (во всех магазинах)

In [168]:
df = df.sort_values(by=['store_id', 'period_id'])

# Группировка данных для каждого магазина и поиска непрерывных промопериодов
promo_periods = []
for store_id, group in df.groupby('store_id'):
    # Для каждого магазина, проверяем разрывы в периодах
    group['period_diff'] = group['period_id'].diff().fillna(1)
    group['new_promo_period'] = (group['period_diff'] > 1).cumsum()

    promo_periods.append(group['new_promo_period'].nunique())
    
total_promo_periods = sum(promo_periods)

print(total_promo_periods)


4


#### 2. Медиана продолжительности промопериода (количество недель)


In [169]:
promo_duration = []

for store_id, group in df.groupby('store_id'):
    # Для каждого магазина находим разницу в периодах, как продолжительность промопериода
    group['period_diff'] = group['period_id'].diff().fillna(1)
    group['new_promo_period'] = (group['period_diff'] > 1).cumsum()
    
    # Для каждого промопериода рассчитываем его продолжительность
    promo_periods_duration = group.groupby('new_promo_period')['period_id'].agg(['min', 'max'])
    promo_periods_duration['duration'] = promo_periods_duration['max'] - promo_periods_duration['min'] + 1
    promo_duration.extend(promo_periods_duration['duration'].values)

median_promo_duration = np.median(promo_duration)

print(median_promo_duration)


3.5


#### 3. Объем  продаж по каждому промопериоду


In [170]:
df['promo_period_change'] = (df['period_id'].diff() > 1).astype(int)
df.loc[df.index[0], 'promo_period_change'] = 0
df['new_promo_period'] = df['promo_period_change'].cumsum() + 1

print(df[['store_id', 'period_id', 'new_promo_period']])


    store_id  period_id  new_promo_period
0    4168621        191                 1
1    4168621        192                 1
2    4168621        193                 1
3    4168621        194                 1
4    4168621        195                 1
5    4168621        196                 1
6    4168621        197                 1
7    4168621        198                 1
8    4168621        199                 1
9    4168621        200                 1
10   4168621        201                 1
11   4168621        202                 1
12   4168621        203                 1
13   4168621        204                 1
14   4168621        205                 1
15   4168621        206                 1
16   4168621        208                 2
17   4168621        209                 2
18   4168621        211                 3
19   4168621        212                 3
20   4168621        213                 3
21   4168621        214                 3
22   4168621        216           

#### 4. Медиану количества промопериодов на один магазин

In [171]:
promo_counts_per_store = df.groupby('store_id')['new_promo_period'].nunique()
median_promo_counts = promo_counts_per_store.median()

print(median_promo_counts)


4.0




#### *Дополнительное задание

Дайте рекомендации начинающему аналитику как доработать текущую структуру базы данных
1. Использование индексов. Я считаю, что было бы неплохо добавить индексы на часто используемые столбцы (store_id, period_id, type_id, type_name).
2. Нормализация данных. Нужно убедиться, что таблицы в БД находятся хотя бы в 3NF.
3. Как мне кажется, здесь удобнее работать с колоночной БД (ClickHouse).