# Тестовое задание NielsenIQ

In [1]:
### Глухих Кирилл Евгеньевич

In [2]:
# В базе данных niq_test_db начинающий аналитик сохранил промо продажи одного SKU в разбивке по неделям.
# Схема public состоит из 3 таблиц:

![Схема таблиц](db.png)

#### Таблица sales

In [3]:
# store_id     - идентификатор магазина
# period_id    - порядковый номер периода
# sales_volume - продажи в рублях

# сэмпл данных:

#### Таблица store_chars

In [4]:
# store_id      - идентификатор магазина
# store_type_id - индентификатор типа магазина

# сэмпл данных

#### Таблица store_chars

In [5]:
# store_type_id - индентификатор типа магазина
# type_name - описание типа канала (мы будем работать только с супермаркетами)

# сэмпл данных

#### Промопериодом мы считаем непрерывный(!) отрезок времени, когда были продажи в рамках одного магазина:

![Пример](example.jfif)

### Задание:
#### Используя данные фактических продаж в канале супермаркетов необходимо найти:
 1. Общее количество промопериодов (во всех магазинах)
 2. Медиану продолжительности промопериода (количество недель)
 3. Объем  продаж по каждому промопериоду
 4. Медиану количества промопериодов на один магазин

**ВАЖНО: Задачу можно решить двумя способами — с использованием SQL или на Python. Мы приветствуем оба подхода, и если вы выполните оба варианта, это будет дополнительным преимуществом.** Такое решение позволит продемонстрировать ваши навыки работы как с базами данных и написания запросов, так и с инструментами аналитики и обработки данных на Python.

### Реализация

#### Импорт библиотек

In [6]:
#импорт библиотек
#!pip install psycopg2
from sqlalchemy import create_engine
from sqlalchemy import text
import pandas as pd

#### Импорт данных

In [7]:
def create_temp_engine():
    """
    Create connection
    """
    
    engine = create_engine('postgresql://niq_test_user:niq_test_pwd@rc1d-9nhcng0zw57wke57.mdb.yandexcloud.net:6432/niq_test_db')   
        
    return engine

In [8]:
request = """
select sales.* from sales 
  join store_chars on sales.store_id = store_chars.store_id 
  join store_types on store_chars.store_type_id = store_types.type_id
where store_types.type_name = 'supermarkets';
""" # Напишите ваш запрос, получающий все продажи в канале супермаркетов
engine = create_temp_engine()
with engine.connect() as con:
    df = pd.read_sql(text(request), con)
engine.dispose()

df.head(3)

Unnamed: 0,store_id,period_id,sales_volume,sale_id
0,4186684,226,1004.6,846991
1,5219836,226,989.0,846992
2,4185865,226,827.45,846993


In [9]:
len(df)

846990

In [10]:
### обработка данных с использованием SQL


In [11]:
### обработка данных с использованием Python


#### 1. Общее количество промопериодов (во всех магазинах)

In [12]:
# Данные именованные наборы данных будут использоваться для выполнения последующих запросов.
# grouped_data - выполняет выборку супермаркетов и разбивает на интервалы (присваивает строке group_id)
# intervals - формирует удобную таблицу для дальнейших преобразований

cte_sql = """
with grouped_data as (
    select distinct
        sales.*,
        sales.period_id - row_number() over (
            partition by sales.store_id order by sales.period_id
        ) as group_id
    from sales
        join store_chars on sales.store_id = store_chars.store_id 
        join store_types on store_chars.store_type_id = store_types.type_id
    where store_types.type_name = 'supermarkets'
), intervals as (
    select
        store_id,
        min(period_id) as start_period,
        max(period_id) as end_period,
        sum(sales_volume) as sales_volume,
        count(*) as period_count
    from grouped_data
    group by store_id, group_id
)
"""

# Для наглядности запрос возвращает список периодов, а не их количество
request_intervals = cte_sql + \
"""
    -- Если необходимо получить периоды:
    select * from intervals;
    -- Если необходимо получить количество периодов:
    -- select count(*) from intervals;
"""

with engine.connect() as con:
    intervals_sql_df = pd.read_sql(text(request_intervals), con)

intervals_sql_df.head(3)


Unnamed: 0,store_id,start_period,end_period,sales_volume,period_count
0,4799065,225,226,51.95,2
1,27099118,214,216,103.8,3
2,4185715,225,226,23.9,2


In [13]:
print('Количество промопериодов (SQL):', len(intervals_sql_df))

Количество промопериодов (SQL): 140992


In [14]:
distinct_df = df[['store_id', 'period_id', 'sales_volume']].drop_duplicates()
distinct_df = distinct_df.sort_values(['store_id', 'period_id'])
distinct_df['group_id'] = distinct_df['period_id'] - distinct_df.groupby('store_id').cumcount()

intervals_py_df = distinct_df.groupby(['store_id', 'group_id']).agg(
    start_period=('period_id', 'min'),
    end_period=('period_id', 'max'),
    sales_volume=('sales_volume', 'sum'),
    period_count=('period_id', 'count'),
).reset_index().drop(columns='group_id')

intervals_py_df.head(3)

Unnamed: 0,store_id,start_period,end_period,sales_volume,period_count
0,4168621,191,206,86.35,16
1,4168621,208,209,9.9,2
2,4168621,211,214,15.85,4


In [15]:
print('Количество промопериодов (Python):', len(intervals_py_df))

Количество промопериодов (Python): 140992


#### 2. Медиана продолжительности промопериода (количество недель)


In [16]:
median_interval_request = cte_sql + \
"""
    select percentile_cont(0.5) within group(order by period_count) from intervals
"""

with engine.connect() as con:
    median_sql = pd.read_sql(text(median_interval_request), con).iloc[0, 0]

print('Медиана продолжительности промопериода(SQL):', median_sql)

Медиана продолжительности промопериода(SQL): 3.0


In [17]:
print('Медиана продолжительности промопериода(Python):', intervals_py_df['period_count'].median())

Медиана продолжительности промопериода(Python): 3.0


#### 3. Объем  продаж по каждому промопериоду


In [18]:
# Объём продаж по промопериоду содержатся в dataframe'ах полученных в задании 2

intervals_sql_df.head(3)

Unnamed: 0,store_id,start_period,end_period,sales_volume,period_count
0,4799065,225,226,51.95,2
1,27099118,214,216,103.8,3
2,4185715,225,226,23.9,2


In [19]:
intervals_py_df.head(3)

Unnamed: 0,store_id,start_period,end_period,sales_volume,period_count
0,4168621,191,206,86.35,16
1,4168621,208,209,9.9,2
2,4168621,211,214,15.85,4


#### 4. Медиану количества промопериодов на один магазин

In [20]:
median_interval_count_by_store_request = cte_sql + \
"""
    ,intervals_count as (
        select store_id, count(*) as cnt from intervals group by store_id
    )
    select percentile_cont(0.5) within group(order by cnt) from intervals_count
"""

with engine.connect() as con:
    interval_count_median_sql = pd.read_sql(text(median_interval_count_by_store_request), con).iloc[0, 0]

print('Медиана количества промопериодов на один магазин(SQL):', interval_count_median_sql)

Медиана количества промопериодов на один магазин(SQL): 6.0


In [21]:
interval_count_median_py = intervals_py_df.groupby('store_id').size().median()
print('Медиана количества промопериодов на один магазин(Python):', interval_count_median_py)

Медиана количества промопериодов на один магазин(Python): 6.0




#### *Дополнительное задание

Дайте рекомендации начинающему аналитику как доработать текущую структуру базы данных
1.
2.

Неоднозначно назначение столбца period_id в таблице sale. Предлагаю два варианта изменений:
1. Создать таблицу periods с однозначным указанием дат начала и окончания периода, а также сопуствующую мета-информацию при необходимости.
2. Добавить фактическую дату совершения продажи в таблице sales. Создать представление для группировки продаж в периоды.
