# Тестовое задание NielsenIQ

In [None]:
Пономаренко Григорий Владимирович

In [None]:
# В базе данных niq_test_db начинающий аналитик сохранил промо продажи одного SKU в разбивке по неделям.
# Схема public состоит из 3 таблиц:

![Схема таблиц](db.png)

#### Таблица sales

In [None]:
# store_id     - идентификатор магазина
# period_id    - порядковый номер периода
# sales_volume - продажи в рублях

# сэмпл данных:

#### Таблица store_chars

In [None]:
# store_id      - идентификатор магазина
# store_type_id - индентификатор типа магазина

# сэмпл данных

#### Таблица store_chars

In [None]:
# store_type_id - индентификатор типа магазина
# type_name - описание типа канала (мы будем работать только с супермаркетами)

# сэмпл данных

#### Промопериодом мы считаем непрерывный(!) отрезок времени, когда были продажи в рамках одного магазина:

![Пример](example.jfif)

### Задание:
#### Используя данные фактических продаж в канале супермаркетов необходимо найти:
 1. Общее количество промопериодов (во всех магазинах)
 2. Медиану продолжительности промопериода (количество недель)
 3. Объем  продаж по каждому промопериоду
 4. Медиану количества промопериодов на один магазин

**ВАЖНО: Задачу можно решить двумя способами — с использованием SQL или на Python. Мы приветствуем оба подхода, и если вы выполните оба варианта, это будет дополнительным преимуществом.** Такое решение позволит продемонстрировать ваши навыки работы как с базами данных и написания запросов, так и с инструментами аналитики и обработки данных на Python.

### Реализация

#### Импорт библиотек

In [None]:
#импорт библиотек
#!pip install psycopg2
from sqlalchemy import create_engine
from sqlalchemy import text
import pandas as pd

#### Импорт данных

In [None]:
def create_temp_engine():
    """
    Create connection
    """
    
    engine = create_engine('postgresql://niq_test_user:niq_test_pwd@rc1d-9nhcng0zw57wke57.mdb.yandexcloud.net:6432/niq_test_db')   
        
    return engine

In [None]:
# пример запроса к базе
# request = """SELECT * FROM public.store_types LIMIT 10 """ 
request = """SELECT * FROM public.sales
             LEFT JOIN public.store_chars ON sales.store_id=store_chars.store_id
             LEFT JOIN public.store_types ON store_chars.store_type_id=store_types.type_id
             WHERE store_types.type_name='supermarkets' """
engine = create_temp_engine()
with engine.connect() as con:
    df = pd.read_sql(text(request), con)
engine.dispose()

df.head(3)

In [None]:
### обработка данных с использованием SQL


In [None]:
from sqlalchemy import create_engine
from sqlalchemy import text
import pandas as pd


def create_temp_engine():
    """
    Create connection
    """

    engine = create_engine(
        'postgresql://niq_test_user:niq_test_pwd@rc1d-9nhcng0zw57wke57.mdb.yandexcloud.net:6432/niq_test_db')

    return engine


request = """SELECT public.sales.sale_id, public.sales.store_id, public.sales.period_id, public.sales.sales_volume
             FROM public.sales
             LEFT JOIN public.store_chars ON sales.store_id=store_chars.store_id
             LEFT JOIN public.store_types ON store_chars.store_type_id=store_types.type_id
             WHERE store_types.type_name='supermarkets' """

engine = create_temp_engine()
with engine.connect() as con:
    df = pd.read_sql(text(request), con)
engine.dispose()


def create_promo_period(df:pd.DataFrame) -> pd.DataFrame:
    df['promo_period'] = (df.groupby('store_id')['period_id'].diff() > 1).cumsum()
    return df


def first_task(df:pd.DataFrame) -> int:
    return df['promo_period'].nunique()


def second_task(df:pd.DataFrame):
    promo_period_dur = df.groupby(['store_id', 'promo_period'])['period_id'].agg(['min', 'max'])
    promo_period_dur['duration'] = promo_period_dur['max'] - promo_period_dur['min']
    return promo_period_dur['duration'].median()


def third_task(df:pd.DataFrame):
    return df.groupby(['store_id', 'promo_period'])['sales_volume'].sum()


def fourth_task(df:pd.DataFrame):
    return df.groupby('store_id')['promo_period'].nunique().median()


df = df.sort_values(['store_id', 'period_id'])
df = create_promo_period(df)

print('Задание №1: ', first_task(df), sep='')  # Вывод: "Задание №1:  117658"
print('Задание №2: ', second_task(df), sep='')  # Вывод: "Задание №2:  2.0"
print('Задание №3: ', third_task(df), sep='\n')
"""Краткий вывод:
   store_id  promo_period
   4168621   0               86.3500
             1                9.9000
             2               15.8500
             3               18.2000
             4               48.3000
                               ...   
   38126908  117656           4.8000
   38126926  117656           3.9500
   38126935  117656           0.9500
             117657           4.6500
   38126938  117657           8.3765"""
print('Задание №4: ', fourth_task(df), sep='')



#### 1. Общее количество промопериодов (во всех магазинах)

In [None]:
def create_promo_period(df:pd.DataFrame) -> pd.DataFrame:
    df['promo_period'] = (df.groupby('store_id')['period_id'].diff() > 1).cumsum()
    return df


def first_task(df:pd.DataFrame) -> int:
    return df['promo_period'].nunique()


df = df.sort_values(['store_id', 'period_id'])
df = create_promo_period(df)

print('Задание №1: ', first_task(df))  # Вывод: "Задание №1:  117658"

#### 2. Медиана продолжительности промопериода (количество недель)


In [None]:
def create_promo_period(df:pd.DataFrame) -> pd.DataFrame:
    df['promo_period'] = (df.groupby('store_id')['period_id'].diff() > 1).cumsum()
    return df


def second_task(df:pd.DataFrame):
    promo_period_dur = df.groupby(['store_id', 'promo_period'])['period_id'].agg(['min', 'max'])
    promo_period_dur['duration'] = promo_period_dur['max'] - promo_period_dur['min']
    return promo_period_dur['duration'].median()


df = df.sort_values(['store_id', 'period_id'])
df = create_promo_period(df)

print('Задание №2: ', second_task(df))  # Вывод: "Задание №2:  2.0"

#### 3. Объем  продаж по каждому промопериоду


In [None]:
def create_promo_period(df:pd.DataFrame) -> pd.DataFrame:
    df['promo_period'] = (df.groupby('store_id')['period_id'].diff() > 1).cumsum()
    return df


def third_task(df:pd.DataFrame):
    return df.groupby(['store_id', 'promo_period'])['sales_volume'].sum()


df = df.sort_values(['store_id', 'period_id'])
df = create_promo_period(df)

print('Задание №3: ', third_task(df), sep='\n') 

"""Краткий вывод:
   store_id  promo_period
   4168621   0               86.3500
             1                9.9000
             2               15.8500
             3               18.2000
             4               48.3000
                               ...   
   38126908  117656           4.8000
   38126926  117656           3.9500
   38126935  117656           0.9500
             117657           4.6500
   38126938  117657           8.3765"""

#### 4. Медиану количества промопериодов на один магазин

In [None]:
def create_promo_period(df:pd.DataFrame) -> pd.DataFrame:
    df['promo_period'] = (df.groupby('store_id')['period_id'].diff() > 1).cumsum()
    return df


def fourth_task(df:pd.DataFrame):
    return df.groupby('store_id')['promo_period'].nunique().median()


df = df.sort_values(['store_id', 'period_id'])
df = create_promo_period(df)

print('Задание №4: ', fourth_task(df), sep='')



#### *Дополнительное задание

Дайте рекомендации начинающему аналитику как доработать текущую структуру базы данных
1.
2.