<h1>ГРУППИРОВКА И АГРЕГАТНЫЕ ФУНКЦИИ</h1>

<p>В следующих задачах продолжим работать с данными мобильного приложения крупной розничной сети. В этих данных отражено то, как наше приложение устанавливают (installs), как активно в нем просматривают товары (events), как активно в нем покупают (checks), и данные о склейке устройств с логинами (devices).<br>

Описание данных:

installs — содержит данные об установках приложения по дням.<br>

· DeviceID — идентификатор устройства, на которое было установлено приложение;<br>
· InstallationDate — дата установки приложения;<br>
· InstallCost — цена установки приложения в рублях;<br>
· Platform — платформа, на которой было установлено приложение (iOS/ Android);<br>
· Source — источник установки приложения (магазин приложения/ рекламная система/ переход с сайта).

events — содержит данные о том, как активно пользователи просматривают товары в приложении по дням.<br>

· DeviceID — идентификатор устройства, на котором используется приложение;<br>
· AppPlatform — платформа, на которой используется приложение (iOS/ Android);<br>
· EventDate — дата, за которую собрана статистика;<br>
· events — количество просмотров всех товаров за этот день у этого DeviceID.<br>

checks — содержит данные о покупках пользователей в приложении по дням<br>

· UserID — идентификатор пользователя;<br>
· Rub — суммарный чек пользователя на дату;<br>
· BuyDate — дата, за которую собрана статистика.<br>

Особенность приложения заключается в том, что для просмотра товаров не нужна авторизация. До момента авторизации про пользователя известен только его DeviceID — идентификатор устройства. При этом для совершения покупки логин обязателен. На моменте авторизации пользователю присваивается UserID, и тогда мы уже знаем два его идентификатора: DeviceID (устройство) и UserID (логин). Так как на этапах установки приложения и просмотра каталога пользователь еще может быть не авторизован, там мы сохраняем только DeviceID. Но так как покупки нельзя совершить без авторизации, то покупки сохраняются только с UserID. Для того чтобы просмотры и установки можно было объединить с покупками, нам нужна таблица соответствия DeviceID к UserID, то есть таблица devices:
<br><br>
· DeviceID — идентификатор устройства;<br>
· UserID — идентификатор пользователя.</p>

<p><b>1</b><br>
Посчитайте, сколько покупок приходится на каждого клиента, указав имя столбца как NumChecks. Результирующую таблицу с UserID, NumChecks отсортируйте по убыванию (DESC) нового столбца. Ограничение вывода – 10.</p>

In [None]:
select UserID, count(*) as NumChecks
from checks
group by UserID
order by count(*) desc
limit 10

<p><b>2</b><br>
Давайте немного усложним задачу, и посчитаем ещё и сумму сделанных покупок в рублях (Rub).<br>

Выведите в результирующую таблицу UserID клиентов, количество сделанных покупок (NumChecks) и сумму потраченных денег (Revenue). Результат отсортируйте по убыванию Revenue, оставив 10 записей.</p>

In [None]:
select UserID, count(*) as NumChecks, sum(Rub) as Revenue
from checks
group by UserID
order by sum(Rub) desc
limit 10

<p><b>3</b><br>
Теперь давайте попробуем с помощью группировки и агрегатных функций посмотреть динамику трат клиентов. Для этого нужно посчитать по дням минимальный, средний, и максимальный чек. Иными словами, необходимо сгруппироваться по датам, и использовать агрегатные функции MIN, AVG, MAX.<br>

Выведите минимальный (MinCheck), максимальный (MaxCheck) и средний (AvgCheck) чек по дням. В результирующей таблице используйте сортировку по убыванию (DESC) столбца BuyDate. Как и на предыдущем шаге, ограничение на вывод равно 10.</p>

In [None]:
select 
    BuyDate,
    min(Rub) as MinCheck,
    max(Rub) as MaxCheck,
    avg(Rub) as AvgCheck
from checks
group by BuyDate
order by BuyDate desc
limit 10

<p><b>4</b><br>
Представим, что для проведения новой акции нам потребовалось выгрузить сегмент пользователей, которые приносят наибольшую выручку.<br>

Найдите покупателей, сумма покупок которых превышает 10 000 рублей (Rub). Для этого сгруппируйте пользователей по UserID, затем примените нужную агрегатную функцию и назовите новую колонку Revenue. Отфильтруйте нужные значения, результат отсортируйте по убыванию UserID и выведите 10 строк.</p>

In [None]:
select UserID,sum(Rub) as Revenue
from checks
group by UserID
having sum(Rub) > 10000
order by UserID desc
limit 10

<p><b>5</b><br>
В этой и последующих задачах мы будем работать с таблицей retail.<br>

Таблица включает следующие поля:<br>

· InvoiceNo — идентификатор покупки<br>
· StockCode — идентификатор товара на складе<br>
· Description — текстовое описание товара<br>
· Quantity — количество товара<br>
· InvoiceDate — дата покупки<br>
· UnitPrice — цена товара<br>
· CustomerID — идентификатор покупателя<br>
· Country — страна<br>

Представим, что к вам пришел менеджер с проблемой: за последний месяц он наблюдает снижение выручки в некоторых регионах и хочет определить возможную причину этого снижения. Для начала можно сгруппировать данные о выручке по странам и найти среди них топ-5 стран по величине выручки, так как интереснее всего нам будет смотреть именно на данные этих стран.<br>

Посчитайте выручку (Revenue) по странам и отсортируйте таблицу в порядке убывания выручки.</p>

In [None]:
select Country, sum(Quantity * UnitPrice) as Revenue
from retail
group by Country
order by sum(Quantity * UnitPrice) desc
limit 5

<p><b>6</b><br>
В качестве более подробного описания выручки по странам можно посмотреть, каково среднее количество купленных товаров и средняя цена товара в покупках, совершенных в определенной стране.<br>

Посчитайте среднее число купленных товаров по стране и среднюю цену товара, сгруппировав данные по странам и используя агрегирующую функцию Avg, и отсортируйте по убыванию средней цены товара (DESC).<br>

Обратите внимание, что в данных встречаются строки с Description 'Manual', которые включают данные об удаленных из чека позициях. Для получения правильного ответа такие строки необходимо отфильтровать с использованием операторов WHERE и неравенства !=.</p>

In [None]:
select
    Country,
    avg(Quantity) as AvgQuantity,
    avg(UnitPrice) as AvgPrice
from retail
where Description <> 'Manual'
group by Country
order by avg(UnitPrice) desc

<p><b>7</b><br>
Теперь посмотрим на динамику общей суммы выручки по месяцам.<br>

Посчитайте выручку (Revenue) по месяцам (обратите внимание, что в таблице указана цена одной единицы товара и количество купленного товара), округлив InvoiceDate к началу месяца с помощью toStartOfMonth().<br>

Отсортируйте по убыванию (DESC) по столбцу Revenue.</p>

In [None]:
select
    toStartOfMonth(InvoiceDate) as Month,
    sum(Quantity * UnitPrice) as Revenue
from retail
where Description != 'Manual'
group by toStartOfMonth(InvoiceDate)
order by sum(Quantity * UnitPrice) desc

<p><b>8</b><br>
Давайте посмотрим на динамику выручки от покупателей, которые в среднем покупают самые дорогие товары. В качестве целевой метрики будем использовать среднюю цену купленного товара (UnitPrice), данные посмотрим за март 2011 года.<br>

Посчитайте среднюю цену товара клиента (UnitPrice) с группировкой по id покупателя, используя агрегирующую функцию Avg, затем выведите строки с покупками тех покупателей, у которых самая высокая средняя цена купленного товара в марте. Не забывайте отфильтровать строки по условию Description != 'Manual'. В качестве ответа впишите CustomerID покупателя с самой высокой средней ценой купленного товара.</p>

In [None]:
select
    CustomerID,
    avg(UnitPrice) as AvgPrice
from retail
where toStartOfMonth(InvoiceDate) = '2011-03-01' and Description != 'Manual'
group by CustomerID
order by avg(UnitPrice) desc
limit 1

<p><b>9</b><br>
Давайте попробуем ответить на следующий вопрос: "Как изменилось среднее, минимальное и максимальное количество купленного товара в стране с наибольшей выручкой в течение последних месяцев?"<br>

Для этого нужно сгруппировать данные по странам и месяцам, посчитать среднее (Avg), минимальное (Min) и максимальное (Max) количество купленных товаров (Quantity), и отсортировать данные по месяцу, применить фильтр по стране (нам нужны данные из страны с наибольшей выручкой из задания 8 (step 8)). Если обратить внимание на полученное значение минимального количества товаров, то станет понятно, что там есть отрицательные значения, которые следует отфильтровать (также не забывайте отфильтровывать значения с Description != 'Manual').</p>

In [None]:
select 
    toStartOfMonth(InvoiceDate) as Month,
    avg(Quantity) as AvgQuantity,
    min(Quantity) as MinQuantity,
    max(Quantity) as MaxQuantity
from retail
where Description != 'Manual'
group by toStartOfMonth(InvoiceDate)
order by toStartOfMonth(InvoiceDate)