### Аналитика на Python

Фрейм содержит информацию о продажах в онлайн-магазине и имеет следующие столбцы:
* date - дата заказа
* customer_id - идентификатор клиента
* product_id - идентификатор товара
* quantity - количество товара, заказанного в рамках заказа
* price - цена товара

In [1]:
import pandas as pd

data = {
'date': pd.date_range(start='2019-01-01', periods=12,
freq='100D').to_series().sample(frac=1).to_list(),
'customer_id': [1, 2, 3, 1, 2, 4, 5, 3, 1, 2, 6, 7],
'product_id': [1, 2, 3, 2, 3, 1, 2, 1, 3, 3, 1, 2],
'quantity': [4, 1, 8, 1, 8, 7, 3, 4, 5, 12, 11, 5],
'price': [11.5, 16.2, 9.7, 14.4, 10.1, 12.8, 14.5, 17.2, 20.6, 7.9, 18.2, 12.1],
}

df = pd.DataFrame(data)

In [2]:
df.sort_values(by='date', inplace=True)
df

Unnamed: 0,date,customer_id,product_id,quantity,price
11,2019-01-01,7,2,5,12.1
2,2019-04-11,3,3,8,9.7
5,2019-07-20,4,1,7,12.8
6,2019-10-28,5,2,3,14.5
3,2020-02-05,1,2,1,14.4
10,2020-05-15,6,1,11,18.2
1,2020-08-23,2,2,1,16.2
0,2020-12-01,1,1,4,11.5
4,2021-03-11,2,3,8,10.1
9,2021-06-19,2,3,12,7.9


In [3]:
# создадим атрибуты года и месяца для дальнейшей агрегации
df['year'] = df['date'].dt.year
df['month'] = df['date'].dt.month

In [4]:
# выручка с одной продажи revenue = quantity * price
df['revenue_per_purchase'] = df['quantity'] * df['price']

In [5]:
df

Unnamed: 0,date,customer_id,product_id,quantity,price,year,month,revenue_per_purchase
11,2019-01-01,7,2,5,12.1,2019,1,60.5
2,2019-04-11,3,3,8,9.7,2019,4,77.6
5,2019-07-20,4,1,7,12.8,2019,7,89.6
6,2019-10-28,5,2,3,14.5,2019,10,43.5
3,2020-02-05,1,2,1,14.4,2020,2,14.4
10,2020-05-15,6,1,11,18.2,2020,5,200.2
1,2020-08-23,2,2,1,16.2,2020,8,16.2
0,2020-12-01,1,1,4,11.5,2020,12,46.0
4,2021-03-11,2,3,8,10.1,2021,3,80.8
9,2021-06-19,2,3,12,7.9,2021,6,94.8


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 12 entries, 11 to 7
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   date                  12 non-null     datetime64[ns]
 1   customer_id           12 non-null     int64         
 2   product_id            12 non-null     int64         
 3   quantity              12 non-null     int64         
 4   price                 12 non-null     float64       
 5   year                  12 non-null     int64         
 6   month                 12 non-null     int64         
 7   revenue_per_purchase  12 non-null     float64       
dtypes: datetime64[ns](1), float64(2), int64(5)
memory usage: 864.0 bytes


1. Общая выручка магазина за каждый год.

In [8]:
annual_revenue = df.groupby('year')['revenue_per_purchase'].sum()
annual_revenue

year
2019    271.2
2020    276.8
2021    278.6
2022     68.8
Name: revenue_per_purchase, dtype: float64

2. Количество уникальных клиентов, которые сделали заказы в каждом году.

In [9]:
unique_customer_per_year = df.groupby('year')['customer_id'].nunique()
unique_customer_per_year

year
2019    4
2020    3
2021    2
2022    1
Name: customer_id, dtype: int64

3. Общее количество товаров, проданных в каждом году.

In [10]:
annual_total_amount_product = df.groupby('year')['quantity'].sum()
annual_total_amount_product

year
2019    23
2020    17
2021    25
2022     4
Name: quantity, dtype: int64

4. Средняя стоимость заказа каждого клиента за каждый год.

In [11]:
avg_cost_order = df.groupby(['year', 'customer_id'])['revenue_per_purchase'].mean()
avg_cost_order

year  customer_id
2019  3               77.6
      4               89.6
      5               43.5
      7               60.5
2020  1               30.2
      2               16.2
      6              200.2
2021  1              103.0
      2               87.8
2022  3               68.8
Name: revenue_per_purchase, dtype: float64

5. Общая выручка магазина за каждый месяц.

In [14]:
# total revenue магазина за каждый месяц за каждый год
annual_revenue_per_month = df.groupby(['year', 'month'])['revenue_per_purchase'].sum()
annual_revenue_per_month

year  month
2019  1         60.5
      4         77.6
      7         89.6
      10        43.5
2020  2         14.4
      5        200.2
      8         16.2
      12        46.0
2021  3         80.8
      6         94.8
      9        103.0
2022  1         68.8
Name: revenue_per_purchase, dtype: float64

In [15]:
# total revenue за каждый месяц не в разрезе года, а нарастающим итогом
revenue_per_month = df.groupby(['month'])['revenue_per_purchase'].sum()
revenue_per_month

month
1     129.3
2      14.4
3      80.8
4      77.6
5     200.2
6      94.8
7      89.6
8      16.2
9     103.0
10     43.5
12     46.0
Name: revenue_per_purchase, dtype: float64

6. Общая выручка магазина за каждый месяц для каждого отдельного продукта.

In [16]:
# общая выручка магазина за каждый месяц для каждого отдельного продукта за каждый год
annual_revenue_per_month_per_product = df.groupby(['year', 'month', 'product_id'])['revenue_per_purchase'].sum()
annual_revenue_per_month_per_product

year  month  product_id
2019  1      2              60.5
      4      3              77.6
      7      1              89.6
      10     2              43.5
2020  2      2              14.4
      5      1             200.2
      8      2              16.2
      12     1              46.0
2021  3      3              80.8
      6      3              94.8
      9      3             103.0
2022  1      1              68.8
Name: revenue_per_purchase, dtype: float64

In [17]:
# total revenue за каждый месяц по каждому продукту нарастающим итогом
revenue_per_month_per_product = df.groupby(['month', 'product_id'])['revenue_per_purchase'].sum()
revenue_per_month_per_product

month  product_id
1      1              68.8
       2              60.5
2      2              14.4
3      3              80.8
4      3              77.6
5      1             200.2
6      3              94.8
7      1              89.6
8      2              16.2
9      3             103.0
10     2              43.5
12     1              46.0
Name: revenue_per_purchase, dtype: float64

### Аналитика на SQL
Имеется две таблицы: orders и order_items.

Таблица orders содержит информацию о заказах, а таблица order_items - о товарах, заказанных в рамках этих заказов.

Обе таблицы имеют следующие столбцы:

**Таблица orders:**
* order_id - уникальный идентификатор заказа
* customer_id - идентификатор клиента
* date - дата заказа

**Таблица order_items:**
* order_id - идентификатор заказа
* product_id - идентификатор товара
* quantity - количество товара, заказанного в рамках заказа

1. Количество товаров, заказанных каждым клиентом в текущем году.

In [None]:
SELECT 
    customer_id,
    SUM(quantity) AS total_quantity
FROM    
    orders
JOIN order_items ON orders.order_id = order_items.order_id
WHERE EXTRACT(YEAR FROM date) = EXTRACT(YEAR FROM CURRENT_DATE)
GROUP BY customer_id

In [None]:
SELECT 
    customer_id,
    SUM(quantity)
FROM    
    orders
NATURAL JOIN order_items
WHERE EXTRACT(YEAR FROM date) = EXTRACT(YEAR FROM CURRENT_DATE)
GROUP BY customer_id

2. Идентификаторы всех клиентов, которые не сделали ни одного заказа в текущем году.

In [None]:
SELECT DISTINCT customer_id 
FROM orders
WHERE customer_id NOT IN (
  SELECT DISTINCT customer_id
  FROM orders
  WHERE EXTRACT(YEAR FROM date) = EXTRACT(YEAR FROM current_date)
);


In [None]:
SELECT c.customer_id
FROM customers c
WHERE c.customer_id NOT IN (
  SELECT DISTINCT o.customer_id
  FROM orders o
  WHERE EXTRACT(YEAR FROM o.date) = EXTRACT(YEAR FROM current_date)
);