# Тестовое задание на позицию Data Analyst 🎮

Компания: GameDev company     
Исполнитель: Сасимович Игорь (i.sasimovich@gmail.com, Telegram: http://t.me/ihar367)    

-----

## Описание задания:

Для выполнения данного задания предлагается использовать следующую структуру данных:

●	Таблица "users" с полями: id, name, email, created_at     
●	Таблица "orders" с полями: id, user_id, total_price, created_at    
●	Таблица "order_items" с полями: id, order_id, product_name, price, quantity    

В ответе пришлите имя и версию используемой бд, дамп структуры базы, а также запросы для заполнения тестовыми данными, в работе строк должно быть не менее 1 млн в каждой таблице.
Ответ должен представлять из себя SQL запрос с пояснением. По желанию можете дополнить ваш ответ плохим вариантом запроса также с объяснением.

Запросы:
1.	Найти общее количество заказов каждого пользователя, который сделал более 10 заказов.
2.	Найти средний размер заказа для каждого пользователя за последний месяц.
3.	Найти средний размер заказа за каждый месяц в текущем году и сравнить его с средним размером заказа за соответствующий месяц в прошлом году.
4.	Найти 10 пользователей, у которых наибольшее количество заказов за последний год, и для каждого из них найти средний размер заказа за последний месяц.

-----

## Моё решение:

Имя и версия используемой БД: <span style="color:#FF7F50"> **PostgreSQL 16.4**</span>     
Дамп структуры базы данных прилагается в файле: <span style="color:#FF7F50"> **02. db_structure_dump.sql**</span> 

### Часть I. Загрузка ранее сгенерированных тестовых данных в БД.

Для данного тестового я решил использовать <span style="color:#FF7F50"> Jupyter Notebook </span>  в сочетании с Python и его библиотеками <span style="color:#FF7F50"> psycopg2 и SQLAlchemy </span> . 

Jupyter Notebook обеспечит интерактивность, а также наглядную демонстрацию промежуточных результатов на каждом шаге решения. А ещё здесь есть markdown-оформление 😅

**Psycopg2** — это нативный драйвер PostgreSQL. Он позволяет выполнять SQL-запросы напрямую из Python-кода, а также гибко управлять соединениями и транзакциями. Он нам понадобится для создания БД и заливки данных, т.к. он поддерживает использование <span style="color:#FF7F50"> метода COPY</span> напрямую.

**SQLAlchemy** — это удобный инструмент для работы с SQL в Python. Он предоставляет простой интерфейс, гибкое управление соединениями с базой и возможность получения результатов SQL-запросов в виде DataFrame. Это значительно упрощает анализ данных, если он потребуется, и делает работу с результатами запросов более наглядной и удобной.

<br>

Этот формат выбран лишь для **демонстрации навыков работы с SQL и библиотеками в Python для работы с ним**.

In [1]:
# 1. Импортируем необходимые библиотеки.
import pandas as pd
import numpy as np
import psycopg2 as ps
from sqlalchemy import create_engine, text

In [2]:
# 2. Подключаемся к PostgreSQL (без указания конкретной базы). 
conn = ps.connect(
    dbname="postgres", # системная БД
    user="postgres",
    password="maz505+5",
    host="localhost",
    port="5432"
)
conn.autocommit = True  # Включаем автокоммит, чтобы не получить ошибку при удалении/создании БД

cur = conn.cursor()

In [3]:
# Посмотрим на версию используемой СУБД:
cur.execute("SELECT version();") 
print(cur.fetchone()) 

('PostgreSQL 16.4, compiled by Visual C++ build 1940, 64-bit',)


In [4]:
# Создадим БД.
cur.execute("DROP DATABASE IF EXISTS happy_games;")  # Удаляем БД, если она была создана ранее 
cur.execute("CREATE DATABASE happy_games;")  # Создаём БД 

In [5]:
# Закрываем курсор и соединение
cur.close()
conn.close()

In [6]:
# 3. Теперь подключаемся к новой БД "happy_games"
conn = ps.connect(dbname="happy_games", user="postgres", password="password", host="localhost")
cur = conn.cursor()

# Проверяем подключение
cur.execute("SELECT current_database();")
print(cur.fetchone()) 


('happy_games',)


In [7]:
# 4. Создадим нашу первую таблицу "users"  со следующей структурой данных:

sql = """
CREATE TABLE IF NOT EXISTS users (
  id SERIAL PRIMARY KEY, 
  name VARCHAR(50) NOT NULL, 
  email VARCHAR(60) UNIQUE NOT NULL, 
  created_at TIMESTAMP NOT NULL
);
"""
cur.execute(sql)
conn.commit()

In [8]:
# И сразу заливаем тестовые данные (5 млн. строк), используя метод СOPY🔥

with open(r"D:\000_Jupyter_notebooks\2025 03 happy_games\users.csv", "r") as f:
    cur.copy_expert("COPY users (name, email, created_at) FROM STDIN WITH CSV HEADER", f)

conn.commit()

In [9]:
# 5. Аналогично создадим  таблицу "orders" со следующей структурой данных:

sql = """
CREATE TABLE IF NOT EXISTS orders (
  id SERIAL PRIMARY KEY, 
  user_id INTEGER NOT NULL, 
  total_price NUMERIC(10, 2) NOT NULL CHECK (total_price >= 0), 
  created_at TIMESTAMP NOT NULL, 
  FOREIGN KEY (user_id) REFERENCES users(id) ON DELETE CASCADE
);
"""

cur.execute(sql)
conn.commit()

In [10]:
# Заливаем тестовые данные (25 млн. строк), используя метод СOPY🔥

with open(r"D:\000_Jupyter_notebooks\2025 03 happy_games\orders.csv", "r") as f:
    cur.copy_expert("COPY orders (user_id, created_at, total_price) FROM STDIN WITH CSV HEADER", f)

conn.commit()

In [11]:
# 6. Создадим таблицу order_items со следующей структурой данных:

sql = """
CREATE TABLE IF NOT EXISTS order_items (
  id SERIAL PRIMARY KEY, 
  order_id INTEGER NOT NULL, 
  product_name VARCHAR(50) NOT NULL, 
  price NUMERIC(10, 2) NOT NULL CHECK (price >= 0), 
  quantity INTEGER NOT NULL CHECK (quantity > 0), 
  FOREIGN KEY (order_id) REFERENCES orders(id) ON DELETE CASCADE
);
"""

cur.execute(sql)
conn.commit()  

In [12]:
# Заливаем данные по аналогии (25 млн. строк)🔥
with open(r"D:\000_Jupyter_notebooks\2025 03 happy_games\order_items.csv", "r") as f:
    cur.copy_expert("COPY order_items (order_id, product_name, price, quantity) FROM STDIN WITH CSV HEADER", f)

conn.commit()

In [13]:
# Закрываем курсор и соединение
cur.close()
conn.close()

**И так, загрузка данных завершена 🎉🎆✨**

*⚠️ Если бы задача была на проде, где важна скорость, я бы отдал предпочтение psql и методам /copy или COPY, которые были бы явно гораздо производительнее.*

Остался финальный штрих - дамп структуры базы данных.

Создадим дамп структуры базы данных happy_games через утилиту pg_dump, которая специально предназначена для создания дампов, используя терминал 💻 и команду:

<span style="color: #FF4500;"> pg_dump -U postgres -h localhost -p 5432 -d happy_games --schema-only > "D:\000_Jupyter_notebooks\2025 03 happy_games\db_happy_games_schema.sql" </span>

В процессе выполнения этой команды будет сгенерирован SQL-скрипт, который можно будет использовать для восстановления структуры базы данных. 
Данная команда создаст дамп только структуры базы данных (без данных) и сохранит его в файл db_schema.sql по заданному адресу.

-----

### Часть II. Cоставление запросов на выборку

In [14]:
# Для составления запросов на выборку мне больше нравится использовать библиотеку sqlalchemy. Подключимся.

# 1. Создадим новое подключение к БД через sqlalchemy
conn = create_engine('postgresql+psycopg2://postgres:password@localhost:5432/happy_games')

In [15]:
# 2. Создадим функцию для выполнения SELECT-запросов.
def select(sql):
    with conn.connect() as connection:
        return pd.read_sql(sql, connection)

In [16]:
# 3. Проверим, сделав первые запросы.
sql = '''SELECT * FROM users LIMIT 2'''
select(sql)

Unnamed: 0,id,name,email,created_at
0,1,Courtney Le,courtney.le0@googlyandex.com,2023-01-01 00:00:02
1,2,Michelle Gardner,michelle.gardner1@googlyandex.com,2023-01-01 00:00:53


In [17]:
sql = '''SELECT * FROM orders LIMIT 2'''
select(sql)

Unnamed: 0,id,user_id,total_price,created_at
0,1,23,1365.0,2023-01-01 00:04:47
1,2,32,14040.0,2023-01-01 00:06:53


In [18]:
sql = '''SELECT * FROM order_items LIMIT 2'''
select(sql)

Unnamed: 0,id,order_id,product_name,price,quantity
0,1,1,Prod.в„–: bdfH-17128356,35.0,39
1,2,2,Prod.в„–: mPlk-03916075,270.0,52


-----

1. Найти общее количество заказов каждого пользователя, который сделал более 10 заказов.     

In [19]:
# ⚠️ Неоптимальный запрос ❌ 
sql_1 = '''
SELECT o.user_id, u.name, u.email,
       COUNT(o.id) AS cnt_orders -- Один заказ принадлежит только одному пользователю, использование DISTINCT в подсчете заказов избыточно. 
  FROM orders o
       JOIN users u 
       ON o.user_id = u.id
 GROUP BY o.user_id, u.name, u.email
HAVING COUNT(o.id) > 10
 ORDER BY cnt_orders DESC;
      '''


#  Оптимальный запрос ✅
# Этот запрос использует CTE для выбора всех пользователей, у которых есть более 10 заказов. 
# Затем, запрос присоединяет этих пользователей к таблице orders с помощью INNER JOIN, тем самым отбирая только нужные нам данные.
# Затем джойним таблицу users и получаем подробную информацию по юзерам.

sql_2 = '''
WITH cte AS (
    SELECT o.user_id, COUNT(o.id) AS cnt_orders
    FROM orders o
    GROUP BY o.user_id
    HAVING COUNT(o.id) > 10
)
SELECT c.user_id, u.name, u.email, c.cnt_orders
FROM cte c
JOIN users u ON c.user_id = u.id
ORDER BY c.cnt_orders DESC;
       '''

select(sql_2)

Unnamed: 0,user_id,name,email,cnt_orders
0,63039,Charles Hughes,charles.hughes63038@googlyandex.com,20
1,2980889,Nicole Pearson,nicole.pearson2980888@googlyandex.com,20
2,4025954,Dylan Flowers,dylan.flowers4025953@googlyandex.com,20
3,3379407,Tiffany Martin,tiffany.martin3379406@googlyandex.com,19
4,4882199,Carolyn Wilson,carolyn.wilson4882198@googlyandex.com,19
...,...,...,...,...
68260,1750708,Joshua Park,joshua.park1750707@googlyandex.com,11
68261,1750758,Nicholas James,nicholas.james1750757@googlyandex.com,11
68262,1750976,Emily Crawford,emily.crawford1750975@googlyandex.com,11
68263,1751275,Cynthia Lawson,cynthia.lawson1751274@googlyandex.com,11


Казалось бы, наиболее простой вариант sql_1 без избыточных CTE/подзапросов должен быть оптимальным, но сравнение результатов EXPLAIN ANALYZE этих запросов показывает обратное.    
Как видно из анализа, время выполнения sql_1 значительно выше, чем у sql_2 с CTE.  (59389.193 ms" у sql_1 🆚 37255.104 ms у sql_2)

Вероятно, использование CTE позволяет базе данных сначала выполнить фильтрацию пользователей с более чем 10 заказами, уменьшая объем данных, который нужно обрабатывать на следующих этапах. Это может улучшить производительность за счет более эффективного использования ресурсов и параллельной обработки. 

-----

2. Найти средний размер заказа для каждого пользователя за последний месяц.  
Последний месяц: декабрь 2024.

In [20]:
# ⚠️ Неоптимальный запрос ❌ 

sql_3 = ''' 
SELECT user_id,
       ROUND(AVG(total_price),2) AS avg_total_price
  FROM orders
 WHERE to_char(created_at, 'MM-YYYY') = '12-2024' 
 GROUP BY 1
       '''

#  Оптимальный запрос ✅

sql_4 = ''' 
SELECT user_id,
       ROUND(AVG(total_price), 2) AS avg_total_price
  FROM orders
 WHERE created_at >= '2024-12-01' 
   AND created_at < '2025-01-01'
 GROUP BY user_id;
      ''' 

select(sql_4)

Unnamed: 0,user_id,avg_total_price
0,4178165,2025.0
1,4178173,3525.0
2,4178183,1900.0
3,4178202,31920.0
4,4178215,9165.0
...,...,...
553816,4999910,19110.0
553817,4999935,23700.0
553818,4999965,24300.0
553819,4999977,7605.0


Запрос sql3 является неоптимальным. Его время исполнения согласно EXPLAIN ANALYZE составляет 8299.109 ms, в то время как у sql4 — 5411.099 ms. Основная проблема заключается в том, что функция to_char() применяется к каждому значению в столбце created_at. Это требует вычислений для каждой строки, что значительно снижает производительность, особенно при больших объемах данных.

-----

3. Найти средний размер заказа за каждый месяц в текущем году и сравнить его с средним размером заказа за соответствующий месяц в прошлом году.

In [21]:
# ⚠️ Неоптимальный запрос (оконные функции) ❌ 

# 1. На первом этапе решения данной задачи вычленим из даты 'created_at' год и месяц, 
# 2. затем данные отсортируем сначала по году, затем по месяцу.

# 3. Доработаем предыдущий запрос, добавив оконную функцию смещения LAG.
# 4. Дабы избежать подзапросов поместим наш запрос в CTE.
# 5. Отберём строки с текущим годом.
# 6. Рассчитаем разницу (абсолютный прирост / темп роста )

sql_5 = ''' 
WITH cte AS (
             SELECT 
                   CAST(EXTRACT(YEAR FROM created_at) AS INTEGER) AS year,
                   CAST(EXTRACT(MONTH FROM created_at) AS INTEGER) AS month,
                   ROUND(AVG(total_price), 2) AS avg_money_2024,
                   LAG(ROUND(AVG(total_price), 2)) OVER(PARTITION BY  CAST(EXTRACT(MONTH FROM created_at) AS INTEGER) ORDER BY CAST(EXTRACT(YEAR FROM created_at) AS INTEGER)) AS last_year_avg_money
              FROM orders
             GROUP BY 1, 2
             ORDER BY 2, 1 ASC
           )

SELECT month,
       avg_money_2024,
       last_year_avg_money AS avg_money_2023,
       (avg_money_2024 - last_year_avg_money) AS absolute_increase,
       (((avg_money_2024 / last_year_avg_money) - 1) * 100) AS growth_rate_in_percentage
  FROM cte
 WHERE cte.year = 2024 
'''

#  Оптимальный запрос ✅
# CTE 1 для вычисления среднего значения total_price за 2024 год
# CTE 2 для вычисления среднего значения total_price за предыдущий 2023 год

sql_6 = ''' 
WITH avg_2024 AS (
SELECT 
CAST(EXTRACT(MONTH FROM created_at) AS INTEGER) AS month,
ROUND(AVG(total_price), 2) AS avg_money_2024
FROM orders
WHERE  created_at >= '2024.01.01' and created_at < '2025.01.01.'
GROUP BY month
),

avg_last_year AS (
SELECT 
CAST(EXTRACT(MONTH FROM created_at) AS INTEGER) AS month,
ROUND(AVG(total_price), 2) AS last_year_avg_money
FROM orders
WHERE created_at >= '2023.01.01' and created_at < '2024.01.01.'
GROUP BY month
)

SELECT 
a.month,
a.avg_money_2024,
l.last_year_avg_money,
(a.avg_money_2024 - l.last_year_avg_money) AS absolute_increase,
(((a.avg_money_2024 / l.last_year_avg_money) - 1) * 100) AS growth_rate_in_percentage
FROM avg_2024 a
LEFT JOIN avg_last_year l ON a.month = l.month
ORDER BY a.month;
'''

select(sql_6)

Unnamed: 0,month,avg_money_2024,last_year_avg_money,absolute_increase,growth_rate_in_percentage
0,1,12492.81,12472.83,19.98,0.160188
1,2,12483.59,12491.72,-8.13,-0.065083
2,3,12491.89,12523.94,-32.05,-0.25591
3,4,12497.45,12505.31,-7.86,-0.062853
4,5,12484.45,12511.43,-26.98,-0.215643
5,6,12491.9,12503.89,-11.99,-0.09589
6,7,12504.05,12492.4,11.65,0.093257
7,8,12506.84,12511.27,-4.43,-0.035408
8,9,12509.66,12524.47,-14.81,-0.118249
9,10,12510.67,12506.5,4.17,0.033343


В данном случае вариант без оконных функций sql_6 оказался быстрее.   
Время выполнения запроса sql_5 согласно EXPLAIN ANALYZE составляет  15762.290 ms, а sql_6 - 12915.206 ms.

Вывод: Использование оконных функций не всегда оправдано, особенно если их можно заменить JOIN-ом. 🚀

_______________________________________

4. Найти 10 пользователей, у которых наибольшее количество заказов за последний год, и для каждого из них найти средний размер заказа за последний месяц.  
Последний месяц: декабрь 2024.

In [22]:
# 1 шаг. Найдём 10 юзеров с наибольшим количеством заказов за последний год 
# 2 шаг. Получив необходимый список юзеров, отберём их из основных данных с помощью INNER JOIN. 
# 3 шаг. Узнаем имя и email этих товарищей, присоединив таблицу users.

sql_7 = ''' 
WITH cte AS (SELECT 
                    user_id,
                    COUNT(id) AS cnt_orders
               FROM orders
              WHERE created_at >= '2024-01-01' AND created_at < '2025-01-01'
              GROUP BY 1
              ORDER BY 2 DESC
              LIMIT 10) -- 1 шаг


SELECT  
       TO_CHAR(DATE_TRUNC('month', o.created_at), 'YYYY-MM') AS month,
       o.user_id,
       u.name,
       u.email,
       AVG(o.total_price) AS avg_order_size
  FROM orders o 
       INNER JOIN cte 
          ON o.user_id = cte.user_id --2 шаг
       INNER JOIN  users u 
          ON cte.user_id = u.id --3 шаг
 WHERE o.created_at >= '2024.12.01' and o.created_at < '2025.01.01.'
 GROUP BY 1, 2, 3, 4

            '''
select(sql_7)

Unnamed: 0,month,user_id,name,email,avg_order_size
0,2024-12,4232787,Laurie Riley,laurie.riley4232786@googlyandex.com,20500.0
1,2024-12,4232925,Cassie Lopez,cassie.lopez4232924@googlyandex.com,15120.0


________________________________________________

In [23]:
# Явно закрываем соединение.
conn.dispose()

###  Спасибо за интересное тестовое, было полезно поразмышлять над задачами! Хорошего дня! 😊🤝