# Индивидуальное комплексное задание. Вариант 5

## Маркетплейс: Анализ товарных категорий и прогнозирование продаж

**ФИО студента:** _____________________

**Группа:** _____________________

**Дата:** _____________________

---

### Описание задачи

Вы — аналитик данных на онлайн-маркетплейсе. Ваша задача — проанализировать данные о продажах различных товарных категорий и построить модель прогнозирования количества продаж.

**База данных содержит следующие таблицы:**
- `products` (ProductID, ProductName, CategoryID, Price, Stock, SupplierID)
- `categories` (CategoryID, CategoryName, Commission)
- `sales` (SaleID, ProductID, SaleDate, Quantity, Discount, TotalPrice)

**Время выполнения:** 40 минут

---

## Подготовка к работе

In [None]:
# Импорт необходимых библиотек
import pandas as pd
import numpy as np
import sqlite3
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import warnings
warnings.filterwarnings('ignore')

plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline

In [None]:
# Подключение к базе данных
conn = sqlite3.connect('marketplace.db')
print("Подключение к базе данных установлено.")

---

## Часть 1. Работа с SQL и Pandas (10 минут)

### Задача 1.1 (2 балла)

Напишите SQL-запрос для получения **топ-5 категорий** по общей выручке. Выведите: название категории, общую выручку и комиссию платформы.

Загрузите результат в DataFrame `top_categories`.

In [None]:
# Ваш код здесь
query1 = """

"""

top_categories = pd.read_sql_query(query1, conn)
display(top_categories)

### Задача 1.2 (3 балла)

Используя `INNER JOIN`, получите данные о всех продажах с информацией о товарах и категориях. Загрузите в DataFrame `all_sales`.

С помощью Pandas:
1. Создайте столбец `DiscountCategory`: "Без скидки" (0%), "Малая" (1-10%), "Средняя" (11-30%), "Высокая" (>30%)
2. Рассчитайте среднее количество проданных единиц (`Quantity`) для каждой категории скидок
3. Определите, какая категория товаров имеет самую высокую среднюю скидку

In [None]:
# Ваш код здесь
query2 = """

"""

all_sales = pd.read_sql_query(query2, conn)

# Создание категории скидок

# Анализ по категориям


---

## Часть 2. Исследовательский анализ данных (EDA) (10 минут)

### Задача 2.1 (2 балла)

Используя DataFrame `all_sales`:
1. Выведите описательную статистику для столбцов `Price`, `Discount` и `Quantity`
2. Постройте **гистограмму** распределения скидок
3. Постройте **pie chart** (круговую диаграмму) доли продаж по категориям товаров

In [None]:
# Ваш код здесь
# Описательная статистика

# Гистограмма

# Pie chart


### Задача 2.2 (3 балла)

**Бизнес-гипотеза:** "Чем больше скидка, тем больше товаров покупается."

1. Постройте **scatter plot** с `Discount` по оси X и `Quantity` по оси Y
2. Рассчитайте коэффициент корреляции
3. Постройте **матрицу корреляций** (heatmap) для `Price`, `Discount`, `Quantity`, `TotalPrice`
4. Сделайте вывод: подтверждается ли гипотеза? Стоит ли увеличивать скидки для роста продаж?

In [None]:
# Ваш код здесь
# Scatter plot

# Корреляция

# Heatmap

# Вывод (текстом)


---

## Часть 3. Анализ временных рядов (10 минут)

### Задача 3.1 (3 балла)

Получите из базы данных ежедневную статистику продаж (дата и общее количество проданных товаров).

1. Преобразуйте столбец с датой в формат `datetime`
2. Установите дату как индекс
3. Выполните **ресэмплинг** в месячные агрегаты
4. Постройте **линейный график** динамики месячных продаж
5. Определите месяц с максимальным объемом продаж

In [None]:
# Ваш код здесь
query3 = """

"""

daily_sales = pd.read_sql_query(query3, conn)

# Преобразование даты и ресэмплинг

# График

# Определение максимума


### Задача 3.2 (2 балла)

Для прогнозирования месячных продаж создайте:
1. `Sales_Lag1` — продажи за предыдущий месяц
2. `Sales_Lag3` — продажи за 3 месяца назад
3. `Rolling_Mean_2` — скользящее среднее за 2 месяца

Удалите строки с NaN и выведите форму (shape) результирующего DataFrame.

In [None]:
# Ваш код здесь
# Лаговые признаки и скользящее среднее

# Удаление NaN


---

## Часть 4. Построение модели прогнозирования (10 минут)

### Задача 4.1 (3 балла)

Постройте модель **линейной регрессии** для прогнозирования месячного количества продаж.

1. Используйте в качестве признаков: `Sales_Lag1`, `Sales_Lag3`, `Rolling_Mean_2`
2. Целевая переменная — текущие продажи
3. Примените **стандартизацию** признаков (`StandardScaler`)
4. Разделите данные на обучающую (80%) и тестовую (20%) выборки
5. Обучите модель и сделайте предсказания

In [None]:
# Ваш код здесь
# Определение X и y

# Стандартизация

# Разделение на train/test

# Обучение модели

# Предсказания


### Задача 4.2 (2 балла)

Оцените качество модели:
1. Рассчитайте **MAE**, **RMSE** и **R²**
2. Постройте график фактических vs прогнозных значений
3. Объясните значение R²: насколько хорошо модель объясняет вариацию данных?
4. Сделайте бизнес-вывод: можно ли использовать модель для планирования запасов на складе?

In [None]:
# Ваш код здесь
# Метрики

# График

# Интерпретация R²

# Бизнес-вывод (текстом)


---

## Закрытие подключения

In [None]:
conn.close()
print("Подключение к базе данных закрыто.")

---

## Критерии оценки

| Часть | Максимальный балл |
|-------|-------------------|
| Часть 1: SQL и Pandas | 5 баллов |
| Часть 2: EDA | 5 баллов |
| Часть 3: Временные ряды | 5 баллов |
| Часть 4: ML | 5 баллов |
| **ИТОГО** | **20 баллов** |

---

**Файл должен быть сохранен с именем:** `Фамилия_Вариант5.ipynb`