# Индивидуальное комплексное задание. Вариант 3

## Сеть ресторанов: Анализ доставки и прогнозирование выручки

**ФИО студента:** _____________________

**Группа:** _____________________

**Дата:** _____________________

---

### Описание задачи

Вы — аналитик данных в сети ресторанов с доставкой. Ваша задача — проанализировать данные о заказах, выявить ключевые факторы успеха и построить модель прогнозирования выручки.

**База данных содержит следующие таблицы:**
- `orders` (OrderID, RestaurantID, CustomerID, OrderDate, DeliveryTime, OrderAmount, Rating)
- `restaurants` (RestaurantID, RestaurantName, City, CuisineType)
- `customers` (CustomerID, CustomerName, RegistrationDate, TotalOrders)

**Время выполнения:** 40 минут

---

## Подготовка к работе

In [None]:
# Импорт необходимых библиотек
import pandas as pd
import numpy as np
import sqlite3
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import warnings
warnings.filterwarnings('ignore')

plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline

In [None]:
# Подключение к базе данных
conn = sqlite3.connect('restaurant_delivery.db')
print("Подключение к базе данных установлено.")

---

## Часть 1. Работа с SQL и Pandas (10 минут)

### Задача 1.1 (2 балла)

Напишите SQL-запрос для получения **топ-3 ресторанов** по средней сумме заказа (`OrderAmount`). Выведите: название ресторана, город, тип кухни и среднюю сумму заказа.

Загрузите результат в DataFrame `top_restaurants`.

In [None]:
# Ваш код здесь
query1 = """

"""

top_restaurants = pd.read_sql_query(query1, conn)
display(top_restaurants)

### Задача 1.2 (3 балла)

Используя `INNER JOIN`, получите данные о всех заказах с рейтингом выше 4.0. Включите: дату заказа, название ресторана, тип кухни, сумму заказа, время доставки, рейтинг.

Загрузите в DataFrame `high_rated_orders`. С помощью Pandas:
1. Создайте столбец `DeliveryCategory`: "Быстрая" (< 30 мин), "Средняя" (30-45 мин), "Медленная" (> 45 мин)
2. Рассчитайте среднюю сумму заказа для каждой категории доставки
3. Определите, какой тип кухни имеет самое быстрое среднее время доставки

In [None]:
# Ваш код здесь
query2 = """

"""

high_rated_orders = pd.read_sql_query(query2, conn)

# Создание категории доставки

# Анализ по категориям и кухням


---

## Часть 2. Исследовательский анализ данных (EDA) (10 минут)

### Задача 2.1 (2 балла)

Используя DataFrame `high_rated_orders`:
1. Выведите описательную статистику для столбцов `OrderAmount` и `DeliveryTime`
2. Постройте **гистограмму** распределения времени доставки
3. Постройте **bar chart** (столбчатую диаграмму) среднего рейтинга по типам кухни

In [None]:
# Ваш код здесь
# Описательная статистика

# Гистограмма

# Bar chart


### Задача 2.2 (3 балла)

**Бизнес-гипотеза:** "Время доставки отрицательно влияет на рейтинг заказа."

1. Постройте **scatter plot** с `DeliveryTime` по оси X и `Rating` по оси Y
2. Рассчитайте коэффициент корреляции
3. Сделайте вывод: подтверждается ли гипотеза? Какие действия должна предпринять компания?

In [None]:
# Ваш код здесь
# Scatter plot

# Корреляция

# Вывод (текстом)


---

## Часть 3. Анализ временных рядов (10 минут)

### Задача 3.1 (3 балла)

Получите из базы данных ежедневную выручку (дата и сумма всех заказов за день).

1. Преобразуйте столбец с датой в формат `datetime`
2. Выполните **ресэмплинг** в недельные агрегаты
3. Постройте **линейный график** динамики недельной выручки
4. Извлеките признак "день недели" и определите, в какие дни недели выручка максимальная

In [None]:
# Ваш код здесь
query3 = """

"""

daily_revenue = pd.read_sql_query(query3, conn)

# Преобразование даты и ресэмплинг

# График

# Анализ по дням недели


### Задача 3.2 (2 балла)

Для прогнозирования недельной выручки создайте признаки:
1. `Revenue_Lag1` — выручка за предыдущую неделю
2. `Revenue_Lag2` — выручка за 2 недели назад
3. `Rolling_Mean_4` — скользящее среднее за 4 недели

Удалите строки с NaN и выведите форму результирующего DataFrame.

In [None]:
# Ваш код здесь
# Лаговые признаки и скользящее среднее

# Удаление NaN


---

## Часть 4. Построение модели прогнозирования (10 минут)

### Задача 4.1 (3 балла)

Постройте модель **Random Forest** для прогнозирования недельной выручки.

1. Используйте в качестве признаков: лаговые признаки и скользящее среднее
2. Целевая переменная — текущая выручка
3. Разделите данные на обучающую (75%) и тестовую (25%) выборки
4. Обучите модель `RandomForestRegressor(n_estimators=50, random_state=42)`
5. Сделайте предсказания

In [None]:
# Ваш код здесь
# Определение X и y

# Разделение на train/test

# Обучение модели

# Предсказания


### Задача 4.2 (2 балла)

Оцените качество модели:
1. Рассчитайте **MAE**, **RMSE** (корень из MSE) и **R²**
2. Постройте график фактических vs прогнозных значений выручки
3. Сделайте бизнес-вывод: можно ли использовать модель для планирования закупок продуктов и расписания персонала?

In [None]:
# Ваш код здесь
# Метрики

# График

# Бизнес-вывод (текстом)


---

## Закрытие подключения

In [None]:
conn.close()
print("Подключение к базе данных закрыто.")

---

## Критерии оценки

| Часть | Максимальный балл |
|-------|-------------------|
| Часть 1: SQL и Pandas | 5 баллов |
| Часть 2: EDA | 5 баллов |
| Часть 3: Временные ряды | 5 баллов |
| Часть 4: ML | 5 баллов |
| **ИТОГО** | **20 баллов** |

---

**Файл должен быть сохранен с именем:** `Фамилия_Вариант3.ipynb`