In [None]:
import pandas as pd
import sqlite3

# Подключение к базе данных (укажите путь к вашей базе данных)
conn = sqlite3.connect('path_to_your_database.db')

# Загрузка таблиц в DataFrame
customers_df = pd.read_sql_query("SELECT * FROM Customers", conn)
orders_df = pd.read_sql_query("SELECT * FROM Orders", conn)
products_df = pd.read_sql_query("SELECT * FROM Products", conn)
orders_products_df = pd.read_sql_query("SELECT * FROM Orders_Products", conn)
delivery_info_df = pd.read_sql_query("SELECT * FROM Delivery_info", conn)
app_sessions_info_df = pd.read_sql_query("SELECT * FROM App_sessions_info", conn)


Шаг 2: Объединение данных и создание признаков
Создадим признаки для каждого заказа. Примерные признаки могут включать:

Информацию о клиенте (например, возраст на момент заказа).
Информацию о заказе (например, количество товаров, общая сумма).
Информацию о доставке (исключая дату доставки).
python


In [None]:
# Объединение таблиц
orders_extended_df = orders_df.merge(customers_df, on='customer_id', how='left')
orders_extended_df = orders_extended_df.merge(orders_products_df, on='order_id', how='left')
orders_extended_df = orders_extended_df.merge(products_df, on='product_id', how='left')
orders_extended_df = orders_extended_df.merge(delivery_info_df, on='order_id', how='left')

# Создание признаков
orders_extended_df['order_dt'] = pd.to_datetime(orders_extended_df['order_dt'])
orders_extended_df['delivery_dt'] = pd.to_datetime(orders_extended_df['delivery_dt'])

# Признаки клиента
orders_extended_df['age_at_order'] = (orders_extended_df['order_dt'] - pd.to_datetime(orders_extended_df['birth_dt'])).dt.days / 365.25

# Признаки заказа
orders_extended_df['total_amount'] = orders_extended_df.groupby('order_id')['amount'].transform('sum')
orders_extended_df['total_price'] = orders_extended_df['amount'] * orders_extended_df['price']
orders_extended_df['total_price_sum'] = orders_extended_df.groupby('order_id')['total_price'].transform('sum')

# Прогнозируемая переменная
orders_extended_df['delivery_time_days'] = (orders_extended_df['delivery_dt'] - orders_extended_df['order_dt']).dt.days

# Удаление лишних колонок
orders_extended_df = orders_extended_df.drop(columns=['birth_dt', 'delivery_dt', 'order_dt', 'first_name', 'middle_name', 'last_name', 'phone_number', 'address'])

# Удаление дубликатов
orders_extended_df = orders_extended_df.drop_duplicates(subset=['order_id'])


2. Предобработка данных
Шаг 3: Обработка категориальных признаков

In [None]:
# Преобразование категориальных признаков
orders_extended_df = pd.get_dummies(orders_extended_df, columns=['payment_method', 'product_group_name', 'device_name'])


Шаг 4: Нормализация данных

In [None]:
from sklearn.preprocessing import StandardScaler

# Нормализация числовых признаков
scaler = StandardScaler()
numerical_features = ['age_at_order', 'total_amount', 'total_price_sum']
orders_extended_df[numerical_features] = scaler.fit_transform(orders_extended_df[numerical_features])


Шаг 5: Заполнение пропусков

In [None]:
# Заполнение пропусков средними значениями
orders_extended_df = orders_extended_df.fillna(orders_extended_df.mean())


3. Определение типа задачи прогнозирования и выбор метрики
Тип задачи: регрессия (мы прогнозируем время доставки в днях, которое является непрерывной переменной).

Метрика: RMSE (Root Mean Squared Error), поскольку она измеряет среднюю квадратическую ошибку между предсказанными и фактическими значениями.

4. Построение и сравнение моделей

In [None]:
from sklearn.model_selection import cross_val_score, KFold
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
import numpy as np

# Признаки и целевая переменная
X = orders_extended_df.drop(columns=['delivery_time_days', 'order_id', 'customer_id', 'product_id'])
y = orders_extended_df['delivery_time_days']

# Определение моделей
models = {
    'Linear Regression': LinearRegression(),
    'Decision Tree': DecisionTreeRegressor(),
    'Random Forest': RandomForestRegressor()
}

# Кросс-валидация и оценка моделей
kf = KFold(n_splits=5, shuffle=True, random_state=42)

for name, model in models.items():
    cv_scores = cross_val_score(model, X, y, cv=kf, scoring='neg_mean_squared_error')
    rmse_scores = np.sqrt(-cv_scores)
    print(f"{name}: RMSE = {rmse_scores.mean():.2f} ± {rmse_scores.std():.2f}")


5. Комментарии
Признаки
age_at_order: возраст клиента на момент заказа, потому что возраст может влиять на скорость обработки заказа.
total_amount: общее количество товаров в заказе, так как это может влиять на время доставки.
total_price_sum: общая стоимость заказа, что также может быть значимым фактором.
Методы обработки данных
Кодирование категориальных признаков: использование метода get_dummies для преобразования категориальных переменных.
Нормализация данных: использование StandardScaler для нормализации числовых признаков.
Заполнение пропусков: заполнение пропусков средними значениями, чтобы избежать ошибок при обучении моделей.
Тип задачи и метрика
Тип задачи: регрессия.
Метрика: RMSE, так как она дает ясное представление о средней ошибке в тех же единицах, что и целевая переменная.
Лучший алгоритм
Результаты кросс-валидации покажут, какой из алгоритмов наиболее эффективен для данной задачи на основании метрики RMSE.

Пожалуйста, загрузите свой Jupyter-блокнот, следуя этим шагам и дополнив его своими комментариями и наблюдениями.