

## Краткое описание решения

В данной задаче необходимо было построить прогнозный интервал цен (`price_p05`, `price_p95`). Основная сложность заключалась в метрике **IoU (Intersection over Union)**, которая плохо оптимизируется стандартными функциями потерь (MSE, MAE, Quantile Loss).

**Мой подход:**
1.  **Архитектура:** Полносвязная нейронная сеть (MLP) на PyTorch.
2.  **Функция потерь:** Реализован кастомный **Soft-IoU Loss** — дифференцируемая аппроксимация метрики соревнования. Это позволило модели напрямую максимизировать пересечение интервалов.
3.  **Признаки:** Использованы агрегированные статистики по категориям (Target Encoding), PCA для погоды и циклические признаки дат.
4.  **Валидация:** 5-Fold Cross-Validation.
5.  **Post-Processing:** Небольшое расширение предсказанного интервала на 5% (`width * 1.05`), что компенсирует неуверенность модели и штрафы метрики за "непопадание".

**Результат:**
*   **Public Score:** 0.2713
*   **Private Score:** 0.2637


In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.decomposition import PCA
from sklearn.model_selection import KFold
import random
import os

# Фиксация random seed для воспроизводимости
def seed_everything(seed=42):
    random.seed(seed)
    os.environ['PYTHONHASHSEED'] = str(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    torch.backends.cudnn.deterministic = True

SEED = 42
seed_everything(SEED)

DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {DEVICE}")

Using device: cuda


## 1. Загрузка данных и Feature Engineering

Мы создаем признаки, описывающие как временные зависимости (сезонность), так и ценовые характеристики товаров внутри их категорий.

Ключевые моменты:
*   **Log-target:** Цены логарифмируются (`log1p`), чтобы стабилизировать дисперсию.
*   **Weather PCA:** Погодные признаки сжимаются в одну компоненту.
*   **Target Encoding:** Для каждого товара добавляются средние цены его категории (чтобы решить проблему "холодного старта" для новых товаров в тесте).

In [3]:
# 2. Пути к файлам
train = pd.read_csv('/content/train.csv')
test = pd.read_csv('/content/test.csv')
submission = pd.read_csv('/content/sample_submission.csv')


# 2. Преобразование дат и объединение
train['dt'] = pd.to_datetime(train['dt'])
test['dt'] = pd.to_datetime(test['dt'])
train = train.sort_values('dt').reset_index(drop=True)

train['is_train'] = 1
test['is_train'] = 0

# Заглушки для цен в тесте
test['price_p05'] = np.nan
test['price_p95'] = np.nan

df = pd.concat([train, test], ignore_index=True, sort=False)

# 3. Базовый препроцессинг (Погода + Даты)
# PCA для погоды
weather_cols = ['precpt', 'avg_temperature', 'avg_humidity', 'avg_wind_level']
df[weather_cols] = df[weather_cols].fillna(df[weather_cols].mean())
pca = PCA(n_components=1)
df['weather_pca'] = pca.fit_transform(StandardScaler().fit_transform(df[weather_cols]))

# Циклические признаки даты
df['month_sin'] = np.sin(2 * np.pi * df['dt'].dt.month / 12)
df['month_cos'] = np.cos(2 * np.pi * df['dt'].dt.month / 12)
df['dow_sin'] = np.sin(2 * np.pi * df['dt'].dt.dayofweek / 7)
df['dow_cos'] = np.cos(2 * np.pi * df['dt'].dt.dayofweek / 7)

# 4. Target Encoding (Средние цены по категориям)
# Считаем логарифмы таргетов
df['log_p05'] = np.log1p(df['price_p05'])
df['log_p95'] = np.log1p(df['price_p95'])

# Считаем статистики ТОЛЬКО по train части, чтобы избежать data leakage
stats_cols = []
for col in ['second_category_id', 'third_category_id']:
    mapper = df[df['is_train'] == 1].groupby(col)[['log_p05', 'log_p95']].agg(['mean', 'std'])
    mapper.columns = [f'{col}_mean_p05', f'{col}_std_p05', f'{col}_mean_p95', f'{col}_std_p95']
    df = df.merge(mapper, on=col, how='left')
    stats_cols.extend(mapper.columns.tolist())

# Статистики по самому товару (для тех, что есть в трейне)
product_mapper = df[df['is_train'] == 1].groupby('product_id')[['log_p05', 'log_p95']].agg(['mean', 'std'])
product_mapper.columns = ['product_mean_p05', 'product_std_p05', 'product_mean_p95', 'product_std_p95']
df = df.merge(product_mapper, on='product_id', how='left')
stats_cols.extend(product_mapper.columns.tolist())

# Заполнение пропусков (для новых товаров берем среднее по категории)
for col in stats_cols:
    df[col] = df[col].fillna(df[col].mean())

if 'cluster_id' not in df.columns:
    df['cluster_id'] = 0

print(f"Размер объединенного датасета: {df.shape}")

Размер объединенного датасета: (57150, 41)


## 2. Подготовка данных для PyTorch

Мы используем `StandardScaler` для числовых признаков и `OneHotEncoder` для категориальных.
Целевые переменные преобразуются в два значения:
1.  **Midpoint:** Центр интервала `(log_p95 + log_p05) / 2`
2.  **Width:** Ширина интервала `(log_p95 - log_p05)`

Это позволяет нейросети предсказывать геометрические параметры интервала.

In [4]:
# Отбор признаков
num_features = [
    'n_stores', 'precpt', 'avg_temperature', 'avg_humidity', 'avg_wind_level',
    'weather_pca', 'month_sin', 'month_cos', 'dow_sin', 'dow_cos',
    'second_category_id_mean_p05', 'second_category_id_mean_p95',
    'third_category_id_mean_p05', 'third_category_id_mean_p95',
    'product_mean_p05', 'product_std_p05', 'product_mean_p95', 'product_std_p95'
]
cat_features = ['activity_flag', 'holiday_flag', 'cluster_id']

# Разделение
train_df = df[df['is_train'] == 1].copy()
test_df = df[df['is_train'] == 0].copy()

# Таргеты (Log Space)
y_p05 = train_df['log_p05'].values.astype(np.float32)
y_p95 = train_df['log_p95'].values.astype(np.float32)

# Преобразуем в Midpoint и Width
y_mid = (y_p05 + y_p95) / 2
y_width = (y_p95 - y_p05)
y_target = np.stack([y_mid, y_width], axis=1)

# Пайплайн предобработки
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), num_features),
        ('cat', OneHotEncoder(handle_unknown='ignore', sparse_output=False), cat_features)
    ])

X_train_scaled = preprocessor.fit_transform(train_df[num_features + cat_features]).astype(np.float32)
X_test_scaled = preprocessor.transform(test_df[num_features + cat_features]).astype(np.float32)

print(f"Train shape: {X_train_scaled.shape}")

Train shape: (29100, 23)


## 3. Модель и Custom Loss

Главный секрет успеха. Вместо того чтобы минимизировать MSE (ошибку в значениях), мы максимизируем IoU.
Так как IoU — дискретная функция, мы используем ее сглаженную версию **Soft-IoU**.

$$ \text{Loss} = 1 - \text{mean}\left(\frac{\text{Intersection}}{\text{Union}}\right) $$

Ширина интервала (`width`) предсказывается через функцию активации `Softplus`, чтобы гарантировать положительные значения.

In [5]:
class PricingDataset(Dataset):
    def __init__(self, X, y=None):
        self.X = torch.tensor(X, dtype=torch.float32)
        self.y = torch.tensor(y, dtype=torch.float32) if y is not None else None
    def __len__(self): return len(self.X)
    def __getitem__(self, idx):
        return (self.X[idx], self.y[idx]) if self.y is not None else self.X[idx]

class IntervalNet(nn.Module):
    def __init__(self, input_dim):
        super(IntervalNet, self).__init__()
        self.net = nn.Sequential(
            nn.Linear(input_dim, 256),
            nn.BatchNorm1d(256),
            nn.ReLU(),
            nn.Dropout(0.2),
            nn.Linear(256, 128),
            nn.BatchNorm1d(128),
            nn.ReLU(),
            nn.Dropout(0.2),
            nn.Linear(128, 64),
            nn.ReLU(),
            nn.Linear(64, 2) # Output: [Midpoint, Raw_Width]
        )

    def forward(self, x):
        out = self.net(x)
        mid = out[:, 0]
        # Softplus гарантирует width > 0
        width = torch.nn.functional.softplus(out[:, 1])
        return mid, width

class SoftIoULoss(nn.Module):
    def __init__(self):
        super(SoftIoULoss, self).__init__()

    def forward(self, pred_mid, pred_width, target_mid, target_width):
        # Восстанавливаем границы
        pred_low = pred_mid - pred_width / 2
        pred_high = pred_mid + pred_width / 2
        target_low = target_mid - target_width / 2
        target_high = target_mid + target_width / 2

        # Пересечение
        inter_low = torch.max(pred_low, target_low)
        inter_high = torch.min(pred_high, target_high)
        intersection = torch.clamp(inter_high - inter_low, min=0)

        # Объединение
        pred_area = pred_high - pred_low
        target_area = target_high - target_low
        union = pred_area + target_area - intersection + 1e-6

        iou = intersection / union
        return 1.0 - torch.mean(iou)

## 4. Обучение (5-Fold Cross Validation)

Мы обучаем ансамбль из 5 моделей на разных разбиениях данных. Это повышает стабильность и дает прирост метрики.
В каждом фолде сохраняется модель с лучшим Val IoU.

In [6]:
N_FOLDS = 5
EPOCHS = 40
BATCH_SIZE = 128
LEARNING_RATE = 0.001

# Накопители для предсказаний на тесте
test_preds_mid_sum = np.zeros(len(X_test_scaled))
test_preds_width_sum = np.zeros(len(X_test_scaled))

kfold = KFold(n_splits=N_FOLDS, shuffle=True, random_state=SEED)

print(f"Starting 5-Fold Training on {DEVICE}...")

for fold, (train_idx, val_idx) in enumerate(kfold.split(X_train_scaled)):
    print(f"\n=== FOLD {fold+1}/{N_FOLDS} ===")

    # Подготовка данных
    train_ds = PricingDataset(X_train_scaled[train_idx], y_target[train_idx])
    val_ds = PricingDataset(X_train_scaled[val_idx], y_target[val_idx])
    train_loader = DataLoader(train_ds, batch_size=BATCH_SIZE, shuffle=True)
    val_loader = DataLoader(val_ds, batch_size=BATCH_SIZE)

    # Инициализация модели
    model = IntervalNet(input_dim=X_train_scaled.shape[1]).to(DEVICE)
    criterion = SoftIoULoss()
    optimizer = optim.Adam(model.parameters(), lr=LEARNING_RATE)
    scheduler = optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.5, patience=5)

    best_loss = 1.0
    best_state = None

    # Цикл обучения
    for epoch in range(EPOCHS):
        model.train()
        for X_b, y_b in train_loader:
            X_b, y_b = X_b.to(DEVICE), y_b.to(DEVICE)
            optimizer.zero_grad()
            mid, width = model(X_b)
            # y_b[:, 0] is Mid, y_b[:, 1] is Width
            loss = criterion(mid, width, y_b[:, 0], y_b[:, 1])
            loss.backward()
            optimizer.step()

        # Валидация
        model.eval()
        val_loss = 0
        with torch.no_grad():
            for X_b, y_b in val_loader:
                X_b, y_b = X_b.to(DEVICE), y_b.to(DEVICE)
                mid, width = model(X_b)
                val_loss += criterion(mid, width, y_b[:, 0], y_b[:, 1]).item()

        avg_val_loss = val_loss / len(val_loader)
        scheduler.step(avg_val_loss)

        if avg_val_loss < best_loss:
            best_loss = avg_val_loss
            best_state = model.state_dict()

    print(f"Best Val IoU: {1.0 - best_loss:.5f}")

    # Предсказание на тесте лучшей моделью фолда
    model.load_state_dict(best_state)
    model.eval()
    temp_mids, temp_widths = [], []
    test_loader = DataLoader(PricingDataset(X_test_scaled), batch_size=BATCH_SIZE, shuffle=False)

    with torch.no_grad():
        for X_b in test_loader:
            X_b = X_b.to(DEVICE)
            mid, width = model(X_b)
            temp_mids.append(mid.cpu().numpy())
            temp_widths.append(width.cpu().numpy())

    test_preds_mid_sum += np.concatenate(temp_mids)
    test_preds_width_sum += np.concatenate(temp_widths)

print("\nTraining Finished!")

Starting 5-Fold Training on cuda...

=== FOLD 1/5 ===
Best Val IoU: 0.29798

=== FOLD 2/5 ===
Best Val IoU: 0.29715

=== FOLD 3/5 ===
Best Val IoU: 0.29654

=== FOLD 4/5 ===
Best Val IoU: 0.29137

=== FOLD 5/5 ===
Best Val IoU: 0.30001

Training Finished!


## 5. Формирование сабмишна и Post-Processing

После усреднения предсказаний ансамбля мы применяем важный трюк: **расширение интервала**.
Метрика IoU сильно штрафует, если истинная цена хотя бы немного выходит за границы предсказанного интервала. Умножение ширины на коэффициент `1.05` (5%) значительно повышает стабильность на Leaderboard.

In [7]:
# Усредняем предсказания 5 фолдов
avg_mid_log = test_preds_mid_sum / N_FOLDS
avg_width_log = test_preds_width_sum / N_FOLDS

# === Post-Processing ===
# Увеличиваем ширину на 5%, чтобы "поймать" граничные случаи
WIDTH_MULTIPLIER = 1.05
avg_width_log = avg_width_log * WIDTH_MULTIPLIER

# Восстанавливаем цены из логарифмов
final_p05 = np.expm1(avg_mid_log - avg_width_log / 2)
final_p95 = np.expm1(avg_mid_log + avg_width_log / 2)

# Гарантия неотрицательности
final_p05 = np.maximum(0, final_p05)
final_p95 = np.maximum(0, final_p95)

# Сохранение
submission_ids = test_df['row_id'].values
sub = pd.DataFrame({
    'row_id': submission_ids,
    'price_p05': final_p05,
    'price_p95': final_p95
})
sub = sub.sort_values('row_id')

sub.to_csv('submission_solution.csv', index=False)
print("Файл submission_solution.csv успешно сохранен.")
print(sub.head())

Файл submission_solution.csv успешно сохранен.
   row_id  price_p05  price_p95
0     0.0   0.950212   1.164189
1     1.0   0.907801   1.157708
2     2.0   0.907185   1.157771
3     3.0   0.912715   1.160802
4     4.0   0.906945   1.157113
