<a href="https://colab.research.google.com/github/r42arty/hse/blob/main/mod4/DL/DL_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Основы машинного обучения, ИИМУП

## НИУ ВШЭ, 2024-25 учебный год

# Домашнее задание 1: Полносвязные нейронные сети

Задание выполнил(а):

    Рубцов Артемий

## Общая информация

__Внимание!__  


* Домашнее задание выполняется самостоятельно
* Не допускается помощь в решении домашнего задания от однокурсников или третьих лиц. «Похожие» решения считаются плагиатом, и все задействованные студенты — в том числе и те, у кого списали, — не могут получить за него больше 0 баллов
* Использование в решении домашнего задания генеративных моделей (ChatGPT и так далее) за рамками справочной и образовательной информации для генерации кода задания — считается плагиатом, и такое домашнее задание оценивается в 0 баллов
* Старайтесь сделать код как можно более оптимальным. В частности, будет штрафоваться использование циклов в тех случаях, когда операцию можно совершить при помощи инструментов библиотек, о которых рассказывалось в курсе

## О задании

В этом задании вам предстоит обучить полносвязную нейронную сеть для предсказания года выпуска песни по ее аудио-признакам. Для этого мы будем использовать [Million Songs Dataset](https://samyzaf.com/ML/song_year/song_year.html).

## Импорт библиотек и загрузка данных

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
import torch

from IPython.display import clear_output

from sklearn.linear_model import Ridge
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import LabelEncoder

from torch import nn
from torch import optim
from torch.utils.data import DataLoader, TensorDataset, random_split
from tqdm.notebook import tqdm

In [None]:
plt.rcParams.update({"font.size": 16})
sns.set_style("whitegrid")
np.random.seed(0xFA1AFE1)

Начнем с того, что скачаем и загрузим данные:

In [None]:
!wget -O data.txt.zip https://archive.ics.uci.edu/ml/machine-learning-databases/00203/YearPredictionMSD.txt.zip

In [None]:
df = pd.read_csv("data.txt.zip", header=None)
df

Посмотрим на статистики по данным.

In [None]:
df.describe()

Целевая переменная, год выпуска песни, записана в первом столбце. Посмотрим на ее распределение.

In [None]:
plt.hist(df.iloc[:, 0], bins=20)
plt.xlabel("year")
plt.ylabel("count")
plt.show()
print(f"Range: {df.iloc[:, 0].min()} - {df.iloc[:, 0].max()}")
print(f"Unique values: {np.unique(df.iloc[:, 0]).size}")

Разобьем данные на обучение и тест (не меняйте здесь ничего, чтобы сплит был одинаковым у всех).

In [None]:
X = df.iloc[:, 1:].values
y = df.iloc[:, 0].values

train_size = int(0.75 * X.shape[0])
X_train = X[:train_size, :]
y_train = y[:train_size]
X_test = X[train_size:, :]
y_test = y[train_size:]
X_train.shape, X_test.shape

**Задание 0 (0 баллов, но при невыполнении максимальная оценка за всю работу &mdash; 0 баллов).** Мы будем использовать MSE как метрику качества. Прежде чем обучать нейронные сети, нам нужно проверить несколько простых бейзлайнов, чтобы было с чем сравнить более сложные алгоритмы. Для этого бучите `Ridge` регрессию из `sklearn`. Кроме того, посчитайте качество при наилучшем константном прогнозе (также пропишите текстом, какая константа будет лучшей для MSE).

In [None]:
# Обучение Ridge-регрессии
model = Ridge(alpha=1.0)
model.fit(X_train, y_train)

# Предсказание
y_pred = model.predict(X_test)

# Оценка Ridge
mse_ridge = mean_squared_error(y_test, y_pred)

print(f"MSE модели: {mse_ridge:.1f}")

# Константный прогноз: среднее по y_train
best_constant = y_train.mean()
y_pred_const = np.full_like(y_test, fill_value=best_constant)

mse_const = mean_squared_error(y_test, y_pred_const)
print(f"Наилучшая константа для MSE: {best_constant:.1f}")
print(f"MSE для константного прогноза: {mse_const:.1f}")

**Ответ:**

MSE модели: 89.7

Наилучшая константа для MSE: 1998.4

MSE для константного прогноза: 117.8

Теперь приступим к экспериментам с нейросетями. Для начала отделим от данных валидацию:

In [None]:
X_train, X_val, y_train, y_val = train_test_split(
    X_train, y_train, test_size=0.25, random_state=0xE2E4
)
X_train.shape, X_val.shape

## Глава I. Заводим нейронную сеть (5 баллов)

**Задание 1.1 (0.5 баллов).** Заполните пропуски в функции `train_and_validate`. Она поможет нам запускать эксперименты. Можете также реализовать поддержку обучения на GPU, чтобы эксперименты считались быстрее. Бесплатно воспользоваться GPU можно на сервисах **Google Colab** и **Kaggle**.

In [None]:
device = torch.accelerator.current_accelerator().type if torch.accelerator.is_available() else "cpu"

In [None]:
def plot_losses(train_losses, train_metrics, val_losses, val_metrics):
    """
    Plot losses and metrics while training
      - train_losses: sequence of train losses
      - train_metrics: sequence of train MSE values
      - val_losses: sequence of validation losses
      - val_metrics: sequence of validation MSE values
    """
    clear_output()
    fig, axs = plt.subplots(1, 2, figsize=(15, 5))
    axs[0].plot(range(1, len(train_losses) + 1), train_losses, label="train")
    axs[0].plot(range(1, len(val_losses) + 1), val_losses, label="val")
    axs[1].plot(range(1, len(train_metrics) + 1), train_metrics, label="train")
    axs[1].plot(range(1, len(val_metrics) + 1), val_metrics, label="val")

    if max(train_losses) / min(train_losses) > 10:
        axs[0].set_yscale("log")

    if max(train_metrics) / min(train_metrics) > 10:
        axs[0].set_yscale("log")

    for ax in axs:
        ax.set_xlabel("epoch")
        ax.legend()

    axs[0].set_ylabel("loss")
    axs[1].set_ylabel("MSE")
    plt.show()


def train_and_validate(
    model,
    optimizer,
    criterion,
    metric,
    train_loader,
    val_loader,
    num_epochs,
    verbose=True,
):
    """
    Train and validate neural network
      - model: neural network to train
      - optimizer: optimizer chained to a model
      - criterion: loss function class
      - metric: function to measure MSE taking neural networks predictions
                 and ground truth labels
      - train_loader: DataLoader with train set
      - val_loader: DataLoader with validation set
      - num_epochs: number of epochs to train
      - verbose: whether to plot metrics during training
    Returns:
      - train_mse: training MSE over the last epoch
      - val_mse: validation MSE after the last epoch
    """
    train_losses, val_losses = [], []
    train_metrics, val_metrics = [], []

    for epoch in range(1, num_epochs + 1):
        model.train()
        running_loss, running_metric = 0, 0
        pbar = (
            tqdm(train_loader, desc=f"Training {epoch}/{num_epochs}")
            if verbose
            else train_loader
        )

        for i, (X_batch, y_batch) in enumerate(pbar, 1):
            X_batch = X_batch.to(device)
            y_batch = y_batch.to(device)

            # Прямой проход
            predictions = model(X_batch)
            loss = criterion(predictions, y_batch)

            # Обратный проход
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

            with torch.no_grad():
                metric_value = metric(predictions, y_batch)
                if type(metric_value) == torch.Tensor:
                    metric_value = metric_value.item()
                running_loss += loss.item() * X_batch.shape[0]
                running_metric += metric_value * X_batch.shape[0]

            if verbose and i % 100 == 0:
                pbar.set_postfix({"loss": loss.item(), "MSE": metric_value})

        train_losses += [running_loss / len(train_loader.dataset)]
        train_metrics += [running_metric / len(train_loader.dataset)]

        model.eval()
        running_loss, running_metric = 0, 0
        pbar = (
            tqdm(val_loader, desc=f"Validating {epoch}/{num_epochs}")
            if verbose
            else val_loader
        )

        for i, (X_batch, y_batch) in enumerate(pbar, 1):
            with torch.no_grad():
                predictions = model(X_batch)
                loss = criterion(predictions, y_batch)

                metric_value = metric(predictions, y_batch)
                if type(metric_value) == torch.Tensor:
                    metric_value = metric_value.item()
                running_loss += loss.item() * X_batch.shape[0]
                running_metric += metric_value * X_batch.shape[0]

            if verbose and i % 100 == 0:
                pbar.set_postfix({"loss": loss.item(), "MSE": metric_value})

        val_losses += [running_loss / len(val_loader.dataset)]
        val_metrics += [running_metric / len(val_loader.dataset)]

        if verbose:
            plot_losses(train_losses, train_metrics, val_losses, val_metrics)

    if verbose:
        print(f"Validation MSE: {val_metrics[-1]:.3f}")

    return train_metrics[-1], val_metrics[-1]

**Задание 1.2 (0.75 балла).** Попробуем обучить нашу первую нейронную сеть. Здесь целевая переменная дискретная &mdash; это год выпуска песни. Поэтому будем учить сеть на классификацию c помощью [кросс-энтропийной функции потерь](https://pytorch.org/docs/stable/generated/torch.nn.CrossEntropyLoss.html).

- В качестве архитектуры сети возьмите два линейных слоя с активацией ReLU между ними c числом скрытых нейронов, равным 128.
- Используйте SGD с `lr=1e-2`.
- Возьмите размер мини-батча около 32-64, примерно 3-4 эпох обучения должно быть достаточно.
- Скорее всего вам пригодится `torch.utils.data.TensorDataset`. Когда будете конвертировать numpy-массивы в torch-тензоры, используйте тип `torch.float32`.
- Также преобразуйте целевую переменную так, чтобы ее значения принимали значения от $0$ до $C-1$, где $C$ &mdash; число классов (лучше передайте преобразованное значение в TensorDataset, исходное нам еще пригодится)
- В качестве параметра `metric` в `train_and_validate` передайте lambda-выражение, которое считает MSE по выходу нейронной сети и целевой переменной. В случае классификации предсказывается класс с наибольшей вероятностью (или, что то же самое, с наибольшим значением **логита**$^1$).

$^1$ **Логит** &mdash; выход последнего линейного слоя, может принимать любые вещественные значения. Если применить Softmax к логитам, то получатся вероятности распределения классов.

In [None]:
# Преобразуем y: года → метки от 0 до C-1
le = LabelEncoder()
y_class = le.fit_transform(y)
num_classes = len(le.classes_)

# Преобразуем данные в тензоры PyTorch
X_tensor = torch.tensor(X, dtype=torch.float32).to(device)
y_tensor = torch.tensor(y_class, dtype=torch.long).to(device)

# Создаем датасет и делим его на обучающую и валидационную части
dataset = TensorDataset(X_tensor, y_tensor)
train_size = int(0.8 * len(dataset))
val_size = len(dataset) - train_size
train_ds, val_ds = random_split(dataset, [train_size, val_size])

# Создаем даталоадеры
train_loader = DataLoader(train_ds, batch_size=64, shuffle=True)
val_loader = DataLoader(val_ds, batch_size=64)

# Архитектура модели: 2 линейных слоя + ReLU
model = nn.Sequential(
    nn.Linear(X.shape[1], 128),
    nn.ReLU(),
    nn.Linear(128, num_classes)
).to(device)

# Оптимизатор и функция потерь
optimizer = optim.SGD(model.parameters(), lr=1e-2)
criterion = nn.CrossEntropyLoss()

# Метрика MSE
metric = lambda logits, y_true: ((logits.argmax(dim=1) - y_true)**2).float().mean()

# Запускаем обучение
train_mse, val_mse = train_and_validate(
    model=model,
    optimizer=optimizer,
    criterion=criterion,
    metric=metric,
    train_loader=train_loader,
    val_loader=val_loader,
    num_epochs=4,
    verbose=True
)

print(f"MSE_train: {train_mse:.2f}")
print(f"MSE_val: {val_mse:.2f}")

**Задание 1.3 (0.5 балла).** Прокомментируйте ваши наблюдения. Удалось ли побить бейзлайн? Как вы думаете, хорошая ли идея учить классификатор для этой задачи? Почему?

**Ответ:**

Судя по графикам, обучение немного улучшило метрику на тренировке, но на валидации результат практически не изменился, что близко к бейзлайну. Это говорит о том, что модель не смогла извлечь полезные закономерности из данных.

Бейзлайн не побит.
Поскольку целевая переменная — год, а мы обучаем классификатор -- идея плохая. Предсказанный класс — это просто номер, а не реальное значение года.

**Задание 1.4 (0.75 балла).** Теперь попробуем решать задачу как регрессию. Обучите нейронную сеть на [MSE](https://pytorch.org/docs/stable/generated/torch.nn.MSELoss.html).

- Используйте такие же гиперпараметры обучения.
- Когда передаете целевую переменную в TensorDataset, сделайте reshape в (-1, 1).
- Не забудьте изменить lambda-выражение, которые вы передаете в `train_and_validate`.
- Если что-то пойдет не так, можете попробовать меньшие значения `lr`.

In [None]:
# Преобразуем данные в тензоры PyTorch
X_tensor = torch.tensor(X, dtype=torch.float32).to(device)
y_tensor = torch.tensor(y.reshape(-1, 1), dtype=torch.float32).to(device)

# Создаем датасет и делим его на обучающую и валидационную части
dataset = TensorDataset(X_tensor, y_tensor)
train_size = int(0.8 * len(dataset))
val_size = len(dataset) - train_size
train_ds, val_ds = random_split(dataset, [train_size, val_size])

train_loader = DataLoader(train_ds, batch_size=64, shuffle=True)
val_loader = DataLoader(val_ds, batch_size=64)

# Запускаем модель
model = nn.Sequential(
    nn.Linear(X.shape[1], 128),
    nn.ReLU(),
    nn.Linear(128, 1)
).to(device)

# Оптимизатор и функция потерь
optimizer = optim.SGD(model.parameters(), lr=1e-5)
criterion = nn.MSELoss()

# Метрика MSE
metric = lambda pred, y: ((pred - y) ** 2).mean().item()

# Запускаем обучение
train_mse, val_mse = train_and_validate(
    model=model,
    optimizer=optimizer,
    criterion=criterion,
    metric=metric,
    train_loader=train_loader,
    val_loader=val_loader,
    num_epochs=4
)

print(f"MSE_train: {train_mse:.2f}")
print(f"MSE_val: {val_mse:.2f}")

**Задание 1.5 (0.5 балла).** Получилось ли у вас стабилизировать обучение? Помогли ли меньшие значения `lr`? Стало ли лучше от замены классификации на регрессию? Как вы думаете, почему так происходит? В качестве подсказки можете посмотреть на распределение целевой переменной и магнитуду значений признаков.

**Ответ:**

Стабилизации обучения не произошло — значения MSE остаются гигантскими (millions), несмотря на падение loss.
Замена классификации на регрессию пока не улучшила результат, а даже ухудшила его (по сравнению с классификатором MSE ~193).



**Задание 1.6 (0.75 балла).** Начнем с того, что попробуем отнормировать целевую переменную. Для этого воспользуемся min-max нормализацией, чтобы целевая переменная принимала значения от 0 до 1. Реализуйте функции `normalize` и `denormalize`, которые, соответственно, нормируют целевую переменную и применяют обратное преобразование. Минимум и максимум оцените по обучающей выборке (то есть эти константы должны быть фиксированными и не зависеть от передаваемой выборки).

In [None]:
scaler = StandardScaler()

def normalize(sample):
  return scaler.fit_transform(y.reshape(-1, 1)).flatten()

def denormalize(sample):
  return scaler.inverse_transform(y_norm.reshape(-1, 1)).flatten()

Теперь повторите эксперимент из **задания 1.4**, обучаясь на нормированной целевой переменной. Сделаем также еще одно изменение: добавим [сигмоидную активацию](https://pytorch.org/docs/stable/generated/torch.nn.Sigmoid.html) после последнего линейного слоя сети. Таким образом мы гарантируем, что нейронная сеть предсказывает числа из промежутка $[0, 1]$. Использование активации - довольно распространенный прием, когда мы хотим получить числа из определенного диапазона значений.

In [None]:
# Проведем нормализацию
y_norm = normalize(y)

# Преобразуем данные в тензоры PyTorch
X_tensor = torch.tensor(X, dtype=torch.float32).to(device)
y_tensor = torch.tensor(y_norm.reshape(-1, 1), dtype=torch.float32).to(device)

# Создаем датасет и делим его на обучающую и валидационную части
dataset = TensorDataset(X_tensor, y_tensor)
train_size = int(0.8 * len(dataset))
val_size = len(dataset) - train_size
train_ds, val_ds = random_split(dataset, [train_size, val_size])

train_loader = DataLoader(train_ds, batch_size=64, shuffle=True)
val_loader = DataLoader(val_ds, batch_size=64)

# Запускаем модель
model = nn.Sequential(
    nn.Linear(X.shape[1], 128),
    nn.ReLU(),
    nn.Linear(128, 1),
    nn.Sigmoid()
).to(device)

# Оптимизатор и функция потерь
optimizer = optim.SGD(model.parameters(), lr=1e-2)
criterion = nn.MSELoss()

# Метрика MSE
metric = lambda pred, y: ((pred - y) ** 2).mean().item()

# Запускаем обучение
train_mse, val_mse = train_and_validate(
    model=model,
    optimizer=optimizer,
    criterion=criterion,
    metric=metric,
    train_loader=train_loader,
    val_loader=val_loader,
    num_epochs=4
)

print(f"MSE_train: {train_mse:.2f}")
print(f"MSE_val: {val_mse:.2f}")

# Проведем денормализацию
model.eval()
X_val_batch, y_val_batch = next(iter(val_loader))
X_val_batch = X_val_batch.to(device)
with torch.no_grad():
    y_pred_norm = model(X_val_batch).squeeze().cpu().numpy()

y_pred_real = denormalize(y_pred_norm)
y_val_real = denormalize(y_val_batch.squeeze().cpu().numpy())

val_mse_real = np.mean((y_pred_real - y_val_real) ** 2)
print(f"MSE_val (в годах): {val_mse_real:.2f}")

**Задание 1.7 (0.5 балла).** Сравните результаты этого эксперимента с предыдущим запуском.

**Ответ:**

Графики loss и MSE стали гладкими и стабильными, без взрывов или резких скачков.

**Задание 1.8 (0.75 балла).** На этот раз попробуем отнормировать не только целевую переменную, но и сами данные, которые подаются сети на вход. Для них будем использовать нормализацию через среднее и стандартное отклонение. Преобразуйте данные и повторите прошлый эксперимент. Скорее всего, имеет смысл увеличить число эпох обучения.

In [None]:
# Проведем нормализацию
X_mean = X.mean(axis=0)
X_std = X.std(axis=0) + 1e-8
X_norm = (X - X_mean) / X_std

y_norm = normalize(y)

# Преобразуем данные в тензоры PyTorch
X_tensor = torch.tensor(X_norm, dtype=torch.float32).to(device)
y_tensor = torch.tensor(y_norm.reshape(-1, 1), dtype=torch.float32).to(device)

# Создаем датасет и делим его на обучающую и валидационную части
dataset = TensorDataset(X_tensor, y_tensor)
train_size = int(0.8 * len(dataset))
val_size = len(dataset) - train_size
train_ds, val_ds = random_split(dataset, [train_size, val_size])

train_loader = DataLoader(train_ds, batch_size=64, shuffle=True)
val_loader = DataLoader(val_ds, batch_size=64)

# Запускаем модель
model = nn.Sequential(
    nn.Linear(X.shape[1], 128),
    nn.ReLU(),
    nn.Linear(128, 1),
    nn.Sigmoid()
).to(device)

# Оптимизатор и функция потерь
optimizer = optim.SGD(model.parameters(), lr=1e-2)
criterion = nn.MSELoss()

# Метрика MSE
metric = lambda pred, y: ((pred - y) ** 2).mean().item()

# Запускаем обучение
train_mse, val_mse = train_and_validate(
    model=model,
    optimizer=optimizer,
    criterion=criterion,
    metric=metric,
    train_loader=train_loader,
    val_loader=val_loader,
    num_epochs=10
)

print(f"MSE_train: {train_mse:.4f}")
print(f"MSE_val: {val_mse:.4f}")

# Проведем денормализацию
model.eval()
X_val_batch, y_val_batch = next(iter(val_loader))
X_val_batch = X_val_batch.to(device)
with torch.no_grad():
    y_pred_norm = model(X_val_batch).squeeze().cpu().numpy()

y_pred_real = denormalize(y_pred_norm)
y_val_real = denormalize(y_val_batch.squeeze().cpu().numpy())

val_mse_real = np.mean((y_pred_real - y_val_real) ** 2)
print(f"MSE_val (в годах): {val_mse_real:.2f}")

Если вы все сделали правильно, то у вас должно было получиться качество, сравнимое с `Ridge` регрессией.

**Мораль:** как видите, нам пришлось сделать очень много хитрых телодвижений, чтобы нейронная сеть работала хотя бы так же, как и простая линейная модель. Здесь, конечно, показан совсем экстремальный случай, когда без нормализации данных нейронная сеть просто не учится. Как правило, в реальности завести нейронную сеть из коробки не очень сложно, но вот заставить ее работать на полную &mdash; куда более трудоемкая задача. Написание пайплайнов обучения нейросетевых моделей требует большой аккуратности, а дебаг часто превращается в угадайку. К счастью, очень часто на помощь приходит интуиция, и мы надеемся, что вы сможете выработать ее со временем!

Начнем с двух советов, которые стоит принять на вооружение:

- Обязательно начинаем любые эксперименты с бейзлайнов: без них мы бы не поняли, что нейронная сеть не учится в принципе
- При постановке эксперментов старайтесь делать минимальное количество изменений за раз (в идеале одно!): только так можно понять, какие конкретно изменения влияют на результат

## Часть 2. Улучшаем нейронную сеть (5 баллов)

Продолжим экспериментировать с нейронной сетью, чтобы добиться еще лучшего качества.

**Задание 2.1 (1 балл).** Давайте попробуем другие оптимизаторы. Обучите нейросеть с помощью SGD+momentum и Adam. Опишите свои наблюдения и в дальнейших запусках используйте лучший оптимизатор. Для Adam обычно берут learning rate поменьше, в районе $10^{-3}$.

## sgd + momentum

In [None]:
model_sgd_momentum = nn.Sequential(
    nn.Linear(X.shape[1], 128),
    nn.ReLU(),
    nn.Linear(128, 1),
    nn.Sigmoid()
)

optimizer_sgd_momentum = optim.SGD(model_sgd_momentum.parameters(), lr=1e-2, momentum=0.9)

train_mse_sgd, val_mse_sgd = train_and_validate(
    model=model_sgd_momentum,
    optimizer=optimizer_sgd_momentum,
    criterion=criterion,
    metric=metric,
    train_loader=train_loader,
    val_loader=val_loader,
    num_epochs=10
)

print(f"[SGD + momentum] MSE_train: {train_mse_sgd:.4f}")
print(f"[SGD + momentum] MSE_val: {val_mse_sgd:.4f}")

model_sgd_momentum.eval()
X_val_batch, y_val_batch = next(iter(val_loader))
X_val_batch = X_val_batch.to(device)
with torch.no_grad():
    y_pred_norm = model_sgd_momentum(X_val_batch).squeeze().cpu().numpy()

y_pred_real = denormalize(y_pred_norm)
y_val_real = denormalize(y_val_batch.squeeze().cpu().numpy())

val_mse_real_sgd = np.mean((y_pred_real - y_val_real) ** 2)
print(f"[SGD + momentum] MSE_val (в годах): {val_mse_real_sgd:.2f}")

##Adam

In [None]:
model_adam = nn.Sequential(
    nn.Linear(X.shape[1], 128),
    nn.ReLU(),
    nn.Linear(128, 1),
    nn.Sigmoid()
).to(device)

optimizer_adam = optim.Adam(model_adam.parameters(), lr=1e-3)

train_mse_adam, val_mse_adam = train_and_validate(
    model=model_adam,
    optimizer=optimizer_adam,
    criterion=criterion,
    metric=metric,
    train_loader=train_loader,
    val_loader=val_loader,
    num_epochs=10
)

print(f"[Adam] MSE_train: {train_mse_adam:.4f}")
print(f"[Adam] MSE_val: {val_mse_adam:.4f}")

# Денормализация и подсчёт MSE в годах
model_adam.eval()
X_val_batch, y_val_batch = next(iter(val_loader))
X_val_batch = X_val_batch.to(device)
with torch.no_grad():
    y_pred_norm = model_adam(X_val_batch).squeeze().cpu().numpy()

y_pred_real = denormalize(y_pred_norm)
y_val_real = denormalize(y_val_batch.squeeze().cpu().numpy())

val_mse_real_adam = np.mean((y_pred_real - y_val_real) ** 2)
print(f"[Adam] MSE_val (в годах): {val_mse_real_adam:.2f}")

**Задание 2.2 (1 балл).** Теперь сделаем нашу нейронную сеть более сложной. Попробуйте сделать сеть:

- более широкой (то есть увеличить размерность скрытого слоя, например, вдвое)
- более глубокой (то есть добавить еще один скрытый слой)

Опишите, как увеличение числа параметров модели влияет на качество на обучающей и валидационной выборках.

## Более широкий вариант

In [None]:
model_wide = nn.Sequential(
    nn.Linear(X.shape[1], 256),
    nn.ReLU(),
    nn.Linear(256, 1),
    nn.Sigmoid()
).to(device)

optimizer_wide = optim.Adam(model_wide.parameters(), lr=1e-3)

train_mse_wide, val_mse_wide = train_and_validate(
    model=model_wide,
    optimizer=optimizer_wide,
    criterion=criterion,
    metric=metric,
    train_loader=train_loader,
    val_loader=val_loader,
    num_epochs=10
)

print(f"[Wide model] MSE_val: {val_mse_wide:.4f}")

model_wide.eval()
X_val_batch, y_val_batch = next(iter(val_loader))
X_val_batch = X_val_batch.to(device)
with torch.no_grad():
    y_pred_norm = model_wide(X_val_batch).squeeze().cpu().numpy()

y_pred_real = denormalize(y_pred_norm)
y_val_real = denormalize(y_val_batch.squeeze().cpu().numpy())
val_mse_real_wide = np.mean((y_pred_real - y_val_real) ** 2)
print(f"[Wide model] MSE_val (в годах): {val_mse_real_wide:.2f}")

## Модель с новым скрытым слоем

In [None]:
model_deep = nn.Sequential(
    nn.Linear(X.shape[1], 128),
    nn.ReLU(),
    nn.Linear(128, 64),
    nn.ReLU(),
    nn.Linear(64, 1),
    nn.Sigmoid()
).to(device)

optimizer_deep = optim.Adam(model_deep.parameters(), lr=1e-3)

train_mse_deep, val_mse_deep = train_and_validate(
    model=model_deep,
    optimizer=optimizer_deep,
    criterion=criterion,
    metric=metric,
    train_loader=train_loader,
    val_loader=val_loader,
    num_epochs=10
)

print(f"[Deep model] MSE_val: {val_mse_deep:.4f}")

model_deep.eval()
X_val_batch, y_val_batch = next(iter(val_loader))
X_val_batch = X_val_batch.to(device)

with torch.no_grad():
    y_pred_norm = model_deep(X_val_batch).squeeze().cpu().numpy()

y_pred_real = denormalize(y_pred_norm)
y_val_real = denormalize(y_val_batch.squeeze().cpu().numpy())
val_mse_real_deep = np.mean((y_pred_real - y_val_real) ** 2)
print(f"[Deep model] MSE_val (в годах): {val_mse_real_deep:.2f}")

**Вывод**: Судя по графикам есть переобучение у обоих моделей

**Задание 2.3 (1 балл).** Как вы должны были заметить, более сложная модель стала сильнее переобучаться. Попробуем добавить в обучение регуляризацию, чтобы бороться с переобучением. Добавьте слой дропаута ([`nn.Dropout`](https://pytorch.org/docs/stable/generated/torch.nn.Dropout.html#torch.nn.Dropout)) с параметром $p=0.2$ после каждого линейного слоя, кроме последнего. Почитать про дропаут можете в следующем [блогпосте](https://medium.com/@amarbudhiraja/https-medium-com-amarbudhiraja-learning-less-to-learn-better-dropout-in-deep-machine-learning-74334da4bfc5) или в оригинальной [статье](https://jmlr.org/papers/volume15/srivastava14a/srivastava14a.pdf)

Опишите результаты.

In [None]:
model_deep_dropout = nn.Sequential(
    nn.Linear(X.shape[1], 128),
    nn.ReLU(),
    nn.Dropout(p=0.2),
    nn.Linear(128, 64),
    nn.ReLU(),
    nn.Dropout(p=0.2),
    nn.Linear(64, 1),
    nn.Sigmoid()
).to(device)

X_mean = X.mean(axis=0)
X_std = X.std(axis=0) + 1e-8
X_norm = (X - X_mean) / X_std
y_norm = normalize(y)

X_tensor = torch.tensor(X_norm, dtype=torch.float32)
y_tensor = torch.tensor(y_norm.reshape(-1, 1), dtype=torch.float32)

dataset = TensorDataset(X_tensor, y_tensor)
train_size = int(0.8 * len(dataset))
val_size = len(dataset) - train_size
train_ds, val_ds = random_split(dataset, [train_size, val_size])

train_loader = DataLoader(
    train_ds, batch_size=1024, shuffle=True,
    num_workers=2, pin_memory=True, drop_last=True
)
val_loader = DataLoader(
    val_ds, batch_size=1024,
    num_workers=2, pin_memory=True
)

optimizer_dropout = optim.Adam(model_deep_dropout.parameters(), lr=1e-3)
criterion = nn.MSELoss()

metric = nn.MSELoss()

train_mse_dropout, val_mse_dropout = train_and_validate(
    model=model_deep_dropout,
    optimizer=optimizer_dropout,
    criterion=criterion,
    metric=metric,
    train_loader=train_loader,
    val_loader=val_loader,
    num_epochs=10
)

print(f"[Deep + Dropout] MSE_val: {val_mse_dropout:.4f}")

model_deep_dropout.eval()
X_val_batch, y_val_batch = next(iter(val_loader))
X_val_batch = X_val_batch.to(device)
with torch.no_grad():
    y_pred_norm = model_deep_dropout(X_val_batch).squeeze().cpu().numpy()

y_pred_real = denormalize(y_pred_norm)
y_val_real = denormalize(y_val_batch.squeeze().cpu().numpy())
val_mse_real_dropout = np.mean((y_pred_real - y_val_real) ** 2)
print(f"[Deep + Dropout] MSE_val (в годах): {val_mse_real_dropout:.2f}")

**Задание 2.4 (1.5 балла).** Теперь, когда мы определились с выбором архитектуры нейронной сети, пора заняться рутиной DL-инженера &mdash; перебором гиперпараметров. Подберите оптимальное значение lr по значению MSE на валидации (по логарифмической сетке, достаточно посмотреть 3-4 значения), можете воспользоваться `verbose=False` в функции `train_and_validate`.

Также подберем оптимальное значение параметра weight decay для данного lr. Weight decay &mdash; это аналог L2-регуляризации для нейронных сетей. Почитать о нем можно, например, [здесь](https://paperswithcode.com/method/weight-decay). В PyTorch он задается как параметр оптимизатора `weight_decay`. Подберите оптимальное значение weight decay по логарифимической сетке (его типичные значения лежат в диапазоне $[10^{-6}, 10^{-3}]$, но не забудьте включить нулевое значение в сетку).

Постройте графики зависимости MSE на трейне и на валидации от значений параметров. Прокомментируйте получившиеся зависимости.

In [None]:
# YOUR CODE HERE (－.－)...zzzZZZzzzZZZ

Как вы могли заметить, еще одна рутина DL-инженера &mdash; утомительное ожидание обучения моделей.

**Задание 2.5 (0.5 балла).** Мы провели большое число экспериментов и подобрали оптимальную архитектуру и гиперпараметры. Пришло время обучить модель на полной обучающей выборке, померять качество на тестовой выборке и сравнить с бейзлайнами. Проделайте это.

In [None]:
# YOUR CODE HERE (－.－)...zzzZZZzzzZZZ

## Кото-пост (0.1 балл)

Поделитесь эмоциями от практики и не забудьте прикрепить фотографию вашего помощника в этом домашнем задании!

...