# 0. Вступление

Тестовое задание. Ориентировочное время выполнения 2 часа.
Классификация изображений на датасете MNIST
Цель: Разработать и обучить простую нейронную сеть для классификации рукописных цифр на датасете MNIST (https://huggingface.co/datasets/ylecun/mnist).
Требования:
Обеспечение точности модели не менее 80% на тестовом наборе данных.
Предоставление краткого отчета с описанием архитектуры модели, процесса обучения и результатов (с расшифровкой метрик).
Можно использовать готовые архитектуры.

# 1. Импорт библиотек:

In [1]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, Dataset
from torchvision import transforms
from datasets import load_dataset
from PIL import Image

# 2. Загрузка датасета MNIST:

In [2]:
# Загружаем датасет MNIST
dataset = load_dataset("ylecun/mnist")

# 3. Определение преобразований для подготовки данных:

In [3]:
# Преобразования для подготовки данных
transform = transforms.Compose([
    transforms.ToTensor(),  # Преобразуем изображения в тензоры
    transforms.Normalize((0.5,), (0.5,))  # Нормализуем значения пикселей (0-1)
])

 - transforms.ToTensor() — преобразует изображение в тензор, делая его значениями от 0 до 1 (изначально изображения имеют значения от 0 до 255).
 - transforms.Normalize((0.5,), (0.5,)) — нормализует изображение, приводя его к диапазону от -1 до 1, применяя нормализацию с заданным средним и стандартным отклонением.

# 4. Создание кастомного датасета:

In [4]:
# Кастомный Dataset для использования с DataLoader
class MNISTDataset(Dataset):
    def __init__(self, dataset, transform=None):
        self.dataset = dataset
        self.transform = transform

    def __len__(self):
        return len(self.dataset)

    def __getitem__(self, idx):
        image = self.dataset[idx]['image']
        label = self.dataset[idx]['label']
        
        # Преобразуем изображение с помощью трансформаций
        if self.transform:
            image = self.transform(image)

        return image, label

 - MNISTDataset — класс, наследующий Dataset, который позволяет работать с данными в PyTorch.
 - __init__ передаем датасет.
 - __len__ — возвращает количество элементов в датасете.
 - __getitem__ — загружает изображение и его метку, а затем применяет к изображению трансформации.

# 5. Применение преобразований и создание датасетов:

In [5]:
# Применяем преобразования
train_dataset = MNISTDataset(dataset['train'], transform)
test_dataset = MNISTDataset(dataset['test'], transform)

 - Применяем преобразования к обучающему и тестовому датасетам.
 - train_dataset и test_dataset теперь содержат изображения, преобразованные в тензоры и нормализованные.

# 6. Создание DataLoader для тренировки и теста:

In [6]:
train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=32)

- Создаем DataLoader, который будет загружать данные из train_dataset и test_dataset.
- Параметр batch_size=32 определяет размер батча.
- shuffle=True для обучения, чтобы данные перемешивались перед каждой эпохой.

# 7. Определение модель (MLP):

In [7]:
# Определяем модель
class MLPModel(nn.Module):
    def __init__(self):
        super(MLPModel, self).__init__()
        self.flatten = nn.Flatten()
        self.fc1 = nn.Linear(28 * 28, 128)  # Первый скрытый слой (MNIST изображения 28x28)
        self.fc2 = nn.Linear(128, 64)
        self.fc3 = nn.Linear(64, 10)  # 10 классов для цифр от 0 до 9

    def forward(self, x):
        x = self.flatten(x)
        x = torch.relu(self.fc1(x))
        x = torch.relu(self.fc2(x))
        x = self.fc3(x)
        return x

- MLPModel — простая полносвязная нейронная сеть (MLP — Multilayer Perceptron).
- Сеть состоит из:
    - Flatten — преобразует изображение размером 28x28 в одномерный вектор.
    - fc1, fc2, fc3 — полносвязные слои.
    - ReLU — активационная функция, применяется после каждого скрытого слоя.
- На выходе fc3 — 10 нейронов, соответствующих 10 классам (цифры от 0 до 9).

# 8. Создание экземпляра модели и настройка:

In [8]:
# Создаем экземпляр модели
model = MLPModel()

# Определяем функцию потерь и оптимизатор
loss_fn = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

MLPModel(
  (flatten): Flatten(start_dim=1, end_dim=-1)
  (fc1): Linear(in_features=784, out_features=128, bias=True)
  (fc2): Linear(in_features=128, out_features=64, bias=True)
  (fc3): Linear(in_features=64, out_features=10, bias=True)
)

- model — создаем экземпляр модели.
- loss_fn — функция потерь: CrossEntropyLoss для многоклассовой классификации.
- optimizer — оптимизатор Adam с шагом обучения 0.001.
- device — определяем устройство (GPU, если доступен, иначе CPU) для ускорения вычислений.

# 9. Обучение модели:

In [9]:
num_epochs = 10
for epoch in range(num_epochs):
    model.train()  # Включаем режим обучения
    total_loss = 0
    for batch in train_loader:
        images, labels = batch
        images, labels = images.to(device), labels.to(device)

        # Прямой проход
        outputs = model(images)
        loss = loss_fn(outputs, labels)

        # Обратный проход
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        total_loss += loss.item()

    avg_loss = total_loss / len(train_loader)
    print(f"Эпоха {epoch + 1}/{num_epochs}, Средняя потеря: {avg_loss:.4f}")

Эпоха 1/10, Средняя потеря: 0.3518
Эпоха 2/10, Средняя потеря: 0.1715
Эпоха 3/10, Средняя потеря: 0.1295
Эпоха 4/10, Средняя потеря: 0.1101
Эпоха 5/10, Средняя потеря: 0.0965
Эпоха 6/10, Средняя потеря: 0.0829
Эпоха 7/10, Средняя потеря: 0.0758
Эпоха 8/10, Средняя потеря: 0.0686
Эпоха 9/10, Средняя потеря: 0.0640
Эпоха 10/10, Средняя потеря: 0.0598


- Обучение модели на протяжении 5 эпох.
- В каждой эпохе:
    - Переходим в режим обучения с помощью model.train().
    - Для каждого батча из train_loader:
        - Переносим изображения и метки на выбранное устройство (в моем случае CPU).
        - Выполняем инференс.
        - Вычисляем потери с помощью функции потерь.
        - Выполняем Backpropagation и обновляем параметры модели.
- Выводим среднюю потерю для каждой эпохи.

# 10. Оценка модели на тестовом наборе:

In [10]:
model.eval()  # Включаем режим оценки
correct = 0
total = 0
with torch.no_grad():
    for batch in test_loader:
        images, labels = batch
        images, labels = images.to(device), labels.to(device)

        # Прогнозы
        outputs = model(images)
        _, predicted = torch.max(outputs, 1)

        total += labels.size(0)
        correct += (predicted == labels).sum().item()

accuracy = correct / total * 100
print(f"Точность на тестовом наборе: {accuracy:.2f}%")


Точность на тестовом наборе: 97.16%


- Переключаем модель в оценочный режим с помощью model.eval().
- torch.no_grad() — отключаем вычисление градиентов, так как они не нужны для оценки.
- Для каждого батча из test_loader:
    - Получаем прогнозы от модели.
    - Сравниваем предсказанные метки с реальными и подсчитываем количество правильных предсказаний.
- Вычисляем точность модели на тестовой выборке.