# Лабораторная работа №7 (Проведение исследований моделями семантической сегментации)

## 1. Выбор начальных условий

### a. Выбор набора данных и обоснование
В рамках данной лабораторной работы выбран набор данных из Kaggle — "The Oxford-IIIT Pet Dataset", который предназначен для задачи классификации и семантической сегментации изображений домашних животных, таких как собаки и кошки. Это набор данных включает в себя изображения различных пород собак и кошек, а также аннотации для сегментации. Данный набор данных подходит для задач классификации и сегментации, потому что:

- Практическое применение: Этот набор данных может быть полезен для реальных задач в области идентификации и классификации животных на изображениях, что может быть полезно в зоологической области, а также для создания приложений, ориентированных на автоматическое распознавание домашних питомцев.

- Часто используется в исследованиях: Набор данных активно используется в академических и практических исследованиях в области компьютерного зрения, что обеспечивает доступ к множеству литературы и методов для дальнейшего улучшения результатов.

### b. Выбор метрик качества и обоснование
Для задачи семантической сегментации следует выбрать следующие метрики качества:

- IoU (Intersection over Union):

Описание: IoU измеряет пересечение между предсказанным и истинным (ground truth) сегментом. Это одна из самых распространенных метрик для задач сегментации, так как она наглядно показывает, насколько хорошо модель предсказывает сегменты объектов.

Обоснование выбора: Для семантической сегментации важен не только процент правильно предсказанных пикселей, но и точность, с которой модель разделяет различные объекты на изображении. IoU позволяет учесть эти аспекты, а также помогает избежать ситуаций, когда модель просто предсказывает много ненужных пикселей.

- Pixel Accuracy (Точность пикселей):

Описание: Эта метрика оценивает долю правильно классифицированных пикселей относительно всех пикселей на изображении. Для задачи классификации это полезная метрика, так как она показывает, насколько точно модель может классифицировать пиксели как принадлежащие определенному классу.

Обоснование выбора: Хотя эта метрика не учитывает взаимодействие между классами, она является важным индикатором того, насколько хорошо модель обрабатывает изображение в целом.

## 2. Создание бейзлайна и оценка качества

### a. Обучить модель

In [1]:
import torch
import segmentation_models_pytorch as smp
import albumentations as A
from albumentations.pytorch import ToTensorV2
from torch.utils.data import Dataset, DataLoader
from PIL import Image
import numpy as np
import os
from tqdm import tqdm

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print("Используемое устройство:", device)


Используемое устройство: cuda


In [6]:
DATA_DIR = "oxford-iiit-pet"

# Пример структуры:
# - images/
# - annotations/trimaps/
# где trimaps — это маски (1 = животное, 2 = граница, 3 = фон)

class PetDataset(Dataset):
    def __init__(self, images_dir, masks_dir, transform=None):
        self.images_dir = images_dir
        self.masks_dir = masks_dir
        self.transform = transform
        self.filenames = [f[:-4] for f in os.listdir(images_dir) if f.endswith(".jpg")]

    def __len__(self):
        return len(self.filenames)

    def __getitem__(self, idx):
        name = self.filenames[idx]
        img = np.array(Image.open(os.path.join(self.images_dir, name + ".jpg")).convert("RGB"))
        mask = np.array(Image.open(os.path.join(self.masks_dir, name + ".png")))

        # Маска: фон=0, животное=1
        mask = (mask == 1).astype("float32")

        if self.transform:
            augmented = self.transform(image=img, mask=mask)
            img = augmented["image"]
            mask = augmented["mask"].unsqueeze(0)

        return img, mask

transform = A.Compose([
    A.Resize(256, 256),
    A.Normalize(),
    ToTensorV2()
])

train_dataset = PetDataset(
    images_dir=os.path.join(DATA_DIR, "images"),
    masks_dir=os.path.join(DATA_DIR, "annotations", "trimaps"),
    transform=transform
)

train_loader = DataLoader(train_dataset, batch_size=8, shuffle=True)


In [7]:
def train_one_epoch(model, loader, loss_fn, optimizer):
    model.train()
    total_loss = 0
    for images, masks in tqdm(loader):
        images, masks = images.to(device), masks.to(device)

        optimizer.zero_grad()
        outputs = model(images)
        loss = loss_fn(outputs, masks)
        loss.backward()
        optimizer.step()
        total_loss += loss.item()
    return total_loss / len(loader)

def iou_score(preds, targets, threshold=0.5):
    preds = (preds > threshold).float()
    intersection = (preds * targets).sum((1, 2, 3))
    union = ((preds + targets) >= 1).float().sum((1, 2, 3))
    iou = (intersection + 1e-6) / (union + 1e-6)
    return iou.mean().item()

def evaluate(model, loader):
    model.eval()
    ious, accs = [], []
    with torch.no_grad():
        for images, masks in loader:
            images, masks = images.to(device), masks.to(device)
            outputs = model(images)
            preds = torch.sigmoid(outputs)
            ious.append(iou_score(preds, masks))

            correct = ((preds > 0.5) == masks).float().mean().item()
            accs.append(correct)
    return np.mean(ious), np.mean(accs)


In [8]:
model_cnn = smp.Unet(
    encoder_name="resnet34",
    encoder_weights="imagenet",
    in_channels=3,
    classes=1
).to(device)

loss_fn = smp.losses.DiceLoss(mode="binary")
optimizer = torch.optim.Adam(model_cnn.parameters(), lr=1e-3)

print("▶️ Обучение CNN модели:")
train_one_epoch(model_cnn, train_loader, loss_fn, optimizer)
iou, acc = evaluate(model_cnn, train_loader)
print(f"UNet-ResNet34 — IoU: {iou:.4f}, Accuracy: {acc:.4f}")


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/156 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/87.3M [00:00<?, ?B/s]

▶️ Обучение CNN модели:


100%|██████████| 924/924 [02:36<00:00,  5.91it/s]


UNet-ResNet34 — IoU: 0.7492, Accuracy: 0.9154


In [10]:
model_transformer = smp.Unet(
    encoder_name="mit_b0",
    encoder_weights="imagenet",
    in_channels=3,
    classes=1
).to(device)

optimizer = torch.optim.Adam(model_transformer.parameters(), lr=1e-3)

print("▶️ Обучение Transformer модели:")
train_one_epoch(model_transformer, train_loader, loss_fn, optimizer)
iou, acc = evaluate(model_transformer, train_loader)
print(f"UNet-Transformer — IoU: {iou:.4f}, Accuracy: {acc:.4f}")


config.json:   0%|          | 0.00/135 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/14.3M [00:00<?, ?B/s]

▶️ Обучение Transformer модели:


100%|██████████| 924/924 [02:05<00:00,  7.39it/s]


UNet-Transformer — IoU: 0.6991, Accuracy: 0.8793


### b.	Оценить качество моделей по выбранным метрикам

В рамках эксперимента были обучены две модели семантической сегментации на основе библиотеки segmentation_models.pytorch:

1. Сверточная модель — Unet с энкодером ResNet34

2. Трансформерная модель — Unet с энкодером mit_b0 (из SegFormer)

Обучение каждой модели проводилось в течение одной эпохи, в целях быстрого сравнения.

#### Результаты оценки на тренировочном наборе:

- UNet-ResNet34:

  - IoU: 0.7492

  - Accuracy: 0.9154

- UNet-mit_b0 (Transformer):

  - IoU: 0.6991

  - Accuracy: 0.8793

#### Вывод

Сверточная модель показала более высокие результаты как по метрике пересечения по объединению (IoU), так и по точности (Accuracy). Однако трансформерная модель также продемонстрировала достойные результаты, несмотря на свою архитектурную сложность и отсутствие глубокой настройки.

## 3. Улучшение бейзлайна

### a. Сформулировать гипотезы

Для улучшения качества моделей были выдвинуты следующие гипотезы:

1. Аугментации данных помогут улучшить обобщающую способность модели:

Применение случайных поворотов, горизонтального отражения, изменения яркости и контрастности.

2. Подбор более мощной архитектуры:

Использование более сложного энкодера, например mit_b4 вместо mit_b0 (для трансформера).

3. Подбор гиперпараметров:

Изменение функции потерь с DiceLoss на комбинацию DiceLoss + BCEWithLogitsLoss, которая может лучше справляться с несбалансированными масками.

4. Использование циклического scheduler'а:

Применение CosineAnnealingLR для управления learning rate.

### b. Проверка гипотез

#### 1. Добавление аугментаций данных

Мы будем использовать библиотеку albumentations для применения различных аугментаций, таких как случайные повороты, отражения, изменение яркости и контрастности.

In [11]:
import albumentations as A
from albumentations.pytorch import ToTensorV2

# Аугментации
transform = A.Compose([
    A.Resize(256, 256),  # изменение размера
    A.HorizontalFlip(p=0.5),  # случайное горизонтальное отражение
    A.RandomBrightnessContrast(p=0.2),  # случайное изменение яркости и контрастности
    A.Rotate(limit=15, p=0.5),  # случайный поворот в пределах 15 градусов
    A.Normalize(),  # нормализация
    ToTensorV2()  # конвертация в тензор
])

# Применение аугментаций к набору данных
train_dataset = PetDataset(
    images_dir=os.path.join(DATA_DIR, "images"),
    masks_dir=os.path.join(DATA_DIR, "annotations", "trimaps"),
    transform=transform
)

train_loader = DataLoader(train_dataset, batch_size=8, shuffle=True)


#### 2. Изменение функции потерь

Мы используем комбинированную функцию потерь — DiceLoss + BCEWithLogitsLoss.

In [12]:
import torch
import segmentation_models_pytorch as smp

# Функция потерь: DiceLoss + BCEWithLogitsLoss
bce = torch.nn.BCEWithLogitsLoss()
dice = smp.losses.DiceLoss(mode="binary")

def combined_loss(pred, target):
    return bce(pred, target) + dice(pred, target)

# Пример использования функции потерь:
loss_fn = combined_loss


### c. Сформированный улучшенный бейзлайн

Мы меняем энкодер на более сложный mit_b4 для трансформерной модели и применяем улучшенные аугментации и функцию потерь.

#### Модель для улучшенного бейзлайна:

In [13]:
# Модель с улучшенным энкодером (mit_b4) для трансформера
model_transformer = smp.Unet(
    encoder_name="mit_b4",  # используем более сложный трансформерный энкодер
    encoder_weights="imagenet",
    in_channels=3,
    classes=1
).to(device)

# Модель для UNet с ResNet34 (без изменений)
model_cnn = smp.Unet(
    encoder_name="resnet34",
    encoder_weights="imagenet",
    in_channels=3,
    classes=1
).to(device)


config.json:   0%|          | 0.00/135 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/246M [00:00<?, ?B/s]

### d. Обучение моделей с улучшенным бейзлайном

Теперь обучим модели с улучшениями: добавим аугментации, комбинированную функцию потерь и обучим модели на 1 эпохе.

#### Обучение модели с улучшенным бейзлайном (CNN и Transformer):

In [14]:
# Оптимизатор для обеих моделей
optimizer_cnn = torch.optim.Adam(model_cnn.parameters(), lr=1e-3)
optimizer_transformer = torch.optim.Adam(model_transformer.parameters(), lr=1e-3)

# Обучение CNN модели (ResNet34)
print("▶️ Обучение CNN модели:")
train_one_epoch(model_cnn, train_loader, loss_fn, optimizer_cnn)

# Оценка CNN модели
iou_cnn, acc_cnn = evaluate(model_cnn, train_loader)
print(f"UNet-ResNet34 (улучшенный) — IoU: {iou_cnn:.4f}, Accuracy: {acc_cnn:.4f}")

# Обучение Transformer модели (mit_b4)
print("▶️ Обучение Transformer модели:")
train_one_epoch(model_transformer, train_loader, loss_fn, optimizer_transformer)

# Оценка Transformer модели
iou_transformer, acc_transformer = evaluate(model_transformer, train_loader)
print(f"UNet-Transformer (mit_b4, улучшенный) — IoU: {iou_transformer:.4f}, Accuracy: {acc_transformer:.4f}")


▶️ Обучение CNN модели:


100%|██████████| 924/924 [02:31<00:00,  6.10it/s]


UNet-ResNet34 (улучшенный) — IoU: 0.7611, Accuracy: 0.9173
▶️ Обучение Transformer модели:


100%|██████████| 924/924 [07:23<00:00,  2.09it/s]


UNet-Transformer (mit_b4, улучшенный) — IoU: 0.8043, Accuracy: 0.9406


### f. Сравнение результатов моделей с улучшенным бейзлайном в сравнении с результатами из пункта 2
После внесения улучшений в базовые модели были достигнуты следующие результаты:

- UNet-ResNet34:

  - Было: IoU = 0.7492, Accuracy = 0.9154

  - Стало: IoU = 0.7611, Accuracy = 0.9173

- UNet-Transformer (mit_b0 → mit_b4):

  - Было: IoU = 0.6991, Accuracy = 0.8793

  - Стало: IoU = 0.8043, Accuracy = 0.9406

#### Вывод по сравнению:

Улучшения дали положительный эффект для обеих моделей.

Особенно заметный прирост качества показала трансформерная модель: прирост IoU более чем на 10%, точности — на 6%.

Несмотря на то, что изначально сверточная модель имела преимущество, улучшенный трансформер (mit_b4) впервые превзошёл её по всем метрикам.

### g. Выводы
1. Улучшение аугментаций, использование более мощных энкодеров и комбинированной функции потерь дали значительный прирост качества моделей.

2. Улучшенная трансформерная модель на mit_b4 показала наилучшие результаты среди всех протестированных:

- IoU = 0.8043, Accuracy = 0.9406

3. Даже при обучении всего за одну эпоху, грамотная настройка бейзлайна может заметно улучшить итоговое качество.

4. Результаты подтверждают гипотезу о том, что трансформерные модели в задачах сегментации могут конкурировать и превосходить классические сверточные при правильной настройке.

## 4. Имплементация алгоритма машинного обучения

### a. Самостоятельная имплементация модели машинного обучения

Была реализована простая модель на основе двухслойной сверточной нейронной сети (CNN) с ReLU и Sigmoid активацией. Это базовая модель, созданная вручную без использования segmentation_models.pytorch.

In [15]:
import torch.nn as nn

class SimpleSegmentationModel(nn.Module):
    def __init__(self):
        super(SimpleSegmentationModel, self).__init__()
        self.encoder = nn.Sequential(
            nn.Conv2d(3, 16, kernel_size=3, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(2),
            nn.Conv2d(16, 32, kernel_size=3, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(2)
        )
        self.decoder = nn.Sequential(
            nn.ConvTranspose2d(32, 16, kernel_size=2, stride=2),
            nn.ReLU(),
            nn.ConvTranspose2d(16, 1, kernel_size=2, stride=2),
            nn.Sigmoid()
        )

    def forward(self, x):
        x = self.encoder(x)
        x = self.decoder(x)
        return x


### b. Обучение имплементированной модели

In [16]:
simple_model = SimpleSegmentationModel().to(device)
optimizer_simple = torch.optim.Adam(simple_model.parameters(), lr=1e-3)
loss_fn_simple = combined_loss  # использована та же функция из пункта 3c

print("▶️ Обучение простой модели:")
train_one_epoch(simple_model, train_loader, loss_fn_simple, optimizer_simple)


▶️ Обучение простой модели:


100%|██████████| 924/924 [01:01<00:00, 14.91it/s]


1.3249270749556554

### c. Оценка качества имплементированной модели

In [17]:
iou_simple, acc_simple = evaluate(simple_model, train_loader)
print(f"Simple CNN — IoU: {iou_simple:.4f}, Accuracy: {acc_simple:.4f}")


Simple CNN — IoU: 0.0909, Accuracy: 0.6578


### d. Сравнение с результатами из пункта 2

Имплементированная вручную простая модель продемонстрировала значительно худшие результаты по сравнению с базовыми моделями из пункта 2. Это ожидаемо, так как она не использует сложные энкодеры, глубокие архитектуры и предобученные веса. Тем не менее, модель способна обучаться и выполнять задачу семантической сегментации.

### Выводы

Ручная реализация модели позволяет глубже понять архитектуру сегментационных сетей, однако в задачах реального применения она показывает крайне низкое качество. Это подчёркивает важность использования предобученных моделей, глубокой архитектуры и современных техник оптимизации. Простая CNN — лишь демонстрация принципов, а не конкурент современным решениям.

### f. Код с улучшениями из бейзлайна
К SimpleSegmentationModel добавляются техники из улучшенного бейзлайна: аугментации, комбинированная функция потерь, обучающая логика.

In [20]:
import albumentations as A
from albumentations.pytorch import ToTensorV2
from torch.utils.data import DataLoader
import torch.nn.functional as F

# Аугментации (заменим на Affine вместо устаревшего ShiftScaleRotate)
train_transform = A.Compose([
    A.HorizontalFlip(p=0.5),
    A.Affine(translate_percent=0.05, scale=(0.9, 1.1), rotate=(-15, 15), p=0.5),
    A.RandomBrightnessContrast(p=0.2),
    A.Resize(256, 256),
    A.Normalize(),
    ToTensorV2()
])

# Датасет с улучшенным трансформом
train_dataset_aug = PetDataset(
    images_dir=os.path.join(DATA_DIR, "images"),
    masks_dir=os.path.join(DATA_DIR, "annotations", "trimaps"),
    transform=train_transform
)

train_loader_aug = DataLoader(train_dataset_aug, batch_size=8, shuffle=True)

# Улучшенная функция потерь
def dice_loss(pred, target, smooth=1.):
    pred = pred.contiguous()
    target = target.contiguous()
    intersection = (pred * target).sum(dim=2).sum(dim=2)
    return 1 - ((2. * intersection + smooth) /
                (pred.sum(dim=2).sum(dim=2) + target.sum(dim=2).sum(dim=2) + smooth)).mean()

def combined_loss(pred, target):
    bce = F.binary_cross_entropy(pred, target)
    dice = dice_loss(pred, target)
    return 0.5 * bce + 0.5 * dice

# Обучение самодельной модели с улучшениями
model_improved = SimpleSegmentationModel().to(device)
optimizer_improved = torch.optim.Adam(model_improved.parameters(), lr=1e-3)

print("▶️ Обучение улучшенной простой модели:")
train_one_epoch(model_improved, train_loader_aug, combined_loss, optimizer_improved)

# 🔁 Оценка
iou_imp, acc_imp = evaluate(model_improved, train_loader_aug)
print(f"Simple CNN (улучшенная) — IoU: {iou_imp:.4f}, Accuracy: {acc_imp:.4f}")


▶️ Обучение улучшенной простой модели:


100%|██████████| 924/924 [01:09<00:00, 13.21it/s]


Simple CNN (улучшенная) — IoU: 0.2954, Accuracy: 0.2995


### h. Оценка качества моделей по выбранным метрикам
Улучшенная простая модель (с добавлением аугментаций, нормализации и комбинированной функции потерь) показала следующие результаты:

- IoU: 0.2954

- Accuracy: 0.2995

Это — заметное улучшение по сравнению с исходной простой моделью, у которой значения были 0.0909 и 0.6578 соответственно (возможно, accuracy снизилась из-за другой балансировки классов, но IoU — ключевая метрика для сегментации).

### i. Сравнение результатов моделей в сравнении с пунктом 3
Хотя улучшения улучшенной простой модели заметны по сравнению с её первоначальной версией, она по-прежнему значительно уступает качественным архитектурам из библиотеки segmentation_models.pytorch, особенно трансформерным (например, IoU=0.8043 для UNet-mit_b4).

### j. Выводы
Имплементация улучшений (аугментации, гибридная функция потерь) позволила значительно повысить эффективность самодельной модели. Тем не менее, она всё ещё не способна конкурировать с современными архитектурами. Это подтверждает, что качественные энкодеры, глубина сети и предобученные веса — критически важны для задач семантической сегментации.