In [3]:
import torch
import torch.nn as nn
import torchvision.transforms.functional as TF
from torchsummary import summary

In [25]:
#Первый класс для двойных конволюций
class DoubleConv(nn.Module):
    def __init__(self, in_channels, out_channels):
        super(DoubleConv, self).__init__()
        self.conv = nn.Sequential(
            nn.Conv2d(in_channels, out_channels, 3, 1, 0, bias=False),
            nn.BatchNorm2d(out_channels),
            nn.ReLU(inplace=True),
            nn.Conv2d(out_channels, out_channels, 3, 1, 0, bias=False),
            nn.BatchNorm2d(out_channels),
            nn.ReLU(inplace=True),
        )

    def forward(self, x):
        return self.conv(x)
    
class UNET(nn.Module):
    def __init__(
            self, in_channels=3, out_channels=1, features=[64, 128, 256, 512],
    ):
        super(UNET, self).__init__()
        #Собираем модули
        self.ups = nn.ModuleList() #Модуль для декодинга с повышением.
        self.downs = nn.ModuleList() #Модуль для энкодинга с понижением.
        self.pool = nn.MaxPool2d(kernel_size=2, stride=2) #Макс пул для понижения

        # Down part of UNET
        for feature in features:
            self.downs.append(DoubleConv(in_channels, feature)) #Тут просто применяем даблКонв
            in_channels = feature #Переприсваиваем размер карты признаков

        # Up part of UNET
        for feature in reversed(features):
            #Первая часть отвечает за Апсемплинг, обратный макспулинг. Так как у нас будет конкатенация
            #Карты признаков от скип.коннекшена, то первое значение умножаем на 2
            self.ups.append(
                nn.ConvTranspose2d(
                    feature*2, feature, kernel_size=2, stride=2,
                )
            )
            #Делаем ДаблКонв
            self.ups.append(DoubleConv(feature*2, feature))
        
        #Самая нижняя строка
        self.bottleneck = DoubleConv(features[-1], features[-1]*2)
        #Финальная конволюция с ядром 1х1
        self.final_conv = nn.Conv2d(features[0], out_channels, kernel_size=1)

    def forward(self, x):
        skip_connections = []
        #С помощью этого цикла проходимся и делаем все преобразования до нижнего уровня, и собираем скип.коннекшен
        for down in self.downs:
            x = down(x)
            skip_connections.append(x)
            x = self.pool(x)
        #Преобразования самого нижнего уровня
        x = self.bottleneck(x)
        #Реверс скипконнекшена
        skip_connections = skip_connections[::-1]
        
        #Цикл для поднятия. Смысл в том, что мы делаем шаг 2, так как у нас есть две операции. Даблконв и апсемплинг
        for idx in range(0, len(self.ups), 2):
            #Сначала мы делаем апсемплинг
            x = self.ups[idx](x)
            #Далее берем скипконнекшен и делем индекс на 2, чтобы брать его корректно
            skip_connection = skip_connections[idx//2]
            
            #Проверка на совпадение размеров экнодинга с декондингом перед контактенацией.
            #Тут важно понимать, что в классической модели размер изображения на декодинге меньше чем на экнодинге
            #Поэтому делаем ресайз 3 4 каналов энкодинга, то есть ресайзим размер изображения
            if x.shape != skip_connection.shape:
                skip_connection = TF.resize(skip_connection, size=x.shape[2:])
            
            #Конкатенируем карты признаков
            concat_skip = torch.cat((skip_connection, x), dim=1)
            #Применяем ДаблКонв к конкатенируемому элементу, причем берем индексы 1/3/5 и т.д.
            x = self.ups[idx+1](concat_skip)

        return self.final_conv(x)


In [26]:
vgg = UNET(1, 1)
summary(vgg, (1, 572, 572))

x.shape torch.Size([2, 512, 56, 56])
skip_connection torch.Size([2, 512, 64, 64])
x.shape torch.Size([2, 256, 104, 104])
skip_connection torch.Size([2, 256, 136, 136])
x.shape torch.Size([2, 128, 200, 200])
skip_connection torch.Size([2, 128, 280, 280])
x.shape torch.Size([2, 64, 392, 392])
skip_connection torch.Size([2, 64, 568, 568])
----------------------------------------------------------------
        Layer (type)               Output Shape         Param #
            Conv2d-1         [-1, 64, 570, 570]             576
       BatchNorm2d-2         [-1, 64, 570, 570]             128
              ReLU-3         [-1, 64, 570, 570]               0
            Conv2d-4         [-1, 64, 568, 568]          36,864
       BatchNorm2d-5         [-1, 64, 568, 568]             128
              ReLU-6         [-1, 64, 568, 568]               0
        DoubleConv-7         [-1, 64, 568, 568]               0
         MaxPool2d-8         [-1, 64, 284, 284]               0
            Conv2d-9 