### Немного теории

**U-Net: Архитектура для Сегментации Изображений**

**Основная идея:** U-Net - это архитектура сверточной нейронной сети, разработанная специально для задач **сегментации изображений**. Она отличается своей U-образной формой и способностью захватывать как контекст изображения (где находится объект), так и точное местоположение пикселей объекта.

**Ключевые особенности:**

*   **U-образная форма:** Архитектура состоит из двух основных частей:
    *   **Сжимающий путь (Encoder):** Левая часть U-образной формы. Он постепенно уменьшает пространственное разрешение признаков (размер карт признаков), извлекая контекстную информацию из изображения.
    *   **Расширяющий путь (Decoder):** Правая часть U-образной формы. Он постепенно увеличивает пространственное разрешение карт признаков, восстанавливая точное местоположение объектов.
*   **Сверточные слои (Convolutional Layers):** Используются для извлечения признаков из изображения.
*   **Слои макс-пулинга (Max-Pooling):** Используются в сжимающем пути для уменьшения разрешения признаков и улавливания более общего контекста.
*   **Слои транспонированной свертки (Transposed Convolution, Up-convolution):** Используются в расширяющем пути для увеличения разрешения карт признаков.
*   **Соединительные переходы (Skip Connections):** Ключевая особенность U-Net. Они соединяют соответствующие слои сжимающего и расширяющего путей. Это позволяет объединить контекстную информацию с информацией о точном местоположении.

**Алгоритм работы U-Net:**

1.  **Вход:** Изображение подается на вход сети.
2.  **Сжимающий путь (Encoder):**
    *   Изображение проходит через последовательность сверточных слоев и слоев макс-пулинга.
    *   На каждом этапе пространственное разрешение признаков уменьшается, а количество каналов увеличивается (за счет количества фильтров).
    *   На этом этапе происходит извлечение контекстных признаков изображения.
3.  **Переход к расширяющему пути:** На самом низком уровне U-образной формы.
4.  **Расширяющий путь (Decoder):**
    *   Карты признаков из сжимающего пути проходят через последовательность слоев транспонированной свертки и сверточных слоев.
    *   На каждом этапе пространственное разрешение признаков увеличивается.
    *   На этом этапе восстанавливается точное местоположение объектов на основе контекстных признаков.
    *   Происходит конкатенация ("склеивание") карт признаков с соответствующих слоев сжимающего пути с помощью соединительных переходов (skip connections).
5.  **Соединительные переходы (Skip Connections):**
    *   Карты признаков с соответствующих слоев сжимающего пути конкатенируются с картами признаков с расширяющего пути.
    *   Это позволяет передать информацию о точном местоположении из сжимающего пути в расширяющий, что помогает восстановить детализированную маску сегментации.
6.  **Выход:** На выходе получается карта сегментации (маска) того же размера, что и входное изображение, где каждый пиксель классифицируется как принадлежащий к определенному классу (например, объект или фон).

**Зачем нужны skip connections?**

*   Skip connections помогают решить проблему потери информации о местоположении пикселей в процессе свертки и пулинга.
*   Они позволяют объединить высокоуровневый контекст с низкоуровневыми деталями, что очень важно для точной сегментации.

**Применение U-Net:**

*   Медицинская визуализация (сегментация опухолей, органов).
*   Автономное вождение (сегментация дорожной сцены).
*   Спутниковые снимки (сегментация объектов на местности).
*   Обработка изображений в целом (сегментация объектов).

### Imports

In [1]:
import torch
import torch.nn as nn

### Class DoubleConv: Двойная свертка с активацией ReLU

Этот класс `DoubleConv` представляет собой модуль нейронной сети, реализующий последовательность из двух сверточных слоев с активацией ReLU после каждого слоя. 

Он используется как базовый строительный блок в более сложных архитектурах, таких как U-Net.

**Функциональность:**

`DoubleConv` принимает тензор входных данных и выполняет следующие операции:

1. **Первая свертка:** Применяет сверточный слой `conv1` с размером ядра 3x3 и отступом 1 к входному тензору. Это позволяет сохранить пространственные размеры на выходе.
2. **Активация ReLU:** Применяет функцию активации ReLU к результату первой свертки, внося нелинейность в модель.
3. **Вторая свертка:** Применяет сверточный слой `conv2` с размером ядра 3x3 и отступом 1 к результату предыдущего шага.  Количество входных и выходных каналов в этом слое равно `out_channels`.
4. **Активация ReLU:** Применяет функцию активации ReLU к результату второй свертки.

**Параметры:**

* `in_channels` (int): Количество входных каналов.
* `out_channels` (int): Количество выходных каналов.

**Методы:**

* `__init__(self, in_channels, out_channels)`: Конструктор класса.  Инициализирует два сверточных слоя `conv1` и `conv2` с заданными параметрами и функцию активации `ReLU`.
* `forward(self, x)`:  Выполняет прямой проход данных через модуль. Принимает входной тензор `x` и возвращает тензор `out` после применения двух сверток и активаций ReLU.

В этом примере создается экземпляр `DoubleConv` с 3 входными каналами и 64 выходными каналами.  Этот модуль может будет использован как часть более сложной нейронной сети.


In [8]:
class DoubleConv(nn.Module):
    def __init__(self, in_channels, out_channels):
        super().__init__()
        self.conv1 = nn.Conv2d(in_channels, out_channels, (3, 3), padding=1)
        self.conv2 = nn.Conv2d(out_channels, out_channels, (3,3), padding=1)
        self.act = nn.ReLU(True)

    def forward(self, x):
        x = self.conv1(x)
        x = self.act(x)
        x = self.conv2(x)
        out = self.act(x)

        return out

Class DownSample: Блок понижающей дискретизации с двойной сверткой

Класс `DownSample` представляет собой модуль нейронной сети, который выполняет понижающую дискретизацию (downsampling) входного тензора, комбинируя двойную свертку и операцию max pooling. Этот блок часто используется в архитектурах кодировщика, таких как U-Net, для уменьшения пространственных размеров и увеличения количества каналов.

**Функциональность:**

`DownSample` принимает тензор входных данных и выполняет следующие операции:

1. **Двойная свертка:** Применяет модуль `DoubleConv` (описанный ранее) к входному тензору. `DoubleConv` выполняет две последовательные свертки 3x3 с отступом 1 и активацией ReLU после каждого слоя.  Это позволяет извлечь более сложные признаки из входных данных.
2. **Max Pooling:** Применяет операцию `MaxPool2d` с размером ядра 2x2 и шагом 2 к результату двойной свертки. Это уменьшает пространственные размеры тензора в два раза по каждой оси (высота и ширина).

**Параметры:**

* `in_channels` (int): Количество входных каналов.
* `out_channels` (int): Количество выходных каналов для `DoubleConv`.

**Методы:**

* `__init__(self, in_channels, out_channels)`: Конструктор класса. Инициализирует модуль `DoubleConv` с заданными входными и выходными каналами, а также слой `MaxPool2d` с ядром 2x2.
* `forward(self, x)`: Выполняет прямой проход данных через модуль. Принимает входной тензор `x` и возвращает два тензора:
    * `out_double_conv`: Результат применения `DoubleConv` к входному тензору (до понижающей дискретизации).
    * `out_down`: Результат применения `MaxPool2d` к выходу `DoubleConv` (после понижающей дискретизации).  Этот тензор имеет уменьшенные пространственные размеры и `out_channels` каналов.

**Возвращаемые значения:**

* `out_double_conv`: Тензор с результатом двойной свертки.  Сохраняется для использования в skip connections в архитектурах типа U-Net.
* `out_down`: Тензор с результатом понижающей дискретизации. Используется в качестве входных данных для следующего блока в кодировщике.

В этом примере создается экземпляр `DownSample` с 3 входными каналами и 64 выходными каналами для `DoubleConv`. Этот модуль может быть использован как часть кодировщика в более сложной нейронной сети.


In [9]:
class DownSample(nn.Module):
    def __init__(self, in_channels, out_channels):
        super().__init__()
        self.double_conv = DoubleConv(in_channels, out_channels)
        self.down = nn.MaxPool2d(2)

    def forward(self, x):
        out_double_conv = self.double_conv(x)
        out_down = self.down(out_double_conv)

        return out_double_conv, out_down

### Class UpSample: Блок повышающей дискретизации с двойной сверткой

Класс `UpSample` представляет собой модуль нейронной сети, выполняющий повышающую дискретизацию (upsampling) входного тензора и конкатенацию с тензором из skip connection. Этот блок часто используется в архитектурах декодера, таких как U-Net, для увеличения пространственных размеров и комбинирования информации с более ранних слоев кодировщика.

**Функциональность:**

`UpSample` принимает два тензора в качестве входных данных:

* `x1`: Тензор с меньшими пространственными размерами, который нужно увеличить.  Это как правило, выход предыдущего слоя декодера.
* `x2`: Тензор из skip connection с соответствующего слоя кодировщика. Он имеет те же пространственные размеры, что и результат `x1` после upsampling.

`UpSample` выполняет следующие операции:

1. **Транспонированная свертка:** Применяет `ConvTranspose2d` (также известную как деконволюция) к тензору `x1`.  Это увеличивает пространственные размеры `x1` в два раза  с помощью заданного шага (stride) 2 и размера ядра 2x2.  Результат имеет `out_channels` каналов.
2. **Конкатенация:** Конкатенирует тензор `x1` после upsampling с тензором `x2` по оси каналов (dim=1).  Это объединяет информацию из skip connection с результатом upsampling.
3. **Двойная свертка:** Применяет модуль `DoubleConv` (описанный ранее) к конкатенированному тензору.  `DoubleConv` выполняет две последовательные свертки 3x3 с отступом 1 и активацией ReLU после каждого слоя. Это помогает сгладить артефакты upsampling и извлечь более сложные признаки из объединенной информации.

**Параметры:**

* `in_channels` (int): Количество входных каналов для `ConvTranspose2d`. Должно соответствовать количеству каналов в `x1`.
* `out_channels` (int): Количество выходных каналов для `ConvTranspose2d` и `DoubleConv`.

**Методы:**

* `__init__(self, in_channels, out_channels)`: Конструктор класса. Инициализирует слой транспонированной свертки `up` и модуль `DoubleConv` с заданными параметрами.
* `forward(self, x1, x2)`: Выполняет прямой проход данных через модуль. Принимает два входных тензора `x1` и `x2`, выполняет upsampling, конкатенацию и двойную свертку, и возвращает результирующий тензор `out`.

В этом примере создается экземпляр `UpSample`, который принимает тензор с 256 каналами, увеличивает его размер, конкатенирует с тензором из skip connection и применяет двойную свертку с 128 выходными каналами.  Этот модуль может быть использован как часть декодера в U-Net или подобной архитектуре.

In [10]:
class UpSample(nn.Module):
    def __init__(self, in_channels, out_channels):
        super().__init__()
        self.up = nn.ConvTranspose2d(in_channels, out_channels, (2,2), stride=2)
        self.double_conv = DoubleConv(in_channels, out_channels)

    def forward(self, x1, x2):
        x1 = self.up(x1)
        x = torch.cat([x1, x2], dim=1)
        out = self.double_conv(x)

        return out

### Class U-Net: Сегментационная нейронная сеть

Этот код реализует архитектуру U-Net, популярную сверточную нейронную сеть, предназначенную для задач сегментации изображений. U-Net имеет симметричную U-образную структуру, состоящую из кодировщика (downsampling path) и декодера (upsampling path). Кодировщик извлекает признаки из изображения, а декодер восстанавливает пространственное разрешение, комбинируя информацию из кодировщика с помощью skip connections.

**Архитектура:**

1. **Кодировщик (Downsampling Path):**
   - Состоит из четырех блоков `DownSample`. Каждый блок выполняет двойную свертку (`DoubleConv`) с последующим max pooling, уменьшая пространственное разрешение в два раза и увеличивая количество каналов.
   - Последовательность блоков `DownSample`: `down1` (64 канала), `down2` (128 каналов), `down3` (256 каналов), `down4` (512 каналов).

2. **Bottleneck:**
   - Модуль `DoubleConv` с 1024 каналами, расположенный в самой нижней части U-образной структуры.  Обрабатывает выход последнего блока кодировщика.

3. **Декодер (Upsampling Path):**
   - Состоит из четырех блоков `UpSample`. Каждый блок выполняет транспонированную свертку для увеличения пространственного разрешения в два раза, конкатенирует результат с соответствующим выходом из кодировщика (skip connection) и применяет `DoubleConv` для обработки объединенной информации.
   - Последовательность блоков `UpSample`: `up1` (512 каналов), `up2` (256 каналов), `up3` (128 каналов), `up4` (64 канала).  Обратите внимание, что количество каналов симметрично кодировщику.

4. **Выходной слой:**
   - Сверточный слой `out` с ядром 1x1, преобразующий 64 канала в `num_classes` выходных каналов.  Каждый канал соответствует определенному классу для сегментации.


**Параметры:**

* `in_channels` (int): Количество входных каналов (по умолчанию 3 для RGB изображений).
* `num_classes` (int): Количество классов для сегментации (по умолчанию 1 для бинарной сегментации).


**Методы:**

* `__init__(self, in_channels, num_classes)`: Конструктор, инициализирующий все слои U-Net.
* `forward(self, x)`: Выполняет прямой проход данных через сеть.


**Алгоритм работы U-Net:**

1. **Вход:** Изображение подается на вход сети.
2. **Кодировщик:** Изображение проходит через последовательность блоков `DownSample`, уменьшаясь в размере и увеличивая количество каналов. На каждом этапе сохраняется выход `DoubleConv` (до max pooling) для skip connections (`sk1`, `sk2`, `sk3`, `sk4`).
3. **Bottleneck:**  Самое сжатое представление изображения обрабатывается в bottleneck слое.
4. **Декодер:**  Выход bottleneck проходит через последовательность блоков `UpSample`. На каждом этапе:
    - Пространственное разрешение увеличивается с помощью транспонированной свертки.
    - Результат конкатенируется с соответствующим выходом из кодировщика (skip connection).
    - Объединенная информация обрабатывается `DoubleConv`.
5. **Выход:**  Финальный слой `out` производит карту сегментации с `num_classes` каналами.  Каждый пиксель на карте соответствует определенному классу.


**В заключение:** U-Net эффективно использует skip connections для комбинирования информации из разных уровней детализации, что позволяет получать точные результаты сегментации.  Архитектура широко применяется в медицинской обработке изображений, спутниковой съемке и других областях.


In [16]:
class Unet(nn.Module):
    def __init__(self, in_channels=3, num_classes=1):
        super().__init__()
        self.down1 = DownSample(in_channels, 64)
        self.down2 = DownSample(64, 128)
        self.down3 = DownSample(128, 256)
        self.down4 = DownSample(256, 512)

        self.bottleneck = DoubleConv(512, 1024)

        self.up1 = UpSample(1024, 512)
        self.up2 = UpSample(512, 256)
        self.up3 = UpSample(256, 128)
        self.up4 = UpSample(128, 64)

        self.out = nn.Conv2d(64, num_classes, (1,1))

    def forward(self, x):
        sk1, x = self.down1(x)
        sk2, x = self.down2(x)
        sk3, x = self.down3(x)
        sk4, x = self.down4(x)

        x = self.bottleneck(x)

        x = self.up1(x, sk4)
        x = self.up2(x, sk3)
        x = self.up3(x, sk2)
        x = self.up4(x, sk1)

        out = self.out(x)

        return out

In [17]:
model = Unet()
model

Unet(
  (down1): DownSample(
    (double_conv): DoubleConv(
      (conv1): Conv2d(3, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
      (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
      (act): ReLU(inplace=True)
    )
    (down): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (down2): DownSample(
    (double_conv): DoubleConv(
      (conv1): Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
      (conv2): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
      (act): ReLU(inplace=True)
    )
    (down): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (down3): DownSample(
    (double_conv): DoubleConv(
      (conv1): Conv2d(128, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
      (conv2): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
      (act): ReLU(inplace=True)
    )
    (down): MaxPool2d(kernel_size=2, stride=

In [19]:
inp = torch.rand([1, 3, 512, 512])

pred = model(inp)
print(pred.shape)

torch.Size([1, 1, 512, 512])
