# Введение

Сегментация изображений применяется для анализа медицинских изображений (например, определение границ раковых опухолей), в беспилотных автомобилях (например, для навигации на дороге и выявлении пешеходов), видеонаблюдения, дополненнной реальности и решения многих других задач. Одними из первых алгоритмов сегментации изображений были histogram-based bundling [1], thresholding (перевод изображения в градациях серого к бинарному) [2], метод k-средних [3], watersheds[4], active contour model [5] и ряд других методов. Однако в последнее время в связи с активным развитием методов глубокого обучения стали успешно развиваться методы сегментации изображения на основе сетей глубокого обучения. 

В общих чертах задача сегментации изображений сводится к задаче классификации пикселей изображения по выбранным меткам/классам (semantic segmentation и instance segmentation). Среди методов сегментации изображений на основе глубоких сетей могут быть выделены следующие группы[6]:

1. Fully convolutional networks[7];

2. Convolutional models with graphical models[8];

3. Encoder-decoder based models[9];

4. Multi-scale and pyramid network based models[10];

5. R-CNN based models (for instance segmentation)[11];

6. Dilated convolutional models and DeepLab family[12];

7. Recurrent neural network based models[13];

8. Attention-based models[14];

9. Generative models and adversarial training[15];

10. Convolutional models with active contour model[16];


Одними из наиболее часто используемых моделей являются U-Net[17] и Mask R-CNN[18].


# Литература

1. G. Thomas. Image segmentation using histogram specification. 15th IEEE International Conference on Image Processing, 2008.

2. N. Otsu, “A threshold selection method from gray-level histograms,” IEEE transactions on systems, man, and cybernetics, vol. 9, no. 1, pp. 62–66, 1979.

3. N. Dhanachandra, K. Manglem, and Y. J. Chanu, “Image segmentation using k-means clustering algorithm and subtractive clustering algorithm,” Procedia Computer Science, vol. 54, pp. 764–771, 2015.

4. L. Najman and M. Schmitt, “Watershed of a continuous function,” Signal Processing, vol. 38, no. 1, pp. 99–112, 1994.

5. M. Kass, A. Witkin, and D. Terzopoulos, “Snakes: Active contour models,” International journal of computer vision, vol. 1, no. 4, pp. 321–331, 1988.
    
6. S. Minaee, Y. Boykov, F. Porikli, A. Plaza, N. Kehtarnavaz, D. Terzopoulos. Image Segmentation Using Deep Learning: A Survey. arXiv:2001.05566v2
        
7. J. Long, E. Shelhamer, and T. Darrell, “Fully convolutional networks for semantic segmentation,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 3431–3440.

8. L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille, “Semantic image segmentation with deep convolutional nets and fully connected crfs,” arXiv preprint arXiv:1412.7062, 2014.

9. H. Noh, S. Hong, and B. Han, “Learning deconvolution network for semantic segmentation,” in Proceedings of the IEEE international conference on computer vision, 2015, pp. 1520–1528.

10. T.-Y. Lin, P. Doll´ar, R. Girshick, K. He, B. Hariharan, and S. Belongie, “Feature pyramid networks for object detection,” in Proceedings of the IEEE conference on computer vision and pattern
recognition, 2017, pp. 2117–2125.

11. K. He, G. Gkioxari, P. Doll´ar, and R. Girshick, “Mask r-cnn,” Proceedings of the IEEE international conference on computer vision, 2017, pp. 2961–2969.

12. L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille, “Semantic image segmentation with deep convolutional nets and fully connected crfs,” arXiv preprint arXiv:1412.7062, 2014.

13. F. Visin, M. Ciccone, A. Romero, K. Kastner, K. Cho, Y. Bengio, M. Matteucci, and A. Courville, “Reseg: A recurrent neural network-based model for semantic segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2016, pp. 41–48.
    
14. L.-C. Chen, Y. Yang, J. Wang, W. Xu, and A. L. Yuille, “Attention to scale: Scale-aware semantic image segmentation,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 3640–3649.
    
15. P. Luc, C. Couprie, S. Chintala, and J. Verbeek, “Semantic segmentation using adversarial networks,” arXiv preprint arXiv:1611.08408, 2016.    
    
16. T. H. N. Le, K. G. Quach, K. Luu, C. N. Duong, and M. Savvides, “Reformulating level sets as deep recurrent neural network approach to semantic segmentation,” IEEE Transactions on Image
Processing, vol. 27, no. 5, pp. 2393–2407, 2018.

17. Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-Net: Convolutional Networks for Biomedical Image Segmentation. arXiv:1505.04597v1.
        
18. Kaiming He Georgia Gkioxari Piotr Doll´ar Ross Girshick. Mask R-CNN, arXiv:1703.06870v3.         






### Предобработка данных

Предобработка данных зависит от постановки задачи и исходных данных. 
Однако наиболее часто предобработка состоит из усреднения изображения с целью подавления шумов, исключение из изображения несущественных по размеру деталей и центрирование объектов на изображении. Исходя из того что оптимальной является линейная функция изменения интенсивности пикселей изображения, а изображения часто являются малоконтрастными, то линеаризация яркости изображения позволяет улучшить его качество.

В случае небольшого набора данных можно дополнить исходные изображения их трансформациями, а именно изображениями полученными при повороте, сдвиге по вертикале/горизонтале, приближении/удалении, комбинации нескольких изображений (можно реализовать с помощью ImageDataGenerator), перевороты изображения, 

### Построение модели

За основу можно взять модель уже применявшуюся для решения такого рода задач (в случае необходимости поменять число слоёв) и подобрать параметры оптимальным образом:
- выбрать наиболее подходящий оптимизатор (SGD, Adam, AdamW, Adamax, SparseAdam, ASGD, LBFGS, RMSprop, Rprop и др.), используя сначала рекомендуемые параметры оптимизатора;
- выбрать подходящую активационную функцию (ReLu, сигмоида, гиперболический тангенс, softmax и др.);
- подобрать скорость обучения;
- подходящую инициализацию весов (kaiming, xavier);
- проследить будет ли наблюдаться переобучение модели;
- определить число эпох обучения достаточных для получения требуемой точности предсказаний модели.

In [17]:
import os
os.chdir("..")

import cv2
import json
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from PIL import Image

from glob import glob # модуль для работы с путями

from lib import *
# встраивание изображений в тетрадку
%matplotlib inline  

In [25]:
# создание маски
def get_masks(img_dir, img_id, img_anns, coco):
    """
    Creates image masks for people in the image. mask_all contains all masked people, mask_miss contains
    only the masks for people without keypoints.
    """
    img_path = os.path.join(img_dir, "%012d.jpg" % img_id)
    img = cv2.imread(img_path)
    h, w, c = img.shape

    mask_all = np.zeros((h, w), dtype=np.uint8)
    mask_miss = np.zeros((h, w), dtype=np.uint8)

    flag = 0
    for p in img_anns:
        if p["iscrowd"] == 1:
            mask_crowd = coco.annToMask(p)
            temp = np.bitwise_and(mask_all, mask_crowd)
            mask_crowd = mask_crowd - temp
            flag += 1
            continue
        else:
            mask = coco.annToMask(p)

        mask_all = np.bitwise_or(mask, mask_all)
        if p["num_keypoints"] <= 0:
            mask_miss = np.bitwise_or(mask, mask_miss)

    if flag < 1:
        mask_miss = np.logical_not(mask_miss)
    elif flag == 1:
        mask_miss = np.logical_not(np.bitwise_or(mask_miss, mask_crowd))
        mask_all = np.bitwise_or(mask_all, mask_crowd)
    else:
        raise Exception("crowd segments > 1")

    mask_miss = mask_miss.astype(np.uint8)
    mask_miss *= 255

    mask_all = mask_all.astype(np.uint8)
    mask_all *= 255

    return img, mask_miss, mask_all

In [None]:
# Пописывание пути к данным и загрузка изображений
path = "C:/Disk_D/machine_learning/mipt_machine_learning/InternshipTestTask-master/cig_butts/train"
images = os.listdir(f"{path}/images")
annotations = json.load(open(f"{path}/coco_annotations.json", "r"))
img_id = int(np.random.choice(images).split(".")[0])

img = np.array(Image.open(f"{path}/images/{img_id:08}.jpg"))
mask = get_mask(img_id, annotations)
show_img_with_mask(img, mask)

In [None]:
# Модель U-net (из https://www.kaggle.com/dhananjay3/image-segmentation-from-scratch-in-pytorch)
class double_conv(nn.Module):
    """(conv => BN => ReLU) * 2"""

    # описание слоёв нейронной сети
    def __init__(self, in_ch, out_ch):
        super(double_conv, self).__init__()
        self.conv = nn.Sequential(
            nn.Conv2d(in_ch, out_ch, 3, padding=1), # 1-й свёрточный слой
            nn.BatchNorm2d(out_ch), # нормализация
            nn.ReLU(inplace=True), # добавление нелинейности с помощью функции активации
            nn.Conv2d(out_ch, out_ch, 3, padding=1), # 2-й свёрточный слой
            nn.BatchNorm2d(out_ch),
            nn.ReLU(inplace=True),
        )

    #
    def forward(self, x):
        x = self.conv(x)
        return x


class inconv(nn.Module):
    def __init__(self, in_ch, out_ch):
        super(inconv, self).__init__()
        self.conv = double_conv(in_ch, out_ch)

    def forward(self, x):
        x = self.conv(x)
        return x


class down(nn.Module):
    def __init__(self, in_ch, out_ch):
        super(down, self).__init__()
        self.mpconv = nn.Sequential(nn.MaxPool2d(2), double_conv(in_ch, out_ch))

    def forward(self, x):
        x = self.mpconv(x)
        return x


class up(nn.Module):
    def __init__(self, in_ch, out_ch, bilinear=True):
        super(up, self).__init__()

        if bilinear:
            self.up = nn.Upsample(scale_factor=2, mode="bilinear", align_corners=True)
        else:
            self.up = nn.ConvTranspose2d(in_ch // 2, in_ch // 2, 2, stride=2)

        self.conv = double_conv(in_ch, out_ch)

    def forward(self, x1, x2):
        x1 = self.up(x1)

        # input is CHW
        diffY = x2.size()[2] - x1.size()[2]
        diffX = x2.size()[3] - x1.size()[3]

        x1 = F.pad(x1, (diffX // 2, diffX - diffX // 2, diffY // 2, diffY - diffY // 2))
        
        x = torch.cat([x2, x1], dim=1)
        return self.conv(x)


class outconv(nn.Module):
    def __init__(self, in_ch, out_ch):
        super(outconv, self).__init__()
        self.conv = nn.Conv2d(in_ch, out_ch, 1)

    def forward(self, x):
        x = self.conv(x)
        return x


class UNet(nn.Module):
    def __init__(self, n_channels, n_classes):
        super(UNet, self).__init__()
        self.inc = inconv(n_channels, 64)
        self.down1 = down(64, 128)
        self.down2 = down(128, 256)
        self.down3 = down(256, 512)
        self.down4 = down(512, 512)
        self.up1 = up(1024, 256, False)
        self.up2 = up(512, 128, False)
        self.up3 = up(256, 64, False)
        self.up4 = up(128, 64, False)
        self.outc = outconv(64, n_classes)

    def forward(self, x):
        x1 = self.inc(x)
        x2 = self.down1(x1)
        x3 = self.down2(x2)
        x4 = self.down3(x3)
        x5 = self.down4(x4)
        x = self.up1(x5, x4)
        x = self.up2(x, x3)
        x = self.up3(x, x2)
        x = self.up4(x, x1)
        x = self.outc(x)
        return torch.sigmoid(x)

In [None]:
# настройка параметров обучения
criterion = BCEDiceLoss(eps=1.0, activation=None) #
optimizer = RAdam(model.parameters(), lr = 0.005) # задаём оптимизатор (в данной случае rectified Adam, но можно попробовать любой другой) и скорость скорость обучения
current_lr = [param_group['lr'] for param_group in optimizer.param_groups][0]
scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, factor=0.2, patience=2, cooldown=2)

In [None]:
# обучение модели
n_epochs = 32 # число эпох обучения
train_loss_list = []
valid_loss_list = []
dice_score_list = []
lr_rate_list = []
valid_loss_min = np.Inf # track change in validation loss
for epoch in range(1, n_epochs+1):

    # keep track of training and validation loss
    train_loss = 0.0
    valid_loss = 0.0
    dice_score = 0.0
    ###################
    # train the model #
    ###################
    model.train()
    bar = tq(train_loader, postfix={"train_loss":0.0})
    for data, target in bar:
        # move tensors to GPU if CUDA is available
        if train_on_gpu:
            data, target = data.cuda(), target.cuda()
        # clear the gradients of all optimized variables
        optimizer.zero_grad()
        # forward pass: compute predicted outputs by passing inputs to the model
        output = model(data)
        # calculate the batch loss
        loss = criterion(output, target)
        #print(loss)
        # backward pass: compute gradient of the loss with respect to model parameters
        loss.backward()
        # perform a single optimization step (parameter update)
        optimizer.step()
        # update training loss
        train_loss += loss.item()*data.size(0)
        bar.set_postfix(ordered_dict={"train_loss":loss.item()})
    ######################    
    # validate the model #
    ######################
    model.eval()
    del data, target
    with torch.no_grad():
        bar = tq(valid_loader, postfix={"valid_loss":0.0, "dice_score":0.0})
        for data, target in bar:
            # move tensors to GPU if CUDA is available
            if train_on_gpu:
                data, target = data.cuda(), target.cuda()
            # forward pass: compute predicted outputs by passing inputs to the model
            output = model(data)
            # calculate the batch loss
            loss = criterion(output, target)
            # update average validation loss 
            valid_loss += loss.item()*data.size(0)
            dice_cof = dice_no_threshold(output.cpu(), target.cpu()).item()
            dice_score +=  dice_cof * data.size(0)
            bar.set_postfix(ordered_dict={"valid_loss":loss.item(), "dice_score":dice_cof})
    
    # calculate average losses
    train_loss = train_loss/len(train_loader.dataset)
    valid_loss = valid_loss/len(valid_loader.dataset)
    dice_score = dice_score/len(valid_loader.dataset)
    train_loss_list.append(train_loss)
    valid_loss_list.append(valid_loss)
    dice_score_list.append(dice_score)
    lr_rate_list.append([param_group['lr'] for param_group in optimizer.param_groups])
    
    # print training/validation statistics 
    print('Epoch: {}  Training Loss: {:.6f}  Validation Loss: {:.6f} Dice Score: {:.6f}'.format(
        epoch, train_loss, valid_loss, dice_score))
    
    # save model if validation loss has decreased
    if valid_loss <= valid_loss_min:
        print('Validation loss decreased ({:.6f} --> {:.6f}).  Saving model ...'.format(
        valid_loss_min,
        valid_loss))
        torch.save(model.state_dict(), 'model_cifar.pt')
        valid_loss_min = valid_loss
    
    scheduler.step(valid_loss)

In [None]:
# построение метрик
plt.figure(figsize=(10,10))
plt.plot([i[0] for i in lr_rate_list])
plt.ylabel('learing rate during training', fontsize=22)
plt.show()

# построение loss
plt.figure(figsize=(10,10))
plt.plot(train_loss_list,  marker='o', label="Training Loss")
plt.plot(valid_loss_list,  marker='o', label="Validation Loss")
plt.ylabel('loss', fontsize=22)
plt.legend()
plt.show()

# метрика Dice
plt.figure(figsize=(10,10))
plt.plot(dice_score_list)
plt.ylabel('Dice score')
plt.show()