# Семантическая Сегментация

Семантическая сегментация - это процесс, когда каждый пиксель исходного изображения связывается с меткой класса, то есть для каждого пикселя изображения мы можем сказать, какой класс он показывает. Классом может быть всё, что угодно, например: кошка, цветок, лев, человек и т.д. 

Семантическую сегментацию можно рассматривать как классификацию изображений на уровне пикелей. Следовательно, при семантической сегментации каждый пиксель изображения должен быть связан с определённой меткой класса. 

<p align="center">
    <img src="https://github.com/serykhelena/PYGuides/blob/main/notebooks/assets/cv_19.jpeg?raw=true" alt="drawing" width="500"/>
</p>

## Semantic Segmentation vs. Instance Segmentation

Давайте рассмотрим пример, где у нас есть картинка с 6-ю людьми на ней. 

<p align="center">
    <img src="https://github.com/serykhelena/PYGuides/blob/main/notebooks/assets/cv_20.jpg?raw=true" alt="drawing" width="500"/>
</p>

Детекция объектов позволила бы найти 6 людей и присвоить им всем один клас - "человек", и нарисовать вокруг каждого из них ограничивающий прямоугольник (Bounding box). 

Семантическая сегментация идёт глубже и создаёт общую маску для людей, класс всё ещё остаётся единым для всех - "человек". 

Instance Segmentation - это более сложный вариант, где для каждого человека будет своя собственная маска и свой собственный класс. 

## Где используется семантическая сегментация? 

Семантическая сегментация используется в тех областях, где требуется глубокое понимание изображения. Например: 

* диагностика заболеваний путём сегментации клеток и тканей (медицина)
* навигация в беспилотных автомобилях 
* разделение передного и заднего планов при редактировании фото и видео (Photoshop, и т.п.)
* разработка роботов, которые могут перемещаться и взаимодействовать с объектами в окружающей среде 

## Описание подходов семантической сегментации

Один из подходов, используемых при сегментации изображений - это метод кодирования-декодирования (encoder-decoder). 

Кодировщик состоит из набора слоёв, которые извлекают элементы из изображения с помощью фильтров. 
Во многих случаях кодировщик предварительно обучается такой задаче, как классификация изображений, где он изучает корреляции из нескольких изображений. Эти знания затем могут быть переданы в процессе сегментации изображения. 

Окончательный результат, представляющий собой маску сегментации, генерируется декодером. 
Декодер состоит из слоёв, отвечающих за генерацию окончательного вывода. Декодер также гарантирует, что сгенерированная маска имеет сходство с разрешением в пикселях входного изображения.

<p align="center">
    <img src="https://github.com/serykhelena/PYGuides/blob/main/notebooks/assets/cv_21.jpg?raw=true" alt="drawing" width="500"/>
</p>

## Как размечать данные для семантической сегментации? 

Чтобы обучить модель сегментации, нужно разметить данные. Разметка данных - это всегда довольно муторный и трудозатратный процесс, так как чем больше данных увидит модель, тем лучше она обучится.

Автоматическая разметка - это прям отдельный класс задач, которые всё ещё не решены. Поэтому наиболее надёжным способом разметки данных всё ещё является старая добрая ручная разметка. 

Размечать можно как угодно, хоть в Paint, главное придерживаться формата, например, для сегментации, разметка должна быть в виде истинной маски. 

К счастью есть готовые сервисы/инструменты, которые помогают размечать данные более удобно, нежели, чем в Paint: 

* [Labelbox](https://labelbox.com/blog/introducing-image-segmentation/)
* [Supervisely](https://supervise.ly/)
* [Fritz AI](https://www.fritz.ai/)
* [RectLabel](https://rectlabel.com/)
* [Anolytics](https://www.anolytics.ai/semantic-segmentation-services/)
* [Playment](https://www.playment.io/semantic-segmentation-tool)
* [Appen](https://appen.com/)
* [Scale.io](https://scale.com/)

## Полезные датасеты 

Сейчас работа с сегментацией изображений стала проще благодаря наличию данных для сегментации изображений. 
Более того, некоторые из них уже встроены в некоторые фреймворки для глубокого обучения.

### COCO

[Coco](https://cocodataset.org/#home) состоит из 330 тыс. изображений, 200 тыс. из которых уже размечены (то есть содержат маски и соотвествующие им классы). 
Изначально этот датасет включал в себя 91 класс объектов, которые вы можете увидеть в повседневной жизни - животные, машины, люди, диваны и т.д. Но в [документации](https://tech.amikelive.com/node-718/what-object-categories-labels-are-in-coco-dataset/) написано, что в релизы 2014 и 2017 годов вошли только 80 классов (что всё ещё довольно много).

> Там же в документации есть ссылки на GitHub и общие инструкции для получения данных.

<p align="center">
    <img src="https://github.com/serykhelena/PYGuides/blob/main/notebooks/assets/coco.png?raw=true" alt="drawing" width="700"/>
</p>

### PASCAL Visual Object Classes (PASCAL VOC)

[PASCAL Visual Object Classes](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/#data) состояит из 20 разных классов и 24640 аннотированных (размеченных) объекта.
В общем, этот датасет состоит из 9963 изображений. 

<p align="center">
    <img src="https://github.com/serykhelena/PYGuides/blob/main/notebooks/assets/pascal.png?raw=true" alt="drawing" width="700"/>
</p>

### Waymo

[Этот датасет](https://github.com/waymo-research/waymo-open-dataset) содержит данные с датчиков с высоким разрешением, которые были собраны беспилотниками Waymo.

<p align="center">
    <img src="https://github.com/serykhelena/PYGuides/blob/main/notebooks/assets/waymo.png?raw=true" alt="drawing" width="700"/>
</p>


### Cityscapes Dataset

[Этот датасет](https://www.cityscapes-dataset.com/dataset-overview/) состоит из 30 классов, 50 городов и 5 000 размеченных изображений. 

<p align="center">
    <img src="https://github.com/serykhelena/PYGuides/blob/main/notebooks/assets/cityscapes.png?raw=true" alt="drawing" width="700"/>
</p>

### Cambridge-driving Labeled Video Database — CamVid

[Этот датасет](http://mi.eng.cam.ac.uk/research/projects/VideoRec/CamVid/) представляет собой коллекцию видео с разметкой по семантическим классам. Всего состоит из 32 классов. 

<p align="center">
    <img src="https://github.com/serykhelena/PYGuides/blob/main/notebooks/assets/camvid.jpg?raw=true" alt="drawing" width="700"/>
</p>

### The Berkeley Segmentation Dataset and Benchmark

[Данный датасет](https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/bsds/) состоит из 12 тыс. вручную размеченных изображений (из 1000 [Corel](https://sites.google.com/site/dctresearch/Home/content-based-image-retrieval) данных)

## Крутые архитектуры для задач сегментации

### U-Net

При обучении [данная сеть](https://lmb.informatik.uni-freiburg.de/people/ronneber/u-net/) сильно опирается на аугментацию данных, чтобы более эффективно использовать изображения. 

<p align="center">
    <img src="https://github.com/serykhelena/PYGuides/blob/main/notebooks/assets/unet.png?raw=true" alt="drawing" width="700"/>
</p>

Для оценки качества работы модели часто используется метрика IoU (intersection-over-union). Данная метрика измеряет перекрытие между истинной и предсказанной масками. 

$$ IoU = \frac{\text{Area of Overlap}}{\text{Area of Union}} $$

Соответственно, чем выше значение метрики IoU, тем лучше работает модель. 

Среднее значение IuO для U-Net: 92%

### FastFCN — Fast Fully-connected network

Подробное описание архитектуры модели представлено [здесь](https://github.com/wuhuikai/FastFCN). 

<p align="center">
    <img src="https://github.com/serykhelena/PYGuides/blob/main/notebooks/assets/fastfcn.png?raw=true" alt="drawing" width="700"/>
</p>

Среднее значение IuO для FastFCN: 53.13%

### Mask R-CNN

Это модель является расширением архитектуры FastFCN. 


## Полезные ссылки 

* [Исходная статья](https://cnvrg.io/semantic-segmentation/)
* [Хабр статья - Deep Learning — как это работает? Часть 4](https://habr.com/ru/post/513444/)