# Часть 1. Введение

  #### **Задача**

Требуется предложить модель, сегментирующую окурок сигареты на фотографии.
- На вход конечная программа должна принимать цветную фотографию (3 канала: R G B) размером 512x512 пикселей. 
- Возвращает программа маску окурка сигареты размером 512x512 пикселей (1 канал).
- Оценка алгоритма сегментации: индекс Сёренсена-Дайса (Dice coefficient)
- Dataset сформирован и разделен на: 

    - real_test содержит фотографии 512x512x3
    - train/images содержит фотографии 512x512x3
    - train/coco_annotations.json содержит аннотации в формате COCO
    - val/images содержит фотографии 512x512x3
    - val/coco_annotations.json содержит аннотации в формате COCO


#### **Поиск оптимального пути исследования**

Для выполнения задачи будет использован метод **семантической сегментации** изображений, под этим методом подразумевается разделение изображения на отдельные группы пикселей, области, соответствующие одному объекту (порой с одновременным определением типа объекта в каждой области).

В рамках задачи будут выполнены следующие шаги: 

- обработка и анализ изображений (препроцессинг и аугментация)
- реализация свёрточной нейронной сети (Convolutional Neural Network (CNN))
- валидация модели

## 1.1 Литературный обзор

В рамках поставленной задачи я изучил ряд статей и книг со схематичным разбором генеральных идей, актуальных на 2020 год.

**Определение** 

В компьютерном зрении, **сегментация** - это процесс разделения цифрового изображения на несколько сегментов (множество пикселей, также называемых суперпикселями). Цель сегментации заключается в упрощении и/или изменении представления изображения, чтобы его было проще и легче анализировать.

В основе сегментации лежит попиксельная работа с изображением с присваиванием каждому пикселю определенной метки, затем пиксели в соответствии со своими метками обьединяются алгоритмом в один класс, визуализацией которого является объект. 

Как следствие, сегментация изображений обычно используется для того, чтобы выделить объекты и границы (линии, кривые, и т. д.) на изображениях. Более точно, сегментация изображений — это процесс присвоения таких меток каждому пикселю изображения, что пиксели с одинаковыми метками имеют общие визуальные характеристики.

Результатом сегментации изображения является множество сегментов, которые вместе покрывают всё изображение, или множество контуров, выделенных из изображения. Все пиксели в сегменте похожи по некоторой характеристике или вычисленному свойству, например, по цвету, яркости или текстуре. Соседние сегменты значительно отличаются по этой характеристике.

**Классификация**

В статье "A Simple Guide to Semantic Segmentation", которую можно изучить по ссылке https://medium.com/beyondminds/a-simple-guide-to-semantic-segmentation-effcf83e7e54, сегментацию подразделяют на **семантическую сегментацию** и **инстанс-сегментация**. В рамках поставленной задачи последовательно была изучена именно семантическая сегментация. 

Классические **методы** сегментации: (для методов глубокого обучения указана **архитектура**)

- Без машинного обучения
    - Сегментация на основе градации серого (ручное кодирование правил или свойств, которым должна удовлетворять область, чтобы ей можно было приписать определенную метку)
    -  Условные случайные поля
- С использованием глубокого обучения
    - Gолносверточная сеть
    - U-Net (**U-Net: Convolutional Networks for Biomedical Image Segmentation** https://arxiv.org/pdf/1505.04597.pdf)
    - Модель тирамису (**Densely Connected Convolutional Networks** https://arxiv.org/pdf/1608.06993.pdf)
    - Модель расширенных сверток (**Pyramid Scene Parsing Network** https://arxiv.org/pdf/1612.01105.pdf)
    - Гибридные методы

**Семантическая сегментация в современных исследованиях**

Как таковая, семантическая сегментация является лишь частью потока обработки изображений (workflow). Согласно статье "Метод поиска эффективной последовательности алгоритмов обработки медицинских данных при сегментации анатомических структур сердца", которую можно изучить по ссылке https://www.graphicon.ru/html/2017/papers/pp258-263.pdf, сегментация находится в цикле (указаны и **алгоритмы**, применяемые на каждом из этапов):

- Этап фильтрации (удаление цифрового шума)
    - медианный фильтр
    - фильтр полной вариации
    - билатеральный фильтр
    - фильтр потока кривизны
    - фильтр нелокального среднего
    - фильтр сдвига среднего
- Этап повышения резкости (повышение визуальной чёткости изображения)
    - метода нерезкого маскирования
    - метод деконволюции
- Этап сегментации
    - сегментация водоразделами **(WaterShed)**
    - кластеризация
    - сегментация выращиванием регионов
    - морфологическая сегментация
    - сегментация на основе графов
    - сегментация на основе графов
- Этап оценки точности работы алгоритмов (вычисление метрик)
    - индекс Сёренсена-Дайса
    - индекс Жаккара
- Этап пост-процессинга (обработка связанных областей после сегментации)

**Mask R-CNN: архитектура современной нейронной сети для сегментации объектов на изображениях** 

## 1.2 Выбор подходящей модели

**U-net: нейросеть для сегментации изображений**

U-Net считается одной из стандартных архитектур CNN для задач сегментации изображений, когда нужно не только определить класс изображения целиком, но и сегментировать его области по классу, т. е. создать маску, которая будет разделять изображение на несколько классов.

Архитектура состоит из стягивающего пути для захвата контекста и симметричного расширяющегося пути, который позволяет осуществить точную локализацию.

Сеть обучается сквозным способом на небольшом количестве изображений и превосходит предыдущий наилучший метод (сверточную сеть со скользящим окном) на соревновании ISBI по сегментации нейронных структур в электронно-микроскопических стеках. Используя ту же сеть, которая была обучена на изображениях световой микроскопии пропускания (фазовый контраст и DIC), U-Net заняла первое место в конкурсе ISBI 2015 года по трекингу клеток в этих категориях с большим отрывом. Кроме того, эта сеть работает быстро. Сегментация изображения 512×512 занимает менее секунды на современном графическом процессоре. 

**Таким образом, использование архитектуры U-net видится мне наиболее подходящим вариантом для решения поставленной задачи** (см рис.).

Для U-Net хатактерно:

- достижение высоких результатов в различных реальных задачах, особенно для биомедицинских приложений
- использование небольшого количества данных для достижения хороших результатов

**Мы располагаем 2000 объектов тренисовочного датасета, так что в проведении дополнительной аугментации надобности нет**.

Из статьи "U-Net: Convolutional Networks for Biomedical Image Segmentation" мы можем обнаружить, что **сеть U-Net достигает без какого-либо препроцессинга или постпроцессинга ошибки warping error, равной 0,0003529**, что может избавить нас от утомительного препроцессинга.

In [10]:
from IPython.display import Image
from IPython.core.display import HTML
Image(url= "https://lmb.informatik.uni-freiburg.de/people/ronneber/u-net/u-net-architecture.png")

## 1.3 Архитектура сети U-Net

**U-Net: нейросеть для сегментации изображений** https://neurohive.io/ru/vidy-nejrosetej/u-net-image-segmentation/

Реализацию U-net предполагаю осуществлять по частям. 

**Кодировщик** Один блок кодировщика состоит из следующих слоев:

1. свертка
2. активация (будем использовать ELU)
3. дропаута
4. свертка
5. активация 
6. maxpooling

**Декодировщик** Один блок декодировщика состоит последовательно из следующих слоев:

1. транспонированная свертка
2. конкатенация
3. свертка
4. активация
5. дропаут
6. свертка
7. активация


# Часть 2. Подготовка данных

## 2.1 Данные

- синтетически сгенерированная фотография окурка сигареты
- маска, определяющая окурок на фотографии
- координаты ограничивающего окурок бокса

Для выполнения задачи будет осуществлен ряд операций с исходным датасетом:

1. Необходимо осуществить препроцессинг данных **test** и **train**
- аугментация проводиться не будет (2000 объектов)
- будет проведена нормализация и стандартизация
    - по методике https://github.com/blueberrymusic/DeepLearningBookCode-Volume1/blob/master/Chapter12-DataPreparation/DataPrep-Notebook-1.ipynb
- будет проведена корректировка дисперсии
    
