# Roadmap для решения задачи "Вырезание людей с фона в фотостудии и замена на зарезервированный фон"


## Цель проекта
Создать эффективный и точный процесс автоматизированного вырезания людей с оригинального фона и размещения их на заранее подготовленном фоне, с учетом естественной интеграции объекта (теней, освещения, перспективы)


## План проекта

Roadmap должен состоять из этапов выполнения проекта со стороны CV-специалиста: исследование, прототип, тестирование, внедрение, оптимизация. Подробнее этапы описаны ниже.

1. **Исследование**  
1.1. Анализ доступных решений для вырезания объектов с фона (нейронные сети, библиотеки, облачные сервисы, open-source решения).  
1.2. Исследование технологий реалистичного совмещения объектов с новым фоном (учет теней, освещения и глубины).  
1.3. Выборк метрик для оценки:  
1.3.1. Точность вырезания.  
1.3.2. Реалистичность совмещения с новым фоном (шумы, границы, соответствие освещению).  
1.3.3. Среднее время обработки одного изображения.  
2. **Прототип**  
2.1. Выбор и настройка архитектуры нейросети (например, U-Net, DeepLab, или Mask R-CNN).  
2.2. Выбор подходящего алгоритма/модели для реализации теней и цветовой адаптации.  
2.3. Прототипирование первых решений (MVP).
3. **Тестирование**  
3.1. Установка и обучение моделей.  
3.2. Создание базы тестовых изображений для оценки производительности модели.  
3.3. Настройка параметров модели для обеспечения точности.  
4. **Внедрение**  
4.1. Настройка pipeline для автоматической загрузки/обработки изображений.  
4.2. Внедрение управления фонами и исходными фотографиями.  
5. **Оптимизация**  
5.1. Разработка процесса для быстрой обработки изображений в условиях высокой нагрузки.  
5.2. Ускорение работы алгоритма.

Отдельно необходимо отразить:
* Потребности в ресурсах: инфраструктура, оборудование, ПО.  
* Указать возможные риски и пути их минимизации.  
* Указывать в Roadmap возможные области для улучшений (например, алгоритмы для адаптации текстуры одежды или лиц под условия фона).

Так же нужно создать график работы с привязкой к неделям (или месяцам): например, Gantt Chart. Контрольные точки (Milestones):
* Создание MVP.
* Завершение настройки моделей.
* Проведение тестов (реальные изображения).
* Оптимизация производительности.
* Готовность к релизу.
Пожелания к CV-специалисту

## Roadmap

### 1. Исследование

### 1.1. Анализ доступных решений для вырезания объектов с фона (нейронные сети, библиотеки, облачные сервисы, open-source решения).  

* 1. Нейронные сети  

1.1. U-Net  
- Описание: Архитектура U-Net была разработана для биомедицинской сегментации, она хорошо справляется с задачами сегментации на изображениях.  
- Плюсы: Простота в реализации, эффективна для изображений с высоким разрешением.  
- Минусы: Требует достаточно много данных для обучения.  

1.2. Mask R-CNN  
- Описание: Расширение Faster R-CNN для сегментации объектов. Этот метод выявляет и сегментирует объекты, рисуя маски на изображениях.  
- Плюсы: Высокая точность сегментации, возможность работы с несколькими классами.  
- Минусы: Сложность реализации, требует мощного оборудования для обучения.  

1.3. DeepLab  
- Описание: Семейство моделей, использующее Atrous Convolution для увеличения поля восприятия. DeepLabv3+ является последней версией и обеспечивает впечатляющие результаты.  
- Плюсы: Хорошая обработка объектов разных масштабов.  
- Минусы: Сложность и необходимость в мощном оборудовании.  

2. Библиотеки  

2.1. OpenCV  
- Описание: Широко используемая библиотека для компьютерного зрения.  
- Плюсы: Легко интегрируется, подходит для простых задач.  
- Минусы: Не так эффективен для сложных изображений и требует ручной настройки.  

2.2. scikit-image  
- Описание: Библиотека на Python, предоставляющая алгоритмы для обработки изображений, включая сегментацию.  
- Плюсы: Простота использования и интеграции с другими библиотеками.  
- Минусы: Ограниченные возможности по сравнению с более специализированными библиотеками глубокого обучения.  

3. Облачные сервисы  

3.1. Google Cloud Vision API  
- Описание: Облачный сервис для анализа изображений, включая возможности сегментации объектов.  
- Плюсы: Высокая точность, простота использования без необходимости в знании нейронных сетей.  
- Минусы: Плата за использование, зависимость от интернет-соединения.  

3.2. Amazon SageMaker  
- Описание: Платформа для создания, обучения и развертывания моделей машинного обучения, в том числе для сегментации объектов.  
- Плюсы: Полный контроль над обучением моделей и интеграция с другими сервисами AWS.  
- Минусы: Сложность в настройке и более высокая цена.  

3.3. Microsoft Azure Computer Vision  
- Описание: Предоставляет различные функции анализа изображений, включая сегментацию.  
- Плюсы: Легкость интеграции и мощные инструменты для анализа.  
- Минусы: Плата за использование и зависимость от облака.  

4. Open-source решения  

4.1. UltraLytics (YOLO)  
- Описание: UltraLytics предлагает реализацию моделей YOLO (You Only Look Once), популярной архитектуры для детекции объектов, которая также может использоваться для сегментации. UltraLytics предоставляет простые в использовании обертки и готовые модели.  
- Плюсы: Высокая скорость обработки, хорошая точность, доступные предварительно обученные модели.  
- Минусы: Для достижения максимальной точности может потребоваться дополнительная настройка и обучение на специализированных наборах данных.  

4.2. Segment Anything Model (SAM)  
- Описание: Это модель, разработанная Meta (Facebook AI), которая предлагает унифицированный подход к сегментации объектов на изображениях, включая возможность выделения объектов без необходимости в их обучении заранее на наборе данных.  
- Плюсы: Высокая универсальность, возможность быстрого выполнения сегментации на любых изображениях, даже без специального обучения.  
- Минусы: Для сложных случаев может потребоваться дообучение или дополнительная настройка.  

### 1.2. Исследование технологий реалистичного совмещения объектов с новым фоном (учет теней, освещения и глубины).

#### Учёт теней

Интерпретируем задачу "Учёт теней" следующим образом - фон выступает "основным" изображением, по информации на котором необходимо внести корректировки по теням в финальное изображение. Другими словами, если на фоне уже есть тени, то необходимо добавить соответствующие по длине и направлению тени и к "добавленным" на фон людям.
Для решения этой задачи можно использовать `ARShadowGAN`, что подробно описано в статье на Хабре ["Как мы обучили нейросеть генерировать тени на фотографии"](https://habr.com/ru/articles/528800/). После обучения, эта сеть умеет добавлять тени к новым объектам на изображении, с учётом направления и длины уже имеющихся на изображении теней.

#### Учёт освещения

Для переноса освещения с фотографии людей на фон можно использовать самообучающийся алгоритм `SILT`, описанный в статье ["SILT: Self-supervised Lighting Transfer Using Implicit Image Decomposition"](https://arxiv.org/abs/2110.12914) с некотрыми корректировками. Оригинальный алгоритм подгоняет освещение под тренировочный датасет, нам же нужна вариативность. Так же стоит обратить внимание на подход [Histogram matching](https://scikit-image.org/docs/0.24.x/auto_examples/color_exposure/plot_histogram_matching.html), позволяющий подогнать цветовую стилистику одного изображения к другому.

#### Учёт глубины

Учёт глубины в данном Roadmap не выполнен.

### 1.3. Выборк метрик для оценки

#### 1.3.1. Точность вырезания

Визуальный анализ задачи позволил заключить, что точность вырезания лучше определять с помощью метрик, ориентированных на оценку расстояния между границами истинной разметки и полученного сегмента. Самые подходящие - `Boundary F1 Score` и `Hausdorff Distance`. Рассмотрим их подробнее.
* `Boundary F1 Score` решает задачу классификации, проверяя, попадает ли пиксель границы полученного сегмента на пиксель границы истинной разметки. Это может вызвать проблемы, когда, например, предсказание модели на один пиксель "шире" истинной разметки, что не критично для пользователя, но при этом будет получено 0 мэтчей и метрика будет равна 0. Можно реализовать метрику с `margin` или отступом, чтобы не так сильно штрафовать за небольшие промахи.
* `Hausdorff Distance` показывает, насколько точки одного множества далеки от соответствующих точек другого множества. То есть это регрессионная метрика и изменяется в диапазоне $[0, \inf)$. Для неё стоит установить порог или несколько диапазонов, при попадании в которые выдавать оценку модели. Для этого нужно взять около 200 изображений с разметкой, глазами оценить предсказания на этих изорбражениях, выдать оценки предсказаниям, и сопоставить их с метрикой. По итогу получить примерно следующее заключение: `Hausdorff Distance` от 0 до 10 - отличное предсказание, от 10 до 20 - хорошее и тд.

#### 1.3.2. Реалистичность совмещения с новым фоном (шумы, границы, соответствие освещению)

* Оценить шум можно с помощью инструмента [estimate_sigma](https://scikit-image.org/docs/dev/api/skimage.restoration.html#skimage.restoration.estimate_sigma).
* Для оценки резкости границы подходит `Boundary Sharpness Coefficient (BSC)`, который учитывает градиент.

$ BSC = \frac{1}{N} \sum_{i=1}^{N} |G(x_i, y_i)| ]$

где $G(x_i, y_i)$ — значение градиента в точке $(x_i, y_i)$ на границе, $N$ — количество пикселей в области границы.
Значения BSC, ближние к 1, указывают на четкие, резкие границы, тогда как более низкие значения указывают на размытые или менее четкие границы.

* [Illumination Histogram Consistency Metric](https://arxiv.org/abs/2405.09716) поможет с оценкой освещения.

#### 1.3.3. Среднее время обработки одного изображения.

Большинство современных фреймворков позволяет получать время обработки одного изображения и для этого не требуется дополнительой работы. Для оценки приемлемого времени обработки одного изображения необходимо получить оценки загруженности сервиса и доступные вычислительные мощности (или скорее бюджет на сервера).

### 2. **Прототип** 

#### 2.1. Выбор и настройка архитектуры нейросети (например, U-Net, DeepLab, или Mask R-CNN). 

В ходе краткого исследования, был сделан вывод, что предложенные реализации U-Net, DeepLab или Mask R-CNN довольно стары (созданы более 5 лет назад). Поэтому принято решение построить прототип на основе более современной библиотеки `ultralytics`, которая включает в себя модели `YOLOv8` и `SAM2` для решения задач детекции и сегментации. Они просты в установке и показывают неплохие результаты "из коробки". Работать они будут следующим образом:
1. `YOLOv8` детектирует людей на изображении и выдаёт набор bbox. При этом выставляется параметр `classes=[0]`, чтобы исключить детекцию других классов. Среднее время обработки  - **66.8 мс** для каждого изображения.
2. Полученные bbox передаются в `SAM2`, которая производит сегментацию. Среднее время обработки - **213 мс** и распределено следующим образом:

![image.png](attachment:ba331153-9ee1-4778-9b71-22e64f3358a4.png)

Выборсы связаны с большим количеством людей на фото.

Некоторые результаты сегментации приведены ниже:

![11_to_RM.jpg](attachment:c84eaa1a-8ba9-41b2-bbe8-620166913958.jpg)

![3_to_RM.jpg](attachment:057a42b4-de26-4298-a4a7-43d3163eed74.jpg)

![18_to_RM.jpg](attachment:669445ff-2c72-4bfa-89b9-b4e69aea4d80.jpg)

Однако возникают проблемы при "нестандартных" позах, особенно, когда люди пересекаются:

![14_to_RM.jpg](attachment:bc1b7342-47ed-4dba-b08f-797395b0b8d1.jpg)

#### 2.2. Выбор подходящего алгоритма/модели для реализации теней и цветовой адаптации. 

Алгоритм для реализации теней описан в п.1.2.

#### 2.3. Прототипирование первых решений (MVP).

На данный момент реализовано получение масок людей на фото. Для создания MVP необходимо уточнить задание по учёту освещения и глубины. Ориентировочно создание MVP без учёта интеграции в систему должно занять 1 месяц.

### 3. Тестирование.

#### 3.1. Установка и обучение моделей.

На данный момент используются готовые open-source решения, установка которых довольно быстра. Однако для обучения сети добавления теней и учёта освещения нужно собрать и разметить данные. Ориентировочно для этого необходимо 1000 изображений. Так же по итогам оценки функциональности MVP возможно потребуется дообучение модели сегментации `SAM2`. Объём тренировочных данных будет зависеть от оценки и будет находиться в диапазоне 500 - 2000 изображений.

#### 3.2. Создание базы тестовых изображений для оценки производительности модели. 

Опишем требования к тестовым изображениям:
1. Количество изображений - не менее 1500.
2. Каждому изображению, помимо разметки, необходимо присвоить несколько характеристик - количество людей на фото, наличие предметов (шарфы, сумки, рюкзаки), сложность позы (условно от 0 до 2, где 0 - все люди стоят прямо, 2 - пересекаются руки и ноги), количество одежды, степень освещения, место выполнения фото, наличие детей на фото. Всё это нужно для того, чтобы посчитать метрики для каждой группы и выделить слабые места модели, а так же области применимости на данный момент.

#### 3.3. Настройка параметров модели для обеспечения точности. 

Выполняется по итогам тестирования.

## 4. Внедрение

### 4.1. Настройка pipeline для автоматической загрузки/обработки изображений. 

Для создания pipeline можно использовать инструменты для обработки и автоматизации работ, например Apache Airflow. Это инструмент для управления рабочими процессами, который позволяет настраивать и автоматизировать процессы обработки данных с помощью DAG (Directed Acyclic Graphs). Каждый отдельный функионал упаковывается в Docker, облегчает развертывание и масштабирование.

### 4.2. Внедрение управления фонами и исходными фотографиями. 

Фоны и исходные фотографии предполагается хранить в базах данных, например PostgreSQL.

## 5. Оптимизация

### 5.1. Разработка процесса для быстрой обработки изображений в условиях высокой нагрузки.

Процесса для быстрой обработки изображений в условиях высокой нагрузки можно организовать на основе распределенных очередей, таких как RabbitMQ или Kafka.

### 5.2. Ускорение работы алгоритма.

Для ускорение работы алгоритма необходимо использовать библиотеку CuPy, которая позволяет выполнять вычисления на GPU. Так же необходимо внедрить систему кэширования для часто используемых фонов, чтобы ускорить доступ к ним.

## Потребности в ресурсах: инфраструктура, оборудование, ПО.

Не исследовалась.

## Возможные риски и пути их минимизации

1. Технические сбои: Проблемы с оборудованием или отключения в облачной инфраструктуре.
   - Минимизация: Использование резервного копирования данных и дублирование систем. Реализация стратегий failover.

2. Перегрузка системы: Высокий трафик может привести к замедлению системы или сбою.
   - Минимизация: Автоматическое масштабирование (auto-scaling) в облаке, использование CDN для распределения нагрузки.

3. Проблемы с безопасностью: Утечка данных, несанкционированный доступ к изображениям.
   - Минимизация: Шифрование данных, использование аутентификации и авторизации, регулярные обновления безопасности.

4. Недостаточная производительность: Отсутствие необходимых ресурсов для эффективной обработки изображений.
   - Минимизация: Регулярный мониторинг использования ресурсов и планирование апгрейдов системы.

## Возможные области для улучшений

1. Алгоритмы адаптации текстуры одежды:
   - Цель: Разработка алгоритмов, позволяющих динамически адаптировать текстуры и узоры одежды под разные фоны (например, в реальном времени).
   - Реализация: Исследовать и применять методы GAN (Generative Adversarial Networks) для синтеза текстур.

2. Повышение скорости обработки:
   - Цель: Оптимизация алгоритмов для уменьшения времени обработки изображений.
   - Реализация: Рассмотреть использование TPU (Tensor Processing Units) или оптимизацию кода с помощью более эффективных библиотек.

3. Интеграция с социальными сетями и платформами:
   - Цель: Упрощение процесса загрузки и обработки изображений прямо из социальных сетей.
   - Реализация: Разработка API-интерфейсов для интеграции с популярными платформами (Instagram, Facebook).

## Gantt Chart

Не разрабатывалась.