# Сегментация на базе Mask R-CNN

## Как работает Mask R-CNN

Mask R-CNN - это расширение модели [Faster R-CNN](https://www.analyticsvidhya.com/blog/2018/10/a-step-by-step-introduction-to-the-basic-object-detection-algorithms-part-1/?utm_source=blog&utm_medium=computer-vision-implementing-mask-r-cnn-image-segmentation). Faster R-CNN широко используется для задач детекции объектов. Mask R-CNN построена поверх Faster R-CNN, так что если ей подать на вход картинку, то она вернёт название классов, их ограничивающие прямоугольники (Bounding Box) и маски. 

Давайте сначала вкратце определимся, как работает Faster R-CNN

1. Модель Faster R-CNN использует ConvNet для выдёргивания фич из картинок 
2. Эти фичи пропускаются через RPN (Region Proposal Network), эта сеть возвращает кандидатов на звание Bounding Box 
3. Затем все кандиданы масштабируются, чтобы они были одного размера 
4. И наконец, все кандидаты пропускаются через полносвязный слой, чтобы быть классифицированными 
5. На выходе получаем Bounding Box и название класса 



Теперь разобраться с тем, как работает Mask R-CNN должно быть проще. 

1. Точно также как ConvNet в Faster R-CNN, в Mask R-CNN используется архитектура ResNet 101. То есть ResNet 101 достаёт фичи из входных картинок. 

2. Используем RPN для получения кандидатов Bounding Box. То есть по сути, мы пытаемся предсказать есть ли объект на картинке или его нет. 

3. Приводим все Bounding Box к единому размеру. 

4. Пропускаем все Bounding Box через полносвязный слой, получая названия классов и их Bounding Box. 

Теперь начинает часть, где Mask R-CNN отличается от Faster R-CNN

5. Для каждого Bounding Box вычисляется IoU (Intersection over Union) c исходными (истинными) Bounding Box. 

$$ IoU = \frac{\text{Area of Overlap}}{\text{Area of Union}} $$

6. И теперь, только если IoU больше или равно 0.5, мы принимаем этот Bounding Box (считаем его валидным). Иначе мы игнорируем этот Bounding Box. Так мы проверяем все Bounding Box и выбираем только валидные. 

Давайте посмотрим на пример. 

<p align="center">
    <img src="https://github.com/serykhelena/PYGuides/blob/main/notebooks/assets/maskrcnn_1.webp?raw=true" alt="drawing" width="500"/>
</p>

Здесь, красный прямоугольник - это исходный (истинный) Bounding Box. Теперь давайте предположим, что мы получили 4 Bounding Box из RPN

<p align="center">
    <img src="https://github.com/serykhelena/PYGuides/blob/main/notebooks/assets/maskrcnn_2.webp?raw=true" alt="drawing" width="500"/>
</p>

Здесь, IoU для Box 1 и Box 2 явно меньше половины истинного Bounding Box, а Box 3 и Box 4 явно больше. Следовательно, у нас останутся только Box 3 и Box 4. 

## Сегментационная маска (Segmentation Mask)

Как только мы получили валидные регионы интереса (RoI), мы можем добавить шаги с получением маски. То есть наша модель вернёт сегментационную маску 28 х 28 пикселей для каждого региона, которые потом будут увеличины (отмасштабированы). 

Давайте посмотрим на пример. 



## Полезные ссылки 

* [Implementing Mask R-CNN](https://www.analyticsvidhya.com/blog/2019/07/computer-vision-implementing-mask-r-cnn-image-segmentation/?utm_source=blog&utm_medium=introduction-image-segmentation-techniques-python)