# Сегментация тетрадей

## Detectron2 baseline

В данном ноутбуке представлен baseline модели сегментации текста в школьных тетрадях с помощью фреймворка detectron2. Вы можете (и это даже лучше) использовать другие модели (например UNET, mmdet), или написать полностью свою.

# 0. Установка библиотек

Установка библиотек, под которым запускается данный бейзлайн.

In [None]:
!pip install pyyaml==5.1

import torch
TORCH_VERSION = ".".join(torch.__version__.split(".")[:2])
CUDA_VERSION = torch.__version__.split("+")[-1]
print("torch: ", TORCH_VERSION, "; cuda: ", CUDA_VERSION)
# Install detectron2 that matches the above pytorch version
# See https://detectron2.readthedocs.io/tutorials/install.html for instructions
!pip install detectron2 -f https://dl.fbaipublicfiles.com/detectron2/wheels/$CUDA_VERSION/torch$TORCH_VERSION/index.html
# If there is not yet a detectron2 release that matches the given torch + CUDA version, you need to install a different pytorch.

# exit(0)  # After installation, you may need to "restart runtime" in Colab. This line can also restart runtime

Collecting pyyaml==5.1
  Downloading PyYAML-5.1.tar.gz (274 kB)
[?25l[K     |█▏                              | 10 kB 36.8 MB/s eta 0:00:01[K     |██▍                             | 20 kB 9.3 MB/s eta 0:00:01[K     |███▋                            | 30 kB 7.9 MB/s eta 0:00:01[K     |████▉                           | 40 kB 3.6 MB/s eta 0:00:01[K     |██████                          | 51 kB 3.6 MB/s eta 0:00:01[K     |███████▏                        | 61 kB 4.3 MB/s eta 0:00:01[K     |████████▍                       | 71 kB 4.5 MB/s eta 0:00:01[K     |█████████▋                      | 81 kB 4.9 MB/s eta 0:00:01[K     |██████████▊                     | 92 kB 5.4 MB/s eta 0:00:01[K     |████████████                    | 102 kB 4.3 MB/s eta 0:00:01[K     |█████████████▏                  | 112 kB 4.3 MB/s eta 0:00:01[K     |██████████████▍                 | 122 kB 4.3 MB/s eta 0:00:01[K     |███████████████▌                | 133 kB 4.3 MB/s eta 0:00:01[K     |█████

## 1. Загрузить необходимые библиотеки для создания и обучения модели

In [None]:
import cv2
import random
import json
import os

import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)
warnings.filterwarnings("ignore")
import ipywidgets as widgets
from ipywidgets import interact, interact_manual
import shutil

In [None]:
import tqdm

In [None]:
from matplotlib import pyplot as plt

In [None]:
import numpy as np

In [None]:
import torch, torchvision
import detectron2
from detectron2 import model_zoo
from detectron2.engine import DefaultPredictor
from detectron2.config import get_cfg
from detectron2.utils.visualizer import Visualizer
from detectron2.data import MetadataCatalog,DatasetCatalog
from detectron2.data.datasets import register_coco_instances,load_coco_json
from detectron2.data import detection_utils as utils
from detectron2.engine import DefaultTrainer
from detectron2.engine import HookBase

# from detectron2.utils.logger import setup_logger
# setup_logger()

import logging
logger = logging.getLogger('detectron2')
logger.setLevel(logging.CRITICAL)

Прежде чем переходить к загрузке данных посмотрим, доступны ли нам GPU-мощности. 

In [None]:
print('GPU: ' + str(torch.cuda.is_available()))

GPU: True


# 2. Валидационный датасет

In [None]:
!wget https://storage.yandexcloud.net/datasouls-competitions/ai-nto-final-2022/data.zip

--2022-03-02 19:08:05--  https://storage.yandexcloud.net/datasouls-competitions/ai-nto-final-2022/data.zip
Resolving storage.yandexcloud.net (storage.yandexcloud.net)... 213.180.193.243, 2a02:6b8::1d9
Connecting to storage.yandexcloud.net (storage.yandexcloud.net)|213.180.193.243|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 6370765510 (5.9G) [application/zip]
Saving to: ‘data.zip’


2022-03-02 19:18:34 (9.68 MB/s) - ‘data.zip’ saved [6370765510/6370765510]



In [None]:
!unzip data.zip

[1;30;43mВыходные данные были обрезаны до нескольких последних строк (5000).[0m
  inflating: __MACOSX/data/train_recognition/images/._125268.png  
  inflating: data/train_recognition/images/21046.png  
  inflating: __MACOSX/data/train_recognition/images/._21046.png  
  inflating: data/train_recognition/images/84388.png  
  inflating: __MACOSX/data/train_recognition/images/._84388.png  
  inflating: data/train_recognition/images/2904.png  
  inflating: __MACOSX/data/train_recognition/images/._2904.png  
  inflating: data/train_recognition/images/37624.png  
  inflating: __MACOSX/data/train_recognition/images/._37624.png  
  inflating: data/train_recognition/images/71671.png  
  inflating: __MACOSX/data/train_recognition/images/._71671.png  
  inflating: data/train_recognition/images/85096.png  
  inflating: __MACOSX/data/train_recognition/images/._85096.png  
  inflating: data/train_recognition/images/20358.png  
  inflating: __MACOSX/data/train_recognition/images/._20358.png  
  infl

Для валидации наших моделей нам неплохо было создать из обучающих данных валидационный датасет. Для этого разделим наш датасет на две части - для обучения и для валидации. Для этого просто создадим два новых файлика с аннотациями, куда раздельно запишем исиходную информацию об аннотациях.

# 3. Регистрация датасета

Зарегистрируем выборки в detectron2 для дальнейшей подачи на обучение модели.

In [None]:
for d in ['train','val']:
    DatasetCatalog.register("my_dataset2_"+d, lambda d=d: load_coco_json("data/train_segmentation/annotations.json",
    image_root= "data/train_segmentation/images",\
    dataset_name="my_dataset2_"+d,extra_annotation_keys=['bbox_mode']))

После регистрации можно загружать выборки, чтобы иметь возможность посмотреть на них глазами. Первой загрузим обучающую выборку в **dataset_dicts_train**

In [None]:
dataset_dicts_train = DatasetCatalog.get("my_dataset2_train")
train_metadata = MetadataCatalog.get("my_dataset2_train")

И тестовую выборку в **dataset_dicts_val**

In [None]:
dataset_dicts_val = DatasetCatalog.get("my_dataset2_val")
val_metadata = MetadataCatalog.get("my_dataset2_val")

Посмотрим на размер получившихся выборок - эта операция в python осуществляется при помощи функции **len()**

In [None]:
print('Размер обучающей выборки (Картинки): {}'.format(len(dataset_dicts_train)))
print('Размер тестовой выборки (Картинки): {}'.format(len(dataset_dicts_val)))

Размер обучающей выборки (Картинки): 932
Размер тестовой выборки (Картинки): 932


Итак, у нас в распоряжении 588 изображения для тренировки, и 66 - для проверки качества.

**Посмотрим на размеченные фотографии из валидации**

In [None]:
import os
from IPython.display import Image
@interact
def show_images(file=range(len(dataset_dicts_val))):
    example = dataset_dicts_val[file]
    image = utils.read_image(example["file_name"], format="RGB")
    plt.figure(figsize=(3,3),dpi=200)
    visualizer = Visualizer(image[:, :, ::-1], metadata=val_metadata, scale=0.5)
    vis = visualizer.draw_dataset_dict(example)
    plt.imshow(vis.get_image()[:, :,::-1])
    plt.show()

interactive(children=(Dropdown(description='file', options=(0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, …

##   4 Обучение модели

**4.1. Определяем конфигурацию**

Прежде чем начать работать с самой моделью, нам нужно определить ее параметры и спецификацию обучения

Создаем конфигурацию и загружаем архитектуру модели с предобученными весами (на COCO - датасете, содержащем $80$ популярных категорий объектов и более $300000$ изображений) для распознавания объектов.

In [None]:
cfg = get_cfg()
cfg.merge_from_file(model_zoo.get_config_file("COCO-InstanceSegmentation/mask_rcnn_R_101_FPN_3x.yaml")) 
cfg.MODEL.WEIGHTS = model_zoo.get_checkpoint_url("COCO-InstanceSegmentation/mask_rcnn_R_101_FPN_3x.yaml")

В целом, вы можете посмотреть и другие архитектуры в зоопарке [моделей](https://github.com/facebookresearch/detectron2/blob/master/MODEL_ZOO.md).

Теперь задаем параметры самой модели и обучения модели

In [None]:
# Загружаем названия обучающией и тестовой выборок в настройки
cfg.DATASETS.TRAIN = ("my_dataset2_train",)
cfg.DATASETS.TEST = ("my_dataset2_val",)
cfg.TEST.EVAL_PERIOD = 500000
cfg.TEST.DETECTIONS_PER_IMAGE = 1000
cfg.INPUT.MIN_SIZE_TEST= 1960
cfg.INPUT.MAX_SIZE_TEST = 2016
# Часто имеет смысл сделать изображения чуть меньшего размера, чтобы 
# обучение происходило быстрее. Поэтому мы можем указать размер, до которого будем изменяться наименьшая 
# и наибольшая из сторон исходного изображения.
cfg.INPUT.MIN_SIZE_TRAIN = 1960
cfg.INPUT.MAX_SIZE_TRAIN = 2016

# Также мы должны сказать модели ниже какой вероятности определения она игнорирует результат. 
# То есть, если она найдет на картинке еду, но вероятность правильного определения ниже 0.5, 
# то она не будет нам сообщать, что она что-то нашла.
cfg.MODEL.ROI_HEADS.SCORE_THRESH_TEST = 0.5

# Также мы должны указать порядок каналов во входном изображении. Обратите внимание, что это Blue Green Red (BGR), 
# а не привычный RGB. Это особенности работы данной модели.
cfg.INPUT.FORMAT = 'BGR' 

# Для более быстрой загрузки данных в модель, мы делаем параллельную загрузку. Мы указываем параметр 4, 
cfg.DATALOADER.NUM_WORKERS = 2
cfg.MODEL.ROI_HEADS.BATCH_SIZE_PER_IMAGE = 1024
cfg.MODEL.RPN.BATCH_SIZE_PER_IMAGE = 256

# Следующий параметр задает количество изображений в батче, на котором 
# модель делает одну итерацию обучения (изменения весов).
cfg.SOLVER.IMS_PER_BATCH = 2

# Зададим также learning_rate
cfg.SOLVER.BASE_LR = 0.01

# Укажем модели, через сколько шагов обучения модели следует уменьшить learning rate
cfg.SOLVER.STEPS = (24000,38000,50000)

# Фактор, на который уменьшается learning rate задается следующим выражением
cfg.SOLVER.GAMMA = 0.5
#cfg.SOLVER.WEIGHT_DECAY = 0.01

# Зададим общее число итераций обучения.
cfg.SOLVER.MAX_ITER = 58000

# Укажем количество классов в нашей выборке
cfg.MODEL.ROI_HEADS.NUM_CLASSES = 1

# Задаем через сколько  шагов обучения сохранять веса модели в файл. Этот файл мы сможем загрузить потом 
# для тестирования нашей обученной модели на новых данных.
cfg.SOLVER.CHECKPOINT_PERIOD = 2000

# И указываем название папки, куда сохранять чекпойнты модели и информацию о процессе обучения.
cfg.OUTPUT_DIR = 'outputs'

# Если вдруг такой папки нет, то создадим ее
os.makedirs(cfg.OUTPUT_DIR, exist_ok=True)

# Если мы хотим удалить чекпойнты предыдущих моделей, то выполняем данную команду. 
#%rm output/*

**4.2. Обучаем модель**

Процесс обучения модели запускают следующие три строчки кода. Возможно будут предупреждения, на которые можно не обращать внимания, это информация об обучении.

In [None]:
!pip install albumentations==1.0.0
!pip uninstall opencv-python-headless==4.5.5.62 -y
!pip install opencv-python-headless==4.1.2.30

Collecting albumentations==1.0.0
  Downloading albumentations-1.0.0-py3-none-any.whl (98 kB)
[?25l[K     |███▍                            | 10 kB 33.0 MB/s eta 0:00:01[K     |██████▊                         | 20 kB 8.9 MB/s eta 0:00:01[K     |██████████                      | 30 kB 7.9 MB/s eta 0:00:01[K     |█████████████▍                  | 40 kB 3.6 MB/s eta 0:00:01[K     |████████████████▊               | 51 kB 2.4 MB/s eta 0:00:01[K     |████████████████████            | 61 kB 2.9 MB/s eta 0:00:01[K     |███████████████████████▍        | 71 kB 3.4 MB/s eta 0:00:01[K     |██████████████████████████▊     | 81 kB 3.8 MB/s eta 0:00:01[K     |██████████████████████████████  | 92 kB 4.3 MB/s eta 0:00:01[K     |████████████████████████████████| 98 kB 2.0 MB/s 
Collecting opencv-python-headless>=4.1.1
  Downloading opencv_python_headless-4.5.5.62-cp36-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (47.7 MB)
[K     |████████████████████████████████| 47.7 MB 112 k

Found existing installation: opencv-python-headless 4.5.5.62
Uninstalling opencv-python-headless-4.5.5.62:
  Successfully uninstalled opencv-python-headless-4.5.5.62
Collecting opencv-python-headless==4.1.2.30
  Downloading opencv_python_headless-4.1.2.30-cp37-cp37m-manylinux1_x86_64.whl (21.8 MB)
[K     |████████████████████████████████| 21.8 MB 179 kB/s 
Installing collected packages: opencv-python-headless
Successfully installed opencv-python-headless-4.1.2.30


In [None]:
import albumentations as A
a_transforms = A.Compose([
                        A.OneOf([
                             A.RGBShift(p=1),
                             A.HueSaturationValue(p=1),
                             A.CLAHE(p=1),
                        ], p=0.2),
                        A.OneOf([
                             A.Blur(blur_limit=7,p=1),
                             A.GaussianBlur(p=1),
                             A.MedianBlur (blur_limit=7,p=1),
                        ], p=0.2),
                        A.OneOf([
                             A.RandomBrightnessContrast(brightness_limit=0.5, contrast_limit=0.5, p=1),
                             A.RandomGamma (gamma_limit=(80, 150), p=1),
                             A.RandomToneCurve(p=1),
                        ], p=0.2),
                        A.OneOf([
                             A.ColorJitter(p=1),
                             A.JpegCompression(p=1),
                             A.GaussNoise(p=1),
                        ], p=0.2),
                        A.RandomShadow (p=0.2),
    ])

In [None]:
import detectron2.data.transforms as T
import copy
from detectron2.data import DatasetCatalog, MetadataCatalog, build_detection_test_loader, build_detection_train_loader
def custom_mapper(dataset_dict):
    # Implement a mapper, similar to the default DatasetMapper, but with your own customizations
    dataset_dict = copy.deepcopy(dataset_dict)  # it will be modified by code below
    image = utils.read_image(dataset_dict["file_name"], format="BGR")
    transform_list = [T.ResizeShortestEdge([1960, 1960], 2016),
                      T.RandomFlip(prob=0.5, horizontal=False, vertical=True),
                      T.RandomFlip(prob=0.5, horizontal=True, vertical=False), 
                      T.RandomRotation(angle=[-45, 45]),
                      T.RandomCrop(crop_type='relative_range', crop_size=[0.8, 0.8])
                      ]
    image, transforms = T.apply_transform_gens(transform_list, image)
    image = a_transforms(image=image)['image']
    dataset_dict["image"] = torch.as_tensor(image.transpose(2, 0, 1).astype("float32"))

    annos = [
        utils.transform_instance_annotations(obj, transforms, image.shape[:2])
        for obj in dataset_dict.pop("annotations")
        if obj.get("iscrowd", 0) == 0
    ]
    instances = utils.annotations_to_instances(annos, image.shape[:2])
    dataset_dict["instances"] = utils.filter_empty_instances(instances)
    return dataset_dict


class CustomTrainer(DefaultTrainer):
    
    @classmethod
    def build_train_loader(cls, cfg):
        return build_detection_train_loader(cfg, mapper=custom_mapper)

In [None]:
trainer = CustomTrainer(cfg)
trainer.resume_or_load(resume=False)
trainer.train()

Используем обученную модель для проверки качества на валидации.

In [None]:
cfg.MODEL.WEIGHTS = "outputs/model_final.pth"

cfg.MODEL.ROI_HEADS.SCORE_THRESH_TEST = 0.3
cfg.DATASETS.TEST = ("my_dataset_val", )
#Изменение размера исходных изображений для тестового датасета
cfg.INPUT.MIN_SIZE_TEST= 1960
cfg.INPUT.MAX_SIZE_TEST = 2016
cfg.INPUT.FORMAT = 'BGR'

#ВАЖНО увеличить это значение (стандартное равно 100). Так как на листе тетради может быть довольно много слов
cfg.TEST.DETECTIONS_PER_IMAGE = 1000

predictor = DefaultPredictor(cfg)

Сделаем предсказания для тестового датасета и сразу же нарисуем его.

Вы можете выбрать из выпадающего списка номер изображения, и посмотреть разметку на всем валидационном датасете.

In [None]:
@interact
def show_images(file=range(len(dataset_dicts_val))):
    
    example = dataset_dicts_val[file]
    im = cv2.imread(example["file_name"])
    outputs = predictor(im)
    fig, axs = plt.subplots(nrows=1,ncols=2,figsize=(4,4),dpi=200)
    v = Visualizer(im[:, :],
                  metadata=val_metadata, 
                  scale=0.4 )
    v = v.draw_instance_predictions(outputs["instances"].to("cpu"))
    axs[0].imshow(im[:, :, ::-1])
    axs[1].imshow(v.get_image()[:, :, ::-1])
    axs[0].axis('off')
    axs[1].axis('off')
    axs[0].set_title('Original')
    axs[1].set_title('Predict')
    plt.show()

Можно непосредственно в коде изменить номер изображения, которое Вы хотите обработать.

In [None]:
id_image_selected = 3
example = dataset_dicts_val[id_image_selected]
im = cv2.imread(example["file_name"])
outputs = predictor(im)
plt.figure(figsize=(7,7))
v = Visualizer(im[:, :],
              metadata=val_metadata, 
              scale=0.4 )
v = v.draw_instance_predictions(outputs["instances"].to("cpu"))
plt.imshow(v.get_image()[:, :, ::-1])
plt.axis('off')
plt.show()

In [None]:
outputs['instances']

В качестве предсказаний для каждого изображения из тестового набора требуется получить бинарную маску, в которой `1` означает, что данный пиксель относится к классу текста.

Давайте на примере одного изображения переведем формат выхода Detectron2 в требуемый формат для соревнования.

`outputs` - результат предсказания модели на данном изображении из предыдущего блока с кодом

In [None]:
prediction = outputs['instances'].pred_masks.cpu().numpy()

In [None]:
prediction.shape

В `prediction` находится массив бинарных матриц. Каждая матрица отвечает за отдельную задетектированную маску текста. В нашем случае модель задетектировала 80 текстовых масок. Давайте провизуализируем одну из них.

In [None]:
prediction[0]

In [None]:
plt.imshow(prediction[0])

Отлично. Теперь, для того, чтобы получить бинарную маску со всем задетектированным текстом для изображения, нам нужно объединить все маски в одну. Для этого мы просто поэелементно сложим все наши матрицы. Там, где после сложения остались нули - модель не задетектировала никакого текста.

In [None]:
mask = np.add.reduce(prediction)

In [None]:
mask = mask > 0

In [None]:
plt.imshow(mask)

Итак, нам нужно полуить такую маску для каждого изображения из валидационной выборки, а затем посчитать метрику F1-score.

In [None]:
#Подгрузим аннотации train
with open('data/val/annotations_new.json') as f:
    annotations_val = json.load(f)

In [None]:
val_images = annotations_val['images']

In [None]:
val_predictions = {}

In [None]:
with torch.no_grad():
  for val_img in tqdm.tqdm_notebook(val_images):
      file_name = val_img['file_name']
      img_path = os.path.join('data/val/images/',file_name)
      im = cv2.imread(img_path)
      outputs = predictor(im)
      prediction = outputs['instances'].pred_masks.cpu().numpy()
      mask = np.add.reduce(prediction)
      mask = mask > 0
      val_predictions[file_name] = mask

Для сохрания предсказаний и загрузки бинарных масок бы будет использовать формат `.npz`. Он позволяет хранить большие массивы в компактном виде. Вот [ссылка](https://numpy.org/doc/stable/reference/generated/numpy.savez_compressed.html) на документацию.

In [None]:
np.savez_compressed('val_pred.npz',**val_predictions)

Подгрузим бинарные маски для train и val (только что сохраненную). Так как мы в начале бейзлайна разбивали весь исходный train на новый трейн и валидацию, то информация по всем маскам из исходного train хранится в `binary.npz`. 

Получившийся после подгрузки `np.load()` - что то вроде словаря. Его ключи можно получить с помощью метода files - `loaded_val.files`. В нашем случае ключами являются ключи исходного словаря `val_predictions`, то есть названия изображений.

In [None]:
loaded_train = np.load('train_data/binary.npz')

In [None]:
loaded_val_pred = np.load('val_pred.npz')

Мы используем среднюю метрика F1-score. То есть считаем F1-score для каждого изображения, а затем усредняем результаты. 

Реализация из sklearn работает довольно долго, попэтому мы будем использовать свою.

In [None]:
def f1_loss(y_true, y_pred):
        
    
    tp = np.sum(y_true & y_pred)
    tn = np.sum(~y_true & ~y_pred)
    fp = np.sum(~y_true & y_pred)
    fn = np.sum(y_true & ~y_pred)
    
    epsilon = 1e-7
    
    precision = tp / (tp + fp + epsilon)
    recall = tp / (tp + fn + epsilon)
    
    f1 = 2* precision*recall / ( precision + recall + epsilon)

    return f1 

In [None]:
f1_scores = []
for key in tqdm.tqdm_notebook(loaded_val_pred.files):
    pred = loaded_val_pred[key].reshape(-1)
    true = loaded_train[key].reshape(-1)
    
    f1_img = f1_loss(true,pred)
    f1_scores.append(f1_img)

Получившаяся метрика на валидации.

In [None]:
np.mean(f1_scores)