## Занятие 10. Распознавание действий на видео

### Часть 1. Пакеты Open-MMLab

Фреймворк open-mmlab - набор пакетов для решения задач компьютерного зрения от Multimedia Lab в The Chinese University of Hong Kong.
- https://github.com/open-mmlab/
- https://openmmlab.com/

Наиболее известный пакет фреймворка - [mmdetection](https://github.com/open-mmlab/mmdetection).

Пакеты open-mmlab не являются Python-пакетами в стандартном смысле - помимо Python-кода моделей и чтения данных, в него входят скрипты для обучения, распределенного обучения, тестирования, скачивания данных, конвертации моделей, анализу качества работы и производительности

Авторы стремятся в работе:
- к воспроизводимости и документированности результатов
- к модульности моделей, расширяемости фреймворка новыми моделями
- к самодостаточности фреймворка

#### 1.1 Конфиги
Для задания пайплайнов используются python-модули с описанием "всего" в виде словарей.


Пример: 
- пайплайн CenterNet https://github.com/open-mmlab/mmdetection/blob/master/configs/centernet/README.md
- код головы CenterNet https://github.com/open-mmlab/mmdetection/blob/master/mmdet/models/dense_heads/centernet_head.py

### Часть 2. MMAction2 и анализ видео
https://github.com/open-mmlab/mmaction2 - фреймворк для анализа видео (распознавания действий на видео).

Распознавание действий на видео (Action Recognition / Video Understanding) - общая задача со множеством вариаций.

Постановка задачи зависит от определения "действия", например:
1. У действия есть границы во времени ($T_{start}, T_{end}$) - или оно длится от начала до конца видео?
2. Действие на видео одно - или их много?
3. Действие имеет пространственные характеристики (Bounding Box, Mask) - или оно происходит "на всём кадре целиком"?
4. Действия могут пересекаться во времени / в пространстве?

...

Дальше - больше:
- действие описывается единственным фиксированным классом (Dance), несколькими классами (Actor / Action), текстом в свободной форме?
- есть ли другие модальности - например, аудио?
- камера одна или несколько?




### Примеры задач

- Action Recognition: на видео - одно действие фиксированного класса без границ по времени и пространству
- Activity Localization: на видео одно или несколько действий фиксированных классов с границами по времени
- Spatio-Temporal Action Detection = Action Localization + детекции объектов
- Action Segmentation: на каждом кадре видео не более одного действия
- Action (Event) Spotting: на видео есть отдельные кадры-действия (у действия нет длительности)

Часть задач поддерживается [mmaction2](https://github.com/open-mmlab/mmaction2#supported-methods)

### Часть 3.1. Пример использования обученных моделей
Запустим предобученную spatio-temporal action detection на двух примерах.
- [demo](https://github.com/open-mmlab/mmaction2/tree/master/demo#spatiotemporal-action-detection-video-demo)
- [config](https://github.com/open-mmlab/mmaction2/tree/main/configs/detection/slowonly/slowonly_kinetics400-pretrained-r101_8xb16-8x8x1-20e_ava21-rgb.py)

Для запуска демо нужно:
- `$ pip install mmdet`
- `$ pip install moviepy`


```
(open-mmlab) python mmaction2/demo/demo_spatiotemporal_det.py `
F:\bzimka\edu\course_cvdl\classes\c10\data\ntu_sample.avi F:\bzimka\edu\course_cvdl\classes\c10\data\ntu_spatiotemp.mp4 `
    --config mmaction2/configs/detection/slowonly/slowonly_kinetics400-pretrained-r101_8xb16-8x8x1-20e_ava21-rgb.py `
    --checkpoint https://download.openmmlab.com/mmaction/detection/ava/slowonly_omnisource_pretrained_r101_8x8x1_20e_ava_rgb/slowonly_omnisource_pretrained_r101_8x8x1_20e_ava_rgb_20201217-16378594.pth `
    --det-config mmaction2/demo/demo_configs/faster-rcnn_r50_fpn_2x_coco_infer.py `
    --det-checkpoint http://download.openmmlab.com/mmdetection/v2.0/faster_rcnn/faster_rcnn_r50_fpn_2x_coco/faster_rcnn_r50_fpn_2x_coco_bbox_mAP-0.384_20200504_210434-a5d8aa15.pth `
    --det-score-thr 0.9 `
    --action-score-thr 0.5 `
    --label-map mmaction2/tools/data/ava/label_map.txt `
    --predict-stepsize 8 `
    --output-stepsize 4 `
    --output-fps 6 `
    --device cpu:0
```

In [1]:
from IPython.display import Video

Video("data/ntu_spatiotemp.mp4", width=1024, height=576)

```
(openmmlab) PS F:\bzimka\edu\course_cvdl\classes\c10> python mmaction2/demo/demo_spatiotemporal_det.py `
     data\losash_tem.mp4 data\losash_tem_spatiotemp.mp4 `
     --config mmaction2/configs/detection/slowonly/slowonly_kinetics400-pretrained-r101_8xb16-8x8x1-20e_ava21-rgb.py `
     --checkpoint https://download.openmmlab.com/mmaction/detection/ava/slowonly_omnisource_pretrained_r101_8x8x1_20e_ava_rgb/slowonly_omnisource_pretrained_r101_8x8x1_20e_ava_rgb_20201217-16378594.pth `
     --det-config mmaction2/demo/demo_configs/faster-rcnn_r50_fpn_2x_coco_infer.py `
     --det-checkpoint http://download.openmmlab.com/mmdetection/v2.0/faster_rcnn/faster_rcnn_r50_fpn_2x_coco/faster_rcnn_r50_fpn_2x_coco_bbox_mAP-0.384_20200504_210434-a5d8aa15.pth `
     --det-score-thr 0.1 `
     --action-score-thr 0.1 `
     --label-map mmaction2/tools/data/ava/label_map.txt `
     --predict-stepsize 8 `
     --output-stepsize 4 `
     --output-fps 6 `
     --device cuda:0
```

In [5]:
from IPython.display import Video

Video("data/losash_tem_spatiotemp.mp4", width=1024, height=576)

### Часть 4. Пример тренировки и тестирования модели

В качестве примера для обучения возьмём другую задачу - Action Localization c Boundary Matching Network и воспроизведем ее результаты на датасете [ActivityNet](https://github.com/open-mmlab/mmaction2/blob/master/tools/data/activitynet/README.md).

[config](https://github.com/open-mmlab/mmaction2/blob/master/configs/localization/bmn/README.md)

Сеть предсказывает proposals (сегменты) для отдельных действий.

#### 4.1. Подготовка датасета ActivityNet
Первые two-stage детекторы (R-CNN) работали по принципу:
- обучить классификатор изображений
- применить классификатор к патчам изображения, сохранить признаки с последнего слоя
- обучить на признаках сеть-детектор (Region Proposal Network)

Аналогично работает BMN:
- обучить классификатор изображений либо видео (2D/3D CNN)
- применить классификатор к последовательности кадров, сохранить признаки с последнего слоя
- обучить на признаках сеть-детектор (Region Proposal Network)


Будем тренировать только последний этап - [воспользуемся](https://github.com/open-mmlab/mmaction2/blob/master/tools/data/activitynet/README.md#option-1-use-the-activitynet-rescaled-feature-provided-in-this-repo) готовыми фичами:
```
$ cd mmaction2/tools/data
$ bash download_feature_annotations.sh
$ bash download_features.sh
$ python process_annotations.py
```
Фичи каждого видео - тензор \[400, T\], приведенные усреднением к \[400, 100\]

#### 4.2. Обучение BMN на ActivityNet
`$ python .\tools\train.py .\configs\localization\bmn\bmn_2xb8-400x100-9e_activitynet-feature.py`

Результаты тренировки автоматически сохраняются в work_dirs.

#### 4.3. Тестирование BMN на ActivityNet
Правки:
- добавить gpu_ids в config

`$ python tools/test.py configs/localization/bmn/bmn_400x100_2x8_9e_activitynet_feature.py .\work_dirs\bmn_400x100_2x8_9e_activitynet_feature\latest.pth --eval AR@AN --out .\work_dirs\bmn_400x100_2x8_9e_activitynet_feature\results_test.json --gpu-collect`

```
auc: 66.9812
AR@1: 0.3360
AR@5: 0.4958
AR@10: 0.5620
AR@100: 0.7503
```
Сравнить с [config](https://github.com/open-mmlab/mmaction2/blob/master/configs/localization/bmn/README.md)


### Часть 5. Собственные расширения фреймворка

In [10]:
from mmaction.models.localizers import BMN
from mmaction.registry import MODELS
import torch

In [11]:
# config mmaction2\configs\_base_\models\bmn_400x100.py

model_config = dict(
    type='BMN',
    temporal_dim=100,
    boundary_ratio=0.5,
    num_samples=32,
    num_samples_per_bin=3,
    feat_dim=400,
    soft_nms_alpha=0.4,
    soft_nms_low_threshold=0.5,
    soft_nms_high_threshold=0.9,
    post_process_top_k=100
)
model = MODELS.build(model_config)

In [12]:
model

BMN(
  (data_preprocessor): BaseDataPreprocessor()
  (loss_cls): BMNLoss()
  (x_1d_b): Sequential(
    (0): Conv1d(400, 256, kernel_size=(3,), stride=(1,), padding=(1,), groups=4)
    (1): ReLU(inplace=True)
    (2): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,), groups=4)
    (3): ReLU(inplace=True)
  )
  (x_1d_s): Sequential(
    (0): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,), groups=4)
    (1): ReLU(inplace=True)
    (2): Conv1d(256, 1, kernel_size=(1,), stride=(1,))
    (3): Sigmoid()
  )
  (x_1d_e): Sequential(
    (0): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,), groups=4)
    (1): ReLU(inplace=True)
    (2): Conv1d(256, 1, kernel_size=(1,), stride=(1,))
    (3): Sigmoid()
  )
  (x_1d_p): Sequential(
    (0): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
    (1): ReLU(inplace=True)
  )
  (x_3d_p): Sequential(
    (0): Conv3d(256, 512, kernel_size=(32, 1, 1), stride=(1, 1, 1))
    (1): ReLU(inplace=True)
  )
  (x_2

In [13]:
model_config.pop('type');
model = BMN(**model_config)

In [14]:
print(f"Num params: {sum(p.numel() for (_, p) in model.named_parameters()) /1e6:1.3f} M")

Num params: 36.979 M


In [24]:
one_raw_feature = torch.rand(400, 100)


In [20]:
from mmengine.runner import load_checkpoint
from pathlib import Path
load_checkpoint(model, str(Path() / "mmaction2" /"work_dirs"/"bmn_400x100_2x8_9e_activitynet_feature" / "epoch_9.pth"), map_location='cpu');

Loads checkpoint by local backend from path: mmaction2\work_dirs\bmn_400x100_2x8_9e_activitynet_feature\epoch_9.pth


In [32]:
sample = ActionDataSample(
    metainfo=dict(
        video_name='v_test',
        duration_second=100,
        duration_frame=960,
        feature_frame=960
    )
)

with torch.no_grad():
    results = model([one_raw_feature], mode="predict", data_samples=[sample])


In [33]:
results

[{'video_name': 'v_test',
  'proposal_list': [{'score': 0.12671509385108948, 'segment': [0.0, 99.0]},
   {'score': 0.0693671852350235, 'segment': [0.0, 88.0]},
   {'score': 0.05580621957778931, 'segment': [11.0, 99.0]},
   {'score': 0.03480414301156998, 'segment': [26.0, 99.0]},
   {'score': 0.02557065337896347, 'segment': [0.0, 74.0]},
   {'score': 0.023259269073605537, 'segment': [15.0, 88.0]},
   {'score': 0.0068535394966602325, 'segment': [0.0, 51.0]},
   {'score': 0.00631954800337553, 'segment': [0.0, 30.0]},
   {'score': 0.00492625730112195, 'segment': [0.0, 14.000000000000002]},
   {'score': 0.0045216986909508705, 'segment': [42.0, 99.0]},
   {'score': 0.003462002146989107, 'segment': [60.0, 99.0]},
   {'score': 0.0034392739180475473, 'segment': [0.0, 7.000000000000001]},
   {'score': 0.0028525996021926403, 'segment': [74.0, 99.0]},
   {'score': 0.0027622701169414928, 'segment': [11.0, 84.0]},
   {'score': 0.002292781136929989, 'segment': [28.999999999999996, 86.0]},
   {'score'

### Напишем модификацию - BMN with Action Classification

In [43]:
%%writefile mmaction2\mmaction\models\localizers\bmn_w_ac.py
from torch import nn
from mmaction.models.localizers import BMN
from mmaction.registry import MODELS

# https://raw.githubusercontent.com/imatge-upc/activitynet-2016-cvprw/master/dataset/labels.txt
NUM_ACTIVITYNET_LABELS = 201

@MODELS.register_module()
class BMNwActionCls(BMN):
    """
    BMN with action classification.
    Adds head for action classificationю.
    <Head training is not implemented>.
    """
    def __init__(self, *args, **kwargs):
        self.num_action_classes = kwargs.pop('num_action_classes', NUM_ACTIVITYNET_LABELS)
        super().__init__(*args, **kwargs)
        self.head_action_cls = nn.Sequential(
            nn.Conv1d(self.feat_dim, self.num_action_classes, kernel_size=1),
            nn.Softmax(dim=1)
        )
        
    def predict(self, raw_feature, video_meta):
        outputs = super().predict(raw_feature, video_meta)        
        action_cls_pred = self.head_action_cls(raw_feature)
        # [batch_size, self.num_action_classes, self.tscale]
        batch_size, nc, ts = action_cls_pred.shape
        
        for b in range(batch_size):
            for p, prop in enumerate(outputs[b]['proposal_list']):
                t_start, t_end = prop['segment']
                proposal_mean_prob = action_cls_pred[b, :, round(t_start):round(t_end)].mean(axis=1)
                outputs[b]['proposal_list'][p]['action_cls'] = torch.argmax(proposal_mean_prob)
        return outputs
    


Overwriting mmaction2\mmaction\models\localizers\bmn_w_ac.py


In [38]:
model_wc = BMNwActionCls(num_action_classes=42, **model_config)

In [39]:
with torch.no_grad():
    results = model_wc([one_raw_feature], mode="predict", data_samples=[sample])

### Использование модификации
- Добавить файл mmaction/models/localizers/bmn_w_ac.py
- Добавить импорт модели в mmaction/models/localizers/\__init__.py (иначе во время запуска скрипт тренировки не найдёт новую модель)
```
python .\tools\train.py .\configs\localization\bmn\bmn_400x100_2x8_9e_activitynet_feature.py 
    --gpus=1 
    --work-dir=./work_dirs/bmn_400x100_2x8_9e_activitynet_feature_w_ac/ 
    --cfg-options model.type=BMNwActionCls 
    --cfg-options data.videos_per_gpu=4
```

### Итоги
- есть множество вариаций задач распознавания видео
- многие из них имеют baseline решения в пакете mmaction2
- у open-mmlab также есть ряд пакетов для других задач компьютерного зрения
- решения из пакетов open-mmlab легко воспроизвести и можно модифицировать под свои нужды