## Занятие 10. Распознавание действий на видео

### Часть 1. Пакеты Open-MMLab

Фреймворк open-mmlab - набор пакетов для решения задач компьютерного зрения от Multimedia Lab в The Chinese University of Hong Kong.
- https://github.com/open-mmlab/
- https://openmmlab.com/

Наиболее известный пакет фреймворка - [mmdetection](https://github.com/open-mmlab/mmdetection).

Пакеты open-mmlab не являются Python-пакетами в стандартном смысле - помимо Python-кода моделей и чтения данных, в него входят скрипты для обучения, распределенного обучения, тестирования, скачивания данных, конвертации моделей, анализу качества работы и производительности

Авторы стремятся в работе:
- к воспроизводимости и документированности результатов
- к модульности моделей, расширяемости фреймворка новыми моделями
- к самодостаточности фреймворка

#### 1.1 Конфиги
Для задания пайплайнов используются python-модули с описанием "всего" в виде словарей.


Пример: 
- пайплайн CenterNet https://github.com/open-mmlab/mmdetection/blob/master/configs/centernet/README.md
- код головы CenterNet https://github.com/open-mmlab/mmdetection/blob/master/mmdet/models/dense_heads/centernet_head.py

### Часть 2. MMAction2 и анализ видео
https://github.com/open-mmlab/mmaction2 - фреймворк для анализа видео (распознавания действий на видео).

Распознавание действий на видео (Action Recognition / Video Understanding) - общая задача со множеством вариаций.

Постановка задачи зависит от определения "действия", например:
1. У действия есть границы во времени ($T_{start}, T_{end}$) - или оно длится от начала до конца видео?
2. Действие на видео одно - или их много?
3. Действие имеет просранственные характеристики (Bounding Box, Mask) - или оно происходит "на всём кадре целиком"?
4. Действия могут пересекаться во времени / в пространстве?

...

Дальше - больше:
- действие описывается единственным фиксированным классом (Dance), несколькими классами (Actor / Action), текстом в свободной форме?
- есть ли другие модальности - например, аудио?
- камера одна или несколько?




### Примеры задач

- Action Recognition: на видео - одно действие фиксированного класса без границ по времени и пространству
- Activity Localization: на видео одно или несколько действий фиксированных классов с границами по времени
- Spatio-Temporal Action Detection = Action Localization + детекции объектов
- Action Segmentation: на каждом кадре видео не более одного действия
- Action (Event) Spotting: на видео есть отдельные кадры-действия (у действия нет длительности)

Часть задач поддерживается [mmaction2](https://github.com/open-mmlab/mmaction2#supported-methods)

### Часть 3.1. Пример использования обученных моделей
Запустим предобученную spatio-temporal action detection на двух примерах.
- [demo](https://github.com/open-mmlab/mmaction2/tree/master/demo#spatiotemporal-action-detection-video-demo)
- [cofig](https://github.com/open-mmlab/mmaction2/tree/master/configs/detection/ava)

Для запуска демо нужно:
- `$ pip install mmdet`
- `$ pip install moviepy`
- на windows не подтянулись CUDA операции в mmcv-full - можно использовать CPU (либо пересобрать mmcv-full с nvcc)


```
(open-mmlab) PS D:\Repositories\mmaction2> python demo/demo_spatiotemporal_det.py --video D:\edu\teach\course_cvdl\classes\c10\data\ntu_sample.avi `
    --config configs/detection/ava/slowonly_omnisource_pretrained_r101_8x8x1_20e_ava_rgb.py `
     --checkpoint https://download.openmmlab.com/mmaction/detection/ava/slowonly_omnisource_pretrained_r101_8x8x1_20e_ava_rgb/slowonly_omnisource_pretrained_r101_8x8x1_20e_ava_rgb_20201217-16378594.pth `
     --det-config demo/faster_rcnn_r50_fpn_2x_coco.py `
     --det-checkpoint http://download.openmmlab.com/mmdetection/v2.0/faster_rcnn/faster_rcnn_r50_fpn_2x_coco/faster_rcnn_r50_fpn_2x_coco_bbox_mAP-0.384_20200504_210434-a5d8aa15.pth `
     --det-score-thr 0.9 `
     --action-score-thr 0.5 `
     --label-map tools/data/ava/label_map.txt `
     --predict-stepsize 8 `
     --output-stepsize 4 `
     --output-fps 6 --device cpu:0 --out-filename D:\edu\teach\course_cvdl\classes\c10\data\ntu_spatiotemp.mp4
load checkpoint from http path: http://download.openmmlab.com/mmdetection/v2.0/faster_rcnn/faster_rcnn_r50_fpn_2x_coco/faster_rcnn_r50_fpn_2x_coco_bbox_mAP-0.384_20200504_210434-a5d8aa15.pth
Performing Human Detection for each frame
[>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] 2/2, 0.4 task/s, elapsed: 5s, ETA:     0sload checkpoint from http path: https://download.openmmlab.com/mmaction/detection/ava/slowonly_omnisource_pretrained_r101_8x8x1_20e_ava_rgb/slowonly_omnisource_pretrained_r101_8x8x1_20e_ava_rgb_20201217-16378594.pth
Performing SpatioTemporal Action Detection for each clip
[>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] 2/2, 0.4 task/s, elapsed: 4s, ETA:     0sPerforming visualization
Moviepy - Building video D:\edu\teach\course_cvdl\classes\c10\data\ntu_spatiotemp.mp4.
Moviepy - Writing video D:\edu\teach\course_cvdl\classes\c10\data\ntu_spatiotemp.mp4

Moviepy - Done !
Moviepy - video ready D:\edu\teach\course_cvdl\classes\c10\data\ntu_spatiotemp.mp4
```

In [155]:
from IPython.display import Video

Video("data/ntu_spatiotemp.mp4", width=1024, height=576)

```
(open-mmlab) PS D:\Repositories\mmaction2> python demo/demo_spatiotemporal_det.py --video D:\edu\teach\course_cvdl\classes\c10\data\losash_tem.mp4 `
>>     --config configs/detection/ava/slowonly_omnisource_pretrained_r101_8x8x1_20e_ava_rgb.py `
>>     --checkpoint https://download.openmmlab.com/mmaction/detection/ava/slowonly_omnisource_pretrained_r101_8x8x1_20e_ava_rgb/slowonly_omnisource_pretrained_r101_8x8x1_20e_ava_rgb_20201217-16378594.pth `
>>     --det-config demo/faster_rcnn_r50_fpn_2x_coco.py `
>>     --det-checkpoint http://download.openmmlab.com/mmdetection/v2.0/faster_rcnn/faster_rcnn_r50_fpn_2x_coco/faster_rcnn_r50_fpn_2x_coco_bbox_mAP-0.384_20200504_210434-a5d8aa15.pth `
>>     --det-score-thr 0.9 `
>>     --action-score-thr 0.5 `
>>     --label-map tools/data/ava/label_map.txt `
>>     --predict-stepsize 8 `
>>     --output-stepsize 4 `
>>     --output-fps 6 --device cpu:0 --out-filename D:\edu\teach\course_cvdl\classes\c10\data\losash_tem_spatiotemp.mp4
```

In [11]:
from IPython.display import Video

Video("data/losash_tem_spatiotemp.mp4", width=1024, height=576)

### Часть 4. Пример тренировки и тестирования модели

В качестве примера для обучения возьмём другую задачу - Action Localization c Boundary Matching Network и воспроизведем ее результаты на датасете [ActivityNet](https://github.com/open-mmlab/mmaction2/blob/master/tools/data/activitynet/README.md).

[config](https://github.com/open-mmlab/mmaction2/blob/master/configs/localization/bmn/README.md)

Сеть предсказывает proposals (сегменты) для отдельных действий.

#### 4.1. Подготовка датасета ActivityNet
Первые two-stage детекторы (R-CNN) работали по принципу:
- обучить классификатор изображений
- применить классификатор к патчам изображения, сохранить признаки с последнего слоя
- обучить на признаках сеть-детектор (Region Proposal Network)

Аналогично работает BMN:
- обучить классификатор изображений либо видео (2D/3D CNN)
- применить классификатор к последовательности кадров, сохранить признаки с последнего слоя
- обучить на признаках сеть-детектор (Region Proposal Network)


Будем тренировать только последний этап - [воспользуемся](https://github.com/open-mmlab/mmaction2/blob/master/tools/data/activitynet/README.md#option-1-use-the-activitynet-rescaled-feature-provided-in-this-repo) готовыми фичами:
```
$ cd mmaction2/tools/data
$ bash download_feature_annotations.sh
$ bash download_features.sh
$ python process_annotations.py
```
Фичи каждого видео - тензор \[400, T\], приведенные усреднением к \[400, 100\]

#### 4.2. Обучение BMN на ActivityNet
`$ python .\tools\train.py .\configs\localization\bmn\bmn_400x100_2x8_9e_activitynet_feature.py --gpus=1`

Результаты тренировки автоматически сохраняются в work_dirs.

#### 4.3. Тестирование BMN на ActivityNet
Правки:
- добавить gpu_ids в config

`$ python tools/test.py configs/localization/bmn/bmn_400x100_2x8_9e_activitynet_feature.py .\work_dirs\bmn_400x100_2x8_9e_activitynet_feature\latest.pth --eval AR@AN --out .\work_dirs\bmn_400x100_2x8_9e_activitynet_feature\results_test.json --gpu-collect`

```
auc: 66.9812
AR@1: 0.3360
AR@5: 0.4958
AR@10: 0.5620
AR@100: 0.7503
```
Сравнить с [config](https://github.com/open-mmlab/mmaction2/blob/master/configs/localization/bmn/README.md)


### Часть 5. Собственные расширения фреймворка

In [26]:
from mmaction.models.localizers import BMN
from mmaction.models import build_localizer
import torch

In [65]:
# config mmaction2\configs\_base_\models\bmn_400x100.py

model_config = dict(
    type='BMN',
    temporal_dim=100,
    boundary_ratio=0.5,
    num_samples=32,
    num_samples_per_bin=3,
    feat_dim=400,
    soft_nms_alpha=0.4,
    soft_nms_low_threshold=0.5,
    soft_nms_high_threshold=0.9,
    post_process_top_k=100
)
model = build_localizer(model_config)

In [66]:
model_config.pop('type');
model = BMN(**model_config)

In [31]:
print(f"Num params: {sum(p.numel() for (_, p) in model.named_parameters()) /1e6:1.3f} M")

Num params: 36.979 M


In [61]:
one_raw_feature = torch.rand(1, 400, 100)


In [None]:
from mmcv.runner import load_checkpoint
load_checkpoint(model, r"D:\Repositories\mmaction2\work_dirs\bmn_400x100_2x8_9e_activitynet_feature\latest.pth", map_location='cpu')

In [74]:
video_meta = [
    dict(
        video_name='v_test',
        duration_second=100,
        duration_frame=960,
        feature_frame=960
    )
]

with torch.no_grad():
    results = model(
        one_raw_feature,
        gt_bbox=None,
        video_meta=video_meta,
        return_loss=False
    )


### Напишем модификацию - BMN with Action Classification

In [152]:
from torch import nn
from mmaction.models.localizers import BMN
from mmaction.models.builder import LOCALIZERS


#@LOCALIZERS.register_module()
class BMNwActionCls(BMN):
    """
    BMN with action classification.
    Adds head for action classificationю.
    <Head training is not implemented>.
    """
    def __init__(self, *args, **kwargs):
        self.num_action_classes = kwargs.pop('num_action_classes', 10)
        super().__init__(*args, **kwargs)
        self.head_action_cls = nn.Sequential(
            nn.Conv1d(self.feat_dim, self.num_action_classes, kernel_size=1),
            nn.Softmax(dim=1)
        )
    
    def forward_test(self, raw_feature, video_meta):
        outputs = super().forward_test(raw_feature, video_meta)        
        action_cls_pred = self.head_action_cls(raw_feature)
        # [batch_size, self.num_action_classes, self.tscale]
        batch_size, nc, ts = action_cls_pred.shape
        
        for b in range(batch_size):
            for p, prop in enumerate(outputs[b]['proposal_list']):
                t_start, t_end = prop['segment']
                proposal_mean_prob = action_cls_pred[b, :, round(t_start):round(t_end)].mean(axis=1)
                outputs[b]['proposal_list'][p]['action_cls'] = torch.argmax(proposal_mean_prob)
        return outputs


In [148]:
model_wc = BMNwActionCls(num_action_classes=42, **model_config)

In [149]:
video_meta = [
    dict(
        video_name='v_test',
        duration_second=100,
        duration_frame=960,
        feature_frame=960
    )
]

with torch.no_grad():
    results = model_wc(
        one_raw_feature,
        gt_bbox=None,
        video_meta=video_meta,
        return_loss=False
    )

In [153]:
import shutil

In [154]:
shutil.copyfile('bmn_w_ac.py', r"D:\Repositories\mmaction2\mmaction\models\localizers\bmn_w_ac.py")

'D:\\Repositories\\mmaction2\\mmaction\\models\\localizers\\bmn_w_ac.py'

### Использование модификации
- Добавить файл mmaction/models/localizers/bmn_w_ac.py
- Добавить импорт модели в mmaction/models/localizers/\__init__.py (иначе во время запуска скрипт тренировки не найдёт новую модель)
```
python .\tools\train.py .\configs\localization\bmn\bmn_400x100_2x8_9e_activitynet_feature.py 
    --gpus=1 
    --work-dir=./work_dirs/bmn_400x100_2x8_9e_activitynet_feature_w_ac/ 
    --cfg-options model.type=BMNwActionCls 
    --cfg-options data.videos_per_gpu=4
```

### Итоги
- есть множество вариаций задач распознавания видео
- многие из них имеют baseline решения в пакете mmaction2
- у open-mmlab также есть ряд пакетов для других задач компьютерного зрения
- решения из пакетов open-mmlab легко воспроизвести и можно модифицировать под свои нужды