In [1]:
import os

import cv2
import math
import numpy as np
import moviepy 
import torch

from matplotlib import pyplot as plt



from alphaction.config import cfg
from alphaction.modeling.detector import build_detection_model
from alphaction.utils.checkpoint import ActionCheckpointer
from alphaction.utils.comm import get_world_size


from my_utils.gen_utils import create_experiment_folder
from my_utils.video_processing import get_video_info, get_frame_from_video
from my_utils.slicing import get_slice_bboxes, generate_sliding_window_gif

from my_utils.video_processing import segment_crop_video
from my_utils.my_ava_preprocessing import ava_preprocessing_cv2, clip_constructor, prepare_collated_batches
from my_utils.ava_postprocessing import concatenate_results
from my_utils.visualization import action_visualizer_frame_index

from my_utils.gen_utils import parse_label_file

from my_utils.ava_postprocessing import clip_boxes_tensor, map_bbox_from_prep_to_crop, map_bbox_from_crop_to_orig


from tqdm import tqdm


### 1. CONFIG
#### 1.1 Main Parameters

In [2]:
model_name = 'VMAEv2'


person_threshold = 0.3 # confidence threshold on actor. 0.6 is the defualt
sampling_rate = 3 # sampling rate: 4 is the defualt
top_k = 5 # number of actions per person
video_path = '../input_dir/markt2_fight.mp4'

slice_height = 800
slice_width = 1000
overlap_ratio = 0.2

starting_frame_index = 50
length_input = 300

exp_dict = {'model_name': model_name,
            'model_params': {'person_threshold': person_threshold, 
                             'sampling_rate': sampling_rate},
            'orig_post_processing':{'top_k': top_k},
            'aggregation': {'method': {}, 
                            'params': {}},
            'video_path': video_path,
            'slicing_params': {'slice_height': slice_height, 
                               'slice_width': slice_width, 
                               'overlap_ratio':overlap_ratio},
            'video_params': {'st_frame_index': starting_frame_index, 
                             'length_input':length_input
                             }
           }

exp_dict


{'model_name': 'VMAEv2',
 'model_params': {'person_threshold': 0.3, 'sampling_rate': 3},
 'orig_post_processing': {'top_k': 5},
 'aggregation': {'method': {}, 'params': {}},
 'video_path': '../input_dir/markt2_fight.mp4',
 'slicing_params': {'slice_height': 800,
  'slice_width': 1000,
  'overlap_ratio': 0.2},
 'video_params': {'st_frame_index': 50, 'length_input': 300}}

In [3]:
video_name = os.path.basename(video_path).split('.')[0]
output_directory = f'../output_dir/{video_name}/{model_name}/patch_batch/' 
output_directory = create_experiment_folder(output_directory, 'exp')
output_directory



'../output_dir/markt2_fight/VMAEv2/patch_batch/exp_3'

#### 1.2 Model Config Setup

In [4]:
if model_name == 'VMAEv2':
    config_file = '../config_files/VMAEv2-ViTB-16x4.yaml'
if model_name == 'VMAE':
    config_file = '../config_files/VMAE-ViTB-16x4.yaml'


In [5]:
cfg.merge_from_file(config_file)

In [6]:
# change model weight path
if model_name == 'VMAEv2':
    cfg.merge_from_list(["MODEL.WEIGHT", "../checkpoints/VMAEv2_ViTB_16x4.pth"])
if model_name == 'VMAE':
    cfg.merge_from_list(["MODEL.WEIGHT", "../checkpoints/VMAE_ViTB_16x4.pth"])

# change output dir
cfg.merge_from_list(["OUTPUT_DIR", "../output_dir/"])

# change person threshold
cfg.merge_from_list(["MODEL.STM.PERSON_THRESHOLD", person_threshold])

# change sampling rate
cfg.merge_from_list(["DATA.SAMPLING_RATE", sampling_rate])

# change path for data_dir
cfg.merge_from_list(["DATA.PATH_TO_DATA_DIR", "/work/ava"])

# folder name of annotations
cfg.merge_from_list(["AVA.ANNOTATION_DIR", "annotations/"])

# file name of  frame_lists
cfg.merge_from_list(["AVA.TRAIN_LISTS", ['sample.csv']])
cfg.merge_from_list(["AVA.TEST_LISTS", ['sample.csv']])

# file name of predicted_bboxes
cfg.merge_from_list(["AVA.TRAIN_GT_BOX_LISTS", ['ava_sample_predicted_boxes.csv']])
cfg.merge_from_list(["AVA.TEST_GT_BOX_LISTS", ['ava_sample_predicted_boxes.csv']])

# file name of exlusions
cfg.merge_from_list(["AVA.EXCLUSION_FILE", 'ava_sample_train_excluded_timestamps_v2.2.csv'])

# number of batches in test scenario
cfg.merge_from_list(["TEST.VIDEOS_PER_BATCH", 1])

# number of workers
cfg.merge_from_list(["DATALOADER.NUM_WORKERS", 1])


### 2. ARGS

In [7]:
debug = True
if debug:
    # The shape of model input should be divisible into this. Otherwise, padding 0 to left and bottum. 
    print("cfg.DATALOADER.SIZE_DIVISIBILITY: ", cfg.DATALOADER.SIZE_DIVISIBILITY)
    
    # Sampling rate in constructing the clips.
    self_sample_rate =  cfg.DATA.SAMPLING_RATE
    print("cfg.DATA.SAMPLING_RATE: ", cfg.DATA.SAMPLING_RATE)
    
    # Length of clip
    self_video_length = cfg.DATA.NUM_FRAMES
    print("cfg.DATA.NUM_FRAMES: ", cfg.DATA.NUM_FRAMES)
    
    # Length of sequence frames from which a clip is constructed.
    self_seq_len = self_video_length * self_sample_rate
    print("self_seq_len: ", self_seq_len)
    
    self_num_classes = cfg.MODEL.STM.ACTION_CLASSES
    print("cfg.MODEL.STM.ACTION_CLASSES: ", self_num_classes)
    
    # Augmentation params.
    self_data_mean = cfg.DATA.MEAN
    self_data_std = cfg.DATA.STD
    self_use_bgr = cfg.AVA.BGR
    print("Augmentation params: ", self_data_mean, self_data_std, self_use_bgr)
    
    self_jitter_min_scale = cfg.DATA.TEST_MIN_SCALES
    self_jitter_max_scale = cfg.DATA.TEST_MAX_SCALE
    self_test_force_flip = cfg.AVA.TEST_FORCE_FLIP

    print("scale and flip params", self_jitter_min_scale, self_jitter_max_scale, self_test_force_flip)

cfg.DATALOADER.SIZE_DIVISIBILITY:  32
cfg.DATA.SAMPLING_RATE:  3
cfg.DATA.NUM_FRAMES:  16
self_seq_len:  48
cfg.MODEL.STM.ACTION_CLASSES:  80
Augmentation params:  [0.45, 0.45, 0.45] [0.225, 0.225, 0.225] False
scale and flip params [256] 1333 False


In [8]:
seq_len = cfg.DATA.NUM_FRAMES * cfg.DATA.SAMPLING_RATE
print(seq_len)

48


### 3. VIDEO Info and Slicing Visualization


In [9]:
video_info = get_video_info(video_path)

In [10]:
video_info

{'frame_count': 368,
 'frame_rate': 16.999,
 'width': 2592,
 'height': 1944,
 'fps': 16.999}

In [11]:
exp_dict['video_params'].update(video_info)
exp_dict

{'model_name': 'VMAEv2',
 'model_params': {'person_threshold': 0.3, 'sampling_rate': 3},
 'orig_post_processing': {'top_k': 5},
 'aggregation': {'method': {}, 'params': {}},
 'video_path': '../input_dir/markt2_fight.mp4',
 'slicing_params': {'slice_height': 800,
  'slice_width': 1000,
  'overlap_ratio': 0.2},
 'video_params': {'st_frame_index': 50,
  'length_input': 300,
  'frame_count': 368,
  'frame_rate': 16.999,
  'width': 2592,
  'height': 1944,
  'fps': 16.999}}

In [12]:
frame_height = video_info['height']
frame_width = video_info['width']

In [13]:
patches_coordinates = get_slice_bboxes(frame_height, frame_width, slice_height, slice_width, False, overlap_ratio)

In [14]:
len(patches_coordinates)

9

In [15]:
patches_coordinates

[[0, 0, 1000, 800],
 [800, 0, 1800, 800],
 [1592, 0, 2592, 800],
 [0, 640, 1000, 1440],
 [800, 640, 1800, 1440],
 [1592, 640, 2592, 1440],
 [0, 1144, 1000, 1944],
 [800, 1144, 1800, 1944],
 [1592, 1144, 2592, 1944]]

In [16]:
sample_frame = get_frame_from_video(video_path, 0)

In [17]:
if False:
    generate_sliding_window_gif(sample_frame, patches_coordinates, gif_filename='sliding_window.gif')

In [18]:
from IPython.display import display, Image


In [19]:
if False:
    display(Image(filename='sliding_window.gif'))

In [20]:
if True:
    !rm sliding_window.gif

rm: cannot remove 'sliding_window.gif': No such file or directory


### 4. building model

In [21]:
model = build_detection_model(cfg)

In [22]:
model.to("cuda")

STMDetector(
  (backbone): ViT(
    (patch_embed): PatchEmbed(
      (proj): Conv3d(3, 768, kernel_size=(2, 16, 16), stride=(2, 16, 16))
    )
    (pos_drop): Dropout(p=0.0, inplace=False)
    (blocks): ModuleList(
      (0): Block(
        (norm1): LayerNorm((768,), eps=1e-06, elementwise_affine=True)
        (attn): Attention(
          (qkv): Linear(in_features=768, out_features=2304, bias=False)
          (attn_drop): Dropout(p=0.0, inplace=False)
          (proj): Linear(in_features=768, out_features=768, bias=True)
          (proj_drop): Dropout(p=0.0, inplace=False)
        )
        (drop_path): Identity()
        (norm2): LayerNorm((768,), eps=1e-06, elementwise_affine=True)
        (mlp): Mlp(
          (fc1): Linear(in_features=768, out_features=3072, bias=True)
          (act): GELU(approximate='none')
          (fc2): Linear(in_features=3072, out_features=768, bias=True)
          (drop): Dropout(p=0.0, inplace=False)
        )
      )
      (1): Block(
        (norm1): La

### 5. loading weight

In [23]:
output_dir = cfg.OUTPUT_DIR
output_dir

'../output_dir/'

In [24]:
checkpointer = ActionCheckpointer(cfg, model, save_dir=output_dir)
checkpointer.load(cfg.MODEL.WEIGHT)

{}

In [25]:
num_gpus = int(os.environ["WORLD_SIZE"]) if "WORLD_SIZE" in os.environ else 1
num_gpus

1

In [26]:
mem_active = cfg.MODEL.STM.MEM_ACTIVE
mem_active  

False

In [27]:
device = torch.device("cuda")

In [28]:
num_devices = get_world_size()
num_devices

1

In [29]:
model.eval()

STMDetector(
  (backbone): ViT(
    (patch_embed): PatchEmbed(
      (proj): Conv3d(3, 768, kernel_size=(2, 16, 16), stride=(2, 16, 16))
    )
    (pos_drop): Dropout(p=0.0, inplace=False)
    (blocks): ModuleList(
      (0): Block(
        (norm1): LayerNorm((768,), eps=1e-06, elementwise_affine=True)
        (attn): Attention(
          (qkv): Linear(in_features=768, out_features=2304, bias=False)
          (attn_drop): Dropout(p=0.0, inplace=False)
          (proj): Linear(in_features=768, out_features=768, bias=True)
          (proj_drop): Dropout(p=0.0, inplace=False)
        )
        (drop_path): Identity()
        (norm2): LayerNorm((768,), eps=1e-06, elementwise_affine=True)
        (mlp): Mlp(
          (fc1): Linear(in_features=768, out_features=3072, bias=True)
          (act): GELU(approximate='none')
          (fc2): Linear(in_features=3072, out_features=768, bias=True)
          (drop): Dropout(p=0.0, inplace=False)
        )
      )
      (1): Block(
        (norm1): La

## 6. Inference

In [30]:
patches_coordinates

[[0, 0, 1000, 800],
 [800, 0, 1800, 800],
 [1592, 0, 2592, 800],
 [0, 640, 1000, 1440],
 [800, 640, 1800, 1440],
 [1592, 640, 2592, 1440],
 [0, 1144, 1000, 1944],
 [800, 1144, 1800, 1944],
 [1592, 1144, 2592, 1944]]

In [31]:
file_path = 'labels.txt'  # Specify the path to your text file
label_dict = parse_label_file(file_path)
print(label_dict)

{1: 'bend/bow (at the waist)', 2: 'crawl', 3: 'crouch/kneel', 4: 'dance', 5: 'fall down', 6: 'get up', 7: 'jump/leap', 8: 'lie/sleep', 9: 'martial art', 10: 'run/jog', 11: 'sit', 12: 'stand', 13: 'swim', 14: 'walk', 15: 'answer phone', 16: 'brush teeth', 17: 'carry/hold (an object)', 18: 'catch (an object)', 19: 'chop', 20: 'climb (e.g., a mountain)', 21: 'clink glass', 22: 'close (e.g., a door, a box)', 23: 'cook', 24: 'cut', 25: 'dig', 26: 'dress/put on clothing', 27: 'drink', 28: 'drive (e.g., a car, a truck)', 29: 'eat', 30: 'enter', 31: 'exit', 32: 'extract', 33: 'fishing', 34: 'hit (an object)', 35: 'kick (an object)', 36: 'lift/pick up', 37: 'listen (e.g., to music)', 38: 'open (e.g., a window, a car door)', 39: 'paint', 40: 'play board game', 41: 'play musical instrument', 42: 'play with pets', 43: 'point to (an object)', 44: 'press', 45: 'pull (an object)', 46: 'push (an object)', 47: 'put down', 48: 'read', 49: 'ride (e.g., a bike, a car, a horse)', 50: 'row boat', 51: 'sail 

In [32]:
temp_results_dict = {}

add_patch_index = True

for patch_index, patch_coordinates in tqdm(enumerate(patches_coordinates), desc='Processing patches'):
    
    # cropping and segmenting input video based on patch_coordinates and temporal window  
    cropped_video = segment_crop_video(video_path, 
                                      frame_index=starting_frame_index, 
                                      length=length_input, 
                                      crop=patch_coordinates)
    
    crop_height, crop_width = cropped_video[0].shape[:2]
    
    
    prep_video = ava_preprocessing_cv2(cropped_video, cfg)
    prep_height, prep_width = prep_video.shape[-2:]
    
    
    prep_clips, center_frames = clip_constructor(prep_video, 
                                                 rate_sample=cfg.DATA.SAMPLING_RATE, 
                                                 num_frames=cfg.DATA.NUM_FRAMES)
    
    list_collated_batches = prepare_collated_batches(prep_clips, center_frames, cfg)
    

    for batch, center_frame_index in tqdm(zip(list_collated_batches, center_frames), 
                                          desc='Processing frames', 
                                          total=len(list_collated_batches)):
        
        # updating frame index based on starting_frame_index
        cur_frame_index = center_frame_index + starting_frame_index
        
        # adding current frame index to result dict
        if cur_frame_index not in temp_results_dict:
            temp_results_dict[cur_frame_index] = []
        
        # passing batch to model
        with torch.no_grad():
            slow_video, fast_video, whwh, boxes, labels, metadata, idx = batch
            clips_height, clips_width = slow_video.shape[-2:]
            slow_video = slow_video.to(device)
            if fast_video is not None:
                fast_video = fast_video.to(device)
            whwh = whwh.to(device)
    
            # INFERENCE
            action_score_list, box_list, objectness_score_list = model(slow_video, fast_video, whwh, boxes, labels)
            #print(slow_video.shape)
        
        # Removing batch dimension
        if len(box_list) != 0:
           
            output_bbox = box_list[0]
            output_action = action_score_list[0]
            output_objectness = objectness_score_list[0]
        
            if output_bbox.shape[0] != 0:
            
                # denormalizing bboxes w.r.t. clips shape
                output_bbox_inp = output_bbox.clone()

                output_bbox_inp[:, 0] = output_bbox[:, 0] * clips_width
                output_bbox_inp[:, 1] = output_bbox[:, 1] * clips_height
                output_bbox_inp[:, 2] = output_bbox[:, 2] * clips_width
                output_bbox_inp[:, 3] = output_bbox[:, 3] * clips_height
    
                # clipping bbonx coordinates with prep shape because clip shape is right/bottum padded version of prep shape.
                output_bbox_prep = clip_boxes_tensor(output_bbox_inp, 
                                                     height=whwh[0,1], 
                                                     width = whwh[0,0])
    
                # Scaling bboxes from prep shape to crop shape
                output_bbox_crop = map_bbox_from_prep_to_crop(output_bbox_prep, 
                                                              (crop_height, crop_width), 
                                                              (prep_height, prep_width))
    
                # mapping from crop to original frame
                output_bbox_frame = map_bbox_from_crop_to_orig(output_bbox_crop , patch_coordinates[:2])
                
                # getting top_k action: scores and indices
                top_values, top_indices = torch.topk(output_action, k=top_k, dim=1)
    
                output_objectness_np = np.reshape(output_objectness.cpu().numpy(), (-1, 1))
                output_bbox_frame_np = output_bbox_frame.cpu().numpy()
                
                # shifting to ava dataset labeling
                top_indices_np = top_indices.cpu().numpy() + 1
                top_values_np = top_values.cpu().numpy()
                
                
                
                
                if add_patch_index:
                    # adding patch index to result.
                    patch_index_np = np.full((output_objectness_np.shape[0], 1), patch_index)
                    agg_result = np.concatenate((output_objectness_np, 
                                                 output_bbox_frame_np, 
                                                 top_indices_np, 
                                                 top_values_np,
                                                 patch_index_np), axis=1)
                else:
                    agg_result = np.concatenate((output_objectness_np, 
                                                 output_bbox_frame_np, 
                                                 top_indices_np, 
                                                 top_values_np), axis=1)
                
                
                temp_results_dict[cur_frame_index].append(agg_result)
        

Processing patches: 0it [00:00, ?it/s]
Processing frames:   0%|                                                                                                                                                               | 0/253 [00:00<?, ?it/s][A
Processing frames:   0%|▌                                                                                                                                                      | 1/253 [00:01<06:42,  1.60s/it][A
Processing frames:   1%|█▏                                                                                                                                                     | 2/253 [00:01<03:36,  1.16it/s][A
Processing frames:   1%|█▊                                                                                                                                                     | 3/253 [00:02<02:37,  1.59it/s][A
Processing frames:   2%|██▍                                                                                          

Processing frames:  15%|██████████████████████▌                                                                                                                               | 38/253 [00:14<01:15,  2.85it/s][A
Processing frames:  15%|███████████████████████                                                                                                                               | 39/253 [00:14<01:15,  2.85it/s][A
Processing frames:  16%|███████████████████████▋                                                                                                                              | 40/253 [00:15<01:14,  2.86it/s][A
Processing frames:  16%|████████████████████████▎                                                                                                                             | 41/253 [00:15<01:14,  2.84it/s][A
Processing frames:  17%|████████████████████████▉                                                                                                           

Processing frames:  30%|█████████████████████████████████████████████                                                                                                         | 76/253 [00:28<01:04,  2.73it/s][A
Processing frames:  30%|█████████████████████████████████████████████▋                                                                                                        | 77/253 [00:28<01:04,  2.73it/s][A
Processing frames:  31%|██████████████████████████████████████████████▏                                                                                                       | 78/253 [00:29<01:03,  2.74it/s][A
Processing frames:  31%|██████████████████████████████████████████████▊                                                                                                       | 79/253 [00:29<01:03,  2.73it/s][A
Processing frames:  32%|███████████████████████████████████████████████▍                                                                                    

Processing frames:  45%|███████████████████████████████████████████████████████████████████▏                                                                                 | 114/253 [00:42<00:50,  2.74it/s][A
Processing frames:  45%|███████████████████████████████████████████████████████████████████▋                                                                                 | 115/253 [00:42<00:50,  2.74it/s][A
Processing frames:  46%|████████████████████████████████████████████████████████████████████▎                                                                                | 116/253 [00:43<00:50,  2.73it/s][A
Processing frames:  46%|████████████████████████████████████████████████████████████████████▉                                                                                | 117/253 [00:43<00:49,  2.73it/s][A
Processing frames:  47%|█████████████████████████████████████████████████████████████████████▍                                                              

Processing frames:  60%|█████████████████████████████████████████████████████████████████████████████████████████▌                                                           | 152/253 [00:56<00:37,  2.72it/s][A
Processing frames:  60%|██████████████████████████████████████████████████████████████████████████████████████████                                                           | 153/253 [00:56<00:36,  2.73it/s][A
Processing frames:  61%|██████████████████████████████████████████████████████████████████████████████████████████▋                                                          | 154/253 [00:56<00:36,  2.72it/s][A
Processing frames:  61%|███████████████████████████████████████████████████████████████████████████████████████████▎                                                         | 155/253 [00:57<00:35,  2.73it/s][A
Processing frames:  62%|███████████████████████████████████████████████████████████████████████████████████████████▊                                        

Processing frames:  75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                     | 190/253 [01:10<00:22,  2.76it/s][A
Processing frames:  75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 191/253 [01:10<00:22,  2.76it/s][A
Processing frames:  76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                    | 192/253 [01:10<00:22,  2.76it/s][A
Processing frames:  76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                   | 193/253 [01:11<00:21,  2.76it/s][A
Processing frames:  77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                 

Processing frames:  90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 228/253 [01:23<00:09,  2.75it/s][A
Processing frames:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 229/253 [01:24<00:08,  2.75it/s][A
Processing frames:  91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍             | 230/253 [01:24<00:08,  2.75it/s][A
Processing frames:  91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 231/253 [01:24<00:07,  2.76it/s][A
Processing frames:  92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████

Processing frames:   5%|███████                                                                                                                                               | 12/253 [00:04<01:23,  2.88it/s][A
Processing frames:   5%|███████▋                                                                                                                                              | 13/253 [00:04<01:23,  2.86it/s][A
Processing frames:   6%|████████▎                                                                                                                                             | 14/253 [00:04<01:23,  2.85it/s][A
Processing frames:   6%|████████▉                                                                                                                                             | 15/253 [00:05<01:23,  2.85it/s][A
Processing frames:   6%|█████████▍                                                                                                                          

Processing frames:  20%|█████████████████████████████▋                                                                                                                        | 50/253 [00:17<01:11,  2.85it/s][A
Processing frames:  20%|██████████████████████████████▏                                                                                                                       | 51/253 [00:17<01:10,  2.85it/s][A
Processing frames:  21%|██████████████████████████████▊                                                                                                                       | 52/253 [00:18<01:10,  2.85it/s][A
Processing frames:  21%|███████████████████████████████▍                                                                                                                      | 53/253 [00:18<01:10,  2.83it/s][A
Processing frames:  21%|████████████████████████████████                                                                                                    

Processing frames:  35%|████████████████████████████████████████████████████▏                                                                                                 | 88/253 [00:30<00:58,  2.84it/s][A
Processing frames:  35%|████████████████████████████████████████████████████▊                                                                                                 | 89/253 [00:31<00:57,  2.83it/s][A
Processing frames:  36%|█████████████████████████████████████████████████████▎                                                                                                | 90/253 [00:31<00:57,  2.84it/s][A
Processing frames:  36%|█████████████████████████████████████████████████████▉                                                                                                | 91/253 [00:31<00:56,  2.84it/s][A
Processing frames:  36%|██████████████████████████████████████████████████████▌                                                                             

Processing frames:  50%|██████████████████████████████████████████████████████████████████████████▏                                                                          | 126/253 [00:44<00:44,  2.85it/s][A
Processing frames:  50%|██████████████████████████████████████████████████████████████████████████▊                                                                          | 127/253 [00:44<00:44,  2.86it/s][A
Processing frames:  51%|███████████████████████████████████████████████████████████████████████████▍                                                                         | 128/253 [00:44<00:43,  2.85it/s][A
Processing frames:  51%|███████████████████████████████████████████████████████████████████████████▉                                                                         | 129/253 [00:45<00:43,  2.84it/s][A
Processing frames:  51%|████████████████████████████████████████████████████████████████████████████▌                                                       

Processing frames:  65%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                                    | 164/253 [00:57<00:31,  2.84it/s][A
Processing frames:  65%|█████████████████████████████████████████████████████████████████████████████████████████████████▏                                                   | 165/253 [00:57<00:31,  2.83it/s][A
Processing frames:  66%|█████████████████████████████████████████████████████████████████████████████████████████████████▊                                                   | 166/253 [00:58<00:30,  2.84it/s][A
Processing frames:  66%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                                                  | 167/253 [00:58<00:30,  2.84it/s][A
Processing frames:  66%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                                 

Processing frames:  80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                              | 202/253 [01:10<00:17,  2.85it/s][A
Processing frames:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                             | 203/253 [01:11<00:17,  2.85it/s][A
Processing frames:  81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                            | 204/253 [01:11<00:17,  2.85it/s][A
Processing frames:  81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                            | 205/253 [01:12<00:16,  2.85it/s][A
Processing frames:  81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎          

Processing frames:  95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 240/253 [01:24<00:04,  2.76it/s][A
Processing frames:  95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 241/253 [01:24<00:04,  2.78it/s][A
Processing frames:  96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌      | 242/253 [01:25<00:03,  2.77it/s][A
Processing frames:  96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████      | 243/253 [01:25<00:03,  2.79it/s][A
Processing frames:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████

Processing frames:   9%|██████████████▏                                                                                                                                       | 24/253 [00:08<01:23,  2.76it/s][A
Processing frames:  10%|██████████████▊                                                                                                                                       | 25/253 [00:08<01:21,  2.79it/s][A
Processing frames:  10%|███████████████▍                                                                                                                                      | 26/253 [00:09<01:20,  2.81it/s][A
Processing frames:  11%|████████████████                                                                                                                                      | 27/253 [00:09<01:19,  2.83it/s][A
Processing frames:  11%|████████████████▌                                                                                                                   

Processing frames:  25%|████████████████████████████████████▊                                                                                                                 | 62/253 [00:22<01:08,  2.80it/s][A
Processing frames:  25%|█████████████████████████████████████▎                                                                                                                | 63/253 [00:22<01:07,  2.82it/s][A
Processing frames:  25%|█████████████████████████████████████▉                                                                                                                | 64/253 [00:22<01:06,  2.83it/s][A
Processing frames:  26%|██████████████████████████████████████▌                                                                                                               | 65/253 [00:23<01:06,  2.85it/s][A
Processing frames:  26%|███████████████████████████████████████▏                                                                                            

Processing frames:  40%|██████████████████████████████████████████████████████████▉                                                                                          | 100/253 [00:35<00:54,  2.83it/s][A
Processing frames:  40%|███████████████████████████████████████████████████████████▍                                                                                         | 101/253 [00:35<00:54,  2.80it/s][A
Processing frames:  40%|████████████████████████████████████████████████████████████                                                                                         | 102/253 [00:36<00:54,  2.77it/s][A
Processing frames:  41%|████████████████████████████████████████████████████████████▋                                                                                        | 103/253 [00:36<00:54,  2.76it/s][A
Processing frames:  41%|█████████████████████████████████████████████████████████████▏                                                                      

Processing frames:  55%|█████████████████████████████████████████████████████████████████████████████████▎                                                                   | 138/253 [00:49<00:43,  2.65it/s][A
Processing frames:  55%|█████████████████████████████████████████████████████████████████████████████████▊                                                                   | 139/253 [00:49<00:43,  2.64it/s][A
Processing frames:  55%|██████████████████████████████████████████████████████████████████████████████████▍                                                                  | 140/253 [00:50<00:42,  2.65it/s][A
Processing frames:  56%|███████████████████████████████████████████████████████████████████████████████████                                                                  | 141/253 [00:50<00:42,  2.66it/s][A
Processing frames:  56%|███████████████████████████████████████████████████████████████████████████████████▋                                                

Processing frames:  70%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋                                             | 176/253 [01:03<00:28,  2.67it/s][A
Processing frames:  70%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                            | 177/253 [01:04<00:28,  2.68it/s][A
Processing frames:  70%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                            | 178/253 [01:04<00:28,  2.67it/s][A
Processing frames:  71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                           | 179/253 [01:04<00:27,  2.67it/s][A
Processing frames:  71%|██████████████████████████████████████████████████████████████████████████████████████████████████████████                          

Processing frames:  85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                       | 214/253 [01:17<00:14,  2.68it/s][A
Processing frames:  85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                      | 215/253 [01:18<00:14,  2.68it/s][A
Processing frames:  85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                     | 216/253 [01:18<00:13,  2.68it/s][A
Processing frames:  86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 217/253 [01:19<00:13,  2.68it/s][A
Processing frames:  86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍   

Processing frames: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 252/253 [01:32<00:00,  2.59it/s][A
Processing frames: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 253/253 [01:32<00:00,  2.73it/s][A
Processing patches: 3it [05:12, 104.34s/it]
Processing frames:   0%|                                                                                                                                                               | 0/253 [00:00<?, ?it/s][A
Processing frames:   0%|▌                                                                                                                                                      | 1/253 [00:00<01:41,  2.49it/s][A
Processing frames:   1%|█▏                                                                                      

Processing frames:  14%|█████████████████████▎                                                                                                                                | 36/253 [00:12<01:15,  2.87it/s][A
Processing frames:  15%|█████████████████████▉                                                                                                                                | 37/253 [00:12<01:15,  2.85it/s][A
Processing frames:  15%|██████████████████████▌                                                                                                                               | 38/253 [00:13<01:15,  2.84it/s][A
Processing frames:  15%|███████████████████████                                                                                                                               | 39/253 [00:13<01:15,  2.84it/s][A
Processing frames:  16%|███████████████████████▋                                                                                                            

Processing frames:  29%|███████████████████████████████████████████▊                                                                                                          | 74/253 [00:26<01:04,  2.78it/s][A
Processing frames:  30%|████████████████████████████████████████████▍                                                                                                         | 75/253 [00:26<01:03,  2.79it/s][A
Processing frames:  30%|█████████████████████████████████████████████                                                                                                         | 76/253 [00:26<01:03,  2.80it/s][A
Processing frames:  30%|█████████████████████████████████████████████▋                                                                                                        | 77/253 [00:27<01:02,  2.80it/s][A
Processing frames:  31%|██████████████████████████████████████████████▏                                                                                     

Processing frames:  44%|█████████████████████████████████████████████████████████████████▉                                                                                   | 112/253 [00:39<00:50,  2.80it/s][A
Processing frames:  45%|██████████████████████████████████████████████████████████████████▌                                                                                  | 113/253 [00:39<00:49,  2.81it/s][A
Processing frames:  45%|███████████████████████████████████████████████████████████████████▏                                                                                 | 114/253 [00:40<00:49,  2.83it/s][A
Processing frames:  45%|███████████████████████████████████████████████████████████████████▋                                                                                 | 115/253 [00:40<00:48,  2.83it/s][A
Processing frames:  46%|████████████████████████████████████████████████████████████████████▎                                                               

Processing frames:  59%|████████████████████████████████████████████████████████████████████████████████████████▎                                                            | 150/253 [00:53<00:36,  2.85it/s][A
Processing frames:  60%|████████████████████████████████████████████████████████████████████████████████████████▉                                                            | 151/253 [00:53<00:36,  2.83it/s][A
Processing frames:  60%|█████████████████████████████████████████████████████████████████████████████████████████▌                                                           | 152/253 [00:53<00:35,  2.85it/s][A
Processing frames:  60%|██████████████████████████████████████████████████████████████████████████████████████████                                                           | 153/253 [00:54<00:35,  2.86it/s][A
Processing frames:  61%|██████████████████████████████████████████████████████████████████████████████████████████▋                                         

Processing frames:  74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                      | 188/253 [01:06<00:22,  2.84it/s][A
Processing frames:  75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                     | 189/253 [01:06<00:22,  2.83it/s][A
Processing frames:  75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                     | 190/253 [01:07<00:22,  2.83it/s][A
Processing frames:  75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 191/253 [01:07<00:21,  2.83it/s][A
Processing frames:  76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████                   

Processing frames:  89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 226/253 [01:19<00:09,  2.90it/s][A
Processing frames:  90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋               | 227/253 [01:19<00:08,  2.90it/s][A
Processing frames:  90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 228/253 [01:20<00:08,  2.91it/s][A
Processing frames:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 229/253 [01:20<00:08,  2.91it/s][A
Processing frames:  91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████

Processing frames:   4%|█████▉                                                                                                                                                | 10/253 [00:03<01:25,  2.85it/s][A
Processing frames:   4%|██████▌                                                                                                                                               | 11/253 [00:03<01:24,  2.86it/s][A
Processing frames:   5%|███████                                                                                                                                               | 12/253 [00:04<01:24,  2.86it/s][A
Processing frames:   5%|███████▋                                                                                                                                              | 13/253 [00:04<01:23,  2.86it/s][A
Processing frames:   6%|████████▎                                                                                                                           

Processing frames:  19%|████████████████████████████▍                                                                                                                         | 48/253 [00:16<01:11,  2.88it/s][A
Processing frames:  19%|█████████████████████████████                                                                                                                         | 49/253 [00:17<01:10,  2.88it/s][A
Processing frames:  20%|█████████████████████████████▋                                                                                                                        | 50/253 [00:17<01:10,  2.87it/s][A
Processing frames:  20%|██████████████████████████████▏                                                                                                                       | 51/253 [00:17<01:10,  2.87it/s][A
Processing frames:  21%|██████████████████████████████▊                                                                                                     

Processing frames:  34%|██████████████████████████████████████████████████▉                                                                                                   | 86/253 [00:30<00:58,  2.87it/s][A
Processing frames:  34%|███████████████████████████████████████████████████▌                                                                                                  | 87/253 [00:30<00:57,  2.87it/s][A
Processing frames:  35%|████████████████████████████████████████████████████▏                                                                                                 | 88/253 [00:30<00:57,  2.87it/s][A
Processing frames:  35%|████████████████████████████████████████████████████▊                                                                                                 | 89/253 [00:31<00:57,  2.87it/s][A
Processing frames:  36%|█████████████████████████████████████████████████████▎                                                                              

Processing frames:  49%|█████████████████████████████████████████████████████████████████████████                                                                            | 124/253 [00:43<00:45,  2.84it/s][A
Processing frames:  49%|█████████████████████████████████████████████████████████████████████████▌                                                                           | 125/253 [00:43<00:45,  2.83it/s][A
Processing frames:  50%|██████████████████████████████████████████████████████████████████████████▏                                                                          | 126/253 [00:44<00:44,  2.83it/s][A
Processing frames:  50%|██████████████████████████████████████████████████████████████████████████▊                                                                          | 127/253 [00:44<00:44,  2.84it/s][A
Processing frames:  51%|███████████████████████████████████████████████████████████████████████████▍                                                        

Processing frames:  64%|███████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 162/253 [00:56<00:31,  2.86it/s][A
Processing frames:  64%|███████████████████████████████████████████████████████████████████████████████████████████████▉                                                     | 163/253 [00:57<00:31,  2.85it/s][A
Processing frames:  65%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                                    | 164/253 [00:57<00:31,  2.84it/s][A
Processing frames:  65%|█████████████████████████████████████████████████████████████████████████████████████████████████▏                                                   | 165/253 [00:57<00:30,  2.85it/s][A
Processing frames:  66%|█████████████████████████████████████████████████████████████████████████████████████████████████▊                                  

Processing frames:  79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                               | 200/253 [01:10<00:18,  2.86it/s][A
Processing frames:  79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                              | 201/253 [01:10<00:18,  2.85it/s][A
Processing frames:  80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                              | 202/253 [01:10<00:17,  2.84it/s][A
Processing frames:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                             | 203/253 [01:11<00:17,  2.84it/s][A
Processing frames:  81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           

Processing frames:  94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 238/253 [01:23<00:05,  2.76it/s][A
Processing frames:  94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 239/253 [01:23<00:05,  2.76it/s][A
Processing frames:  95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 240/253 [01:24<00:04,  2.75it/s][A
Processing frames:  95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 241/253 [01:24<00:04,  2.75it/s][A
Processing frames:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████

Processing frames:   9%|█████████████                                                                                                                                         | 22/253 [00:07<01:23,  2.78it/s][A
Processing frames:   9%|█████████████▋                                                                                                                                        | 23/253 [00:08<01:22,  2.78it/s][A
Processing frames:   9%|██████████████▏                                                                                                                                       | 24/253 [00:08<01:22,  2.78it/s][A
Processing frames:  10%|██████████████▊                                                                                                                                       | 25/253 [00:08<01:22,  2.78it/s][A
Processing frames:  10%|███████████████▍                                                                                                                    

Processing frames:  24%|███████████████████████████████████▌                                                                                                                  | 60/253 [00:21<01:08,  2.82it/s][A
Processing frames:  24%|████████████████████████████████████▏                                                                                                                 | 61/253 [00:21<01:07,  2.83it/s][A
Processing frames:  25%|████████████████████████████████████▊                                                                                                                 | 62/253 [00:22<01:07,  2.84it/s][A
Processing frames:  25%|█████████████████████████████████████▎                                                                                                                | 63/253 [00:22<01:06,  2.85it/s][A
Processing frames:  25%|█████████████████████████████████████▉                                                                                              

Processing frames:  39%|██████████████████████████████████████████████████████████                                                                                            | 98/253 [00:34<00:53,  2.87it/s][A
Processing frames:  39%|██████████████████████████████████████████████████████████▋                                                                                           | 99/253 [00:35<00:53,  2.87it/s][A
Processing frames:  40%|██████████████████████████████████████████████████████████▉                                                                                          | 100/253 [00:35<00:53,  2.86it/s][A
Processing frames:  40%|███████████████████████████████████████████████████████████▍                                                                                         | 101/253 [00:35<00:53,  2.86it/s][A
Processing frames:  40%|████████████████████████████████████████████████████████████                                                                        

Processing frames:  54%|████████████████████████████████████████████████████████████████████████████████                                                                     | 136/253 [00:48<00:40,  2.87it/s][A
Processing frames:  54%|████████████████████████████████████████████████████████████████████████████████▋                                                                    | 137/253 [00:48<00:40,  2.86it/s][A
Processing frames:  55%|█████████████████████████████████████████████████████████████████████████████████▎                                                                   | 138/253 [00:48<00:40,  2.86it/s][A
Processing frames:  55%|█████████████████████████████████████████████████████████████████████████████████▊                                                                   | 139/253 [00:49<00:39,  2.86it/s][A
Processing frames:  55%|██████████████████████████████████████████████████████████████████████████████████▍                                                 

Processing frames:  69%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                              | 174/253 [01:01<00:28,  2.78it/s][A
Processing frames:  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████                                              | 175/253 [01:01<00:27,  2.79it/s][A
Processing frames:  70%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋                                             | 176/253 [01:02<00:27,  2.78it/s][A
Processing frames:  70%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                            | 177/253 [01:02<00:27,  2.78it/s][A
Processing frames:  70%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊                           

Processing frames:  84%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                        | 212/253 [01:15<00:14,  2.78it/s][A
Processing frames:  84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                       | 213/253 [01:15<00:14,  2.78it/s][A
Processing frames:  85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                       | 214/253 [01:16<00:14,  2.78it/s][A
Processing frames:  85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                      | 215/253 [01:16<00:13,  2.79it/s][A
Processing frames:  85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    

Processing frames:  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 250/253 [01:28<00:01,  2.86it/s][A
Processing frames:  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 251/253 [01:29<00:00,  2.86it/s][A
Processing frames: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 252/253 [01:29<00:00,  2.85it/s][A
Processing frames: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 253/253 [01:29<00:00,  2.81it/s][A
Processing patches: 6it [10:15, 101.76s/it]
Processing frames:   0%|                                                                                        

Processing frames:  13%|████████████████████▏                                                                                                                                 | 34/253 [00:11<01:14,  2.93it/s][A
Processing frames:  14%|████████████████████▊                                                                                                                                 | 35/253 [00:11<01:14,  2.92it/s][A
Processing frames:  14%|█████████████████████▎                                                                                                                                | 36/253 [00:12<01:14,  2.93it/s][A
Processing frames:  15%|█████████████████████▉                                                                                                                                | 37/253 [00:12<01:13,  2.92it/s][A
Processing frames:  15%|██████████████████████▌                                                                                                             

Processing frames:  28%|██████████████████████████████████████████▋                                                                                                           | 72/253 [00:24<01:01,  2.93it/s][A
Processing frames:  29%|███████████████████████████████████████████▎                                                                                                          | 73/253 [00:25<01:01,  2.93it/s][A
Processing frames:  29%|███████████████████████████████████████████▊                                                                                                          | 74/253 [00:25<01:01,  2.92it/s][A
Processing frames:  30%|████████████████████████████████████████████▍                                                                                                         | 75/253 [00:25<01:00,  2.93it/s][A
Processing frames:  30%|█████████████████████████████████████████████                                                                                       

Processing frames:  43%|████████████████████████████████████████████████████████████████▊                                                                                    | 110/253 [00:37<00:50,  2.85it/s][A
Processing frames:  44%|█████████████████████████████████████████████████████████████████▎                                                                                   | 111/253 [00:38<00:49,  2.85it/s][A
Processing frames:  44%|█████████████████████████████████████████████████████████████████▉                                                                                   | 112/253 [00:38<00:49,  2.86it/s][A
Processing frames:  45%|██████████████████████████████████████████████████████████████████▌                                                                                  | 113/253 [00:38<00:49,  2.84it/s][A
Processing frames:  45%|███████████████████████████████████████████████████████████████████▏                                                                

Processing frames:  58%|███████████████████████████████████████████████████████████████████████████████████████▏                                                             | 148/253 [00:51<00:37,  2.80it/s][A
Processing frames:  59%|███████████████████████████████████████████████████████████████████████████████████████▊                                                             | 149/253 [00:51<00:37,  2.81it/s][A
Processing frames:  59%|████████████████████████████████████████████████████████████████████████████████████████▎                                                            | 150/253 [00:51<00:36,  2.82it/s][A
Processing frames:  60%|████████████████████████████████████████████████████████████████████████████████████████▉                                                            | 151/253 [00:52<00:36,  2.82it/s][A
Processing frames:  60%|█████████████████████████████████████████████████████████████████████████████████████████▌                                          

Processing frames:  74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                       | 186/253 [01:04<00:23,  2.90it/s][A
Processing frames:  74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                      | 187/253 [01:04<00:22,  2.90it/s][A
Processing frames:  74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                      | 188/253 [01:05<00:22,  2.90it/s][A
Processing frames:  75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                     | 189/253 [01:05<00:22,  2.91it/s][A
Processing frames:  75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                    

Processing frames:  89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 224/253 [01:17<00:10,  2.83it/s][A
Processing frames:  89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 225/253 [01:18<00:09,  2.82it/s][A
Processing frames:  89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 226/253 [01:18<00:09,  2.81it/s][A
Processing frames:  90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋               | 227/253 [01:19<00:09,  2.81it/s][A
Processing frames:  90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████

Processing frames:   3%|████▊                                                                                                                                                  | 8/253 [00:02<01:24,  2.90it/s][A
Processing frames:   4%|█████▎                                                                                                                                                 | 9/253 [00:03<01:24,  2.90it/s][A
Processing frames:   4%|█████▉                                                                                                                                                | 10/253 [00:03<01:23,  2.91it/s][A
Processing frames:   4%|██████▌                                                                                                                                               | 11/253 [00:03<01:23,  2.90it/s][A
Processing frames:   5%|███████                                                                                                                             

Processing frames:  18%|███████████████████████████▎                                                                                                                          | 46/253 [00:16<01:12,  2.85it/s][A
Processing frames:  19%|███████████████████████████▊                                                                                                                          | 47/253 [00:16<01:12,  2.86it/s][A
Processing frames:  19%|████████████████████████████▍                                                                                                                         | 48/253 [00:16<01:11,  2.87it/s][A
Processing frames:  19%|█████████████████████████████                                                                                                                         | 49/253 [00:17<01:11,  2.85it/s][A
Processing frames:  20%|█████████████████████████████▋                                                                                                      

Processing frames:  33%|█████████████████████████████████████████████████▊                                                                                                    | 84/253 [00:29<00:59,  2.85it/s][A
Processing frames:  34%|██████████████████████████████████████████████████▍                                                                                                   | 85/253 [00:29<00:58,  2.85it/s][A
Processing frames:  34%|██████████████████████████████████████████████████▉                                                                                                   | 86/253 [00:30<00:58,  2.85it/s][A
Processing frames:  34%|███████████████████████████████████████████████████▌                                                                                                  | 87/253 [00:30<00:58,  2.85it/s][A
Processing frames:  35%|████████████████████████████████████████████████████▏                                                                               

Processing frames:  48%|███████████████████████████████████████████████████████████████████████▊                                                                             | 122/253 [00:42<00:46,  2.79it/s][A
Processing frames:  49%|████████████████████████████████████████████████████████████████████████▍                                                                            | 123/253 [00:43<00:46,  2.79it/s][A
Processing frames:  49%|█████████████████████████████████████████████████████████████████████████                                                                            | 124/253 [00:43<00:46,  2.78it/s][A
Processing frames:  49%|█████████████████████████████████████████████████████████████████████████▌                                                                           | 125/253 [00:43<00:45,  2.78it/s][A
Processing frames:  50%|██████████████████████████████████████████████████████████████████████████▏                                                         

Processing frames:  63%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                      | 160/253 [00:56<00:33,  2.77it/s][A
Processing frames:  64%|██████████████████████████████████████████████████████████████████████████████████████████████▊                                                      | 161/253 [00:56<00:33,  2.77it/s][A
Processing frames:  64%|███████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 162/253 [00:57<00:32,  2.77it/s][A
Processing frames:  64%|███████████████████████████████████████████████████████████████████████████████████████████████▉                                                     | 163/253 [00:57<00:32,  2.77it/s][A
Processing frames:  65%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                   

Processing frames:  78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                | 198/253 [01:10<00:20,  2.75it/s][A
Processing frames:  79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                               | 199/253 [01:10<00:19,  2.75it/s][A
Processing frames:  79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                               | 200/253 [01:10<00:19,  2.76it/s][A
Processing frames:  79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                              | 201/253 [01:11<00:18,  2.77it/s][A
Processing frames:  80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉             

Processing frames:  93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 236/253 [01:23<00:06,  2.77it/s][A
Processing frames:  94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 237/253 [01:24<00:05,  2.77it/s][A
Processing frames:  94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 238/253 [01:24<00:05,  2.78it/s][A
Processing frames:  94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 239/253 [01:24<00:05,  2.77it/s][A
Processing frames:  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████

Processing frames:   8%|███████████▊                                                                                                                                          | 20/253 [00:07<01:22,  2.84it/s][A
Processing frames:   8%|████████████▍                                                                                                                                         | 21/253 [00:07<01:21,  2.84it/s][A
Processing frames:   9%|█████████████                                                                                                                                         | 22/253 [00:07<01:21,  2.83it/s][A
Processing frames:   9%|█████████████▋                                                                                                                                        | 23/253 [00:08<01:20,  2.84it/s][A
Processing frames:   9%|██████████████▏                                                                                                                     

Processing frames:  23%|██████████████████████████████████▍                                                                                                                   | 58/253 [00:20<01:07,  2.87it/s][A
Processing frames:  23%|██████████████████████████████████▉                                                                                                                   | 59/253 [00:20<01:07,  2.87it/s][A
Processing frames:  24%|███████████████████████████████████▌                                                                                                                  | 60/253 [00:21<01:07,  2.87it/s][A
Processing frames:  24%|████████████████████████████████████▏                                                                                                                 | 61/253 [00:21<01:07,  2.86it/s][A
Processing frames:  25%|████████████████████████████████████▊                                                                                               

Processing frames:  38%|████████████████████████████████████████████████████████▉                                                                                             | 96/253 [00:33<00:55,  2.85it/s][A
Processing frames:  38%|█████████████████████████████████████████████████████████▌                                                                                            | 97/253 [00:34<00:54,  2.86it/s][A
Processing frames:  39%|██████████████████████████████████████████████████████████                                                                                            | 98/253 [00:34<00:54,  2.86it/s][A
Processing frames:  39%|██████████████████████████████████████████████████████████▋                                                                                           | 99/253 [00:34<00:53,  2.86it/s][A
Processing frames:  40%|██████████████████████████████████████████████████████████▉                                                                         

Processing frames:  53%|██████████████████████████████████████████████████████████████████████████████▉                                                                      | 134/253 [00:47<00:41,  2.84it/s][A
Processing frames:  53%|███████████████████████████████████████████████████████████████████████████████▌                                                                     | 135/253 [00:47<00:41,  2.85it/s][A
Processing frames:  54%|████████████████████████████████████████████████████████████████████████████████                                                                     | 136/253 [00:47<00:41,  2.85it/s][A
Processing frames:  54%|████████████████████████████████████████████████████████████████████████████████▋                                                                    | 137/253 [00:48<00:40,  2.85it/s][A
Processing frames:  55%|█████████████████████████████████████████████████████████████████████████████████▎                                                  

Processing frames:  68%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                                               | 172/253 [01:00<00:28,  2.82it/s][A
Processing frames:  68%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                               | 173/253 [01:00<00:28,  2.82it/s][A
Processing frames:  69%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                              | 174/253 [01:01<00:28,  2.81it/s][A
Processing frames:  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████                                              | 175/253 [01:01<00:27,  2.81it/s][A
Processing frames:  70%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋                            

Processing frames:  83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                         | 210/253 [01:14<00:15,  2.76it/s][A
Processing frames:  83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                        | 211/253 [01:14<00:15,  2.77it/s][A
Processing frames:  84%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                        | 212/253 [01:14<00:14,  2.76it/s][A
Processing frames:  84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                       | 213/253 [01:15<00:14,  2.75it/s][A
Processing frames:  85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████      

Processing frames:  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 248/253 [01:28<00:01,  2.77it/s][A
Processing frames:  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 249/253 [01:28<00:01,  2.77it/s][A
Processing frames:  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 250/253 [01:28<00:01,  2.75it/s][A
Processing frames:  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 251/253 [01:29<00:00,  2.76it/s][A
Processing frames: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████

slow_video.shape, fast_video, whwh, boxes, labels


(torch.Size([1, 3, 16, 256, 320]),
 None,
 tensor([[320., 256., 320., 256.]], device='cuda:0'),
 (None,),
 (None,))

#### creating dict with keys equal to actual frames and values as np.array of shape Nx16 or Nx15.

In [33]:
all_results_dict = concatenate_results(temp_results_dict, top_k=top_k, patch_index=True)

In [34]:
from my_utils.visualization import action_visualizer_frame_index


In [35]:
def action_visualizer_frame_index(all_results_dict, 
                                  video_path, 
                                  label_dict, 
                                  output_directory,
                                  top_k=5,
                                  interesting_actions_indices = [5, 64, 71, 75],
                                  interesting_actions_labels = {5:'fall', 64:'fight', 71:'kick', 76:'push'},
                                  action_colors = {5: (0, 0, 210), # Blue
                                                   64 : (255, 0, 0), # Red
                                                   71: (255, 165, 0), # Purple
                                                   75: (128, 0, 128)}, # Orange
                                  other_actions_color = (0, 255, 0), # green
                                  all_actions=False, 
                                  add_patch_index=True,
                                  vis_patch_lines=False,
                                  mode='pic'):
    
    if mode in ['gif', 'movie']:
        vis_frames_list = []
    
    
    with tqdm(total=len(all_results_dict)) as pbar:
        
        for cur_frame, results_frame in all_results_dict.items():
            
            
            # checking results_frame type and converting it into np
            if isinstance(results_frame, list):
                results_frame_np = np.concatenate(results_frame, axis=0)
            elif isinstance(results_frame, np.ndarray):
                results_frame_np = results_frame
            else:
                raise ValueError("Input must be a list or a numpy array")
                
            
            # getting the frame
            frame = get_frame_from_video(video_path, int(cur_frame))
            vis_frame = cv2.cvtColor(frame.copy(), cv2.COLOR_BGR2RGB)
            
            # no detection on frame
            if results_frame_np.shape[0] == 0:
                if mode in ['pic', 'gif']:
                    continue
                else:
                    vis_frames_list.append(vis_frame)
                    continue
            
            # extracing object_score, bboxes, top action indices and score, and patch_index (if exists)
            obj_scores_frame = results_frame_np[:, :1]
            bboxes_frame = results_frame_np[:, 1:5]
            top_indices_frame = results_frame_np[:, 5:5+top_k]
            top_values_frame = results_frame_np[:, 5+top_k:5+2*top_k]
            
            if results_frame_np.shape[-1] != 5+2*top_k:
                patch_indices_frame = results_frame_np[:, -1].astype(int)
            else:
                add_patch_index = False
                
            
            # id of interesting actor starting from 0
            id_actor = 0
            
            # if frame contains any interesting action
            interesting_frame = False
            
            # looping over each actor
            for object_score, bbox, top_action_indices, top_action_scores, patch_index in zip(obj_scores_frame, bboxes_frame,
                                                                                              top_indices_frame, top_values_frame, patch_indices_frame):
                x1, y1, x2, y2 = bbox.astype(int)
                
                # if actor is interesting
                interesting_actor = False
                for ind_act, act in enumerate(top_action_indices):
                    if act in interesting_actions_indices:
                        interesting_actor = True
                        interesting_frame = True
                        bbox_action_color = action_colors[int(act)]
                        main_interesting_act = act # the main interesting action of actor
                        break
                
                # visualization for interesting actor
                if interesting_actor:
                    long_text = '{}-{}:'.format(id_actor, np.round(object_score, 2)) # add ID of actor for frame visualization
                    # add act and their scores on long text
                    for act, score in zip(top_action_indices, top_action_scores):
                        long_text += '{}_{}-'.format(label_dict[act].replace('(', '').replace(')', '').split('/')[0], 
                                                 (np.round(score, 2)))
                    
                    # plot the bbox of interesting actor 
                    cv2.rectangle(vis_frame, (x1, y1), (x2, y2), bbox_action_color, 2)
                    
                    # text on top of bbox of interesting actor
                    if add_patch_index:
                        id_text = '{}_{}'.format(id_actor, patch_index)
                    else:
                        id_text = '{}'.format(id_actor)
                    id_actor += 1
                    
                    
                    cv2.putText(vis_frame, id_text, (x1+10, y1 - 10), cv2.FONT_HERSHEY_SIMPLEX, 0.75, bbox_action_color, 2)
            
                     # add text containing all actions of interesting actor
                    cv2.putText(vis_frame, long_text[:-1], (20, 100 + 20 * id_actor), 
                                cv2.FONT_HERSHEY_SIMPLEX, 1,
                                bbox_action_color, 2)
                
                # visualization for other actors
                else:
                    if all_actions:
                        # plot bbox of other actors   
                        cv2.rectangle(vis_frame, (x1, y1), (x2, y2), other_actions_color, 2)
                        # add text
                        if add_patch_index:
                            id_text = '{}'.format(patch_index)
                            cv2.putText(vis_frame, id_text, (x1+10, y1 - 10), cv2.FONT_HERSHEY_SIMPLEX, 0.75,
                                        other_actions_color, 2)
       
            if interesting_frame:
                cv2.putText(vis_frame, str(cur_frame), (40, 40), cv2.FONT_HERSHEY_SIMPLEX, 1, (255, 0, 0), 4)


            if vis_patch_lines:
                cv2.rectangle(vis_frame, (crop_box[0], crop_box[1]), (crop_box[2], crop_box[3]), (255, 255, 0), 1)
               
        
            if mode in ['gif', 'movie']:
                vis_frames_list.append(vis_frame)
            else:
                if True:
                    frame_path = os.path.join(output_directory_frames, f"frame_{cur_frame}.jpg")
                    sucess = cv2.imwrite(frame_path, cv2.cvtColor(vis_frame, cv2.COLOR_BGR2RGB))
        
        
    # Update tqdm progress bar
    pbar.update(1)
        
    if mode in ['gif', 'movie']:
        return vis_frames_list
    

In [None]:
output_directory_frames = os.path.join(output_directory, 'frames')
os.makedirs(output_directory_frames, exist_ok=True)

action_visualizer_frame_index(all_results_dict, 
                              video_path, 
                              label_dict, 
                              output_directory_frames,
                              all_actions=False)

  0%|                                                                                                                                                                                  | 0/253 [00:00<?, ?it/s]

In [None]:
all_results_dict[932][:,:1]

In [None]:
results_frame[:, :1]

In [None]:
output_directory

In [None]:
interesting_actions_indices = [5, 64, 71, 75]
interesting_actions_labels = {5:'fall', 64:'fight', 71:'kick', 75:'push'}

vis_frames_list = []
vis_iteresting_frames_list = []


output_directory_frames = os.path.join(output_directory, 'frames')
os.makedirs(output_directory_frames, exist_ok=True)


from my_utils.video_processing import get_frame_from_video




# Initialize tqdm with the length of all_results_dict
with tqdm(total=len(all_results_dict)) as pbar:
    for cur_frame, results_frame in all_results_dict.items():
        #results_frame_np = np.concatenate(results_frame, axis=0)
        results_frame_np = results_frame
        obj_scores_frame = results_frame_np[:, :1]
        bboxes_frame = results_frame_np[:, 1:5]
        top_indices_frame = results_frame_np[:, 5:10]
        top_values_frame = results_frame_np[:, 10:]
        
        frame = get_frame_from_video(video_path, cur_frame)
        
        vis_frame = cv2.cvtColor(frame.copy(), cv2.COLOR_BGR2RGB)
        vis_inter_frame = cv2.cvtColor(frame.copy(), cv2.COLOR_BGR2RGB)
        
        id_actor = 0
        interesting_frame = False
        
        for object_score, bbox, top_action_indices, top_action_scores in zip(obj_scores_frame, bboxes_frame, top_indices_frame, top_values_frame):
            x1, y1, x2, y2 = bbox.astype(int)
            small_text = ''
            
            interesting_actor = False
            for ind, act in enumerate(top_action_indices):
                if act in interesting_actions_indices:
                    interesting_actor = True
                    interesting_frame = True
                    
                    small_text += '{}_{}'.format(interesting_actions_labels[act], 
                                                 np.round(top_action_scores[ind], 2))
            if interesting_actor:
                long_text = '{}-{}:'.format(id_actor, np.round(object_score, 2)) # add ID of actor for frame visualization
                for act, score in zip(top_action_indices, top_action_scores):
                    long_text += '{}_{}-'.format(label_dict[act].replace('(', '').replace(')', '').split('/')[0], 
                                                 (np.round(score, 2)))
                    
            
            if interesting_actor:
                # plot the bbox of interesting actor and adding interesting action
                cv2.rectangle(vis_frame, (x1, y1), (x2, y2), (255, 0, 0), 2)
                cv2.putText(vis_frame, small_text, (x1, y1 - 10), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0, 255, 0), 2)
                
                cv2.rectangle(vis_inter_frame, (x1, y1), (x2, y2), (255, 0, 0), 2)
                #id_text = '{}:{}'.format(id_actor, small_text)
                id_text = '{}'.format(id_actor)
                id_actor += 1
    
                cv2.putText(vis_inter_frame, id_text, (x1+10, y1 - 10), cv2.FONT_HERSHEY_SIMPLEX, 0.75, (255, 0, 0), 2)
                cv2.putText(vis_inter_frame, str(cur_frame), (40, 40), cv2.FONT_HERSHEY_SIMPLEX, 1, (255, 0, 0), 4)
                
                # add text containing all actions of interesting actor
                if True:
                    cv2.putText(vis_inter_frame, 
                                long_text[:-1], 
                                (20, 100 + 20 * id_actor), 
                                cv2.FONT_HERSHEY_SIMPLEX, 1, (255, 0, 0), 2)
                
                
            else:
                # plot the bbox of other actors
                cv2.rectangle(vis_frame, (x1, y1), (x2, y2), (0, 255, 0), 2)
                cv2.rectangle(vis_inter_frame, (x1, y1), (x2, y2), (0, 255, 0), 2)
            
        
        #cv2.rectangle(vis_frame, (crop_box[0], crop_box[1]), (crop_box[2], crop_box[3]), (255, 255, 0), 2)
        #cv2.rectangle(vis_inter_frame, (crop_box[0], crop_box[1]), (crop_box[2], crop_box[3]), (255, 255, 0), 2)
        
        
        vis_frames_list.append(vis_frame)
        if interesting_frame:
            vis_iteresting_frames_list.append(vis_inter_frame)
            frame_path = os.path.join(output_directory_frames, f"frame_{cur_frame}.jpg")
            cv2.imwrite(frame_path, cv2.cvtColor(vis_inter_frame, cv2.COLOR_BGR2RGB))
        
        # Update tqdm progress bar
        pbar.update(1)


        
    
    


In [None]:
all_results_dict[124].shape

In [None]:
frame_path

In [None]:
import json
import json_tricks as json_tricks

In [None]:
exp_json_path = os.path.join(output_directory, 'exp.json')

# Save the dictionary as a JSON file
with open(exp_json_path, 'w') as f:
    json.dump(exp_dict, f)


In [None]:
result_json_path = os.path.join(output_directory, 'result.json')

# Save the dictionary as a JSON file
with open(result_json_path, 'w') as f:
    json_tricks.dump(temp_results_dict, f, indent=4)