# Helmet Mapping + Deepsort + Posit

In this notebook:
1. I introduce a package `helmet_assignment` which includes some helper code.
2. I show how `deepsort` can be applied to post process exsiting predictions.

Postprocessing is applied to the baseline predictions from [this amazing starter notebook](https://www.kaggle.com/its7171/nfl-baseline-simple-helmet-mapping).


# Helmet Mapping + Deepsort + Posit

In this notebook:
1. I introduce a package `helmet_assignment` which includes some helper code.
2. I show how `deepsort` can be applied to post process exsiting predictions.

Postprocessing is applied to the baseline predictions from [this amazing starter notebook](https://www.kaggle.com/its7171/nfl-baseline-simple-helmet-mapping).




# "helmet_assignment" package provides helper code.

This package includes helpful functions like`NFLAssignmentScorer`, `check_submission` and `add_track_features`.

- dataset: https://www.kaggle.com/robikscube/helmet-assignment-helpers
- github: https://github.com/RobMulla/helmet-assignment# "helmet_assignment" package provides helper code.

This package includes helpful functions like`NFLAssignmentScorer`, `check_submission` and `add_track_features`.

- dataset: https://www.kaggle.com/robikscube/helmet-assignment-helpers
- github: https://github.com/RobMulla/helmet-assignment

# Baseline helmet mapping
This section uses the simple helmet mapping approach from the awesome notebook:

https://www.kaggle.com/its7171/nfl-baseline-simple-helmet-mapping

In [2]:
# Install helmet-assignment helper code
# !pip install input/helmet-assignment-helpers/helmet-assignment-main/ > /dev/null 2>&1
from helmet_assignment.score import NFLAssignmentScorer, check_submission
from helmet_assignment.features import add_track_features

import numpy as np
import pandas as pd
import glob
import os
import cv2
import itertools
from sklearn.metrics import accuracy_score
from tqdm.auto import tqdm
from multiprocessing import Pool
from matplotlib import pyplot as plt
from sklearn.cluster import KMeans
import random
random.seed(42)
from matplotlib.pyplot import figure

# define platform
if os.environ['PWD'] == '/':
    ENTRY = 'input' # local run
if os.environ['PWD'] == '/kaggle/working':
    ENTRY = '../input' # kaggle run

## Settings and loading data
n_test_videos = len(os.listdir(f'{ENTRY}/nfl-health-and-safety-helmet-assignment/test/'))
# Run in debug mode unless during submission
if n_test_videos == 6:
    debug = True
else:
    debug = False



# Read in the data.

BASE_DIR = f'{ENTRY}/nfl-health-and-safety-helmet-assignment'

labels = pd.read_csv(f'{BASE_DIR}/train_labels.csv')
if debug:
    tracking = pd.read_csv(f'{BASE_DIR}/train_player_tracking.csv')
    helmets = pd.read_csv(f'{BASE_DIR}/train_baseline_helmets.csv')
else:
    tracking = pd.read_csv(f'{BASE_DIR}/test_player_tracking.csv')
    helmets = pd.read_csv(f'{BASE_DIR}/test_baseline_helmets.csv')
    
    
tracking = add_track_features(tracking) # add game_play, time(dt),snap, isSnap,team,snap_offset, est_frame

def add_cols(df):
    df['game_play'] = df['video_frame'].str.split('_').str[:2].str.join('_')
    if 'video' not in df.columns:
        df['video'] = df['video_frame'].str.split('_').str[:3].str.join('_') + '.mp4'
    return df

helmets = add_cols(helmets)

In [2]:
#  Configurables
n_debug_samples = 2
random_state = 42
CONF_THRE = 0.3
max_iter = 1000
DIG_STEP = 3
DIG_MAX = DIG_STEP*10

if debug:
    helmets = add_cols(helmets)
    labels = add_cols(labels)
    # Select `n_debug_samples` worth of videos to debug with
#     sample_videos = labels['video'].drop_duplicates().sample(n_debug_samples, random_state=random_state).tolist()
    sample_videos = ['57783_003374_Endzone.mp4','57783_003374_Sideline.mp4']
    print('sample_videos',sample_videos)
    sample_gameplays = ['_'.join(x.split('_')[:2]) for x in sample_videos]
    print('sample_gameplays',sample_gameplays)
    tracking = tracking[tracking['game_play'].isin(sample_gameplays)]
    helmets = helmets[helmets['video'].isin(sample_videos)]
    labels = labels[labels['video'].isin(sample_videos)]
tracking.shape, helmets.shape, labels.shape

sample_videos ['57783_003374_Endzone.mp4', '57783_003374_Sideline.mp4']
sample_gameplays ['57783_003374', '57783_003374']


((6424, 18), (19412, 8), (16844, 15))

# Notebook #1

In [3]:
def find_nearest(array, value): # находит значение ближайшего est_frame-а к value (фрэйму)
    value = int(value)
    array = np.asarray(array).astype(int)
    idx = (np.abs(array - value)).argmin() # из номеров est_frame вычитаем frame, берем модуль. Находим индекс минимального элемента в массиве
    return array[idx] # значение ближайшего est_frame-а

def norm_arr(a): # Нормируем от 0 до 1 - вычитаем из каждого значения минимальное и делим каждое значение на максимальное (после вычета)
    a = a-a.min()
    a = a/a.max()
    return a
    
def dist(a1, a2): 
    '''берем разность между треком и шлемами и находим норму фробениуса 
    (квадратный корень сумм квадратов модулей элементов матрицы размера, 
    то есть в идеале, когда матрицы одинаковые, норма равна 0) '''
    return np.linalg.norm(a1-a2)

def dist_for_different_len(a1, a2): # Передаем координату X трекинга (rotated) и центры шлемов
    assert len(a1) >= len(a2), f'{len(a1)}, {len(a2)}' # проверем что треков больше или равно шлемов
    len_diff = len(a1) - len(a2) # количество 'лишних' треков
    a2 = norm_arr(a2) # func 2. Передаем центры шлемов. Нормируем от 0 до 1 - вычитаем из каждого значения минимальное и делим каждое значение на максимальное (после вычета)
    if len_diff == 0: # Если нет 'лишних' треков
        a1 = norm_arr(a1) # func 2. Передаем координату Х трека. Нормируем от 0 до 1
        return dist(a1,a2), () # func 3. Получаем разность между треком и шлемами и находим норму фробениуса (квадратный корень сумм квадратов модулей элементов матрицы размера. Равна 0, когда матрицы одинаковые)
        # возвращаем значение дистанции и пустоту (тут никакие треки не выкидываем)
        
    else: # если есть "лишние" треки без боксов
        min_dist = 10000
        min_detete_idx = None
        cnt = 0
        del_list = list(itertools.combinations(range(len(a1)),len_diff)) # combinations(range(4), 3) --> 012 013 023 123. Координаты X трека перебираем количеством лишних треков и делаем из всех вариантов список для перебора
        if len(del_list) > max_iter: # если длина этого списка для перебора больше макс количества итераций
            del_list = random.sample(del_list, max_iter) # то берем случайный семпл размера макс количества итераций
        for detete_idx in del_list: # перебираем список для перебора (айдишники на удаление)
            this_a1 = np.delete(a1, detete_idx) # убираем 'лишние' delete_idx из массива a1. Теперь количество треков уравнивается с количеством шлемов
            this_a1 = norm_arr(this_a1) # func 2. Передаем сокращенные координаты Х трека. Нормируем от 0 до 1
            this_dist = dist(this_a1, a2) # func 3. Получаем разность между треком и шлемами и находим норму фробениуса (квадратный корень сумм квадратов модулей элементов матрицы размера. Равна 0, когда матрицы одинаковые)
            #print(len(a1), len(a2), this_dist)
            if min_dist > this_dist: # оставляем вариант с минимальной дистанцией, запоминаем айдишники треков которые нужно будет выкинуть
                min_dist = this_dist
                min_detete_idx = detete_idx
                
        return min_dist, min_detete_idx # возвращаем значение минимальной дистанции и айдишники треков которые нужно будет выкинуть
        
def rotate_arr(u, t, deg=True): 
    '''ортогональное преобразование (всякое ортогональное преобразование является поворотом или поворотом с инверсией). 
    Ортогональные преобразования сохраняют длины векторов и углы между векторами'''
    if deg == True:
        t = np.deg2rad(t)
    # при нуле [1 0][0 1] при 90 градусах [0,-1][1, 0]
    R = np.array([[np.cos(t), -np.sin(t)],
                  [np.sin(t),  np.cos(t)]])
    return  np.dot(R, u) # shape (2, 2) (2, 22)


def dist_rot(tracking_df, a2): # Передаем трек и координаты упорядоченных горизонтальных центров шлемов
    tracking_df = tracking_df.sort_values('x')
    x = tracking_df['x']
    y = tracking_df['y']
    min_dist = 10000
    min_idx = None
    min_x = None
    dig_step = 3
    dig_max = dig_step*10
    for dig in range(-dig_max,dig_max+1,dig_step):
        arr = rotate_arr(np.array((x,y)), dig) # func 5. Берем координаты игроков (x,y) и поворачиваем их на угол из цикла. Shape (2,22) и (x,y) и arr
        this_dist, this_idx = dist_for_different_len(np.sort(arr[0]), a2) # func 4. Передаем координату X трекинга (rotated) и центры шлемов
        if min_dist > this_dist: # оставляем минимальные дистанцию и соответствующие ей айдишники на выброс
            min_dist = this_dist
            min_idx = this_idx
            min_x = arr[0] # оставляем только ось X
    tracking_df['x_rot'] = min_x # повернутое значение X
    player_arr = tracking_df.sort_values('x_rot')['player'].values # сортированное повернутое значение X
    players = np.delete(player_arr,min_idx) # удаляем айдишники на удаление и получаем список "обозначенных игроков"
    return min_dist, players # возвращаем значение нормы и "обозначенных игроков"



def mapping_df(args):
    video_frame, df = args # video_frame 57906_000718_Endzone_1, and dataframe helmets for this frame

    gameKey,playID,view,frame = video_frame.split('_') # Разбиваем video_frame 57906_000718_Endzone_1 на четыре куска по "_"
    gameKey = int(gameKey)
    playID = int(playID)
    frame = int(frame)
    
    this_tracking = tracking[(tracking['gameKey']==gameKey) & (tracking['playID']==playID)] # отсекаем tracking для этой игры
    est_frame = find_nearest(this_tracking.est_frame.values, frame) # func 1 (номера 10032 кадров, из которых уникальных 456 и номер кадра). Находим ближайший кадр
    this_tracking = this_tracking[this_tracking['est_frame']==est_frame] # оставляем датасет ближайшего фрейма
    len_this_tracking = len(this_tracking) # его длина, по идее 22 (соответствует количеству игроков)
    
    # df-боксы этого кадра. Находим горизонтальные центры шлемов (положительный и отрицательный)
    df['center_h_p'] = (df['left']+df['width']/2).astype(int) 
    df['center_h_m'] = (df['left']+df['width']/2).astype(int)*-1
    df = df[df['conf']>CONF_THRE].copy() # оставляем боксы с conf больше threshold-а
    if len(df) > len_this_tracking: # если боксов больше чем треков, то отсекаем лучшие боксы (количество равно количеству треков)
        df = df.tail(len_this_tracking)
    df_p = df.sort_values('center_h_p').copy() # сортируем шлемы по горизонтальным центрам от меньшего значения к большему (видимо слева направо)
    df_m = df.sort_values('center_h_m').copy() # сортируем шлемы по горизонтальным центрам от меньшего значения к большему, но тут для отрицательных чисел (видимо справа налево)
    
    if view == 'Endzone': # если вид вдоль поля (по ТВ обычно показывают вид поперек поля, как в футболе). То меняем местами координаты x и y
        this_tracking['x'], this_tracking['y'] = this_tracking['y'].copy(), this_tracking['x'].copy()
    a2_p = df_p['center_h_p'].values # делаем pandas series из упорядоченных горизонтальных центров положительных
    a2_m = df_m['center_h_m'].values # делаем pandas series из упорядоченных горизонтальных центров отрицательных
    
    min_dist_p, min_detete_idx_p = dist_rot(this_tracking ,a2_p) # func 6. Передаем трек и координаты упорядоченных горизонтальных центров шлемов полож. Возвращаем значение нормы и "обозначенных игроков"
    min_dist_m, min_detete_idx_m = dist_rot(this_tracking ,a2_m) # func 6. Передаем трек и координаты упорядоченных горизонтальных центров шлемов отриц. Возвращаем значение нормы и "обозначенных игроков"
    
    # оставляем из положительного и отрицательного варианта наилучший
    if min_dist_p < min_dist_m:
        min_dist = min_dist_p
        min_detete_idx = min_detete_idx_p
        tgt_df = df_p
    else:
        min_dist = min_dist_m
        min_detete_idx = min_detete_idx_m
        tgt_df = df_m
        
    #print(video_frame, len(this_tracking), len(df), len(df[df['conf']>CONF_THRE]), this_tracking['x'].mean(), min_dist_p, min_dist_m, min_dist)
    tgt_df['label'] = min_detete_idx # "обозначенные игроки"
    return tgt_df[['video_frame','left','width','top','height','label']]

In [4]:
# p = Pool(processes=4)
# submission_df_list = []
# df_list = list(helmets.groupby('video_frame')) # итерируемся по кадрам 2664 штуки
# with tqdm(total=len(df_list)) as pbar:
#     for this_df in p.imap(mapping_df, df_list): # func 7
#         submission_df_list.append(this_df)
#         pbar.update(1)
# p.close()

# submission_df = pd.concat(submission_df_list)
# submission_df.to_csv('submission-baseline.csv', index=False)
# submission_df = pd.read_csv('submission-baseline.csv')

submission_df = pd.read_csv(f'{ENTRY}/baseline-seed-not-fixed/submission-baseline_57783_003374_E_and_S.csv')


## Score the predictions before applying deepsort postprocessing
# The scores are roughly ~0.3, which is similar to the public leaderboard.
if debug:
    scorer = NFLAssignmentScorer(labels)
    baseline_score = scorer.score(submission_df)
    print(f"validation score {baseline_score:0.4f}") # validation score 0.3121 # 0.2830 sample_videos ['57783_003374_Endzone.mp4', '57783_003374_Sideline.mp4']

validation score 0.2830


# Deepsort Postprocessing

Deepsort is a popular framework for object tracking within video. 
- [This blog post](https://nanonets.com/blog/object-tracking-deepsort/
) shows some examples of it being put to use.
- This notebook shows how to apply deepsort to this helmet dataset: https://www.kaggle.com/s903124/nfl-helmet-with-yolov5-deepsort-starter
- You can also read the paper for deepsort here: https://arxiv.org/pdf/1703.07402.pdf

The approach is fairly simple:
1. Step through each frame in a video and apply the deepsort algorithm. This clusters helmets across frames when it is the same player/helmet.
2. Group by each of these deepsort clusters - and pick the most common label for that cluster. Then override all of the predictions for that helmet to the same player.

## Importing Deepsort from dataset
Because your submission is not allowed to use internet access, you can reference the deepsort codebase from the attached dataset. Deepsort also has a dependency of `easydict` which I've also added as a dataset.

In [5]:
import sys
sys.path.append(f'{ENTRY}/easydict-master/easydict-master/')
# https://github.com/mikel-brostrom/Yolov5_DeepSort_Pytorch
sys.path.append(f'{ENTRY}/yolov5-deepsort-pytorch/Yolov5_DeepSort_Pytorch-master/Yolov5_DeepSort_Pytorch-master/deep_sort_pytorch/')
from deep_sort.deep_sort import DeepSort
from utils.parser import get_config


"""
Helper functions from yolov5 to plot deepsort labels.
"""

def compute_color_for_id(label):
    """
    Simple function that adds fixed color depending on the id
    """
    palette = (2 ** 11 - 1, 2 ** 15 - 1, 2 ** 20 - 1)

    color = [int((p * (label ** 2 - label + 1)) % 255) for p in palette]
    return tuple(color)

def plot_one_box(x, im, color=None, label=None, line_thickness=3):
    # Plots one bounding box on image 'im' using OpenCV
    assert im.data.contiguous, 'Image not contiguous. Apply np.ascontiguousarray(im) to plot_on_box() input image.'
    tl = line_thickness or round(0.002 * (im.shape[0] + im.shape[1]) / 2) + 1  # line/font thickness
    color = color or [random.randint(0, 255) for _ in range(3)]
    c1, c2 = (int(x[0]), int(x[1])), (int(x[2]), int(x[3]))
    cv2.rectangle(im, c1, c2, color, thickness=tl, lineType=cv2.LINE_AA)
    if label: 
        tf = max(tl - 1, 1)  # font thickness
        t_size = cv2.getTextSize(label, 0, fontScale=tl / 3, thickness=tf)[0]
        c2 = c1[0] + t_size[0], c1[1] - t_size[1] - 3
        cv2.rectangle(im, c1, c2, color, -1, cv2.LINE_AA)  # filled
        cv2.putText(im, label, (c1[0], c1[1] - 2), 0, tl / 3, [225, 255, 255], thickness=tf, lineType=cv2.LINE_AA)
    return im

In [6]:
%%writefile deepsort.yaml

DEEPSORT:
  REID_CKPT: "input/yolov5-deepsort-pytorch/ckpt.t7"
  MAX_DIST: 0.2
  MIN_CONFIDENCE: 0.3
  NMS_MAX_OVERLAP: 0.5
  MAX_IOU_DISTANCE: 0.7
  MAX_AGE: 70
  N_INIT: 3
  NN_BUDGET: 100

Overwriting deepsort.yaml


# Notebook #2 (Functions to apply deepsort to helmet boxes) & 3 (Alex)

### Base part

In [7]:
# Below are two functions `deepsort_helmets` which runs deepsort across a video. There is a lot of room for improving this function. 
# The merging of deepsort labels onto the original helmet boxes is currently done in a very crude manner.
# `add_deepsort_label_col` mapps the most common label to each deepsort cluster.


def add_deepsort_label_col(out): # 
    '''Даем кластеру лэйбл самого частого лэйбла. В результате добавляются label_deepsort (ИД игрока) и label_count_deepsort (число) #
    
    Input: датафрейм из deepsort_helmets - боксы, лэйблы и дипсорт кластеры
    Находим лэйбл, который в наибольшем количестве кадров присутствовал с определенным кластером. 
    
    3. Значение наибольшего количества записываем в label_count
    4. Названия кластеров из индекса переходят в столбец
    5-6. Группируем по ним и оставляем первый (самый частый)
    7-1. Получаем словарь соответствия кластера и самого частого лэйбла для этого кластера
    7-2. Получаем словарь соответствия кластера и значения этого самого частого лэйбла
    '''
    # Find the top occuring label for each deepsort_cluster 

    sortlabel_map = out.groupby('deepsort_cluster')['label'].value_counts() \
        .sort_values(ascending=False).to_frame() \
        .rename(columns={'label':'label_count'}) \
        .reset_index() \
        .groupby(['deepsort_cluster']) \
        .first()['label'].to_dict()
    # Find the # of times that label appears for the deepsort_cluster.
    sortlabelcount_map = out.groupby('deepsort_cluster')['label'].value_counts() \
        .sort_values(ascending=False).to_frame() \
        .rename(columns={'label':'label_count'}) \
        .reset_index() \
        .groupby(['deepsort_cluster']) \
        .first()['label_count'].to_dict()
    
    out['label_deepsort'] = out['deepsort_cluster'].map(sortlabel_map) # the top occuring label for each deepsort_cluster
    out['label_count_deepsort'] = out['deepsort_cluster'].map(sortlabelcount_map) # the # of times that label appears for the deepsort_cluster.

    return out

def score_vs_deepsort(myvideo, out, labels):
    # Score the base predictions compared to the deepsort postprocessed predictions.
    myvideo_mp4 = myvideo + '.mp4'
    labels_video = labels.query('video == @myvideo_mp4')
    scorer = NFLAssignmentScorer(labels_video)
    out_deduped = out.groupby(['video_frame','label']).first().reset_index()
    base_video_score = scorer.score(out_deduped)
    
    out_preds = out.drop('label', axis=1).rename(columns={'label_deepsort':'label'})
    print(out_preds.shape)
    out_preds = out_preds.groupby(['video_frame','label']).first().reset_index()
    print(out_preds.shape)
    deepsort_video_score = scorer.score(out_preds)
    print(f'{base_video_score:0.5f} before --> {deepsort_video_score:0.5f} deepsort')
    
    
def score_vs_posit(myvideo, out, labels):
    # Score the base predictions compared to the deepsort postprocessed predictions.
    myvideo_mp4 = myvideo + '.mp4'
    labels_video = labels.query('video == @myvideo_mp4')
    scorer = NFLAssignmentScorer(labels_video)
    out_deduped = out.groupby(['video_frame','label']).first().reset_index()
    base_video_score = scorer.score(out_deduped)
    
    out_preds = out.drop('label', axis=1).rename(columns={'label_posit':'label'})
    print(out_preds.shape)
    out_preds = out_preds.groupby(['video_frame','label']).first().reset_index()
    print(out_preds.shape)
    deepsort_video_score = scorer.score(out_preds)
    print(f'{base_video_score:0.5f} before --> {deepsort_video_score:0.5f} posit')
    
    
def deepsort_helmets(video_data,video_dir,deepsort_config='deepsort.yaml',plot=False,plot_frames=[]):
    '''func1. Передаем датафрейм из submission_df, полученный из mapping_df. Путь к трейн или тест видео и фрэймы для печати'''
    
    # Setup Deepsort. Инициализируем дипсорт и потом он будет обновляться каждый кадр
    cfg = get_config()
    cfg.merge_from_file(deepsort_config)    
    deepsort = DeepSort(cfg.DEEPSORT.REID_CKPT,max_dist=cfg.DEEPSORT.MAX_DIST,min_confidence=cfg.DEEPSORT.MIN_CONFIDENCE,
                        nms_max_overlap=cfg.DEEPSORT.NMS_MAX_OVERLAP,max_iou_distance=cfg.DEEPSORT.MAX_IOU_DISTANCE,max_age=cfg.DEEPSORT.MAX_AGE,
                        n_init=cfg.DEEPSORT.N_INIT,nn_budget=cfg.DEEPSORT.NN_BUDGET,use_cuda=True)
    
    # Run through frames.
    video_data = video_data.sort_values('frame').reset_index(drop=True) # сортируем кадры по порядку 
    ds = []
    # итерируемся по кадрам. Получаем датасет каждого кадра
    for frame, d in tqdm(video_data.groupby(['frame']), total=video_data['frame'].nunique()):  # list(video_data.groupby(['frame']))[::-1] for descenging order
        d['x'] = (d['left'] + round(d['width'] / 2)) # центр бокса по Х
        d['y'] = (d['top'] + round(d['height'] / 2)) # центр бокса по У
        xywhs = d[['x','y','width','height']].values # значения боксов (центры по X,Y, а также длина и ширина)
        cap = cv2.VideoCapture(f'{video_dir}/{myvideo}.mp4') # обращаемся к видеофайлу
        cap.set(cv2.CAP_PROP_POS_FRAMES, frame-1) # Устанавливаем индекс кадра, который будет извлекаться из видеопотока (индексация начинается от 0)
        success, image = cap.read() # Считываем кадр(картинку) , метод возвращает флаг success (True , False) и image — саму картинку (массив numpy)
        image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB) # Меняем цветовое пространство на RGB
        confs = np.ones([len(d),]) # создаем массив единиц для confs каждого бокса этого кадра
        clss =  np.zeros([len(d),]) # создаем массив нулей для класса каждого бокса этого кадра
        # в deepsort передаем параметры боксов, confs, классы и картинку. outputs это [x1, y1, x2, y2, track_id, class_id]
        outputs = deepsort.update(xywhs, confs, clss, image) 
        

        # # отрисовка промежуточных кадров с боксами из plot_frames
        # if (plot and frame > cfg.DEEPSORT.N_INIT) or (frame in plot_frames): # N_INIT=3
        #     # print('To Deepsort:',xywhs, confs, clss, image,sep='\n')
        #     # print('Outputs from Deepsort\n',outputs)
        #     shown_labels = []
        #     for j, (output, conf) in enumerate(zip(outputs, confs)):  # outputs из deepsort-a
        #         # outputs это [x1, y1, x2, y2, track_id, class_id], распарсиваем
        #         bboxes = output[0:4]
        #         id = output[4]
        #         cls = output[5]
        #         c = int(cls)  # integer class
        #         label = f'{id}'
        #         shown_labels.append(label)
        #         color = compute_color_for_id(id)
        #         im = plot_one_box(bboxes, image, label=label, color=color, line_thickness=2)
        #     fig, ax = plt.subplots(figsize=(15, 10))
        #     video_frame = d['video_frame'].values[0]
        #     ax.set_title(f'Deepsort labels: {video_frame}, shown_labels: {shown_labels}')
        #     plt.imshow(im)
        #     plt.show()

        # outputs из deepsort-a запаковываем в датафрейм, outputs это [x1, y1, x2, y2, track_id, class_id]
        preds_df = pd.DataFrame(outputs, columns=['left','top','right','bottom','deepsort_cluster','class']) #
        if len(preds_df) > 0:
            # TODO Fix this messy merge # This is similar to a left-join except that we match on nearest key. DataFrames must be sorted by the key.
            d = pd.merge_asof(d.sort_values(['left','top']), # исходный датафрейм этого кадра из video_data, по сути submission_df
                              preds_df[['left','top','deepsort_cluster']].sort_values(['left','top']), 
                              on='left', suffixes=('','_deepsort'),direction='nearest') # Whether to search for prior, subsequent, or closest matches 
        ds.append(d) # Складываем покадрово результаты Deepsort-a
    dout = pd.concat(ds)
    return dout

### Posit part (Alex)

In [19]:
# Posit Part (Alex)
def normalize_by_two_dots(xs, ys, pivot_idx, target_idx):
    xs_shifted = xs - xs[pivot_idx]
    ys_shifted = ys - ys[pivot_idx]
    # plt.plot(xs, ys, 'b.')
    # plt.show()
    
    target_x = xs_shifted[target_idx]
    target_y = ys_shifted[target_idx]
    # plt.plot(xs_shifted, ys_shifted, 'b.')
    # plt.show()
    
    if target_x == 0.0:
        if target_y >= 0:
            t = np.pi/2
        else:
            t = 3*np.pi/2
    elif target_y == 0.0:
        if target_x >= 0:
            t = 0
        else:
            t = np.pi
    else:
        if target_x > 0 and target_y > 0:
            quadrant = 1
            tangens = abs(target_y) / abs(target_x)
        elif target_x < 0 and target_y > 0:
            quadrant = 2
            tangens = abs(target_x) / abs(target_y)
        elif target_x < 0 and target_y < 0:
            quadrant = 3
            tangens = abs(target_y) / abs(target_x)
        else:
            quadrant = 4
            tangens = abs(target_x) / abs(target_y)
         
        t = -(np.arctan(tangens) + (quadrant-1)*np.pi/2)
    R = np.array([[np.cos(t), -np.sin(t)],
                  [np.sin(t),  np.cos(t)]])
    u = np.array([xs_shifted, ys_shifted])
    rotated = np.dot(R, u)
    # print(quadrant, tangens, t)
    # plt.plot(rotated[0], rotated[1], 'b.')
    # plt.show()
    rotated_scaled = rotated/rotated[0][target_idx]
    return rotated_scaled

def modern_posit(image_pts, world_pts, focal_length, center):
    nb_points = np.shape(image_pts)[0]

    # centered & scaled pixel coordinates
    centered_image = np.divide(np.subtract(image_pts, center), focal_length)
    ui = centered_image[:, 0]
    vi = centered_image[:, 1]

    # homogeneous world coordinates
    homogeneous_world_pts = np.append(world_pts, np.ones((nb_points, 1)), 1)

    # pseudo inverse
    object_mat = np.linalg.pinv(homogeneous_world_pts)
    #print(object_mat)

    converged = 0
    count = 0
    t_x = 0.0
    t_y = 0.0
    t_z = 0.0
    r1 = 0.0
    r2 = 0.0
    r3 = 0.0
    while converged == 0:
        # POS part of the algorithm
        # rotation vectors
        r1_t = np.matmul(object_mat, ui)
        r2_t = np.matmul(object_mat, vi)
        # 1/t_z1 is norm of r1_t
        t_z1 = 1 / np.linalg.norm(r1_t[0:3])
        # 1/tz_2 is norm of r2_t
        t_z2 = 1 / np.linalg.norm(r2_t[0:3])
        
        # geometric average
        t_z = np.sqrt(t_z1 * t_z2)
        
        r1_n = np.multiply(r1_t, t_z)
        r2_n = np.multiply(r2_t, t_z)
        r1 = r1_n[0:3]
        r2 = r2_n[0:3]
        r3 = np.cross(r1, r2)
        r3_t = np.append(r3, t_z)
        t_x = r1_n[3]
        t_y = r2_n[3]

        # Now update the z/T z or epsilon
        # then ui, vi
        epsilon_i = np.matmul(homogeneous_world_pts, np.divide(r3_t, t_z))
        old_ui = ui
        old_vi = vi
        ui = np.multiply(epsilon_i, centered_image[:, 0])
        vi = np.multiply(epsilon_i, centered_image[:, 1])

        # check for convergence
        delta_ui = ui - old_ui
        delta_vi = vi - old_vi
        delta = np.square(focal_length) * (np.square(np.linalg.norm(delta_ui)) + np.square(np.linalg.norm(delta_vi)))

        converged = 1 if count > 0 and delta < 1 else 0
        count = count + 1

    trans = np.array([t_x, t_y, t_z], np.float64)
    rot = np.array([r1, r2, r3], np.float64)
    return rot, trans

def find_nearest(array, value): # находит значение ближайшего est_frame-а к value (фрэйму)
    value = int(value)
    array = np.asarray(array).astype(int)
    idx = (np.abs(array - value)).argmin() # из номеров est_frame вычитаем frame, берем модуль. Находим индекс минимального элемента в массиве
    return array[idx] # значение ближайшего est_frame-а

def process_with_posit(out, tracking): # Posit начало. На входе результаты дипсорта и трекинг
    PLOT = False
    # Confidence block. Доля самого частого лэйбла от общего количества в заданном кластере дипсорта.
    track_confidence = {}
    for cluster in out['deepsort_cluster'].unique(): # Пробегаемся по кластерам дипсорта
        if not np.isnan(cluster): # Если кластер не None, то есть после пропускаемых дипсортом кадров
            label_count = out[out['deepsort_cluster'] == cluster]['label_count_deepsort'].unique()[0] # количество появлений топ кластера
            num_frames = len(out[out['deepsort_cluster'] == cluster]) # число кадров
            track_confidence[cluster] = label_count/num_frames # как часто кластер появляется на кадре. Словарь Кластер:Частота
    
    out['track_confidence'] = out['deepsort_cluster'].map(track_confidence) # Добавляем столбец с conf трека

    outs_posit = []
    #for f in range(0, out['frame'].max(), 20):
    errors = []
    #for f in [195]:
    for f in range(1, out['frame'].max()+1): # пробегаемся по кадрам. Tester: for f in [5]:
        # результаты дипсорта сортируем по conf кластера из первого цикла и берем топ7 по conf
        out_posit = out[out['frame'] == f].sort_values(['track_confidence'], ascending=False).copy() 
        out_posit_confident = out_posit.head(7).copy() 
        
        # находим в треке примерный кадр и фиксируем его трек
        nearest_frame_tracking = find_nearest(tracking['est_frame'].values, f) # int номер кадра
        tracking_posit = tracking[tracking['est_frame']==nearest_frame_tracking].copy() # трек этого кадра
        
        # Если игрок входит в  Топ7 из кластеров дипсорта по conf 
        tracking_posit_confident = tracking_posit[tracking_posit['player'].isin(out_posit_confident['label_deepsort'].values)].copy()
        tracking_posit_confident['label_posit'] = tracking_posit_confident['player'].copy() # лейбл игрока
        
        # Находим дипсорт лэйблы у которых больше одного шлема и складываем в out_posit_confident_duplicates 
        out_posit_confident['label_posit'] = out_posit_confident['label_deepsort'].copy() # лейбл посита делаем из лейбла дипсорта
        out_posit_confident_duplicates = out_posit_confident['label_deepsort'].value_counts() # считаем количество значений лэйблов дипсорта
        out_posit_confident_duplicates = out_posit_confident_duplicates[out_posit_confident_duplicates > 1] # если больше 1 то складываем в датафрейм

        # Разбираемся с дубликатами 
        dupl_label = "" # заглушка для дублируемого лэйбла
        dupl_label_list = list(out_posit_confident_duplicates.to_dict().keys()) # делаем словарь (список?) из 2+ встречающихся лэйблов дипсорта
        if len(dupl_label_list) > 0: # список длинный
            dupl_label = dupl_label_list[0] # оставляем первый лэйбл из списка

        # Для 7 уверенных кластеров (лейблов) проставляем координаты из трека
        out_posit_confident_merged = out_posit_confident.merge(tracking_posit_confident, on='label_posit', suffixes = ['','_t'])[['video_frame', 'label_posit', 'x', 'y', 'x_t', 'y_t']].copy()
        
        # По сути дубликат 7 уверенных шлемов дипсорта
        to_find_index = out_posit_confident.reset_index(drop=True).copy()

        # Делаем двухмерные координаты из координат центров боксов. Трехмерные из координат трека плюс дополнительная зануленная координата
        points_2d = np.array([out_posit_confident_merged['x'].values, 720-out_posit_confident_merged['y'].values]).transpose()
        points_3d = np.array([out_posit_confident_merged['x_t'].values, out_posit_confident_merged['y_t'].values]).transpose()
        points_3d = np.append(points_3d, np.zeros((points_3d.shape[0], 1)), axis=1)

        num_of_entries = len(points_2d) # Количество шлемов в датафрейме из 7 топ шлемов (наверное их всегда <=7?)
        # Находим список индексы где находится дубликат dupl_label 
        dupl_list = to_find_index.index[to_find_index['label_deepsort'] == dupl_label].tolist()

        best_error = float("inf")
        best_matrix = None
        best_projected_points_2d_homogen = None
        # Если есть дубликаты в столбце label_deepsort, то сначала убираем дубликаты и потом Posit
        if (len(out_posit_confident['label_deepsort']) - len(out_posit_confident['label_deepsort'].unique()) == 1):
            for idx in dupl_list: # итерируемся по индексам дубликатов
                # Делаем двухмерные координаты из координат центров боксов. Трехмерные из координат трека плюс дополнительная зануленная координата
                points_2d = np.array([out_posit_confident_merged['x'].values, 720-out_posit_confident_merged['y'].values]).transpose() # (6,2)
                points_3d = np.array([out_posit_confident_merged['x_t'].values, out_posit_confident_merged['y_t'].values]).transpose() # (6,2)
                points_3d = np.append(points_3d, np.zeros((points_3d.shape[0], 1)), axis=1)  # (6,3)
                
                # выкидываем из 7 шлемов дублирующий
                good_indices = list(range(num_of_entries))  # [0, 1, 2, 3, 4, 6]
                good_indices.pop(idx)  # выкидываем итериуемый индекс
                points_2d = np.array([points_2d[i] for i in good_indices])
                points_3d = np.array([points_3d[i] for i in good_indices])

                # Posit
                #rot, trans = modern_posit(points_2d[indexes], points_3d[indexes], 1920, [640, 360])
                rot, trans = modern_posit(points_2d, points_3d, 1920, [640, 360]) # получаем матрицу поворота и перемещения
                rottrans = np.append(rot, trans.reshape(3,1), axis=1)  # объединяем их в одну (3,4)
                intrin = np.array([
                    [1920, 0, 640],
                    [0, 1920, 360],
                    [0, 0, 1],])
                full_matrix = np.matmul(intrin, rottrans)  # применяем матрицу поворот+перемещение (векторное произведение)

                # Векторное произведение full_matrix и трехмерныых координат трека с добавленным столбцом единиц. Результат (3,6)
                # Берем трехмерные координаты трека points_3d (6,3) (с добавленной нулевой третьей осью) # добавляем единичный столбец (6,4) и транспонируем
                projected_points_2d = np.matmul(full_matrix, np.transpose(np.append(points_3d, np.ones((points_3d.shape[0], 1)), axis=1)))
                
                projected_points_2d_t = np.transpose(projected_points_2d) # транспонируем (6,3)
                # Происходит магия, на выходе (6,3)
                projected_points_2d_homogen = projected_points_2d_t / projected_points_2d[2].reshape(points_3d.shape[0],1)

                # Считаем ошибку и если она меньше предыдущей минимальной (или бесконечности в начале), то фиксируем norm_error, full_matrix, projected_points_2d_homogen
                norm_error = np.linalg.norm(points_2d - projected_points_2d_homogen[:,0:2])
                if norm_error < best_error:
                    best_error = norm_error
                    best_matrix = full_matrix
                    best_projected_points_2d_homogen = projected_points_2d_homogen
            # После того как проитерировали все индексы дубликатов, фиксируем norm_error, full_matrix, projected_points_2d_homogen из варианта с минимальной ошибкой
            norm_error = best_error
            full_matrix = best_matrix
            projected_points_2d_homogen = best_projected_points_2d_homogen
        # Если нет дубликатов, то просто применяем Posit
        else:
            rot, trans = modern_posit(points_2d, points_3d, 1920, [640, 360])
            rottrans = np.append(rot, trans.reshape(3,1), axis=1)
            intrin = np.array([
                [1920, 0, 640],
                [0, 1920, 360],
                [0, 0, 1],
            ])
            full_matrix = np.matmul(intrin, rottrans)
            projected_points_2d = np.matmul(full_matrix, np.transpose(np.append(points_3d, np.ones((points_3d.shape[0], 1)), axis=1)))
            projected_points_2d_t = np.transpose(projected_points_2d)
            projected_points_2d_homogen = projected_points_2d_t / projected_points_2d[2].reshape(points_3d.shape[0],1)
            norm_error = np.linalg.norm(points_2d - projected_points_2d_homogen[:,0:2])

        # Если norm_error остался бесконечным, то фиксируем его 0
        if norm_error == float("inf"):
            norm_error = 0.0
        #print(f, 'norm:', norm_error, f,nearest_frame_tracking, len(out_posit_confident), len(out_posit_confident['label_deepsort']) - len(out_posit_confident['label_deepsort'].unique()))
        errors.append(norm_error)

        # Рисуем уверенные шлемы
        if PLOT:
            plt.plot(points_2d[:, 0], points_2d[:, 1], 'rx') # координаты уверенных шлемов
            plt.plot(projected_points_2d_homogen[:, 0], projected_points_2d_homogen[:, 1], 'b.') # Результаты преобразования трека при помощи Posit
            plt.axis('scaled')
            plt.show()

            # ПО сути простановка индексов правильных из трека
            x = projected_points_2d_homogen[:, 0]
            y = projected_points_2d_homogen[:, 1]
            labels = out_posit_confident_merged['label_posit'].values
            labels_posit = out_posit_confident['label_posit'].values
            fig, ax = plt.subplots()
            fig.set_size_inches((15, 15))
            ax.scatter(points_2d[:, 0], points_2d[:, 1], marker='x', color='r')
            ax.scatter(x, y, marker='.', color='b')
            for i in range(len(x)):
                ax.annotate(labels[i], (x[i], y[i]), color='b')

            for i in range(points_2d.shape[0]):
                ax.annotate(labels_posit[i], (points_2d[:, 0][i], points_2d[:, 1][i]), color='r')

        # применяем ко всем шлемам Posit
        points_2d_full = np.array([out_posit['x'].values, 720-out_posit['y'].values]).transpose()
        points_3d_full = np.array([tracking_posit['x'].values, tracking_posit['y'].values]).transpose()
        points_3d_full = np.append(points_3d_full, np.zeros((points_3d_full.shape[0], 1)), axis=1)

        projected_points_2d_full = np.matmul(full_matrix, np.transpose(np.append(points_3d_full, np.ones((points_3d_full.shape[0], 1)), axis=1)))
        projected_points_2d_t_full = np.transpose(projected_points_2d_full)
        projected_points_2d_homogen_full = projected_points_2d_t_full / projected_points_2d_full[2].reshape(points_3d_full.shape[0],1)
        tracking_posit["x_pr"] = projected_points_2d_homogen_full[:, 0]
        tracking_posit["y_pr"] = projected_points_2d_homogen_full[:, 1]

        # Отрисовываем все шлемы
        if PLOT:
            figure(figsize=(10,10))
            plt.plot(points_2d_full[:, 0], points_2d_full[:, 1], 'rx')
            plt.plot(projected_points_2d_homogen_full[:, 0], projected_points_2d_homogen_full[:, 1], 'b.')
            plt.axis('scaled')
            plt.show()

            x = projected_points_2d_homogen_full[:, 0]
            y = projected_points_2d_homogen_full[:, 1]
            labels = tracking_posit['player'].values
            labels_posit = out_posit['label'].values
            fig, ax = plt.subplots()
            ax.axis('equal')

            fig.set_size_inches((30, 30))
            ax.scatter(points_2d_full[:, 0], points_2d_full[:, 1], marker='x', color='r')
            ax.scatter(x, y, marker='.', color='b')
            for i in range(len(x)):
                ax.annotate(labels[i], (x[i], y[i]), color='b')

            for i in range(len(labels_posit)):
                ax.annotate(labels_posit[i], (points_2d_full[:, 0][i], points_2d_full[:, 1][i]), color='r')


        out_posit['label_posit'] = out_posit['label_deepsort'].values.copy()
        out_posit['y_im'] = (720 - out_posit['y']).copy()
        indexes_to_all_distances ={}
        for index, row in out_posit.iterrows():
            all_distances = np.sqrt(np.square(tracking_posit['x_pr'].values - row['x']) + np.square(tracking_posit['y_pr'].values - row['y_im']))
            all_labels = tracking_posit['player'].values 
            indexes_to_all_distances[index] = sorted(list(zip(all_labels, all_distances)), key=lambda tup: tup[1])


        all_results = {}
        expected_num_of_results = len(indexes_to_all_distances)
        for _ in range(expected_num_of_results):
            min_element = None
            min_dist = float('inf')
            min_label = None
            for k, v in indexes_to_all_distances.items():
                if v[0][1] < min_dist:
                    min_dist = v[0][1]
                    min_element = k
                    min_label = v[0][0]
            if min_element:
                all_results[min_element] = min_label
            indexes_to_all_distances.pop(min_element, None)
            for k, v in indexes_to_all_distances.items():
                indexes_to_all_distances[k] = [t for t in v if t[0] != min_label]

        for k, v in all_results.items():
            out_posit.loc[k,'label_posit'] = v

        outs_posit.append(out_posit.copy())

    submission_posit = pd.concat(outs_posit).copy()
    return submission_posit

In [20]:
# Add video and frame columns to submission.
submission_df['video'] = submission_df['video_frame'].str.split('_').str[:3].str.join('_')
submission_df['frame'] = submission_df['video_frame'].str.split('_').str[-1].astype('int')

if debug:
    video_dir = f'{ENTRY}/nfl-health-and-safety-helmet-assignment/train/'
else:
    video_dir = f'{ENTRY}/nfl-health-and-safety-helmet-assignment/test/'

submission_df_small = submission_df.loc[submission_df['frame']<51].copy()
submission_df_small.frame.unique()

array([ 1, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19,  2, 20, 21, 22, 23, 24,
       25, 26, 27, 28, 29,  3, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39,  4,
       40, 41, 42, 43, 44, 45, 46, 47, 48, 49,  5, 50,  6,  7,  8,  9])

In [10]:
# ОПТИМИЗАЦИЯ 127 seconds -> 124 second
#     track_confidence = {}
#     for cluster in out['deepsort_cluster'].unique(): # Пробегаемся по кластерам дипсорта
#         if not np.isnan(cluster): # Если кластер не None, то есть после пропускаемых дипсортом кадров
#             label_count = out[out['deepsort_cluster'] == cluster]['label_count_deepsort'].unique()[0] # количество появлений топ кластера
#             num_frames = len(out[out['deepsort_cluster'] == cluster]) # число кадров
# #             print(cluster, 'label_count',label_count,'num_frames',num_frames)
#             track_confidence[cluster] = label_count/num_frames # как часто кластер появляется на кадре. Словарь Кластер:Частота
# #     print('track_confidence\n',track_confidence)
# replace to this 
# count_clusters = out.groupby(['deepsort_cluster','label'], as_index=False).count()
# track_confidence = (count_clusters.groupby(['deepsort_cluster']).max().video_frame / count_clusters.groupby(['deepsort_cluster']).sum().video_frame).to_dict()

In [21]:
# Loop through test videos and apply. If in debug mode show the score change.
outs = []
outs_posit = []
for myvideo, video_data in tqdm(submission_df_small.groupby('video'), total=submission_df['video'].nunique()):
    print(f'==== {myvideo} ====')
    if debug:
        # Plot deepsort labels when in debug mode.
        out = deepsort_helmets(video_data, video_dir, plot_frames=range(3,100,10)) #i for i in range(0,1000,20)] + [379, 381]
        # print(out)
    else:
        out = deepsort_helmets(video_data, video_dir)      
    # Находим лэйбл, который в наибольшем количестве кадров присутствовал с определенным кластером. Добавляются label_deepsort (ИД игрока) label_count_deepsort (число)
    out = add_deepsort_label_col(out) 
    outs.append(out) # итоговые датафреймы складываются в список
    #####
    tracking_gp = tracking[tracking['game_play'] == '_'.join((myvideo.split('_'))[:-1])].copy() # просто трек текущего видео
    out_posit = process_with_posit(out, tracking_gp) # Posit
    outs_posit.append(out_posit)
    #####
    if debug:
        score_vs_deepsort(myvideo, out, labels)
        score_vs_posit(myvideo, out_posit, labels) #
        
submission_deepsort = pd.concat(outs).copy()
submission_posit = pd.concat(outs_posit).copy()
# ==== 57783_003374_Endzone ====
# 0.27200 before --> 0.63371 deepsort --> 0.67545 posit
# ==== 57783_003374_Sideline ====
# 0.29314 before --> 0.32986 deepsort --> 0.60836 posit

# ==== 57783_003374_Endzone ==== 50 frames
# 0.09549 before --> 0.30871 deepsort --> 0.31109 posit
# ==== 57783_003374_Sideline ==== 50 frames
# 0.09459 before --> 0.05549 deepsort --> 0.01022 posit
# 127 seconds -> 124 seconds

  0%|          | 0/2 [00:00<?, ?it/s]

==== 57783_003374_Endzone ====


100%|██████████| 50/50 [00:52<00:00,  1.05s/it]


(827, 14)
(787, 14)
0.09549 before --> 0.30871 deepsort
(827, 16)
(795, 16)


 50%|█████     | 1/2 [00:53<00:53, 53.84s/it]

0.09549 before --> 0.31109 posit
==== 57783_003374_Sideline ====


100%|██████████| 50/50 [01:09<00:00,  1.38s/it]


(1085, 14)
(857, 14)
0.09459 before --> 0.05549 deepsort
(1085, 16)
(1041, 16)


100%|██████████| 2/2 [02:04<00:00, 62.07s/it]

0.09459 before --> 0.01022 posit





In [12]:
# # for tester
# out.to_csv('tstr/out.csv')
# tracking_gp.to_csv('tstr/tracking_gp.csv')

# Check Submission & Save
Finally we will create a submission file and check that it passes the submission requirements.
The steps are:
1. Drop the `label` and replace with `label_deepsort` predictions.
2. Remove any duplicate labels within a single video/frame. This is required to meet the submission requirements.
3. Save the results.

In [14]:
# Deepsort Submission
ss = pd.read_csv(f'{ENTRY}/nfl-health-and-safety-helmet-assignment/sample_submission.csv')
# Final Checks
submission_deepsort['label_deepsort'] = submission_deepsort['label_deepsort'].fillna(submission_deepsort['label'])
submission_posit['label_posit'] = submission_posit['label_posit'].fillna(submission_posit['label'])

submission_deepsort = submission_deepsort.drop('label', axis=1).rename(columns={'label_deepsort':'label'})[ss.columns]
submission_posit = submission_posit.drop('label', axis=1).rename(columns={'label_posit':'label'})[ss.columns]
# Drop duplicate labels
submission_deepsort = submission_deepsort.loc[~submission_deepsort[['video_frame','label']].duplicated()]
submission_posit = submission_posit.loc[~submission_posit[['video_frame','label']].duplicated()]

check_submission(submission_deepsort)
check_submission(submission_posit)

# submission_deepsort.to_csv('submission.csv', index=False)
submission_posit.to_csv('submission.csv', index=False)