In [1]:
import pandas as pd
from tqdm import tqdm
import numpy as np
import cv2
import os
from datetime import timedelta
import sys
from pathlib import Path 

In [2]:
info = {}
with open('train/разметка.txt', 'r') as f:
    for line in f:
        if 'mp4' in line:
            file_name = line.strip()
            info[file_name] = []
        else:
            if line.strip() != '':
                info[file_name].append(line.strip())


In [3]:
info

{'0000000_00000020240221082923_0001_IMP (1).mp4': ['01:43',
  '06:10',
  '10:49',
  '10:56'],
 '0000000_00000020240221084423_0002_IMP.mp4': ['07:05', '08:10'],
 '0000000_00000020240221085923_0003_IMP.mp4': ['09:15', '13:38', '13:48'],
 '0000000_00000020240508114229_0002.mp4': ['02:28', '05:33', '07:04'],
 '0000000_00000020240508132920_0006.mp4': ['00:47', '01:53'],
 '2_5395803543229709215.mp4': ['00:01',
  '02:01',
  '02:18',
  '02:47',
  '03:12',
  '11:47',
  '12:43'],
 '2_5395803543229709261.mp4': ['01:43'],
 '2_5395803543229709728.mp4': ['01:20'],
 '2_5395803543229709828.mp4': ['04:39', '05:10'],
 '27e2fbc6-8579-4f48-852d-a42fd49522a2.mp4': ['-'],
 'VID_20240304_095112.mp4': ['00:21'],
 'VID_20240304_095227.mp4': ['-'],
 'VID_20240304_095302.mp4': ['-'],
 'VID_20240304_095352.mp4': ['00:07'],
 'VID_20240304_095423.mp4': ['00:03'],
 'VID_20240305_130307.mp4': ['-'],
 'VID_20240305_130357.mp4': ['-'],
 'VID_20240305_130642.mp4': ['-'],
 'VID_20240305_130713.mp4': ['-'],
 'VID_20240311

In [4]:
files_wo_markup = []
for key, val in info.items():
    if val[0] == '-':
        files_wo_markup.append(key)

In [5]:
len(files_wo_markup)

22

In [6]:
len(info.keys())

38

In [7]:
def format_timedelta(td):
    """Служебная функция для классного форматирования объектов timedelta (например, 00:00:20.05)
    исключая микросекунды и сохраняя миллисекунды"""
    result = str(td)
    try:
        result, ms = result.split(".")
    except ValueError:
        return (result + ".00").replace(":", "-")
    ms = int(ms)
    ms = round(ms / 1e4)
    return f"{result}.{ms:02}".replace(":", "-")




In [8]:
def get_saving_frames_durations(cap, saving_fps, df, delta = 5):
    """Функция, которая возвращает список длительностей, в которые следует сохранять кадры.
    df - инфо по нарушениям 
    delta - сколько секунд отступаем до нарушения
    """

    # получаем продолжительность клипа, разделив количество кадров на количество кадров в секунду
    clip_duration = cap.get(cv2.CAP_PROP_FRAME_COUNT) / cap.get(cv2.CAP_PROP_FPS)
        
    flags = [] # метки флага нарушений
    number_of_violent = [] # номер нарушения в кадре
    descr_list = [] # список описаний кадров
    s = [] 
    end_old = -1
    for idx, row in df.iterrows():

        m_start = row.start.minute
        s_start = row.start.second

        m_end = row.end.minute
        s_end = row.end.second

         # преобразуем время нарушений в секунды    
        start = m_start*60 + s_start
        end = m_end*60 + s_end
        
        # определяем время начала нарушения
        if start-delta < end_old:
            start_new = start
        else: 
            start_new = start-delta
            
        descr = row.description
        
        # определяем список кадров    
        for i in np.arange(start_new, end, 1 / saving_fps):
            s.append(i)
            number_of_violent.append(idx)
            if i < start:
                #  до начала нарушения флаг 0           
                flags.append(0)
                descr_list.append(None)
            else:
                flags.append(1)
                descr_list.append(descr)
        end_old = end
    return (s, number_of_violent, flags, descr_list)

In [16]:
def main(video_file, video_name, video_num, df, delta, save_dir, make_dir=False):
    """
    Функция выделяет в видео отрезки с нарушенями и за __ секунд до нарушения,
    создает кадры и сохраняет их в заданную папку.
    
    Args:
        video_file - путь до видео
        video_name - название видео
        video_num - номер видео
        df - данные по нарушениям для конкретного видео
        delta - сколько секунд отступаем до нарушения
        make_dir - сохраняем в одну папку или в разные
        save_dir - куда сохраняем
    """
    file_names = pd.DataFrame()
    
    # создаем папку для сохранения результатов
    if not os.path.isdir(save_dir):
        os.mkdir(save_dir)
        
    filename = save_dir
    
    if make_dir:
        filename, _ = os.path.splitext(video_name)
        filename = os.path.join(save_dir, filename+"_opencv")    
        # создаем индивидуальную папку для сохранения результатов
        if not os.path.isdir(filename):
            os.mkdir(filename)
            
    # читать видео файл    
    cap = cv2.VideoCapture(video_file)
    # получить FPS видео
    fps = cap.get(cv2.CAP_PROP_FPS)
    # если SAVING_FRAMES_PER_SECOND выше видео FPS, то установите его на FPS (как максимум)
    saving_frames_per_second = min(fps, SAVING_FRAMES_PER_SECOND)
    # получить список длительностей для сохранения
    saving_frames_durations, number_of_violent, flags, descr_list = get_saving_frames_durations(cap, saving_frames_per_second, df, delta)
    # запускаем цикл
    count = 0
    save_frame_count = 0
    while True:
        is_read, frame = cap.read()
        if not is_read:
            # выйти из цикла, если нет фреймов для чтения
            break
        # получаем продолжительность, разделив количество кадров на FPS
        frame_duration = count / fps
        try:
            # получить самую раннюю продолжительность для сохранения
            closest_duration = saving_frames_durations[0]
        except IndexError:
            # список пуст, все кадры длительности сохранены
            break
        if frame_duration >= closest_duration:

            # если ближайшая длительность меньше или равна длительности кадра,
            # затем сохраняем фрейм
            frame_duration_formatted = format_timedelta(timedelta(seconds=frame_duration))           
            
            count_violation = number_of_violent[save_frame_count]
            flag = flags[save_frame_count]
            descr = descr_list[save_frame_count]
            frame_name = f"video_{video_num}_frame_{frame_duration_formatted}_flag_{flag}_violation_{count_violation}.jpg"
#             print(frame_name)

            cv2.imwrite(os.path.join(filename, frame_name), frame) 
            file_df = pd.DataFrame({'video_name': video_name,
                                 'video_num': video_num,
                                 'image_name': frame_name,
                                 'frame_duration': frame_duration_formatted,
                                 'target': flag,
                                 'description': descr}, index=[0])
            file_names = pd.concat([file_names, file_df], ignore_index=True)
    
#             file_names.append(frame_name)
            save_frame_count += 1
            # удалить точку продолжительности из списка, так как эта точка длительности уже сохранена
            try:
                saving_frames_durations.pop(0)
            except IndexError:
                pass
        # увеличить количество кадров
        count += 1
    return file_names

In [17]:
info_df = pd.read_excel('разметка.xlsx')

In [18]:
info_df

Unnamed: 0,videofile,start,end,description
0,0000000_00000020240221082923_0001_IMP (1).mp4,00:01:00,00:01:00,Близко стоит к путям при движении поезда
1,0000000_00000020240221082923_0001_IMP (1).mp4,00:06:00,06:22:00,Встал на подножку до полной остановки поезда
2,0000000_00000020240221082923_0001_IMP (1).mp4,00:10:00,00:10:00,Стоит возле поезда при стыковке
3,0000000_00000020240221082923_0001_IMP (1).mp4,00:10:00,00:11:00,Залез под поезд
4,0000000_00000020240221084423_0002_IMP.mp4,00:07:00,00:07:00,Близко стоит к путям при движении поезда
5,0000000_00000020240221084423_0002_IMP.mp4,00:08:00,00:08:00,"достает башмак, залезая под поезд"
6,0000000_00000020240221085923_0003_IMP.mp4,00:09:00,00:12:00,Встал на подножку до полной остановки поезда
7,0000000_00000020240221085923_0003_IMP.mp4,00:13:00,00:13:00,Стоит возле поезда при его движении
8,0000000_00000020240221085923_0003_IMP.mp4,00:13:00,00:13:00,Залез под поезд
9,0000000_00000020240508114229_0002.mp4,00:02:00,00:04:00,стоит слишком близко к поезду движущемуся


In [19]:
SAVING_FRAMES_PER_SECOND = 1 # кол-во кадров  в секунду
DELTA = 5 # отступаем до начала нарушения 5 сек

In [20]:
# info_df = info_df.head()

In [21]:
save_result_path = 'images'


image_result_info = pd.DataFrame()

for vi, f in tqdm(enumerate(info_df.videofile.unique()), total=info_df.shape[0]):
    temp = info_df[info_df.videofile==f]#.reset_index(drop=True)
    video_file = f'train/{f}'    
    file_names_df = main(video_file, f, vi, temp, DELTA, save_result_path)   
    image_result_info = pd.concat([image_result_info, file_names_df], ignore_index=True)

  0%|          | 0/5 [00:00<?, ?it/s]

video_0_frame_0-00-55.02_flag_0_violation_0.jpg
video_0_frame_0-00-56.02_flag_0_violation_0.jpg
video_0_frame_0-00-57.02_flag_0_violation_0.jpg
video_0_frame_0-00-58.02_flag_0_violation_0.jpg
video_0_frame_0-00-59.03_flag_0_violation_0.jpg
video_0_frame_0-05-55.02_flag_0_violation_1.jpg
video_0_frame_0-05-56.02_flag_0_violation_1.jpg
video_0_frame_0-05-57.02_flag_0_violation_1.jpg
video_0_frame_0-05-58.02_flag_0_violation_1.jpg
video_0_frame_0-05-59.03_flag_0_violation_1.jpg
video_0_frame_0-06-00.03_flag_1_violation_1.jpg
video_0_frame_0-06-01.03_flag_1_violation_1.jpg
video_0_frame_0-06-02.03_flag_1_violation_1.jpg
video_0_frame_0-06-03.03_flag_1_violation_1.jpg
video_0_frame_0-06-04.03_flag_1_violation_1.jpg
video_0_frame_0-06-05.03_flag_1_violation_1.jpg
video_0_frame_0-06-06.03_flag_1_violation_1.jpg
video_0_frame_0-06-07.03_flag_1_violation_1.jpg
video_0_frame_0-06-08.00_flag_1_violation_1.jpg
video_0_frame_0-06-09.00_flag_1_violation_1.jpg
video_0_frame_0-06-10.00_flag_1_violatio

video_0_frame_0-08-41.02_flag_1_violation_1.jpg
video_0_frame_0-08-42.02_flag_1_violation_1.jpg
video_0_frame_0-08-43.02_flag_1_violation_1.jpg
video_0_frame_0-08-44.02_flag_1_violation_1.jpg
video_0_frame_0-08-45.02_flag_1_violation_1.jpg
video_0_frame_0-08-46.03_flag_1_violation_1.jpg
video_0_frame_0-08-47.03_flag_1_violation_1.jpg
video_0_frame_0-08-48.03_flag_1_violation_1.jpg
video_0_frame_0-08-49.03_flag_1_violation_1.jpg
video_0_frame_0-08-50.03_flag_1_violation_1.jpg
video_0_frame_0-08-51.03_flag_1_violation_1.jpg
video_0_frame_0-08-52.03_flag_1_violation_1.jpg
video_0_frame_0-08-53.03_flag_1_violation_1.jpg
video_0_frame_0-08-54.00_flag_1_violation_1.jpg
video_0_frame_0-08-55.00_flag_1_violation_1.jpg
video_0_frame_0-08-56.00_flag_1_violation_1.jpg
video_0_frame_0-08-57.00_flag_1_violation_1.jpg
video_0_frame_0-08-58.00_flag_1_violation_1.jpg
video_0_frame_0-08-59.01_flag_1_violation_1.jpg
video_0_frame_0-09-00.01_flag_1_violation_1.jpg
video_0_frame_0-09-01.01_flag_1_violatio

video_0_frame_0-11-32.02_flag_1_violation_1.jpg
video_0_frame_0-11-33.03_flag_1_violation_1.jpg
video_0_frame_0-11-34.03_flag_1_violation_1.jpg
video_0_frame_0-11-35.03_flag_1_violation_1.jpg
video_0_frame_0-11-36.03_flag_1_violation_1.jpg
video_0_frame_0-11-37.03_flag_1_violation_1.jpg
video_0_frame_0-11-38.03_flag_1_violation_1.jpg
video_0_frame_0-11-39.03_flag_1_violation_1.jpg
video_0_frame_0-11-40.03_flag_1_violation_1.jpg
video_0_frame_0-11-41.00_flag_1_violation_1.jpg
video_0_frame_0-11-42.00_flag_1_violation_1.jpg
video_0_frame_0-11-43.00_flag_1_violation_1.jpg
video_0_frame_0-11-44.00_flag_1_violation_1.jpg
video_0_frame_0-11-45.00_flag_1_violation_1.jpg
video_0_frame_0-11-46.01_flag_1_violation_1.jpg
video_0_frame_0-11-47.01_flag_1_violation_1.jpg
video_0_frame_0-11-48.01_flag_1_violation_1.jpg
video_0_frame_0-11-49.01_flag_1_violation_1.jpg
video_0_frame_0-11-50.01_flag_1_violation_1.jpg
video_0_frame_0-11-51.01_flag_1_violation_1.jpg
video_0_frame_0-11-52.01_flag_1_violatio

video_0_frame_0-14-23.03_flag_1_violation_1.jpg
video_0_frame_0-14-24.03_flag_1_violation_1.jpg
video_0_frame_0-14-25.03_flag_1_violation_1.jpg
video_0_frame_0-14-26.03_flag_1_violation_1.jpg
video_0_frame_0-14-27.03_flag_1_violation_1.jpg
video_0_frame_0-14-28.00_flag_1_violation_1.jpg
video_0_frame_0-14-29.00_flag_1_violation_1.jpg
video_0_frame_0-14-30.00_flag_1_violation_1.jpg
video_0_frame_0-14-31.00_flag_1_violation_1.jpg
video_0_frame_0-14-32.00_flag_1_violation_1.jpg
video_0_frame_0-14-33.01_flag_1_violation_1.jpg
video_0_frame_0-14-34.01_flag_1_violation_1.jpg
video_0_frame_0-14-35.01_flag_1_violation_1.jpg
video_0_frame_0-14-36.01_flag_1_violation_1.jpg
video_0_frame_0-14-37.01_flag_1_violation_1.jpg
video_0_frame_0-14-38.01_flag_1_violation_1.jpg
video_0_frame_0-14-39.01_flag_1_violation_1.jpg
video_0_frame_0-14-40.01_flag_1_violation_1.jpg
video_0_frame_0-14-41.01_flag_1_violation_1.jpg
video_0_frame_0-14-42.01_flag_1_violation_1.jpg
video_0_frame_0-14-43.02_flag_1_violatio

 20%|██        | 1/5 [04:08<16:35, 248.78s/it]

video_0_frame_0-15-00.03_flag_1_violation_1.jpg
video_1_frame_0-06-55.01_flag_0_violation_4.jpg
video_1_frame_0-06-56.02_flag_0_violation_4.jpg
video_1_frame_0-06-57.02_flag_0_violation_4.jpg
video_1_frame_0-06-58.02_flag_0_violation_4.jpg


 40%|████      | 2/5 [05:40<08:30, 170.01s/it]

video_1_frame_0-06-59.02_flag_0_violation_4.jpg





In [22]:
image_result_info.to_csv('image_result_info.csv')

In [23]:
image_result_info

Unnamed: 0,video_name,video_num,image_name,frame_duration,target,description
0,0000000_00000020240221082923_0001_IMP (1).mp4,0,video_0_frame_0-00-55.02_flag_0_violation_0.jpg,0-00-55.02,0,
1,0000000_00000020240221082923_0001_IMP (1).mp4,0,video_0_frame_0-00-56.02_flag_0_violation_0.jpg,0-00-56.02,0,
2,0000000_00000020240221082923_0001_IMP (1).mp4,0,video_0_frame_0-00-57.02_flag_0_violation_0.jpg,0-00-57.02,0,
3,0000000_00000020240221082923_0001_IMP (1).mp4,0,video_0_frame_0-00-58.02_flag_0_violation_0.jpg,0-00-58.02,0,
4,0000000_00000020240221082923_0001_IMP (1).mp4,0,video_0_frame_0-00-59.03_flag_0_violation_0.jpg,0-00-59.03,0,
...,...,...,...,...,...,...
551,0000000_00000020240221084423_0002_IMP.mp4,1,video_1_frame_0-06-55.01_flag_0_violation_4.jpg,0-06-55.01,0,
552,0000000_00000020240221084423_0002_IMP.mp4,1,video_1_frame_0-06-56.02_flag_0_violation_4.jpg,0-06-56.02,0,
553,0000000_00000020240221084423_0002_IMP.mp4,1,video_1_frame_0-06-57.02_flag_0_violation_4.jpg,0-06-57.02,0,
554,0000000_00000020240221084423_0002_IMP.mp4,1,video_1_frame_0-06-58.02_flag_0_violation_4.jpg,0-06-58.02,0,


In [24]:
image_result_info[image_result_info.target==1]

Unnamed: 0,video_name,video_num,image_name,frame_duration,target,description
10,0000000_00000020240221082923_0001_IMP (1).mp4,0,video_0_frame_0-06-00.03_flag_1_violation_1.jpg,0-06-00.03,1,Встал на подножку до полной остановки поезда
11,0000000_00000020240221082923_0001_IMP (1).mp4,0,video_0_frame_0-06-01.03_flag_1_violation_1.jpg,0-06-01.03,1,Встал на подножку до полной остановки поезда
12,0000000_00000020240221082923_0001_IMP (1).mp4,0,video_0_frame_0-06-02.03_flag_1_violation_1.jpg,0-06-02.03,1,Встал на подножку до полной остановки поезда
13,0000000_00000020240221082923_0001_IMP (1).mp4,0,video_0_frame_0-06-03.03_flag_1_violation_1.jpg,0-06-03.03,1,Встал на подножку до полной остановки поезда
14,0000000_00000020240221082923_0001_IMP (1).mp4,0,video_0_frame_0-06-04.03_flag_1_violation_1.jpg,0-06-04.03,1,Встал на подножку до полной остановки поезда
...,...,...,...,...,...,...
546,0000000_00000020240221082923_0001_IMP (1).mp4,0,video_0_frame_0-14-56.03_flag_1_violation_1.jpg,0-14-56.03,1,Встал на подножку до полной остановки поезда
547,0000000_00000020240221082923_0001_IMP (1).mp4,0,video_0_frame_0-14-57.03_flag_1_violation_1.jpg,0-14-57.03,1,Встал на подножку до полной остановки поезда
548,0000000_00000020240221082923_0001_IMP (1).mp4,0,video_0_frame_0-14-58.03_flag_1_violation_1.jpg,0-14-58.03,1,Встал на подножку до полной остановки поезда
549,0000000_00000020240221082923_0001_IMP (1).mp4,0,video_0_frame_0-14-59.03_flag_1_violation_1.jpg,0-14-59.03,1,Встал на подножку до полной остановки поезда
