Программа ищет в видео моменты по фотографии или текстовому запросу (например «человек») и выдаёт результат в виде плеера с гиперссылками на моменты — по клику плеер переходит к нужному времени.
- Загрузка видео (MP4, AVI, MOV, MKV, WebM)
- Режим «семантика» (CLIP): фото и/или текст — общий визуально-текстовый поиск
- Режим «лицо» (латент): эталон лица кодируется в латентное пространство (ArcFace / InsightFace); по видео ищутся кадры, близкие к эталону; попадания группируются во временные интервалы; длина каждого фрагмента не больше 1 с (настраивается параметром
max_fragment_sec) - Результат: плеер + кликабельные таймкоды / интервалы
cd "c:\Users\Machcreator\Desktop\Дз ИАВ\Homework_IAV"
python -m venv venv
venv\Scripts\activate
pip install -r requirements.txtПри первом запуске скачаются модели: CLIP (~600 MB), для режима «лицо» — пакет InsightFace buffalo_l.
python app.pyОткройте в браузере: http://localhost:5000
- Нажмите «Видео» и выберите файл — он загрузится на сервер.
- Выберите режим: семантика (CLIP) или лицо (латент).
- В режиме CLIP: фото и/или текст. В режиме «лицо»: только эталонное фото лица (чёткий портрет).
- Нажмите «Найти моменты». Первый запуск дольше (загрузка моделей).
- Клик по таймкоду или интервалу перематывает плеер к началу фрагмента.
- Backend: Flask, OpenCV (кадры), Transformers + CLIP; InsightFace (латентные эмбеддинги лиц, группировка интервалов)
- Frontend: HTML/CSS/JS, нативный
<video>с перемоткой по клику