In [1]:
import cv2
import numpy as np
import torch
import torchvision.transforms as transforms
from PIL import Image
from tqdm import tqdm

# Загрузка предобученной модели MiDaS
model_type = "DPT_Large"  # Можно использовать "DPT_Hybrid" или "MiDaS_small"
model = torch.hub.load("intel-isl/MiDaS", model_type)
model.eval()

# Определение преобразований для входного изображения
transform = transforms.Compose([
    transforms.Resize(384),  # Измените размер в зависимости от модели
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
])

def predict_depth(image):
    """Предсказание карты глубины для одного кадра"""
    # Преобразование изображения
    image_pil = Image.fromarray(cv2.cvtColor(image, cv2.COLOR_BGR2RGB))
    input_tensor = transform(image_pil).unsqueeze(0)

    # Прогнозирование глубины
    with torch.no_grad():
        depth_map = model(input_tensor)

    # Нормализация карты глубины
    depth_map = depth_map.squeeze().cpu().numpy()
    depth_map = (depth_map - depth_map.min()) / (depth_map.max() - depth_map.min())

    return depth_map

def process_video(input_video_path, output_video_path):
    """Обработка видео и сохранение результата"""
    # Открытие видеофайла
    cap = cv2.VideoCapture(input_video_path)
    if not cap.isOpened():
        print("Ошибка открытия видеофайла")
        return

    # Получение параметров видео
    fps = cap.get(cv2.CAP_PROP_FPS)
    width = int(cap.get(cv2.CAP_PROP_FRAME_WIDTH))
    height = int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT))
    total_frames = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))

    # Создание VideoWriter для сохранения результата
    fourcc = cv2.VideoWriter_fourcc(*'mp4v')
    out = cv2.VideoWriter(output_video_path, fourcc, fps, (width * 2, height))

    # Обработка кадров с прогресс-баром
    progress_bar = tqdm(total=total_frames, desc="Обработка видео")

    while cap.isOpened():
        ret, frame = cap.read()
        if not ret:
            break

        # Предсказание карты глубины
        depth_map = predict_depth(frame)

        # Визуализация карты глубины
        depth_vis = (depth_map * 255).astype(np.uint8)
        depth_vis = cv2.applyColorMap(depth_vis, cv2.COLORMAP_JET)
        depth_vis = cv2.resize(depth_vis, (width, height))

        # Объединение оригинального кадра и карты глубины
        combined_frame = np.hstack((frame, depth_vis))

        # Запись кадра в выходной файл
        out.write(combined_frame)

        progress_bar.update(1)

    # Освобождение ресурсов
    cap.release()
    out.release()
    progress_bar.close()
    cv2.destroyAllWindows()

    print(f"Обработка завершена. Результат сохранен в {output_video_path}")

if __name__ == "__main__":
    input_video_path = "/content/1112645_Approach_Winter-clothes_3840x2160 (online-video-cutter.com).mp4"  # Укажите путь к исходному видео
    output_video_path = "output_depth_video.mp4"  # Путь для сохранения результата

    process_video(input_video_path, output_video_path)

Downloading: "https://github.com/intel-isl/MiDaS/zipball/master" to /root/.cache/torch/hub/master.zip
Downloading: "https://github.com/isl-org/MiDaS/releases/download/v3/dpt_large_384.pt" to /root/.cache/torch/hub/checkpoints/dpt_large_384.pt
100%|██████████| 1.28G/1.28G [00:14<00:00, 94.0MB/s]
Обработка видео:  99%|█████████▊| 67/68 [18:30<00:16, 16.57s/it]

Обработка завершена. Результат сохранен в output_depth_video.mp4



