In [1]:
import cv2
import os
from pathlib import Path
from tqdm import tqdm

# Caminhos
raw_video_dir = Path("../data/raw")
output_frame_dir = Path("../data/frames")
output_frame_dir.mkdir(parents=True, exist_ok=True)

# Definições
FRAME_RATE = 1  # 1 frame por segundo
FRAME_SIZE = (224, 224)  # Resolução dos frames

In [2]:
def extract_frames(video_path, output_dir, rate=1, resize=(224, 224)):
    cap = cv2.VideoCapture(str(video_path))
    fps = cap.get(cv2.CAP_PROP_FPS)
    frame_interval = int(round(fps / rate))

    count = 0
    saved = 0
    success = True

    while success:
        success, frame = cap.read()
        if not success:
            break
        if count % frame_interval == 0:
            resized = cv2.resize(frame, resize)
            frame_name = f"{video_path.stem}_frame_{saved:04d}.jpg"
            cv2.imwrite(str(output_dir / frame_name), resized)
            saved += 1
        count += 1

    cap.release()
    return saved


In [3]:
video_files = list(raw_video_dir.glob("*.mp4"))
print(f"🎬 Encontrados {len(video_files)} vídeos.")

for video_path in tqdm(video_files):
    video_id = video_path.stem
    output_path = output_frame_dir / video_id
    output_path.mkdir(parents=True, exist_ok=True)

    n_saved = extract_frames(video_path, output_path, rate=FRAME_RATE, resize=FRAME_SIZE)
    print(f"{video_id}: {n_saved} frames guardados.")


🎬 Encontrados 30 vídeos.


  3%|▎         | 1/30 [00:15<07:17, 15.10s/it]

C33I: 307 frames guardados.


  7%|▋         | 2/30 [00:29<06:59, 14.98s/it]

B36R: 305 frames guardados.


 10%|█         | 3/30 [00:44<06:43, 14.96s/it]

C46R: 305 frames guardados.


 13%|█▎        | 4/30 [00:59<06:28, 14.92s/it]

B61D: 305 frames guardados.


 17%|█▋        | 5/30 [01:14<06:08, 14.76s/it]

C36X: 304 frames guardados.


 20%|██        | 6/30 [01:28<05:52, 14.67s/it]

C16G: 305 frames guardados.


 23%|██▎       | 7/30 [01:43<05:36, 14.62s/it]

C58C: 309 frames guardados.


 27%|██▋       | 8/30 [01:58<05:22, 14.66s/it]

A99X: 304 frames guardados.


 30%|███       | 9/30 [02:12<05:09, 14.75s/it]

A61V: 305 frames guardados.


 33%|███▎      | 10/30 [02:27<04:53, 14.69s/it]

A40E: 305 frames guardados.


 37%|███▋      | 11/30 [02:42<04:37, 14.62s/it]

C42I: 302 frames guardados.


 40%|████      | 12/30 [02:56<04:23, 14.65s/it]

A99Y: 304 frames guardados.


 43%|████▎     | 13/30 [03:11<04:10, 14.72s/it]

A83X: 304 frames guardados.


 47%|████▋     | 14/30 [03:26<03:56, 14.78s/it]

C43T: 303 frames guardados.


 50%|█████     | 15/30 [03:41<03:42, 14.81s/it]

B53D: 305 frames guardados.


 53%|█████▎    | 16/30 [03:57<03:31, 15.10s/it]

A88O: 320 frames guardados.


 57%|█████▋    | 17/30 [04:12<03:17, 15.22s/it]

C56Y: 311 frames guardados.


 60%|██████    | 18/30 [04:27<03:01, 15.13s/it]

A92O: 305 frames guardados.


 63%|██████▎   | 19/30 [04:43<02:47, 15.26s/it]

C48S: 310 frames guardados.


 67%|██████▋   | 20/30 [04:58<02:32, 15.20s/it]

A41X: 305 frames guardados.


 70%|███████   | 21/30 [05:12<02:15, 15.08s/it]

C18X: 304 frames guardados.


 73%|███████▎  | 22/30 [05:27<02:00, 15.03s/it]

B68G: 306 frames guardados.


 77%|███████▋  | 23/30 [05:42<01:44, 14.89s/it]

A31H: 303 frames guardados.


 80%|████████  | 24/30 [05:57<01:28, 14.78s/it]

A59Z: 302 frames guardados.


 83%|████████▎ | 25/30 [06:11<01:12, 14.60s/it]

A36O: 304 frames guardados.


 87%|████████▋ | 26/30 [06:26<00:58, 14.75s/it]

B12G: 304 frames guardados.


 90%|█████████ | 27/30 [06:41<00:44, 14.84s/it]

C28D: 304 frames guardados.


 93%|█████████▎| 28/30 [06:55<00:29, 14.74s/it]

A66S: 306 frames guardados.


 97%|█████████▋| 29/30 [07:11<00:14, 14.94s/it]

A80U: 306 frames guardados.


100%|██████████| 30/30 [07:25<00:00, 14.86s/it]

B88L: 304 frames guardados.





In [4]:
from IPython.display import Image, display
import random

sample_dir = random.choice(list(output_frame_dir.glob("*")))
sample_frame = random.choice(list(sample_dir.glob("*.jpg")))

display(Image(filename=str(sample_frame)))

<IPython.core.display.Image object>

In [5]:
total_videos = len(list(output_frame_dir.glob("*")))
total_frames = len(list(output_frame_dir.glob("*/*.jpg")))

print(f"✅ Extração completa.")
print(f"🎥 Vídeos processados: {total_videos}")
print(f"🖼️ Frames totais gerados: {total_frames}")

✅ Extração completa.
🎥 Vídeos processados: 30
🖼️ Frames totais gerados: 18332
