# Aula 3: Uso de Modelos de Vis√£o Computacional em Pipelines Reais

**Objetivo:** Implementar um pipeline completo de vis√£o computacional usando um modelo YOLOv8 pr√©-treinado para detectar, classificar e contar objetos em um v√≠deo.

> **Conceitos-chave abordados**:
> - **Pipeline de Vis√£o**: Um fluxo de trabalho automatizado que integra pr√©-processamento, infer√™ncia de modelo e p√≥s-processamento.
> - **Infer√™ncia**: O processo de usar um modelo treinado para fazer previs√µes em novos dados (neste caso, quadros de v√≠deo).
> - **Rastreamento de Objetos**: Manter um ID √∫nico para cada objeto detectado ao longo de v√°rios quadros para permitir uma contagem precisa.

**Refer√™ncias**

- [Documenta√ß√£o da Ultralytics (YOLOv8)](https://docs.ultralytics.com/)
- [Reposit√≥rio do Roboflow Supervision](https://github.com/roboflow/supervision)


**Dicaüí°**

A demonstra√ß√£o pr√°tica desta aula ajuda bastante neste exerc√≠cio.

## üìã Fluxo do exerc√≠cio

1.  **Configurar o ambiente** instalando as bibliotecas necess√°rias (`ultralytics`, `supervision`).
2. **Complete os trechos de c√≥digo entre**
```
### =============================================
### --------> Inicie seu c√≥digo aqui <-----------
### =============================================
```
e
```
### =============================================
### ----------> Fim do seu c√≥digo <--------------
### =============================================
```
3. Cada se√ß√£o possui **sanity checks** para verificar se a implementa√ß√£o est√° correta.
4. Voc√™ pode adicionar c√©lulas extras para **experimenta√ß√£o**.
5.  **Testar e validar** o contador de pessoas com um novo v√≠deo ou com a webcam.

> üîß **Linhas que voc√™ dever√° modificar** na Tarefa Individual est√£o marcadas com:  
> `### INICIE SEU C√ìDIGO AQUI ###` e `### FIM DO SEU C√ìDIGO ###`

## ‚öôÔ∏è 1. Ambiente e Depend√™ncias

Execute a c√©lula abaixo para instalar as bibliotecas `ultralytics` (para o modelo YOLOv8) e `supervision` (para utilit√°rios de rastreamento e anota√ß√£o). Se estiver no Colab, o ambiente j√° vem com `opencv-python` e `numpy`.

In [1]:
# Instala as depend√™ncias necess√°rias
!pip install -q ultralytics supervision

# Importa as bibliotecas
import cv2
import supervision as sv
from ultralytics import YOLO
import numpy as np
import os
import urllib.request
from collections import defaultdict

# Cria√ß√£o de alguns dados de teste utilizados nos sanity checks
mock_xyxy = np.array([[10, 10, 20, 20], [30, 30, 40, 40], [50, 50, 60, 60]])
mock_confidence = np.array([0.9, 0.8, 0.7])
mock_class_id = np.array([0, 2, 0])
mock_detections = sv.Detections(xyxy=mock_xyxy, confidence=mock_confidence, class_id=mock_class_id)

print("Depend√™ncias instaladas e importadas com sucesso!")

[?25l   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m0.0/1.1 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m1.1/1.1 MB[0m [31m34.7 MB/s[0m eta [36m0:00:00[0m
[?25h[?25l   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m0.0/207.2 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m207.2/207.2 kB[0m [31m19.7 MB/s[0m eta [36m0:00:00[0m
[?25hCreating new Ultralytics Settings v0.0.6 file ‚úÖ 
View Ultralytics Settings with 'yolo settings' or at '/root/.config/Ultralytics/settings.json'
Update Settings with 'yolo settings key=value', i.e. 'yolo s

## üë§ 2. Contador de Pessoas em Tempo Real

O objetivo √© adaptar o c√≥digo anterior para criar um pipeline que conte o n√∫mero de pessoas em cada quadro de um v√≠deo.

**Sua tarefa:**
1.  **Encontrar um v√≠deo** com pessoas ou **habilitar a webcam**.
2.  **Alterar o filtro de classes** para detectar apenas a classe "person". O ID da classe "person" no dataset COCO (usado pelo YOLOv8) √© **0**.
3.  **Implementar uma l√≥gica de contagem** que exiba o n√∫mero de pessoas detectadas no quadro atual.
4.  **Anotar o quadro** com o texto da contagem.

Use a c√©lula de c√≥digo abaixo, que j√° cont√©m a estrutura da demonstra√ß√£o, e preencha as partes marcadas.

In [2]:
OUTPUT_VIDEO_PATH = "output_video.mp4"

### =============================================
### --------> Inicie seu c√≥digo aqui <-----------
### =============================================

# Nome do arquivo que ser√° baixado
VIDEO_PATH = "zap.mp4"

if not os.path.exists(VIDEO_PATH):
    print("Baixando o v√≠deo do GitHub...")
    !wget -q -O "{VIDEO_PATH}" "{VIDEO_URL}"
    print("Download completo!")

### =============================================
### -----------> Fim do seu c√≥digo <-------------
### =============================================

assert os.path.exists(VIDEO_PATH), f"‚ùå Erro: V√≠deo n√£o encontrado em '{VIDEO_PATH}'"
print("‚úÖ 1/2: Arquivo do v√≠deo existe.")

file_size = os.path.getsize(VIDEO_PATH)
assert file_size > 1000000, f"‚ùå Erro: O arquivo de v√≠deo √© menor que 1MB ({file_size / 1e6:.2f} MB). O download pode ter falhado."
print(f"‚úÖ 2/2: Arquivo do v√≠deo n√£o est√° vazio (Tamanho: {file_size / 1e6:.2f} MB).")

print("‚úÖ Sanity check aprovado!")

‚úÖ 1/2: Arquivo do v√≠deo existe.
‚úÖ 2/2: Arquivo do v√≠deo n√£o est√° vazio (Tamanho: 2.50 MB).
‚úÖ Sanity check aprovado!


In [5]:
OUTPUT_VIDEO_PATH = "output_video.mp4"

### =============================================
### --------> Inicie seu c√≥digo aqui <-----------
### =============================================

# Obt√©m informa√ß√µes do v√≠deo
video_info = sv.VideoInfo.from_video_path(video_path="zap.mp4")

# Cria inst√¢ncias dos anotadores (vers√£o corrigida)
box_annotator = sv.BoxAnnotator(thickness=4)
label_annotator = sv.LabelAnnotator(text_thickness=4, text_scale=2)

# Carrega o modelo (Sugest√£o : yolov8n.pt)
model = YOLO("yolov8n.pt")

### =============================================
### -----------> Fim do seu c√≥digo <-------------
### =============================================

assert isinstance(video_info, sv.VideoInfo), f"‚ùå Erro: 'video_info' n√£o √© um objeto do tipo supervision.VideoInfo."
print(f"‚úÖ 1/4: Video Info criado com sucesso (Resolu√ß√£o: {video_info.width}x{video_info.height}).")

assert isinstance(box_annotator, sv.BoxAnnotator), f"‚ùå Erro: 'box_annotator' n√£o √© um objeto do tipo supervision.BoxAnnotator."
print("‚úÖ 2/4: Objeto 'box_annotator' criado com sucesso.")

assert isinstance(label_annotator, sv.LabelAnnotator), f"‚ùå Erro: 'label_annotator' n√£o √© um objeto do tipo supervision.LabelAnnotator."
print("‚úÖ 3/4: Objeto 'label_annotator' criado com sucesso.")

assert hasattr(model, 'names'), f"‚ùå Erro: Modelo YOLO carregado incorretamente"
print("‚úÖ 4/4: Modelo carregado com sucesso.")

print("‚úÖ Sanity check aprovado!")

[KDownloading https://github.com/ultralytics/assets/releases/download/v8.3.0/yolov8n.pt to 'yolov8n.pt': 100% ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ 6.2MB 111.5MB/s 0.1s
‚úÖ 1/4: Video Info criado com sucesso (Resolu√ß√£o: 464x832).
‚úÖ 2/4: Objeto 'box_annotator' criado com sucesso.
‚úÖ 3/4: Objeto 'label_annotator' criado com sucesso.
‚úÖ 4/4: Modelo carregado com sucesso.
‚úÖ Sanity check aprovado!


In [6]:
def get_detections_from_frame(frame) -> sv.Detections:
    ### =============================================
    ### --------> Inicie seu c√≥digo aqui <-----------
    ### =============================================

    # Executa a infer√™ncia do modelo
    results = model(frame)[0]

    # Extrai as detec√ß√µes do resultado
    detections = sv.Detections.from_ultralytics(results)

    ### =============================================
    ### -----------> Fim do seu c√≥digo <-------------
    ### =============================================

    return detections

detections = get_detections_from_frame(None)

assert isinstance(detections, sv.Detections), f"‚ùå Erro: O objeto retornado deveria ser do tipo 'sv.Detections', mas √© {type(detections)}."
print("‚úÖ 1/3: O objeto √© do tipo correto (sv.Detections).")

assert detections.xyxy.ndim == 2, f"‚ùå Erro: 'xyxy' deveria ter 2 dimens√µes, mas tem {detections.xyxy.ndim}."
assert detections.xyxy.shape[1] == 4, f"‚ùå Erro: A segunda dimens√£o de 'xyxy' deveria ser 4 (x1, y1, x2, y2), mas √© {detections.xyxy.shape[1]}."
print("‚úÖ 2/3: O formato do array 'xyxy' est√° correto.")

# 4. Verifica se os valores de confian√ßa est√£o no intervalo v√°lido [0, 1]
assert np.all((detections.confidence >= 0) & (detections.confidence <= 1)), f"‚ùå Erro: Pelo menos um valor de confian√ßa est√° fora do intervalo v√°lido [0, 1]."
print("‚úÖ 3/3: Os valores de confian√ßa est√£o no intervalo correto [0, 1].")

print("‚úÖ Sanity check aprovado!")


image 1/2 /usr/local/lib/python3.12/dist-packages/ultralytics/assets/bus.jpg: 640x480 4 persons, 1 bus, 1 stop sign, 95.6ms
image 2/2 /usr/local/lib/python3.12/dist-packages/ultralytics/assets/zidane.jpg: 384x640 2 persons, 1 tie, 65.2ms
Speed: 7.7ms preprocess, 80.4ms inference, 7.2ms postprocess per image at shape (1, 3, 384, 640)
‚úÖ 1/3: O objeto √© do tipo correto (sv.Detections).
‚úÖ 2/3: O formato do array 'xyxy' est√° correto.
‚úÖ 3/3: Os valores de confian√ßa est√£o no intervalo correto [0, 1].
‚úÖ Sanity check aprovado!


In [7]:
def filter_detections_by_class(detections: sv.Detections, class_id: int = 0) -> sv.Detections:
    """Filtra um objeto Detections para manter apenas os itens da classe 'person'."""
    ### =============================================
    ### --------> Inicie seu c√≥digo aqui <-----------
    ### =============================================
    mask = detections.class_id == class_id
    filtered_detections = detections[mask]

    ### =============================================
    ### -----------> Fim do seu c√≥digo <-------------
    ### =============================================

    return filtered_detections

filtered_detections = filter_detections_by_class(mock_detections, class_id=0)
assert len(filtered_detections) == 2, "‚ùå Sanity Check Falhou: A filtragem deveria retornar 2 detec√ß√µes."
print("‚úÖ Sanity check para `filter_detections_by_class` aprovado.")

‚úÖ Sanity check para `filter_detections_by_class` aprovado.


In [8]:
def generate_labels_for_detections(detections: sv.Detections) -> list[str]:
    """Cria uma lista de labels formatados (ex: 'person 0.85') a partir das detec√ß√µes."""
    ### =============================================
    ### --------> Inicie seu c√≥digo aqui <-----------
    ### =============================================

    detection_labels = [
    f"{model.names[class_id]} {confidence:.2f}"
    for class_id, confidence
    in zip(detections.class_id, detections.confidence)
    ]

    ### =============================================
    ### -----------> Fim do seu c√≥digo <-------------
    ### =============================================

    return detection_labels

generated_labels = generate_labels_for_detections(filtered_detections)
assert len(generated_labels) == 2, "‚ùå Sanity Check Falhou: O n√∫mero de labels n√£o corresponde ao de detec√ß√µes."
assert generated_labels[0] == "person 0.90", "‚ùå Sanity Check Falhou: O formato do label est√° incorreto."
print("‚úÖ Sanity check para `generate_labels_for_detections` aprovado.")

‚úÖ Sanity check para `generate_labels_for_detections` aprovado.


In [9]:
def annotate_frame_with_info(frame: np.ndarray, detections: sv.Detections, labels: list[str]) -> np.ndarray:
    """Aplica todas as anota√ß√µes visuais (caixas, labels, contagem) em um frame."""
    annotated_frame = frame.copy()

    ### =============================================
    ### --------> Inicie seu c√≥digo aqui <-----------
    ### =============================================

    # Anota o frame com as caixas e os labels
    annotated_frame = box_annotator.annotate(scene=annotated_frame, detections=detections)
    annotated_frame = label_annotator.annotate(scene=annotated_frame, detections=detections, labels=labels)

    # Adiciona o texto da contagem de pessoas no canto da tela
    person_count = len(detections)
    text = f"Pessoas: {person_count}"
    sv.draw_text(
    scene=annotated_frame,
      text=text,
      text_anchor=sv.Point(x=40, y=40),
      text_scale=2,
      text_thickness=4,
      background_color=sv.Color.BLACK,
      text_color=sv.Color.WHITE
    )

    ### =============================================
    ### -----------> Fim do seu c√≥digo <-------------
    ### =============================================

    return annotated_frame

# --- Testando a fun√ß√£o de anota√ß√£o ---
dummy_frame = np.zeros((100, 100, 3), dtype=np.uint8)
annotated_dummy_frame = annotate_frame_with_info(dummy_frame, filtered_detections, generated_labels)
assert annotated_dummy_frame.shape == dummy_frame.shape, "‚ùå Sanity Check Falhou: As dimens√µes do frame mudaram."
assert not np.array_equal(annotated_dummy_frame, dummy_frame), "‚ùå Sanity Check Falhou: Nenhuma anota√ß√£o foi desenhada no frame."
print("‚úÖ Sanity check para `annotate_frame_with_info` aprovado.")

‚úÖ Sanity check para `annotate_frame_with_info` aprovado.


In [10]:
def process_video(source_path: str, output_path: str):
    print("Iniciando o processamento do v√≠deo...")

    ### =============================================
    ### --------> Inicie seu c√≥digo aqui <-----------
    ### =============================================

    # Define o gerador de frames
    frame_generator = sv.get_video_frames_generator(source_path=source_path)

    with sv.VideoSink(target_path=output_path, video_info=video_info) as sink:
        for frame in frame_generator:
            # Obter detec√ß√µes
            all_detections = get_detections_from_frame(frame)

            # Filtrar detec√ß√µes
            person_detections = filter_detections_by_class(all_detections)

            # Gerar labels
            labels = generate_labels_for_detections(person_detections)
            # Anotar o frame
            annotated_frame = annotate_frame_with_info(frame, person_detections, labels)

            # Gravar o frame processado no v√≠deo
            sink.write_frame(frame=annotated_frame)

    print(f"Processamento conclu√≠do. O v√≠deo foi salvo em: {output_path}")


process_video(source_path=VIDEO_PATH, output_path=OUTPUT_VIDEO_PATH)
assert os.path.exists(OUTPUT_VIDEO_PATH), f"‚ùå Erro: O v√≠deo de sa√≠da n√£o foi encontrado em '{OUTPUT_VIDEO_PATH}'"
print(f"‚úÖ 1/2: Arquivo de v√≠deo de sa√≠da '{OUTPUT_VIDEO_PATH}' foi criado com sucesso.")

output_file_size = os.path.getsize(OUTPUT_VIDEO_PATH)

assert output_file_size > 1000000, f"‚ùå Erro: O arquivo de v√≠deo de sa√≠da parece estar corrompido ou vazio (tamanho: {output_file_size / 1e6:.2f} MB)."
print(f"‚úÖ 2/2: O arquivo de v√≠deo de sa√≠da n√£o est√° vazio (Tamanho: {output_file_size / 1e6:.2f} MB).")
print("‚úÖ Sanity check aprovado!")

Iniciando o processamento do v√≠deo...

0: 640x384 1 person, 43.9ms
Speed: 2.9ms preprocess, 43.9ms inference, 1.7ms postprocess per image at shape (1, 3, 640, 384)

0: 640x384 1 person, 6.0ms
Speed: 3.6ms preprocess, 6.0ms inference, 1.5ms postprocess per image at shape (1, 3, 640, 384)

0: 640x384 1 person, 1 chair, 7.2ms
Speed: 3.0ms preprocess, 7.2ms inference, 2.2ms postprocess per image at shape (1, 3, 640, 384)

0: 640x384 2 persons, 2 chairs, 6.2ms
Speed: 3.7ms preprocess, 6.2ms inference, 2.1ms postprocess per image at shape (1, 3, 640, 384)

0: 640x384 2 persons, 1 chair, 6.2ms
Speed: 2.6ms preprocess, 6.2ms inference, 2.3ms postprocess per image at shape (1, 3, 640, 384)

0: 640x384 1 person, 1 chair, 7.3ms
Speed: 2.6ms preprocess, 7.3ms inference, 1.9ms postprocess per image at shape (1, 3, 640, 384)

0: 640x384 1 person, 1 chair, 6.0ms
Speed: 2.4ms preprocess, 6.0ms inference, 1.8ms postprocess per image at shape (1, 3, 640, 384)

0: 640x384 3 persons, 6.2ms
Speed: 2.3ms p

- **Exibir o v√≠deo** com a contagem de pessoas em tempo real.

In [11]:
from base64 import b64encode
from IPython.display import HTML, display

COMPRESSED_OUTPUT_VIDEO_PATH = "compressed_output_video.mp4"

!ffmpeg -y -i {OUTPUT_VIDEO_PATH} -vcodec libx264 -crf 28 -preset fast {COMPRESSED_OUTPUT_VIDEO_PATH} -loglevel quiet

mp4 = open(COMPRESSED_OUTPUT_VIDEO_PATH, 'rb').read()
data_url = "data:video/mp4;base64," + b64encode(mp4).decode()

display(HTML(f"""
<video width=800 controls>
      <source src="{data_url}" type="video/mp4">
</video>
"""))


## üß™ Resumo da Tarefa do Aluno
O objetivo √© construir um pipeline completo para detec√ß√£o e contagem de pessoas em um v√≠deo. Para isso, voc√™ dever√° completar o c√≥digo nos locais indicados em quatro se√ß√µes principais.

Suas Tarefas:
1. Carregar o V√≠deo: No primeiro bloco de c√≥digo, sua tarefa √© definir as vari√°veis VIDEO_URL e VIDEO_PATH. Preencha a URL de um v√≠deo .mp4 e defina o nome do arquivo local onde ele ser√° salvo para que o download possa ser feito.

2. Inicializar os Componentes: No segundo bloco, voc√™ deve inicializar os objetos essenciais para a detec√ß√£o:
    
    * Obtenha as informa√ß√µes do v√≠deo (video_info).
    * Crie os anotadores box_annotator e label_annotator.
    * Carregue um modelo YOLO pr√©-treinado (sugest√£o: yolov8n.pt).

3. Implementar a L√≥gica de Detec√ß√£o: No terceiro bloco, voc√™ deve completar a fun√ß√£o get_detections_from_frame. Sua tarefa √© usar o model carregado para analisar um frame e converter o resultado em um objeto sv.Detections.

4. Completar as Fun√ß√µes de Anota√ß√£o: No quarto bloco, voc√™ precisa implementar a l√≥gica para as tr√™s fun√ß√µes auxiliares:

    * filter_detections_by_class: Filtre as detec√ß√µes para manter apenas as que correspondem √† classe "person".
    * generate_labels_for_detections: Crie os textos (labels) para cada detec√ß√£o.
    * annotate_frame_with_info: Use os anotadores para desenhar as caixas, os labels e a contagem total de pessoas no quadro de v√≠deo.

Como Validar seu Trabalho:

Ap√≥s cada se√ß√£o que voc√™ completar, execute a c√©lula de "Sanity Check" correspondente. Se todos os testes passarem (‚úÖ), voc√™ pode prosseguir para a pr√≥xima tarefa. Ao final, a execu√ß√£o do pipeline completo ir√° gerar o v√≠deo com suas anota√ß√µes.


## üß∑ Dicas e Notas

- **Performance**: Se o processamento estiver lento (especialmente com a webcam), considere usar um modelo menor, como `yolov8n.pt` (nano) ou `yolov8s.pt` (small). Modelos maiores (`m`, `l`, `x`) s√£o mais precisos, mas exigem mais poder computacional.
- **Webcam no Colab**: O uso de webcam (`cv2.VideoCapture(0)`) n√£o funciona diretamente no Google Colab. Para testar com a webcam, voc√™ precisar√° executar este notebook em um ambiente local (no seu pr√≥prio computador).
- **Robustez**: Lembre-se que o desempenho do modelo pode variar com condi√ß√µes de ilumina√ß√£o, oclus√£o (pessoas se sobrepondo) ou √¢ngulos de c√¢mera desafiadores.
- **O Poder do supervision**: N√≥s usamos BoxAnnotator e LabelAnnotator, mas a biblioteca supervision √© extremamente poderosa. Explore a documenta√ß√£o e tente usar outros anotadores, como TraceAnnotator para rastrear o movimento de objetos ou HeatMapAnnotator para visualizar √°reas de maior atividade no v√≠deo.
- **Teste com Seus Pr√≥prios V√≠deos**: N√£o se limite ao v√≠deo de exemplo. Voc√™ pode subir seu pr√≥prio arquivo .mp4 para o ambiente do Colab e ajustar a vari√°vel VIDEO_PATH no in√≠cio do c√≥digo para testar o pipeline em diferentes cen√°rios e desafios.