### Projeto da disciplina de Computação Visual - 7N - 1ºSem/2019

Como usar:
1. Alterar as variaveis na segunda célula: **input_video_path** e **output_video_path**, que indicam, respectivamente, o video de entrada e o video de saida.
2. Executar todas as células.

Os videos de exemplo se encontram na pasta output.

In [58]:
# Imports nescessarios para execução do algoritmo

import numpy as np
import imutils
import time
# módulo de visão computacional
import cv2
# módulo que que se comunica com o sistema operacional
import os

In [59]:
# Caminhos para o video de entrada, saida e local do dataset
input_video_path = "videos/mackenzie.MOV"
output_video_path = "output/mackenzie.avi"
yolo_path = "yolo-coco"

# Probabilidade mínima para filtrar detecções fracas
confidence = 0.5
# Limite ao aplicar a supressão não máxima
threshold = 0.3

In [60]:
# Carrega as legendas das classes COCO com o qual o modelo foi treinado
labelsPath = os.path.sep.join([yolo_path, "coco.names"])
LABELS = open(labelsPath).read().strip().split("\n")

In [61]:
# Inicializa um lista de cores para representar as classes
np.random.seed(42)
COLORS = np.random.randint(0, 255, size=(len(LABELS), 3), dtype="uint8")

In [62]:
# leitura do tamanho e da configuração do modelo
weightsPath = os.path.sep.join([yolo_path, "yolov3.weights"])
configPath = os.path.sep.join([yolo_path, "yolov3.cfg"])

In [63]:
print("[INFO] Carregando treinamento do disco...")
# leitura do CV2 dos modelos
net = cv2.dnn.readNetFromDarknet(configPath, weightsPath)
# Define o nome das camadas
ln = net.getLayerNames()
ln = [ln[i[0] - 1] for i in net.getUnconnectedOutLayers()]

[INFO] Carregando treinamento do disco...


In [64]:
# Captura do video selecionado
vs = cv2.VideoCapture(input_video_path)
writer = None
(W, H) = (None, None)

In [65]:
# Determina a quantidade de frames total que o video tem
try:
    prop = cv2.cv.CV_CAP_PROP_FRAME_COUNT if imutils.is_cv2() \
        else cv2.CAP_PROP_FRAME_COUNT
    total = int(vs.get(prop))
    print("[INFO] {} Total de frames no video".format(total))
    
# Tratamento em caso de ERRO
except:
    print("[INFO] Não é possivel determinar a quantidade de frames para este video")
    total = -1

[INFO] 353 Total de frames no video


In [66]:
# loop para cada frame do video
while True:
    # Leitura do proximo frame
    (grabbed, frame) = vs.read()

    # Se o grabbed estiver vazio, terminar execução
    if not grabbed:
        break

    # Se a dimensão estiver vazia, ela será prenchida
    if W is None or H is None:
        (H, W) = frame.shape[:2]

    # Constroe a variavel blob a partir do frame
    blob = cv2.dnn.blobFromImage(frame, 1 / 255.0, (416, 416),
        swapRB=True, crop=False)
    # Passa os dados pela rede
    net.setInput(blob)
    start = time.time()
    layerOutputs = net.forward(ln)
    end = time.time()

    # Inicializa as listas nescessarias
    boxes = []
    confidences = []
    classIDs = []

    # Loop para cada saida de layer
    for output in layerOutputs:
        # Loop para cada detecção
        for detection in output:
            # Extrai a classID e confianca da deteccao
            scores = detection[5:]
            classID = np.argmax(scores)
            aconfidence = scores[classID]

            # Filtrar previsões fracas, garantindo que a probabilidade detectada seja maior que a probabilidade mínima
            if aconfidence > confidence:
                # Recebe as cordenadas para definir o tamanho do box
                box = detection[0:4] * np.array([W, H, W, H])
                (centerX, centerY, width, height) = box.astype("int")

                # Usa coordenadas do centro para derivar topo e largura
                x = int(centerX - (width / 2))
                y = int(centerY - (height / 2))

                # Atualiza listas
                boxes.append([x, y, int(width), int(height)])
                confidences.append(float(aconfidence))
                classIDs.append(classID)

    # Aplicar supressão não máxima para suprimir caixas delimitadoras fracas e sobrepostas
    idxs = cv2.dnn.NMSBoxes(boxes, confidences, confidence, threshold)

    # Garante que existe pelo menos uma detecção
    if len(idxs) > 0:
        # Loop sobre os índices que estamos mantendo
        for i in idxs.flatten():
            # Extrai as coordenadas do box
            (x, y) = (boxes[i][0], boxes[i][1])
            (w, h) = (boxes[i][2], boxes[i][3])

            # Desenha o quadrado para o modelo
            color = [int(c) for c in COLORS[classIDs[i]]]
            cv2.rectangle(frame, (x, y), (x + w, y + h), color, 2)
            text = "{}: {:.4f}".format(LABELS[classIDs[i]],
            confidences[i])
            cv2.putText(frame, text, (x, y - 5),
                cv2.FONT_HERSHEY_SIMPLEX, 0.5, color, 2)

    # Valida se o video escrito está vazio
    if writer is None:
        # Inicializa a escrita do video
        fourcc = cv2.VideoWriter_fourcc(*"MJPG")
        writer = cv2.VideoWriter(output_video_path, fourcc, 30,
            (frame.shape[1], frame.shape[0]), True)

        if total > 0:
            elap = (end - start)
            print("[INFO] um frame levou {:.4f} sgundos".format(elap))
            print("[INFO] Tempo total estimado: {:.4f}".format(elap * total))

    # Escreve o video no disco local
    writer.write(frame)

# Libera os ponteiros de arquivos
print("[INFO] Finalizando...")
writer.release()
vs.release()

[INFO] um frame levou 1.0965 sgundos
[INFO] Tempo total estimado: 387.0740
[INFO] Finalizando...
