Vamos trabalhar com vídeos agora. Os vídeos nada mais são do que uma coleção de imagens, ou seja, se você pegar um vídeo de alguns segundos, cada segundo desse é composto por vários frames - que são quadros dessa imagem, onde podemos no OpenCV, trabalhar de forma separada para cada um desses frames.

Por exemplo: para cada frame eu posso identificar uma face ou uma região de interesse ou coisas assim.

Podemos não só abrir um vídeo que já foi previamente salvo, mas também referenciar a própria webcam, então vamos ver como isso funciona. Antes da avançarmos, precisamos só ter certeza se temos todas as bibliotecas necessárias.

O OpenCV tem um método chamado “imshow” que até que funciona muito bem, só que somente no Windows ele costuma funcionar, ou seja, no macOS, se você chamar essa mesma função, ele costuma travar e não funciona de uma forma legal nesses dois ambientes.

Somente no Windows que funciona de forma adequada portanto vamos preferir trabalhar com o Matplotlib e fazer o streaming do vídeo no próprio Matplotlib porque funciona bem em todas as plataformas: no Windows, no Mac e até mesmo no Linux, se for o caso.

Independentemente disso, eu vou deixar aqui embaixo as instruções para utilizar o “imshow” para aqueles que tenham a plataforma Windows e prefiram trabalhar dessa forma, então como vamos trabalhar aqui de uma forma que independentemente de plataforma, vamos precisar importar algumas bibliotecas necessárias. Vou começar aqui com a biblioteca “io” do BytesIO - “from io import BytesIO”.

In [21]:
import cv2
import numpy as np
import dlib
import matplotlib.pyplot as plt

from scipy.spatial import distance as dist

from io import BytesIO
from IPython.display import clear_output, Image, display
from PIL import Image as Img

In [30]:
classificador_dlib_68_path = "classificadores/shape_predictor_68_face_landmarks.dat"
classificador_dlib = dlib.shape_predictor(classificador_dlib_68_path)
detector_face = dlib.get_frontal_face_detector()

In [22]:
def padronizar_imagem(frame):
    frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
    frame = cv2.resize(frame, (500,400))
    return frame

def exibir_video(frame):
    img = Img.fromarray(frame, "RGB")
    buffer = BytesIO()
    img.save(buffer, format="JPEG")
    display(Image(data=buffer.getvalue()))
    clear_output(wait=True)

In [23]:
def aspecto_razao_boca(pontos_boca):
    a = dist.euclidean(pontos_boca[3], pontos_boca[9])
    b = dist.euclidean(pontos_boca[2], pontos_boca[10])
    c = dist.euclidean(pontos_boca[4], pontos_boca[8])
    d = dist.euclidean(pontos_boca[0], pontos_boca[6])

    aspecto_razao = (a + b + c)/(3*d)

    return aspecto_razao 

In [13]:
 captura_video = cv2.VideoCapture("videos/expressoes.mov")

try:
    while(True):
        captura_ok, frame = captura_video.read()

        if captura_ok:
            frame = padronizar_imagem(frame)
            exibir_video(frame)
            
except KeyboardInterrupt:
    captura_video.release()
    print("Interrompido")

Interrompido


In [24]:
FACE = list(range(17, 68))
FACE_COMPLETA = list(range(0, 68))
LABIO = list(range(48, 61))
SOMBRANCELHA_DIRETA = list(range(17, 22))
SOMBRANCELHA_ESQUERDA = list(range(22, 27))
OLHO_DIREITO = list(range(36,42))
OLHO_ESQUERDO = list(range(42,48))
NARIZ = list(range(27,35))
MANDIBULA = list(range(0,17))

In [33]:
def anotar_marcos_casca_convexa_boca(imagem, marcos):
    retangulos = detector_face(imagem, 1)

    if len(retangulos) == 0:
        return None
    for idx, ret in enumerate(retangulos):
        marco = marcos[idx]

        pontos = cv2.convexHull(marco[LABIO])
        cv2.drawContours(imagem, [pontos], 0, (0,255,0), 2)

    return imagem

In [39]:
def anotar_marcos_casca_convexa_olhos(imagem, marcos):
    retangulos = detector_face(imagem, 1)

    if len(retangulos) == 0:
        return None
    for idx, ret in enumerate(retangulos):
        marco = marcos[idx]

        pontos = cv2.convexHull(marco[OLHO_ESQUERDO])
        cv2.drawContours(imagem, [pontos], 0, (0,255,0), 2)

        pontos = cv2.convexHull(marco[OLHO_DIREITO])
        cv2.drawContours(imagem, [pontos], 0, (0,255,0), 2)

    return imagem

In [40]:
def pontos_marcos_faciais(imagem):
    retangulos = detector_face(imagem, 1)
    
    if len(retangulos) == 0:
        return None
    
    marcos = []
    
    for ret in retangulos:
        marcos.append(np.matrix([[p.x, p.y] for p in classificador_dlib(imagem,ret).parts()]))
    
    return marcos

In [41]:
def aspecto_razao_olhos(pontos_olhos):
    a = dist.euclidean(pontos_olhos[1], pontos_olhos[5])
    b = dist.euclidean(pontos_olhos[2], pontos_olhos[4])
    c = dist.euclidean(pontos_olhos[0], pontos_olhos[3])

    aspecto_razao = (a+b)/(2*c)
    return aspecto_razao

In [35]:
try:
    ar_max = 0
    video = cv2.VideoCapture("videos/bocejo.mov")
    while(True):
        captura_ok, frame = video.read()
        if captura_ok:
            frame = padronizar_imagem(frame)
            marcos_faciais = pontos_marcos_faciais(frame)
            
            if marcos_faciais is not None:
                ar_boca = aspecto_razao_boca(marcos_faciais[0][LABIO].tolist())
                ar_boca = round(ar_boca, 3)
                
                if ar_boca > ar_max:
                    ar_max = ar_boca
                
                info = "boca " + str(ar_boca) + " maximo " + str(ar_max)
                
                frame = anotar_marcos_casca_convexa_boca(frame, marcos_faciais)
                cv2.putText(frame, info, (20, 50), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (255,255,0), 2)
            
            exibir_video(frame)
            
except KeyboardInterrupt:
    video.release()
    print("Interrompido")

Interrompido


In [46]:
try:
    ar_min_esquerdo = 1
    ar_min_direito = 1
    #video = cv2.VideoCapture("videos/olhos-fechados.mov")
    video = cv2.VideoCapture(0)
    while(True):
        captura_ok, frame = video.read()
        if captura_ok:
            frame = padronizar_imagem(frame)
            marcos_faciais = pontos_marcos_faciais(frame)
            
            if marcos_faciais is not None:
                ar_olho_esquerdo = aspecto_razao_olhos(marcos_faciais[0][OLHO_ESQUERDO].tolist())
                ar_olho_esquerdo = round(ar_olho_esquerdo, 3)

                ar_olho_direito = aspecto_razao_olhos(marcos_faciais[0][OLHO_DIREITO].tolist())
                ar_olho_direito = round(ar_olho_direito, 3)
                
                if ar_min_esquerdo > ar_olho_esquerdo:
                    ar_min_esquerdo = ar_olho_esquerdo

                if ar_min_direito > ar_olho_direito:
                    ar_min_direito = ar_olho_direito

                info_oe = "olho esquerdo " + str(ar_olho_esquerdo) + " minimo " + str(ar_min_esquerdo)
                info_od = "olho direito " + str(ar_olho_direito) + " minimo " + str(ar_min_direito)
                
                frame = anotar_marcos_casca_convexa_olhos(frame, marcos_faciais)
                cv2.putText(frame, info_oe, (20, 50), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (255,255,0), 2)
                cv2.putText(frame, info_od, (20, 80), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (255,255,0), 2)
            
            exibir_video(frame)
            
except KeyboardInterrupt:
    video.release()
    print("Interrompido")

Interrompido


In [52]:
captura_video = cv2.VideoCapture("videos/bocejo.mov")

try:
    aspecto_razao_max = 0
    qtde_bocejo = 0

    bocejo = False
    bocejo_anterior = False

    while(True):
        captura_ok, frame = captura_video.read()

        if captura_ok:
            frame = padronizar_imagem(frame)
            pontos = pontos_marcos_faciais(frame)

            if pontos is not None:

                aspecto_razao = aspecto_razao_boca(pontos[0][LABIO].tolist())
                aspecto_razao = round(aspecto_razao, 3)

                if aspecto_razao > aspecto_razao_max:
                    aspecto_razao_max = aspecto_razao

                aspecto_razao_info = "aspecto razao " + str(aspecto_razao) + " maximo " + str(aspecto_razao_max)


                coord = tuple(pontos[0][LABIO][0].A1.reshape(1, -1)[0])
                coord = (coord[0] + 20, coord[1] + 20)

                cv2.putText(frame, aspecto_razao_info, coord, cv2.FONT_HERSHEY_SIMPLEX, 0.5, (255,255,0), 2)

                if aspecto_razao > 1.0:
                    bocejo = True
                else:
                    bocejo = False

                if bocejo_anterior == False and bocejo == True:
                    qtde_bocejo += 1

                coord = (coord[0], coord[1] + 23)
                cv2.putText(frame, "bocejos " + str(qtde_bocejo), coord, cv2.FONT_HERSHEY_SIMPLEX, 0.5, (255,0,0), 2)

                bocejo_anterior = bocejo

            exibir_video(frame)

except KeyboardInterrupt:
    captura_video.release()
    print("Interrompido")

Interrompido
