# Tech Challenge - FIAP: IA para Devs (Fase 4)

###Grupo 38
- Rafael Silva Souza
- Rodrigo de Freitas Ornellas


---

### 🔗 Código Github



https://github.com/rafael2mind/tech-challenge-fase-4


### 🔗 Vídeo de apresentação
https://youtu.be/3iO-xPl9UFk

---

### 1. Introdução

#### Contexto e Motivação

Com o avanço das tecnologias de visão computacional e a popularização de aplicações baseadas em inteligência artificial, torna-se cada vez mais importante explorar novas formas de extrair informações valiosas de vídeos. No contexto atual, vídeos são amplamente utilizados em diversas áreas, desde segurança até entretenimento, e a capacidade de analisá-los de forma automatizada pode trazer insights poderosos e eficiência para diferentes aplicações.

O Tech Challenge da fase 4 propõe o desenvolvimento de uma aplicação que utilize técnicas avançadas para análise de vídeo, englobando reconhecimento facial, análise de expressões emocionais, detecção de atividades e geração de relatórios automatizados. Essa proposta visa consolidar o aprendizado em disciplinas como visão computacional e machine learning, promovendo a integração prática de conhecimentos para resolver problemas do mundo real.


#### Objetivos do Projeto

O objetivo principal deste projeto é criar uma aplicação de análise de vídeo que forneça insights detalhados por meio das seguintes funcionalidades:

1. 	**Reconhecimento Facial**: Identificar e marcar os rostos presentes nos vídeos, criando um mapa de identificação em cada frame.
2.	**Análise de Expressões Emocionais**: Detectar as emoções expressadas pelos rostos identificados e classificá-las, como felicidade, tristeza ou raiva.
3.	**Detecção de Atividades**: Categorizar as atividades realizadas nos vídeos, como movimentos físicos ou interações entre indivíduos.
4.	**Geração de Resumo**: Automatizar a criação de relatórios com as principais atividades e emoções detectadas, incluindo estatísticas como o número total de frames analisados e a quantidade de anomalias observadas.

#### Estrutura do Projeto

Este documento está organizado da seguinte forma:

1. **Introdução**: Apresenta o contexto e a motivação do projeto, bem como seus objetivos principais.
2. **Descrição do Problema**: Detalha o problema a ser resolvido, sua importância no contexto da análise de vídeo e os critérios de sucesso estabelecidos.
3. **Fundamentação Teórica**: Fornece uma visão geral das técnicas de visão computacional aplicadas, incluindo reconhecimento facial, análise de expressões emocionais e detecção de atividades.
4. **Metodologia**: Descreve o processo de análise de vídeo, incluindo pré-processamento, detecção facial, análise emocional e categorização de atividades.
5. **Implementação**: Detalha as ferramentas e bibliotecas utilizadas, bem como a estrutura do código e as etapas de desenvolvimento.
6. **Conclusão**: Resume os achados do projeto, apresenta as conclusões principais e aponta possíveis extensões para trabalhos futuros.

Com esta introdução, estabelecemos as bases para o desenvolvimento do projeto, destacando a relevância do problema e os objetivos a serem alcançados. A seguir, aprofundaremos a descrição do problema, detalhando as tarefas específicas e sua importância no contexto da análise de vídeo.

###2. Descrição do Problema

####Definição do Problema

O avanço das tecnologias de análise de vídeo oferece oportunidades significativas para automatizar tarefas como reconhecimento facial, análise emocional e detecção de atividades humanas. Essas capacidades são especialmente valiosas em áreas como segurança, marketing e entretenimento, onde a necessidade de extrair informações úteis de vídeos é crescente.

O problema abordado neste projeto é o desenvolvimento de uma aplicação que processa vídeos automaticamente e realiza as seguintes tarefas principais:

1.	**Identificar e marcar rostos presentes nos vídeos.**

2.	**Detectar e classificar expressões emocionais associadas a esses rostos.**

3.	**Categorizar gestos e atividades humanas realizadas no vídeo.**

4.	**Gerar um relatório automatizado em PDF, resumindo as atividades e emoções detectadas e apresentando métricas detalhadas.**

####Importância do Problema para a Análise de Vídeo

A relevância da análise automatizada de vídeos é evidente em diversos cenários práticos, com impacto significativo em:

1.	**Segurança e Vigilância:** A detecção de atividades suspeitas ou anômalas pode melhorar a eficiência de sistemas de segurança, tornando-os mais proativos e menos dependentes de supervisão humana.

2.	**Marketing e Publicidade:** A análise de expressões emocionais ajuda a medir reações do público a conteúdos promocionais, melhorando a personalização de campanhas.

3.	**Saúde e Bem-estar:** O reconhecimento de atividades humanas é útil no monitoramento de pacientes e na reabilitação, especialmente para detectar padrões de movimento atípicos.

4.	**Entretenimento e Mídia:** Compreender emoções e atividades melhora experiências interativas e fornece insights sobre o comportamento do público em tempo real.

####Abordagem para Resolução do Problema

Para resolver o problema, seguimos estas etapas metodológicas:

1.	**Coleta e Pré-processamento do Vídeo:**

- **Fontes de Dados:** O vídeo disponibilizado na plataforma do aluno foi utilizado como fonte principal.

- **Preparação dos Dados:** Técnicas como ajuste de resolução, conversão de cores para RGB e extração de frames foram aplicadas para garantir compatibilidade com os modelos de análise.

2.	**Implementação das Funcionalidades:**

- **Reconhecimento Facial:** Utilização de MediaPipe e face_recognition para detectar e identificar rostos em tempo real.

- **Análise Emocional:** Uso da biblioteca DeepFace para classificar emoções como alegria, tristeza, raiva e surpresa.

- **Detecção de Atividades e Gestos:** MediaPipe foi empregado para identificar gestos como “Wave”, “Hands Up” e “Arms Crossed”.

- **Análise de Anomalias:** Identificação de gestos inesperados ou movimentos bruscos para sinalizar comportamentos atípicos.

3.	**Geração de Relatórios:**

- **Resumo Automático:** Compilação das informações em um relatório PDF que apresenta métricas, emoções e gestos identificados em formato visual e textual.

###3. Fundamentação Teórica

####Análise de Vídeo Automatizada

A análise de vídeo automatizada é uma área em crescimento na visão computacional, que busca extrair informações significativas de vídeos de maneira eficiente e precisa. Essa abordagem combina técnicas avançadas, como reconhecimento facial, análise de emoções e detecção de atividades humanas, para atender a aplicações em segurança, marketing, saúde, entre outros.

####Reconhecimento Facial

O reconhecimento facial é uma tecnologia amplamente utilizada para identificar e verificar pessoas com base em características faciais únicas. Ele é composto pelas seguintes etapas:

1.	**Detecção Facial:** Identificação de rostos em imagens ou vídeos, utilizando ferramentas como:

- **MediaPipe Face Detection:** Detecta rostos em tempo real com alta precisão e eficiência.

- **Face Recognition (dlib):** Extrai características faciais para embasamento em reconhecimento.

2.	**Extração de Recursos:** Criação de uma representação única do rosto, baseada em características como distância entre olhos e formato do nariz.

3.	**Classificação e Identificação:** Comparação da representação facial extraída com um banco de dados para determinar a identidade.

No projeto, a biblioteca MediaPipe é utilizada para a detecção inicial, enquanto a Face Recognition realiza a identificação e associação com rostos conhecidos.

####Análise de Expressões Emocionais

A análise de expressões emocionais busca identificar emoções humanas, como felicidade, tristeza ou surpresa, com base em padrões faciais. As etapas incluem:

1.	**Detecção de Regiões Faciais:** Identificação de áreas específicas do rosto, como olhos, boca e sobrancelhas.

2.	**Extração de Padrões Emocionais:** Análise de microexpressões e características faciais utilizando modelos de aprendizado de máquina.

3.	**Classificação de Emoções:** Aplicação de bibliotecas como DeepFace, que possui modelos pré-treinados para detectar emoções como raiva, felicidade, neutralidade, entre outras.

A biblioteca DeepFace foi empregada no projeto para realizar a análise emocional em tempo real.

####Detecção de Atividades e Gestos

A detecção de atividades em vídeos busca identificar ações humanas, como acenos ou braços cruzados. No projeto, utilizamos:

1.	**Modelos Baseados em Pose:** A biblioteca MediaPipe Pose foi utilizada para rastrear landmarks (esqueletos humanos) e identificar gestos como:

- **Wave (Aceno):** Posição do pulso acima do ombro.

- **Hands Up (Mãos levantadas):** Posição do pulso acima do nariz.

- **Arms Crossed (Braços cruzados):** Cruza os braços diante do tronco.

2.	**Classificação de Atividades:** Baseada em padrões geométricos definidos com landmarks corporais.

Esses gestos foram mapeados e associados aos rostos detectados, enriquecendo a análise de vídeo com contexto de ações humanas.

####Análise de Anomalias em Atividades

Anomalias em vídeos são padrões de movimento que desviam do comportamento esperado, como gestos bruscos ou interações incomuns. A abordagem inclui:

1.	**Modelagem de Comportamentos Normais:** Identificação de padrões típicos de movimentos com landmarks rastreados.

2.	**Identificação de Outliers:** Uso de regras baseadas em limiares para detectar desvios significativos, como movimentos inesperados.

No contexto do projeto, gestos como acenos ou movimentos específicos foram utilizados como base para a análise de comportamentos.

####Geração de Relatórios Automatizados

A geração de relatórios sintetiza as informações extraídas do vídeo em um formato estruturado e visualmente compreensível. Isso inclui:

1.	**Compilação de Métricas:** Dados como número de frames analisados, quantidade de rostos detectados e gestos identificados são organizados em relatórios.

2.	**Automação com PDF:** O relatório é gerado automaticamente em formato PDF utilizando a biblioteca fpdf.

3.	**Visualização dos Resultados:** Métricas de desempenho são apresentadas em seções claras e formatadas, tornando o relatório útil para diferentes públicos.

####Tecnologias e Ferramentas

Para implementar as funcionalidades descritas, as seguintes ferramentas e bibliotecas foram utilizadas:

- **OpenCV:** Para pré-processamento de frames e manipulação de vídeos.

- **MediaPipe Face Detection e Pose:** Para detecção de rostos e rastreamento de landmarks corporais.

- **Face Recognition:** Para reconhecimento facial e comparação com rostos conhecidos.

- **DeepFace:** Para análise de expressões emocionais.

- **FPDF:** Para geração de relatórios estruturados em formato PDF.

- **Python:** Linguagem principal para integração e implementação das funcionalidades.

####Conclusão da Fundamentação Teórica

A análise de vídeo automatizada combina tecnologias avançadas de visão computacional e aprendizado de máquina para resolver problemas complexos. Este projeto integra reconhecimento facial, análise emocional e detecção de gestos com a geração de relatórios automatizados, oferecendo uma solução completa com aplicações práticas em segurança, marketing, saúde e entretenimento.

###4. Metodologia

####Descrição do Conjunto de Dados

Para a implementação da aplicação de análise de vídeo, utilizamos um vídeo disponibilizado na plataforma do aluno, projetado para abordar tarefas de reconhecimento facial, análise de expressões emocionais e detecção de atividades. Cada frame do vídeo representa uma oportunidade de extrair informações valiosas para compor o relatório final.

As principais características do vídeo são: interações humanas com variações de expressões faciais, gestos como acenos e atividades distintas.

####Pré-processamento dos Dados

O pré-processamento do vídeo foi realizado diretamente durante a análise em tempo real e incluiu as seguintes etapas:

1.	**Leitura do Vídeo:**

- Utilizamos a biblioteca OpenCV para capturar os frames do vídeo.

2.	**Conversão para RGB:**

- Cada frame foi convertido do formato BGR para RGB para ser compatível com as bibliotecas de análise facial e emocional.

3.	**Ajuste Dinâmico:**

- Resolução original do vídeo foi mantida para garantir a precisão das detecções.

4.	**Detecção de Regiões de Interesse (ROIs):**

- Apenas as áreas específicas dos frames, como rostos e landmarks corporais, foram analisadas para otimizar o desempenho.

####Implementação das Funcionalidades

####Reconhecimento Facial

1.	**Modelos Utilizados:**

- MediaPipe Face Detection para detecção inicial dos rostos.

- Face Recognition para codificação e identificação facial.

2.	**Processo de Detecção:**

- Cada frame foi analisado para localizar e marcar os rostos presentes.

- Codificações faciais foram comparadas com uma lista de rostos conhecidos para identificação.

3.	**Armazenamento dos Resultados:**

- Coordenadas dos rostos e identificações foram registradas no relatório.

####Análise de Expressões Emocionais

1.	**Modelo Utilizado:**

- DeepFace, que utiliza modelos pré-treinados para classificação de emoções como felicidade, tristeza, surpresa, entre outras.

2.	**Processo de Classificação:**

- Cada rosto detectado foi analisado para identificar a emoção dominante.

3.	**Armazenamento dos Resultados:**

- As emoções foram registradas junto com os nomes das pessoas detectadas e armazenadas no relatório.

####Detecção de Atividades e Gestos

1.	**Modelo Utilizado:**

- MediaPipe Pose foi utilizado para rastrear landmarks corporais e categorizar gestos.

2.	**Processo de Detecção:**

- Landmarks dos membros superiores e superiores foram analisados para identificar gestos, como:

- **Wave (Aceno):** Pulso acima do ombro.

- **Hands Up (Mãos levantadas):** Pulso acima do nariz.

- **Arms Crossed (Braços cruzados):** Cruza os braços diante do tronco.

- **Pointing (Apontando):** Dedos direcionados para frente.

3.	**Classificação:**

- Gestos detectados foram associados aos rostos mais próximos e registrados no relatório.

####Geração de Relatórios

1.	**Compilação de Métricas:**

- Métricas como número total de frames analisados, quantidade de rostos detectados, distribuição de emoções e gestos identificados foram organizadas.

2.	**Automação:**

- Relatórios foram gerados automaticamente em formato PDF utilizando a biblioteca FPDF.

###5. Implementação

**Ferramentas e Tecnologias Utilizadas**

Para o desenvolvimento do projeto, empregamos as seguintes ferramentas e tecnologias:

1.	**Linguagem de Programação:**

- **Python:** Escolhida por sua vasta gama de bibliotecas voltadas para visão computacional, aprendizado de máquina e manipulação de dados.

2.	**Bibliotecas de Visão Computacional:**

- **OpenCV:** Para pré-processamento de vídeo, conversão de frames e manipulação de imagens.

- **MediaPipe:** Para detecção de rostos e rastreamento de landmarks corporais, como mãos e gestos.

- **Face Recognition:** Para codificação e reconhecimento facial.

- **DeepFace:** Para análise de expressões emocionais.

3.	**Modelos e Métodos de Detecção:**

- **MediaPipe Pose:** Para rastreamento de atividades humanas, como gestos e posições corporais.

- **DeepFace:** Modelos pré-treinados para reconhecimento de emoções.

4.	**Visualização e Relatórios:**

- **FPDF:** Para criação e exportação de relatórios em formato PDF.

5.	**Ambiente de Desenvolvimento:**

- **Google Colab:** Ambiente baseado em nuvem, que facilita o desenvolvimento, execução e compartilhamento de código.

- **GitHub:** Para controle de versão e compartilhamento do código-fonte.

**Estrutura do Código**

O código foi organizado em módulos para facilitar a clareza, reusabilidade e manutenção. A estrutura principal é composta por:

1.	**Pré-processamento de Vídeo:**

- Leitura e extração de frames em tempo real utilizando OpenCV.

- Conversão de frames para RGB para compatibilidade com as bibliotecas Face Recognition e DeepFace.

2.	**Reconhecimento Facial:**

- Detecção inicial de rostos utilizando MediaPipe.

- Codificação e identificação de rostos com Face Recognition.

- Registro de coordenadas dos rostos e nomes associados no relatório.

3.	**Análise de Expressões Emocionais:**

- Aplicação da biblioteca DeepFace para análise de emoções em cada rosto detectado.

- Registro de emoções como felicidade, tristeza, surpresa, entre outras.

4.	**Detecção de Atividades e Gestos:**

- Rastreamento de landmarks corporais com MediaPipe Pose.

- Identificação de gestos específicos, como:

- **Wave (Aceno):** Posição do pulso acima do ombro.

- **Hands Up (Mãos levantadas):** Posição do pulso acima do nariz.

- **Arms Crossed (Braços cruzados):** Cruza os braços na frente do tronco.

- **Pointing (Apontando):** Dedos apontados em direção a um alvo.

- Registro dos gestos no relatório, associados aos rostos detectados.

5.	**Geração de Relatório:**

- Compilação de métricas como:

- Total de frames analisados.

- Número de rostos detectados.

- Distribuição de emoções.

- Gestos identificados.

- Criação de relatórios automatizados em formato PDF utilizando FPDF.

**Fluxo de Trabalho do Código**

1.	**Inicialização do Vídeo:**

- Leitura do vídeo de entrada e configuração do vídeo de saída.

2.	**Processamento de Frames:**

- Cada frame é analisado para:

- Detecção de rostos e emoções.

- Rastreamento de gestos e atividades.

3.	**Registro e Visualização:**

- Informações detectadas são sobrepostas ao vídeo em tempo real para visualização.

- Dados são acumulados para inclusão no relatório final.

4.	**Geração de Relatório:**

- Após o processamento completo do vídeo, os dados coletados são organizados e exportados em PDF.

####Etapas da Implementação

1. Pré-processamento do Vídeo

In [22]:
# Instalação de bibliotecas essenciais
!pip install -q opencv-python mediapipe tqdm

# Instalação de bibliotecas para análise facial e aprendizado profundo
!pip install -q deepface face_recognition tf-keras

In [23]:
import cv2
import mediapipe as mp
from deepface import DeepFace
from tqdm import tqdm
import face_recognition

# Inicializar MediaPipe
mp_face_detection = mp.solutions.face_detection
mp_drawing = mp.solutions.drawing_utils
mp_pose = mp.solutions.pose

In [24]:
def initialize_video(input_path, output_path):
    """
    Inicializa a captura do vídeo de entrada e configura o vídeo de saída.

    Args:
        input_path (str): Caminho para o arquivo de vídeo de entrada.
        output_path (str): Caminho para o arquivo de vídeo de saída.

    Returns:
        cap (cv2.VideoCapture): Objeto de captura para o vídeo de entrada.
        out (cv2.VideoWriter): Objeto de gravação para o vídeo de saída.
        total_frames (int): Número total de frames no vídeo de entrada.

    Raises:
        FileNotFoundError: Caso o vídeo de entrada não possa ser aberto.
    """
    cap = cv2.VideoCapture(input_path)

    if not cap.isOpened():
        raise FileNotFoundError(f"Não foi possível abrir o vídeo de entrada: {input_path}")

    frame_width = int(cap.get(cv2.CAP_PROP_FRAME_WIDTH))
    frame_height = int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT))
    fps = int(cap.get(cv2.CAP_PROP_FPS))
    out = cv2.VideoWriter(
        output_path, cv2.VideoWriter_fourcc(*'mp4v'), fps, (frame_width, frame_height)
    )
    total_frames = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))
    return cap, out, total_frames

2. Marcações de detecções

In [25]:
def draw_label(frame, name, emotion, gesture, left, top, right, bottom):
    """
    Desenha um rótulo no frame para exibir informações como nome, emoção e gesto.

    Args:
        frame (numpy.ndarray): Quadro atual do vídeo onde os rótulos serão desenhados.
        name (str): Nome ou identificador da pessoa detectada.
        emotion (str): Emoção identificada pela análise facial.
        gesture (str): Gesto ou atividade detectada.
        left (int): Coordenada x superior esquerda do retângulo delimitador.
        top (int): Coordenada y superior esquerda do retângulo delimitador.
        right (int): Coordenada x inferior direita do retângulo delimitador.
        bottom (int): Coordenada y inferior direita do retângulo delimitador.

    Returns:
        None: A função modifica o frame diretamente.
    """
    # Definição das cores para os textos
    name_color = (0, 0, 255)  # Vermelho
    emotion_color = (0, 255, 0)  # Verde
    gesture_color = (255, 255, 0)  # Amarelo claro

    # Textos a serem exibidos
    name_text = f"Name: {name}"
    emotion_text = f"Emotion: {emotion}"
    gesture_text = f"Gesture: {gesture}"

    # Configurações de fonte e estilo
    font = cv2.FONT_HERSHEY_SIMPLEX
    font_scale_name = 0.7
    font_scale_other = 0.5
    thickness = 2

    # Calcular dimensões dos textos
    (name_w, name_h), _ = cv2.getTextSize(name_text, font, font_scale_name, thickness)
    (emotion_w, emotion_h), _ = cv2.getTextSize(emotion_text, font, font_scale_other, thickness)
    (gesture_w, gesture_h), _ = cv2.getTextSize(gesture_text, font, font_scale_other, thickness)

    # Dimensões do fundo para os textos
    rect_width = max(name_w, emotion_w, gesture_w) + 10
    rect_height = name_h + emotion_h + gesture_h + 20

    # Determinar posição do fundo
    rect_left = left
    rect_top = top - rect_height if top - rect_height > 0 else top + rect_height
    rect_right = rect_left + rect_width
    rect_bottom = rect_top + rect_height

    # Desenhar fundo preto para os textos
    cv2.rectangle(frame, (rect_left, rect_top), (rect_right, rect_bottom), (0, 0, 0), -1)

    # Desenhar os textos
    cv2.putText(frame, name_text, (rect_left + 5, rect_top + name_h), font, font_scale_name, name_color, thickness)
    cv2.putText(frame, emotion_text, (rect_left + 5, rect_top + name_h + emotion_h + 5), font, font_scale_other, emotion_color, thickness)
    cv2.putText(frame, gesture_text, (rect_left + 5, rect_top + name_h + emotion_h + gesture_h + 10), font, font_scale_other, gesture_color, thickness)

3.  Detecção de faces e emoções

In [26]:
def detect_faces_and_emotions(frame, rgb_frame, face_detection, report, known_faces):
    """
    Detecta rostos e emoções em um frame.

    Args:
        frame (numpy.ndarray): Frame original do vídeo.
        rgb_frame (numpy.ndarray): Frame convertido para RGB.
        face_detection: Objeto do MediaPipe para detecção de rostos.
        report (dict): Dicionário para armazenar informações agregadas de emoções detectadas.
        known_faces (list): Lista de codificações faciais conhecidas para reconhecimento.

    Returns:
        detected_faces (list): Lista de dicionários contendo informações dos rostos detectados.
            Cada dicionário contém:
                - "coords" (tuple): Coordenadas do retângulo delimitador (xmin, ymin, xmax, ymax).
                - "name" (str): Nome ou identificador da pessoa.
                - "emotion" (str): Emoção dominante detectada.
                - "gesture" (str): Gesto detectado (placeholder como "None").

    Raises:
        FileNotFoundError: Caso o vídeo de entrada não possa ser aberto.
    """
    face_results = face_detection.process(rgb_frame)
    detected_faces = []
    new_face_id = len(known_faces) + 1

    if face_results.detections:
        for detection in face_results.detections:
            bbox = detection.location_data.relative_bounding_box
            h, w, _ = frame.shape
            xmin = max(0, int(bbox.xmin * w))
            ymin = max(0, int(bbox.ymin * h))
            xmax = min(w, int((bbox.xmin + bbox.width) * w))
            ymax = min(h, int((bbox.ymin + bbox.height) * h))

            if xmax <= xmin or ymax <= ymin:
                continue

            face_roi = rgb_frame[ymin:ymax, xmin:xmax]
            face_encoding = face_recognition.face_encodings(rgb_frame, [(ymin, xmax, ymax, xmin)])
            name = "Unknown"

            if face_encoding:
                face_encoding = face_encoding[0]
                matches = face_recognition.compare_faces(known_faces, face_encoding, tolerance=0.6)

                if True in matches:
                    name = f"Pessoa {matches.index(True) + 1}"
                else:
                    known_faces.append(face_encoding)
                    name = f"Pessoa {new_face_id}"
                    new_face_id += 1

            try:
                emotion_analysis = DeepFace.analyze(face_roi, actions=["emotion"], enforce_detection=False)
                dominant_emotion = emotion_analysis[0].get("dominant_emotion", "Unknown")
                report["emotion_summary"][name] = report["emotion_summary"].get(name, {})
                report["emotion_summary"][name][dominant_emotion] = (
                    report["emotion_summary"][name].get(dominant_emotion, 0) + 1
                )
                detected_faces.append({"coords": (xmin, ymin, xmax, ymax), "name": name, "emotion": dominant_emotion, "gesture": "None"})
            except Exception as e:
                print(f"Erro ao analisar emoção: {e}")

    return detected_faces

4. Detecção de gestos

In [27]:
def detect_poses(frame, pose_detection, detected_faces, report):
    """
    Detecta gestos e associa aos rostos detectados no frame.

    Args:
        frame (numpy.ndarray): Frame atual do vídeo para análise.
        pose_detection: Objeto do MediaPipe para detecção de poses corporais.
        detected_faces (list): Lista de rostos detectados contendo coordenadas e outras informações.
        report (dict): Dicionário para armazenar informações agregadas de gestos detectados.

    Returns:
        None: A função modifica diretamente os argumentos `detected_faces`, `report` e `frame`.
    """
    # Processar o frame para detectar poses
    pose_results = pose_detection.process(cv2.cvtColor(frame, cv2.COLOR_BGR2RGB))

    if pose_results.pose_landmarks:
        landmarks = pose_results.pose_landmarks.landmark

        for face in detected_faces:
            xmin, ymin, xmax, ymax = face["coords"]

            # Inicializar gesto como "None"
            face["gesture"] = "None"

            # Detectar gesto "Wave" (aceno)
            if (landmarks[mp_pose.PoseLandmark.LEFT_WRIST].y < landmarks[mp_pose.PoseLandmark.LEFT_SHOULDER].y or
                landmarks[mp_pose.PoseLandmark.RIGHT_WRIST].y < landmarks[mp_pose.PoseLandmark.RIGHT_SHOULDER].y):
                face["gesture"] = "Wave"
                report["gestures"]["wave"] = report["gestures"].get("wave", 0) + 1

            # Detectar gesto "Hands Up" (mãos acima da cabeça)
            if (landmarks[mp_pose.PoseLandmark.LEFT_WRIST].y < landmarks[mp_pose.PoseLandmark.NOSE].y and
                landmarks[mp_pose.PoseLandmark.RIGHT_WRIST].y < landmarks[mp_pose.PoseLandmark.NOSE].y):
                face["gesture"] = "Hands Up"
                report["gestures"]["hands_up"] = report["gestures"].get("hands_up", 0) + 1

            # Detectar gesto "Arms Crossed" (braços cruzados)
            if (landmarks[mp_pose.PoseLandmark.LEFT_WRIST].x > landmarks[mp_pose.PoseLandmark.RIGHT_ELBOW].x and
                landmarks[mp_pose.PoseLandmark.RIGHT_WRIST].x < landmarks[mp_pose.PoseLandmark.LEFT_ELBOW].x):
                face["gesture"] = "Arms Crossed"
                report["gestures"]["arms_crossed"] = report["gestures"].get("arms_crossed", 0) + 1

            # Detectar gesto "Pointing" (apontando com a mão direita)
            if (landmarks[mp_pose.PoseLandmark.RIGHT_WRIST].x > landmarks[mp_pose.PoseLandmark.RIGHT_ELBOW].x and
                landmarks[mp_pose.PoseLandmark.RIGHT_INDEX].x > landmarks[mp_pose.PoseLandmark.RIGHT_WRIST].x):
                face["gesture"] = "Pointing"
                report["gestures"]["pointing"] = report["gestures"].get("pointing", 0) + 1

        # Desenhar landmarks no frame para visualização
        mp_drawing.draw_landmarks(frame, pose_results.pose_landmarks, mp_pose.POSE_CONNECTIONS)

    else:
        # Se nenhum landmark for detectado, inicializar gestos no relatório
        for gesture in ["wave", "hands_up", "arms_crossed", "pointing"]:
            report["gestures"][gesture] = report["gestures"].get(gesture, 0)

In [28]:
def detect_anomalies(frame, detected_faces, pose_results, report):
    """
    Detecta anomalias no comportamento com base nos landmarks corporais e gestos.

    Args:
        frame (ndarray): Frame atual do vídeo.
        detected_faces (list): Lista de rostos detectados no frame.
        pose_results: Resultados da detecção de pose (MediaPipe).
        report (dict): Relatório de análise do vídeo.

    Returns:
        None
    """
    if pose_results.pose_landmarks:
        landmarks = pose_results.pose_landmarks.landmark

        for face in detected_faces:
            xmin, ymin, xmax, ymax = face["coords"]

            # Detectar anomalias como movimentos bruscos ou fora de padrão
            if (
                landmarks[mp_pose.PoseLandmark.LEFT_WRIST].y < 0 or  # Posição fora do alcance
                landmarks[mp_pose.PoseLandmark.RIGHT_WRIST].y < 0 or
                abs(landmarks[mp_pose.PoseLandmark.LEFT_WRIST].y - landmarks[mp_pose.PoseLandmark.RIGHT_WRIST].y) > 0.5
            ):
                report["anomalies_detected"] += 1

                cv2.rectangle(frame, (xmin, ymin), (xmax, ymax), (0, 0, 255), 2)
                cv2.putText(frame, "Anomaly Detected", (xmin, ymin - 10), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0, 0, 255), 2)

5. Geração de Relatório

In [16]:
!pip install fpdf

Collecting fpdf
  Downloading fpdf-1.7.2.tar.gz (39 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: fpdf
  Building wheel for fpdf (setup.py) ... [?25l[?25hdone
  Created wheel for fpdf: filename=fpdf-1.7.2-py2.py3-none-any.whl size=40704 sha256=b81a4a595a4dc4dbc1e79741a2f13d87e3ffcaddd1e025c2d62843adbd91d2a4
  Stored in directory: /root/.cache/pip/wheels/f9/95/ba/f418094659025eb9611f17cbcaf2334236bf39a0c3453ea455
Successfully built fpdf
Installing collected packages: fpdf
Successfully installed fpdf-1.7.2


In [35]:
from fpdf import FPDF
import matplotlib.pyplot as plt

def generate_pie_chart(data, labels, title, output_path):
    """
    Gera um gráfico de pizza com os dados fornecidos.

    Args:
        data (list): Valores dos segmentos.
        labels (list): Rótulos dos segmentos.
        title (str): Título do gráfico.
        output_path (str): Caminho para salvar o gráfico.
    """
    plt.figure(figsize=(6, 6))
    plt.pie(data, labels=labels, autopct='%1.1f%%', startangle=140)
    plt.title(title)
    plt.savefig(output_path)
    plt.close()

def save_report(report, report_path):
    """
    Gera um relatório em PDF com informações de análise de vídeo.

    Args:
        report (dict): Dicionário contendo informações do relatório.
        report_path (str): Caminho para salvar o arquivo PDF.

    Returns:
        None
    """
    pdf = FPDF()
    pdf.add_page()
    pdf.set_font("Arial", size=12)

    # Título do relatório
    pdf.set_font("Arial", style="B", size=16)
    pdf.cell(200, 10, txt="Relatório de Análise de Vídeo", ln=True, align='C')
    pdf.ln(10)  # Espaçamento

    # Informações gerais
    pdf.set_font("Arial", size=12)
    pdf.cell(200, 10, txt=f"Total de Frames Analisados: {report['total_frames_analyzed']}", ln=True)
    pdf.cell(200, 10, txt=f"Total de Rostos Detectados: {len(report['emotion_summary'])}", ln=True)
    pdf.cell(200, 10, txt=f"Total de Anomalias Detectadas: {report['anomalies_detected']}", ln=True)
    pdf.ln(15)  # Espaçamento antes do gráfico

    # Gráfico de emoções
    pdf.cell(200, 10, txt="Proporção de Emoções Detectadas:", ln=True)
    pdf.ln(5)
    pdf.image("emotions_pie.png", x=60, y=pdf.get_y(), w=90)
    pdf.ln(70)

    # Gráfico de gestos
    pdf.cell(200, 10, txt="Proporção de Gestos Reconhecidos:", ln=True)
    pdf.ln(5)
    pdf.image("gestures_pie.png", x=60, y=pdf.get_y(), w=90)
    pdf.ln(70)

    # Salvar o arquivo PDF
    pdf.output(report_path)

6. Processamento do vídeo

In [36]:
def process_video(input_video, output_video, report_path):
    """
    Processa o vídeo para detectar rostos, emoções, gestos e gerar um relatório em PDF.

    Args:
        input_video (str): Caminho para o vídeo de entrada.
        output_video (str): Caminho para salvar o vídeo de saída processado.
        report_path (str): Caminho para salvar o relatório em PDF.

    Returns:
        None
    """
    # Inicializar vídeo e capturas
    cap, out, total_frames = initialize_video(input_video, output_video)

    # Inicializar MediaPipe e outras configurações
    face_detection = mp_face_detection.FaceDetection(model_selection=1, min_detection_confidence=0.5)
    pose_detection = mp_pose.Pose(min_detection_confidence=0.5, min_tracking_confidence=0.5)

    known_faces = []  # Lista para armazenar codificações faciais conhecidas
    report = {
        "total_faces_detected": 0,
        "emotion_summary": {},  # Armazena contagens de emoções por pessoa
        "gestures": {"wave": 0, "hands_up": 0, "arms_crossed": 0, "pointing": 0},
        "total_frames_analyzed": 0,
        "anomalies_detected": 0

    }

    # Configurar barra de progresso
    progress_bar = tqdm(total=total_frames, desc="Processando vídeo", unit="frame")

    try:
        while cap.isOpened():
            ret, frame = cap.read()
            if not ret:
                break

            report["total_frames_analyzed"] += 1
            rgb_frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)

            # Detectar rostos e emoções
            detected_faces = detect_faces_and_emotions(frame, rgb_frame, face_detection, report, known_faces)

            # Detectar gestos e associar aos rostos
            detect_poses(frame, pose_detection, detected_faces, report)

            # Detectar anomalias no comportamento
            detect_anomalies(frame, detected_faces, pose_results=pose_detection.process(rgb_frame), report=report)

            # Desenhar informações no frame
            for face in detected_faces:
                draw_label(frame, face["name"], face["emotion"], face["gesture"], *face["coords"])

            # Escrever frame processado no vídeo de saída
            out.write(frame)
            progress_bar.update(1)

    except Exception as e:
        print(f"Erro durante o processamento do vídeo: {e}")

    finally:
        # Garantir que os recursos sejam liberados corretamente
        cap.release()
        out.release()
        progress_bar.close()

    # Salvar relatório em PDF
    save_report(report, report_path)


In [37]:
# Caminhos de entrada e saída
input_video = "/content/video.mp4"
output_video = "/content/output_video.mp4"
report_path = "/content/report.pdf"

# Processar o vídeo
process_video(input_video, output_video, report_path)


Processando vídeo: 100%|██████████| 3326/3326 [06:18<00:00,  8.78frame/s]


###6. Conclusão

O Tech Challenge da fase 4 exigiu o desenvolvimento de uma aplicação robusta para análise de vídeo, utilizando técnicas avançadas de visão computacional e aprendizado de máquina. O projeto alcançou seus objetivos, implementando funcionalidades de reconhecimento facial, análise de expressões emocionais, detecção de gestos e geração de relatórios automatizados.

**Principais Resultados**

1.	**Análise de Frames e Detecção de Rostos:**

- Total de frames analisados: **3.326**.

- Total de rostos detectados: **22 indivíduos**, com emoções e gestos identificados.

- Total de anomalias detectadas:  **259**.

2.	**Análise de Expressões Emocionais:**

- As emoções foram distribuídas entre felicidade, tristeza, medo e neutralidade, mostrando boa cobertura de estados emocionais.

3.	**Detecção de Gestos:**

- Foram detectados gestos de acenos, braços cruzados, mãos acima da cabeça e movimento de apontar com a mão.

4.	**Relatórios Automatizados:**

- Relatório gerado em PDF consolidou informações claras e organizadas, permitindo uma análise detalhada e objetiva.

**Limitações Identificadas**

1.	**Qualidade de Imagem:**

- Frames com baixa iluminação ou movimentos rápidos afetaram a precisão de algumas análises.

2.	**Generalização dos Modelos:**

- O sistema teve dificuldades em cenários mais complexos, como interações não previstas.

**Trabalhos Futuros**

1.	**Aprimorar Pré-processamento:**

- Aplicar filtros avançados para melhorar a qualidade dos frames.

2.	**Expandir os Cenários:**

- Testar o sistema com vídeos que incluam mais diversidade de condições e atividades.

3.	**Otimizar o Algoritmo:**

- Implementar melhorias de desempenho, como processamento paralelo e uso de modelos mais recentes.

4.	**Adicionar Novos Gestos:**

- Ampliar a detecção para cobrir interações mais complexas e gestos atípicos.

####Conclusão Final

O projeto demonstrou como integrar técnicas de inteligência artificial para criar uma solução eficiente e prática de análise de vídeo. Com alta precisão em reconhecimento facial, análise emocional e detecção de atividades, o sistema mostrou seu potencial para aplicações em segurança, marketing, saúde e entretenimento. Trabalhos futuros podem melhorar ainda mais sua eficácia e generalização, abrindo espaço para aplicações em escala e cenários mais desafiadores.