# Aprendizado por Reforço para Detecção de Respostas Cerebrais a Estímulo Auditivo
*Aluno: [Alexandre Gomes Caldeira](https://orcid.org/0000-0002-4851-3417); Orientador: [Leonardo Bonato Felix](https://orcid.org/0000-0002-6184-2354)*.

**Disponível em [github.com/Alexandre-Caldeira/drl-ord/blob/main/DRL_ORD.ipynb](https://github.com/Alexandre-Caldeira/drl-ord/blob/main/DRL_ORD.ipynb), e [pitch no Google Drive](link) <sup>1,2</sup>.**

Artigos produzidos com os resultados discutidos aqui:
1. [Patient-adaptive Objective Response Detection using Reinforcement Learning <br> (Aceito para publicação, CBEB 2024)](https://drive.google.com/file/d/191mQeyK0PxDVYrpS6Daull_epmzeavzT/view?usp=sharing)

2. [Evaluating Deep Reinforcement Learning on Auditory Steady State Response Detection <br> (Em submissão para publicação)](https://drive.google.com/file/d/1ykkx8_rxxhN6wHBJBFsyJ2YF8ANYEkGY/view?usp=sharing)

Respositórios com código:

**Artigo 1: [Alexandre-Caldeira/CBEB24-RL-ORD](https://github.com/Alexandre-Caldeira/CBEB24-RL-ORD)**

**Artigo 2: [Alexandre-Caldeira/drl-ord](https://github.com/Alexandre-Caldeira/drl-ord)**


**<sup>1</sup>** *Aqui é apresentado um overview resumido do problema e dados, da arquitetura, treino e validação dos modelos, mas o notebook com treino completo e resultados extendidos pode ser acessado em [comparing_3_models.ipynb](https://github.com/Alexandre-Caldeira/drl-ord/blob/main/epd-kit/draft_notebooks/comparing_3_models.ipynb) (tempo de execução de aprox. 48hrs).*

**<sup>2</sup>** *Para replicar o ambiente exato de execução desse notebook, siga os passos descritos no tutorial em [arch.md](https://github.com/Alexandre-Caldeira/drl-ord/blob/main/arch.md).*


In [None]:
# Importação das bibliotecas necessárias

## Manipulação de dados
import pickle
import numpy as np
import pandas as pd

## Visualização de dados
import matplotlib.pyplot as plt
import seaborn as sns

## Aprendizado de máquina
import torch as th
import gymnasium as gym
from gymnasium import spaces
from stable_baselines3 import PPO, DQN, A2C

# O problema e os dados

Se oferecido estímulo sonoro a seres humanos, é possível detectar respostas elétricas medidas no escalpo quando não há perda auditiva. Porém, eletroencefalograma não-invasivo é extremamente ruidoso. 

![](https://github.com/Alexandre-Caldeira/CBEB24-RL-ORD/blob/main/paper_figures/eeg_simulation_frequency.png?raw=true)

Nesse trabalho, simulamos respostas auditivas em estado permanente (ASSRs) a diferentes níveis de relação sinal-ruído (SNR), para ajustarmos detectores e aplicarmos em dados experimentais com voluntários de audição normal.

In [None]:
# Carrega e apresenta exemplo de dados sintéticos em diferentes SNR
## Método de simulação disponível em ./matlab_sim_sourcecode



# A arquitetura e método de solução

Seguindo resultados a nível do estado da arte utilizando [Q-Learning tabular](https://github.com/Alexandre-Caldeira/CBEB24-RL-ORD), propomos aqui comparar detectores clássicos com métodos de Aprendizado Profundo por Reforço na tarefa de detecção de resposta objetiva a estímulo auditivo em estado permanente.

Selecionamos três abordagens: Deep Q-Networks (DQN), Advantage Actor Critic (A2C) e Proximal Policy Optimization (PPO) a partir de sua arquitetura e implementação conforme publicada, disponível na biblioteca [stable-baselines3](https://github.com/DLR-RM/stable-baselines3/). 

Os agentes tem duas ações: detectar (1) ou não (0) uma resposta, dado um estado composto por medidas de resposta objetiva no domínio da frequência, utilizados por detectores clássicos da literatura. Suas recompensas devem ser baseadas na adequação da sua decisão ao estado atual, nominalmente se sua detecção representa um Verdadeiro Positivo (TP), Verdadeiro Negativo (TN), Falso Positivo (FP) ou Falso Negativo (FN).

# Resultados e próximos passos

Etapas:
1. **Pré-treino** com dados sintéticos para aprendizado de representação profunda a diferentes níveis de ruído.

2. **Teste** em diversos níveis de ruído (incluindo ainda não vistos), comparando com detectores clássicos.

3. **Validação cruzada** com dados experimentais utilizando 1 exemplo de exame como treino e 10 exames como teste.