## 8. Otimização Progressiva do Agente de Reinforcement Learning

Este notebook dá início à **segunda fase do projeto**, na qual realizaremos ajustes específicos com base nas análises conduzidas na Seção 7.3.  
O objetivo desta nova etapa é **transformar o agente atual — que apresenta comportamento neutro — em um agente capaz de capturar oportunidades reais de mercado**, aumentando consistentemente seu retorno ajustado ao risco.

### 🔍 Contexto Atual

Até o momento, implementamos e treinamos um agente DQN simples, que atua sobre uma carteira composta por VALE3, PETR4 e BRFS3. Embora o agente tenha demonstrado estabilidade e preservação do capital, seus resultados no conjunto de validação indicam que:

- O **lucro total médio por episódio foi inferior a R$ 10,00**, o que representa rentabilidade próxima de zero;
- O **índice de Sharpe ficou em torno de 0,06**, sinalizando retorno praticamente nulo em relação à volatilidade;
- O agente parece ter aprendido a **não operar**, o que evita prejuízos, mas também reduz qualquer possibilidade de ganho real.

---

### 🎯 Objetivo desta Fase

Esta seção é dedicada à implementação progressiva dos seguintes ajustes, todos descritos tecnicamente na Seção 7.4 do relatório:

---

### 🔧 **Ajustes no Ambiente de Simulação**

1. **Inserir penalidade por inatividade prolongada**
   - Criar mecanismo que penalize episódios com longas sequências de ações `[0, 0, 0]`.
   - Motivo: forçar o agente a avaliar se manter-se passivo é realmente a melhor decisão.

2. **Incluir custos de transação**
   - Penalização proporcional ao valor negociado em cada compra e venda.
   - Exemplo: 0,1% do valor de cada operação.

3. **Ampliar espaço de ação para múltiplas unidades**
   - Permitir que o agente compre/venda até 3 unidades por ativo.
   - Novas ações: `[0, 1, 2, 3]` → manter, comprar 1, comprar 2, comprar 3 (idem para venda).

---

### 🧠 **Otimizações no Agente DQN**

4. **Refinar função de recompensa**
   - Testar versões normalizadas (porcentagem) ou baseadas em Sharpe Ratio incremental.

5. **Alterar função de perda**
   - Substituir MSE por **Huber Loss**, para maior robustez a outliers.

6. **Adicionar Dropout ou BatchNorm na rede**
   - Evitar overfitting e estabilizar treinamento com camadas adicionais.

---

### 📈 **Estratégias de Treinamento**

7. **Estender o número de episódios para 1.000+**
   - Observar se a política converge com maior estabilidade.

8. **Aplicar política ε-greedy com decaimento mais lento**
   - Usar decaimento linear ou patamar fixo até episódio 100.

9. **Inserir checkpoints de avaliação durante o treino**
   - Verificar a cada 100 episódios o desempenho do agente no conjunto de validação.

---

### 🔄 Plano de Execução

Cada um desses ajustes será implementado **de forma incremental e controlada**, com:
- Justificativa técnica;
- Alterações no código;
- Avaliação quantitativa do impacto;
- Registro em Markdown para documentação final.

---

### ✅ Ponto de Partida

Você deve:
1. Reabrir este notebook no Google Colab com GPU (T4);
2. Executar as células de importação de dados e definição da versão atual do ambiente;
3. Seguir para a implementação do **Ajuste 1: penalidade por inatividade**.

⚠️ **Não recomece do zero.** Este notebook continua o projeto já treinado e avaliado. Todos os resultados da fase anterior devem ser preservados para comparação futura.

---

🔜 **Próxima célula**: redefinir a classe `PortfolioEnv` com suporte à penalidade por inatividade.
