# Trabalho Final - Aprendizado por Reforço

### Importando os pacotes

In [2]:
import numpy as np
import pandas as pd
import random
from gym import Env
from gym.spaces import Discrete, Box
from sklearn.model_selection import train_test_split
import time

import tensorflow as tf

from stable_baselines3.dqn import MlpPolicy, MultiInputPolicy
from stable_baselines3 import DQN
from stable_baselines3.common.vec_env import DummyVecEnv
from stable_baselines3 import PPO
from stable_baselines3.common import monitor 
from stable_baselines3.common import logger
from stable_baselines3.common.evaluation import evaluate_policy

### Separando os Conjuntos Teste x Treino

In [3]:
# Importando os dados do Excel
df_dataset = pd.read_excel('./DadosGolfitSoccer_2024_07_03.xlsx')

# Removendo colunas desnecessárias
df_dataset.drop(columns=['Codigo', 'Ano_Avaliacao', 'Nome', 'CategoriaEtaria', 'Ano_Nascimento','CLUBE', 'PosicaoJogo'], inplace=True)

# Removendo as linhas com valores vazios
df_dataset.dropna(
    axis=0,
    how='any',
    subset=None,
    inplace=True
)

# Separando o conjunto de features
X = df_dataset.drop('Sucesso', axis=1)
# Separando o conjunto de rótulos
y = df_dataset['Sucesso']

# Separando os conjuntos de teste e treino
# O parâmetro de estratificação é utilizado para balancear a quantidade das classes entre todas as divisões
# O parâmetro random_state é utilizado como seed para a divisão dos conjuntos de teste e treino
df_train_X, df_test_X, df_train_y, df_test_y = train_test_split(X, y, stratify=y, test_size = 0.3, random_state = 42)


# Retirando a coluna da classe - Sucesso
df_train_X = np.array(df_train_X)
# Convertendo a coluna para o tipo que será usado pelo modelo
df_train_y = np.array(df_train_y)

# Dataset - Teste
# Retirando a coluna da classe - Sucesso
df_test_X = np.array(df_test_X)
# Convertendo a coluna para o tipo que será usado pelo modelo
df_test_y = np.array(df_test_y)

### Calculando a taxa de desbalanceamento entre as classes

In [5]:
# Calculando a quantidade de instâncias pertencentes à classe majoritária - DN
quantity_DN = (df_train_y == 0).sum()
# Calculando a quantidade de instâncias pertencentes à classe minoritária - DP
quantity_DP = (df_train_y == 1).sum()
# Calculando a taxa de desbalanceamento do DataSet
calculated_imbalance_rate = quantity_DP/quantity_DN

print("DATASET TREINO")
print("Quantidade de atletas da classe majoritária: ", quantity_DN)
print("Quantidade de atletas da classe minoritária: ", quantity_DP)
print("Taxa de desbalanceamento do DataSet: ", calculated_imbalance_rate)

# Calculando a quantidade de instâncias pertencentes à classe majoritária - DN
quantity_DN = (df_test_y == 0).sum()
# Calculando a quantidade de instâncias pertencentes à classe minoritária - DP
quantity_DP = (df_test_y == 1).sum()
# Calculando a taxa de desbalanceamento do DataSet
calculated_imbalance_rate = quantity_DP/quantity_DN

print("\nDATASET TESTE")
print("Quantidade de atletas da classe majoritária: ", quantity_DN)
print("Quantidade de atletas da classe minoritária: ", quantity_DP)
print("Taxa de desbalanceamento do DataSet: ", calculated_imbalance_rate)

DATASET TREINO
Quantidade de atletas da classe majoritária:  63
Quantidade de atletas da classe minoritária:  14
Taxa de desbalanceamento do DataSet:  0.2222222222222222

DATASET TESTE
Quantidade de atletas da classe majoritária:  27
Quantidade de atletas da classe minoritária:  6
Taxa de desbalanceamento do DataSet:  0.2222222222222222


### Criando o ambiente para classificação

In [6]:
# Env: uma classe python de alto-nível que representa um MDP(Processo de Decisão de Markov)
#      permite ao usuário gerar o estado inicial, transição de estados e visualização do ambiente

# Instanciando um ambiente a partir do ambiente fornecido pelo Gym
class PlayersEnv(Env):
    def __init__(self, majority_class, minority_class, row_per_episode, dataset, imbalance_rate):
        # As ações que o agente podem tomar são discretas, envolvendo classificar entre 2 classes
        self.action_space = Discrete(2)
        
        # O espaço de observações consiste nos jogadores que o agente deve classificar - 42 features para cada jogador
        self.observation_space = Box(0, 60, shape=(42,), dtype=np.float32)

        # Definindo qual as classe majoritária/minoritária do dataset - Para lidar com desbalanceamento dos dados
        self.majority_class = majority_class
        self.minority_class = minority_class

        # Definindo a taxa de desbalanceamento entre as classes majoritária e minoritária
        self.imbalance_rate = imbalance_rate

        ## Armazenamento de métricas
        # Verdadeiro Positivo
        self.TP = 0
        # Falso Positivo
        self.FP = 0
        # Verdadeiro Negativo
        self.TN = 0
        # Falso Negativo
        self.FN = 0
        
        # Definição de parâmetros
        # Tamanho do episódio == quantidade de instâncias (jogadores) a serem classificados
        self.row_per_episode = row_per_episode
        # Contador de passos do episódio
        self.step_count = 0
        # Features e rótulos
        self.x, self.y = dataset
        self.dataset_idx = 0
        

    # Função que especifica o que o agente fará a cada passo - Representa uma ação do agente
    # Recebe a ação tomada pelo agente como parâmetro
    def step(self, action):
        # Flag que define se a tomada de decisão está finalizada
        done = False
    
        # Definição das recompensas caso o agente tome a decisão CORRETA
        if action == self.expected_action:
            match self.expected_action:
                # Caso o atleta seja da classe majoritária recebe uma recompensa menor
                case self.majority_class:
                    # Retorna a recompensa pela ação
                    reward = self.imbalance_rate * 1
                    # Incrementa os Verdadeiros Negativos (TN)
                    self.TN += 1
                # Caso o atleta seja da classe minoritária recebe uma recompensa maior
                case self.minority_class:
                    # Retorna a recompensa pela ação
                    reward = 1
                    # Incrementa os Verdadeiros Positivos (TP)
                    self.TP += 1

        # Definição das recompensas caso o agente tome a decisão INCORRETA
        if action != self.expected_action:
            match self.expected_action:
                # Caso o atleta seja da classe majoritária recebe uma recompensa menor
                case self.majority_class:
                    # Retorna a recompensa pela ação
                    reward = self.imbalance_rate * -1
                    # Incrementa os Falso Negativos (FN)
                    self.FP += 1
                # Caso o atleta seja da classe minoritária recebe uma recompensa maior
                case self.minority_class:
                    # Retorna a recompensa pela ação
                    reward = -1
                    # Incrementa os Verdadeiros Negativos (TN)
                    self.FN += 1
                    # Encerra o episódio
                    done = True

        # Passa para a próxima observação do dataset
        observation = self._next_observation()

        # Aumenta a contagem de decisões tomadas
        self.step_count += 1

        # Caso a quantidade de passos definidos por episódio tenha sido alcançada
        if self.step_count >= self.row_per_episode:
            done = True

        return observation, reward, done, {}  

    # Função que reseta o ambiente para treinar novamente
    def reset(self):
        # Zera a contagem de passos
        self.step_count = 0
        # Define a nova observação inicial
        observation = self._next_observation()
        # Retorna a observação inicial
        return observation

    # Subrotina que retorna a próxima observação para o agente
    def _next_observation(self):
        # Define um índice de forma aleatória para a próxima observação
        next_observation_idx = random.randint(0, len(self.x) - 1)
        # Define a ação esperada para a observação - Retorna o rótulo da observação
        self.expected_action = int(self.y[next_observation_idx])
        # Extrai a observação com o índice aleatório definido anteriormente
        observation = self.x[next_observation_idx]

        return observation

    # Subrotina que calcula as métricas do modelo
    def metrics(self):
        TPrate = self.TP / (self.TP + self.FN) 
        TNrate = self.TN / (self.TN + self.FP)
        FPrate = self.FP / (self.TN + self.FP)
        FNrate = self.FN / (self.TP + self.FN)
        PPvalue = self.TP / (self.TP + self.FP)
        NPvalue = self.TN / (self.TN + self.FN)

        G_mean = np.sqrt(TPrate * TNrate)

        Recall = TPrate = self.TP / (self.TP + self.FN)
        Precision = PPvalue = self.TP / (self.TP + self.FP)
        F_measure = 2 * Recall * Precision / (Recall + Precision)
 
        return TPrate, TNrate, G_mean, F_measure, Precision

### Treinamento do modelo

- Taxa de Desbalanceamento λ: 0.222.. (Cálculo original)
- Taxa de aprendizado: 0.001
- Fator de desconto: 0
- Política ε-greedy: 0.01
- Quantidade de episódios: 10.000

In [50]:
# Instanciando o ambiente para treinamento
environment = PlayersEnv(
    majority_class=0, 
    minority_class=1, 
    row_per_episode=77, 
    dataset=(df_train_X, df_train_y), 
    imbalance_rate=calculated_imbalance_rate
)

environment.observation_space.shape

# Inicializando o modelo DQN
model = DQN(
    "MlpPolicy", 
    DummyVecEnv([lambda: environment]), 
    learning_rate=0.001, 
    gamma=0,
    exploration_initial_eps=0.01,
    exploration_final_eps=0.01,
    verbose=1
)

# Treinando o modelo
model.learn(total_timesteps=50000)

# Salvando o modelo para validação
model.save("IC_MDP_DQN")

Using cpu device
----------------------------------
| rollout/            |          |
|    exploration_rate | 0.01     |
| time/               |          |
|    episodes         | 4        |
|    fps              | 2163     |
|    time_elapsed     | 0        |
|    total_timesteps  | 77       |
----------------------------------
----------------------------------
| rollout/            |          |
|    exploration_rate | 0.01     |
| time/               |          |
|    episodes         | 8        |
|    fps              | 634      |
|    time_elapsed     | 0        |
|    total_timesteps  | 139      |
| train/              |          |
|    learning_rate    | 0.001    |
|    loss             | 3.45     |
|    n_updates        | 9        |
----------------------------------
----------------------------------
| rollout/            |          |
|    exploration_rate | 0.01     |
| time/               |          |
|    episodes         | 12       |
|    fps              | 518      |
|  

### Validando o modelo

In [51]:
# Instanciando o ambiente para teste
test_environment = PlayersEnv(
    majority_class=0, 
    minority_class=1, 
    row_per_episode=33, 
    dataset=(df_test_X, df_test_y), 
    imbalance_rate=calculated_imbalance_rate,
)

# Carregando o modelo treinado anteriormente
model = DQN.load("IC_MDP_DQN", env=DummyVecEnv([lambda: test_environment]))

# Define a observação inicial
test_environment = model.get_env()
observation = test_environment.reset()

# Percorre o DataSet de teste
for i in range(1000):
    # Faz uma previsão com o modelo
    action, done = model.predict(observation)
    # Retorna a próxima observação
    observation = test_environment.reset()


# Imprimindo as métricas do modelo
sensitivity, specificity, g_mean_metric, f_measure_metric, precision = environment.metrics()

print("Sensibilidade (Recall/ Taxa de verdadeiros positivos): ", sensitivity)
print("Especificidade (Taxa de verdadeiros negativos): ", specificity)
print("G-mean: ", g_mean_metric)
print("F-measure (Recall): ", f_measure_metric)
print("Precisão: ", precision)

Sensibilidade (Recall/ Taxa de verdadeiros positivos):  0.9596136962247586
Especificidade (Taxa de verdadeiros negativos):  0.9068919976521229
G-mean:  0.9328804757007237
F-measure (Recall):  0.8072750773207773
Precisão:  0.696677555573261


In [None]:
# No modelo DQNIMB In DQNimb model, a recompensa para a classe minoritária é 1 e para a clase majoritária é λ
# Testar diferentes valores de lambda λ
# {0.05ρ, 0.1ρ, 0.5ρ, ρ, 5ρ, 10ρ, 20ρ}.