# Aula 2 - Reinforcement Learning

## Tutorial: Equa√ß√£o de Bellman

### Prof. Dr. Ahirton Lopes

# Equa√ß√£o de Bellman

A Equa√ß√£o de Bellman √© um conceito fundamental no campo do Aprendizado por Refor√ßo, que √© uma abordagem de aprendizado de m√°quina em que um agente aprende a tomar decis√µes interativas para maximizar suas recompensas ao interagir com um ambiente. A equa√ß√£o leva o nome do matem√°tico Richard Bellman, que contribuiu significativamente para a teoria dos processos de decis√£o estoc√°sticos.

A Equa√ß√£o de Bellman no contexto do Aprendizado por Refor√ßo √© uma f√≥rmula que expressa como o valor esperado de um estado est√° relacionado aos valores esperados dos estados futuros, levando em considera√ß√£o as recompensas imediatas e as poss√≠veis transi√ß√µes de estado. Ela descreve como um agente deve avaliar o valor de um estado com base nas recompensas futuras esperadas, levando em conta as a√ß√µes que o agente pode escolher.

A formula√ß√£o b√°sica da Equa√ß√£o de Bellman √© a seguinte:

`V(s) = max_a [ R(s, a) + Œ≥ * Œ£_s' [ P(s' | s, a) * V(s') ] ]`

Onde:

* V(s) √© o valor esperado do estado s.
* max_a denota a maximiza√ß√£o sobre todas as a√ß√µes poss√≠veis a no estado s.
* R(s, a) √© a recompensa imediata obtida ao executar a a√ß√£o a no estado s.
* Œ≥ √© o fator de desconto que pondera as recompensas futuras em rela√ß√£o √†s recompensas imediatas.
* P(s' | s, a) √© a probabilidade de transi√ß√£o para o estado s' a partir do estado s ao executar a a√ß√£o a.
* V(s') √© o valor esperado do estado futuro s'.

Em resumo, a Equa√ß√£o de Bellman √© uma ferramenta crucial para avaliar o valor de diferentes estados e guiar as decis√µes do agente para maximizar suas recompensas ao longo do tempo.

# Importar bibliotecas

In [10]:
import numpy as np

# Definir Par√¢metros do Jogo

Aqui, definimos os par√¢metros b√°sicos do jogo, incluindo o tamanho do grid, o estado inicial do agente, o estado do objetivo (moeda) e a taxa de desconto (gamma) usada na equa√ß√£o de Bellman.

In [11]:
rows = 4
cols = 4
start_state = (0, 0)
goal_state = (3, 3)
gamma = 0.9

# Inicializar Valores de Estado (V)

Inicializamos uma matriz V de tamanho (rows, cols) com zeros. Essa matriz representa os valores de estado do agente, ou seja, a estimativa de recompensa que o agente espera receber a partir de cada estado.

In [12]:
V = np.zeros((rows, cols))

# Definir Fun√ß√£o de Recompensa

Aqui, definimos uma fun√ß√£o de recompensa que retorna 10 se o estado for o estado do objetivo (moeda) e -1 caso contr√°rio.

In [13]:
def reward(state):
    if state == goal_state:
        return 10
    else:
        return -1

# Definir Movimentos Poss√≠veis

Criamos uma lista de a√ß√µes poss√≠veis que o agente pode tomar: mover-se para cima, para baixo, para a esquerda ou para a direita.

In [14]:
actions = [(-1, 0), (1, 0), (0, -1), (0, 1)]

As altera√ß√µes s√£o sempre no formato (ùëëùë•,ùëëùë¶)(dx,dy), onde:ùëëùë• representa a mudan√ßa na coordenada x (linha). ùëëùë¶ representa a mudan√ßa na coordenada y (coluna). Portanto, a escolha dos valores √© baseada na necessidade de mover-se na grade em rela√ß√£o √† posi√ß√£o atual.

# Algoritmo de Aprendizado por Refor√ßo

Neste passo, implementamos o algoritmo de aprendizado por refor√ßo usando a equa√ß√£o de Bellman. Realizamos itera√ß√µes para atualizar os valores de estado (V) com base nas recompensas esperadas.

In [15]:
num_iterations = 50000  # N√∫mero de itera√ß√µes do algoritmo de aprendizado por refor√ßo

# Loop principal que executa o algoritmo de aprendizado por refor√ßo v√°rias vezes
for _ in range(num_iterations):
    new_V = np.copy(V)  # Cria uma c√≥pia dos valores de estado atuais para atualiza√ß√£o

    # Loop para percorrer cada posi√ß√£o no grid
    for i in range(rows):
        for j in range(cols):
            state = (i, j)  # Define o estado atual (posi√ß√£o atual no grid)

            # Verifica se o estado atual √© o estado do objetivo
            if state == goal_state:
                continue  # Se for, pula para a pr√≥xima itera√ß√£o (n√£o faz nada neste estado)

            max_value = float("-inf")  # Inicializa o valor m√°ximo com um valor negativo infinito

            # Loop para percorrer cada a√ß√£o poss√≠vel (movimento) no estado atual
            for action in actions:
                new_i = i + action[0]  # Calcula a nova linha ap√≥s a a√ß√£o
                new_j = j + action[1]  # Calcula a nova coluna ap√≥s a a√ß√£o

                # Verifica se a nova posi√ß√£o est√° dentro dos limites do grid
                if 0 <= new_i < rows and 0 <= new_j < cols:
                    new_state = (new_i, new_j)  # Define o novo estado ap√≥s a a√ß√£o
                    value = reward(state) + gamma * V[new_state[0], new_state[1]]
                    # Calcula o valor atualizado do estado usando a equa√ß√£o de Bellman
                    # (recompensa imediata + fator de desconto * valor do novo estado)
                    max_value = max(max_value, value)  # Mant√©m o valor m√°ximo encontrado

            new_V[i, j] = max_value  # Atualiza o valor do estado atual na nova matriz de valores

    V = new_V  # Atualiza a matriz de valores de estado com os novos valores calculados


# Definir a Pol√≠tica do Agente

Aqui, definimos a pol√≠tica do agente, ou seja, a a√ß√£o que o agente deve escolher em cada estado para maximizar sua recompensa.

In [16]:
# Inicializa√ß√£o da matriz de pol√≠tica com valores vazios ("")
policy = np.zeros((rows, cols), dtype=str)

# Loop para iterar pelas linhas do grid
for i in range(rows):
    # Loop para iterar pelas colunas do grid
    for j in range(cols):
        # Verifica se a posi√ß√£o atual √© o estado objetivo
        if (i, j) == goal_state:
            # Se for o estado objetivo, atribui "G" √† pol√≠tica nessa posi√ß√£o
            policy[i, j] = "G"
        else:
            # Inicializa o valor m√°ximo como negativo infinito
            max_value = float("-inf")
            # Inicializa a a√ß√£o √≥tima como vazia (None)
            best_action = None
            # Loop para iterar pelas poss√≠veis a√ß√µes
            for action in actions:
                # Calcula a nova posi√ß√£o ap√≥s a a√ß√£o
                new_i = i + action[0]
                new_j = j + action[1]
                # Verifica se a nova posi√ß√£o √© v√°lida dentro dos limites do grid
                if 0 <= new_i < rows and 0 <= new_j < cols:
                    # Calcula o novo estado ap√≥s a a√ß√£o
                    new_state = (new_i, new_j)
                    # Calcula o valor usando a Equa√ß√£o de Bellman para a nova posi√ß√£o
                    value = reward((i, j)) + gamma * V[new_state[0], new_state[1]]
                    # Atualiza o valor m√°ximo e a a√ß√£o √≥tima se o valor for maior
                    if value > max_value:
                        max_value = value
                        best_action = action
            # Atribui um s√≠mbolo √† pol√≠tica com base na a√ß√£o √≥tima encontrada
            if best_action == (-1, 0):
                policy[i, j] = "‚Üë"  # A√ß√£o de mover para cima
            elif best_action == (1, 0):
                policy[i, j] = "‚Üì"  # A√ß√£o de mover para baixo
            elif best_action == (0, -1):
                policy[i, j] = "‚Üê"  # A√ß√£o de mover para esquerda
            elif best_action == (0, 1):
                policy[i, j] = "‚Üí"  # A√ß√£o de mover para direita


#  Imprimir Valores Aprendidos para Cada Estado

Este trecho de c√≥digo imprime os valores de estado aprendidos para cada posi√ß√£o no grid.

In [17]:
for i in range(rows):
    for j in range(cols):
        print(f"V({i},{j}): {V[i,j]:.2f}", end="\t")
    print()

V(0,0): -4.69	V(0,1): -4.10	V(0,2): -3.44	V(0,3): -2.71	
V(1,0): -4.10	V(1,1): -3.44	V(1,2): -2.71	V(1,3): -1.90	
V(2,0): -3.44	V(2,1): -2.71	V(2,2): -1.90	V(2,3): -1.00	
V(3,0): -2.71	V(3,1): -1.90	V(3,2): -1.00	V(3,3): 0.00	


# Imprimir a Pol√≠tica do Agente
Este trecho de c√≥digo imprime a pol√≠tica final do agente, mostrando a a√ß√£o escolhida em cada posi√ß√£o do grid.

In [18]:
for i in range(rows):
    for j in range(cols):
        print(policy[i, j], end="\t")
    print()


‚Üì	‚Üì	‚Üì	‚Üì	
‚Üì	‚Üì	‚Üì	‚Üì	
‚Üì	‚Üì	‚Üì	‚Üì	
‚Üí	‚Üí	‚Üí	G	
