<a href="https://colab.research.google.com/github/gbcarneiro/gridworldrl/blob/main/20240305_GridWorld%20-%20Gabriel%20Carneiro.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [15]:
import numpy as np
from collections import deque

class GridWorld():
  def __init__(self):
    self.rows = 8
    self.columns = 8
    self.grid = np.zeros((self.rows, self.columns))  # Representando um grid 8x8

    # Definindo as células de montanha e areia movediça
    self.montanhas = [(1, 0), (2, 3)]
    self.areias = [(4, 4), (5, 5)]

    for c in self.montanhas:
        self.grid[c] = -1

    for c in self.areias:
        self.grid[c] = -2

    # Pontos de início e chegada
    self.start = (7, 0)
    self.win = (0, 7)
    self.lose = (7, 7)

    # Estado inicial
    self.state = self.start
    self.finish = False

  def reward(self):
    if self.state == self.win:
        return 1

    elif self.state == self.lose:
        return -3

    return 0

  def winnerOrLooser(self):
      self.finish = self.state == self.win or self.state == self.lose

  def nextStep(self, action):
    # Lógica para atualizar o estado baseado na ação
    x, y = self.state
    if action == 'up':
        x = max(x - 1, 0)

    elif action == 'down':
        x = min(x + 1, self.rows - 1)

    elif action == 'left':
        y = max(y - 1, 0)

    elif action == 'right':
        y = min(y + 1, self.columns - 1)

    if (x, y) != self.lose:  # Evitar movimento para a célula de perda
        self.state = x, y

    self.winnerOrLooser()

  def showGrid(self):
    for i in range(self.rows):
      for j in range(self.columns):
        if (i, j) == self.state:
          print("A | ", end="")  # A para Agente
        elif (i, j) == self.win:
          print("W | ", end="")  # W para Vitória (Win)
        elif (i, j) == self.lose:
          print("L | ", end="")  # L para Perda (Lose)
        else:
          print(f'{self.grid[i, j]:.0f} | ', end='')

      print("\n")

  def validarCampo(self, celula):
    # Verifica se a célula é válida para o movimento do agente.
    x, y = celula
    return 0 <= x < self.rows and 0 <= y < self.columns and celula not in self.montanhas and celula not in self.areias

  def encontrarRota(self):
    # Encontra uma rota do ponto de início ao ponto de chegada.
    fila = deque([self.start])
    visitados = {self.start: None}

    while fila:
      atual = fila.popleft()

      if atual == self.win:
        break  # Encontrou o caminho até o ponto de chegada

      # Verificar células adjacentes
      for dx, dy in [(1, 0), (-1, 0), (0, 1), (0, -1)]:
        proxima_celula = (atual[0] + dx, atual[1] + dy)

        if self.validarCampo(proxima_celula) and proxima_celula not in visitados:
          fila.append(proxima_celula)
          visitados[proxima_celula] = atual

    caminho = []
    celula = self.win
    while celula is not None:
        caminho.append(celula)
        celula = visitados[celula]

    return caminho[::-1]  # Inverter para começar do início


In [16]:
# Exemplo de uso
gw = GridWorld()
gw.showGrid()

print('------------------------')
route = gw.encontrarRota()
print("Rota encontrada:", route)


0 | 0 | 0 | 0 | 0 | 0 | 0 | W | 

-1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 

0 | 0 | 0 | -1 | 0 | 0 | 0 | 0 | 

0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 

0 | 0 | 0 | 0 | -2 | 0 | 0 | 0 | 

0 | 0 | 0 | 0 | 0 | -2 | 0 | 0 | 

0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 

A | 0 | 0 | 0 | 0 | 0 | 0 | L | 

------------------------
Rota encontrada: [(7, 0), (6, 0), (5, 0), (4, 0), (3, 0), (2, 0), (2, 1), (1, 1), (0, 1), (0, 2), (0, 3), (0, 4), (0, 5), (0, 6), (0, 7)]
