In [1]:
import numpy as np
import pygame

import gymnasium as gym
from gymnasium import spaces
from gymnasium.envs.registration import register

pygame 2.6.0 (SDL 2.28.4, Python 3.11.9)
Hello from the pygame community. https://www.pygame.org/contribute.html


In [5]:
class GridWorldEnv(gym.Env):
    metadata = {"render_modes": ["human", "rgb_array"], "render_fps": 30}

    def __init__(self, render_mode=None, size=5):
        self.size = size
        self.window_size = 512

        # Definisco lo spazio delle osservazioni un dizionario contente la posizione dell'agente e quella del target
        self.observation_space = spaces.Dict(
            { 
                "agent": spaces.Box(0, size - 1, shape=(2,), dtype=int),
                "target": spaces.Box(0, size - 1, shape=(2,), dtype=int),
            }
        )

        # Definisco lo spazio delle azioni, saranno 4 possibili azioni NSEW
        self.action_space = spaces.Discrete(4)

        # Conversione da azione discreta a movimento
        self._action_to_direction = {
            0: np.array([1,0]),
            1: np.array([0, 1]),
            2: np.array([-1, 0]),
            3: np.array([0, -1]),
        }       

        # Imposto la render mode, se passata correttamente altrimenti passo un errore
        assert render_mode is None or render_mode in self.metadata["render_modes"]
        self.render_mode = render_mode

        self.window = None
        self.clock = None

    # Funzione per ottenere direttamente le osservazioni 
    def _get_obs(self):
        return {"agent": self._agent_location, "target": self._target_location}

    # Funzione per ottenere direttamente le info
    def _get_info(self):
        return {
            "distance": np.linalg.norm(
                self._agent_location - self._target_location, ord=1
            )
        }

    # Funzione reset. Serve per inizializzare l'ambiente all'inizio di ogni nuovo episodio
    def reset(self, seed=None, options=None):
        # super() va a richiamare un attributo della classe genitore gym.Env
        # In questo caso serve ad assegnare un eventuale seed casuale
        super().reset(seed=seed)

        # Posizione iniziale agente random
        self._agent_location = self.np_random.integers(0, self.size, size=2, dtype=int)

        # Posizione del target. Viene campionata in modo da non coincidere con la posizione
        #  dell'agente
        self._target_location = self._agent_location
        while np.array_equal(self._target_location, self._agent_location):
            self._target_location = self.np_random.integers(0, self.size, size=2, dtype=int)

        # Uso le funzioni dichiarate sopra per ottenre le osservazioni e le info
        observation = self._get_obs()
        info = self._get_info()

        if self.render_mode == "human":
            self._render_frame()

        return observation, info

    # Funzione step. Serve a eseguire un ciclo dopo aver deciso un azione, si puo chiamare solo dopo reset
    def step(self, action):
        # Ottiene la direzione di movimento dall'azione binaria
        direction = self._action_to_direction[action]

        # Update posizione agente. np.clip serve a restare nel box [0 1 2 3 4]
        self._agent_location = np.clip(self._agent_location + direction, 0, self.size - 1)

        # Check raggiungimento target
        terminated = np.array_equal(self._agent_location, self._target_location)

        # Definizione reward. Viene ottenuta solo se raggiungo il target
        if terminated:
            reward = 1
        else: 
            reward = 0

        # Ottengo osservazioni e info
        observation = self._get_obs()
        info = self._get_info()

        if self.render_mode == "human":
            self._render_frame()

        return observation, reward, terminated, False, info


    # Funzione di rendering basata su Pygame
    def render(self):
        if self.render_mode== "rgb_array":
            return self._render_frame()

    def _render_frame(self):
        if self.window is None and self.render_mode == "human":
            pygame.init()
            pygame.display.init()
            self.window = pygame.display.set_mode((self.window_size, self.window_size))
        if self.clock is None and self.render_mode == "human":
            self.clock = pygame.time.Clock()

        # Genero un buffer su cui disegnare l'ambiente prima di disengarlo sullo schermo
        canvas = pygame.Surface((self.window_size, self.window_size))
        canvas.fill((255, 255, 255))
        pix_square_size = (self.window_size/self.size)

        # Inizio a disegnare il target
        pygame.draw.rect(
            canvas,
            (255, 0, 0),
            pygame.Rect(
                pix_square_size*self._target_location, 
                (pix_square_size, pix_square_size),
            ),
        )

        # Disegno agente
        pygame.draw.circle(
            canvas,
            (0, 0, 255),
            (self._agent_location + 0.5) * pix_square_size,
            pix_square_size / 3,
        )

        # Disegno la griglia
        for x in range(self.size + 1):
            pygame.draw.line(
                canvas,
                0,
                (0, pix_square_size * x),
                (self.window_size, pix_square_size * x),
                width=3,
            )
            pygame.draw.line(
                canvas,
                0,
                (pix_square_size * x, 0),
                (pix_square_size * x, self.window_size),
                width=3,
            )

        if self.render_mode == "human":
            # Copio il buffer appena creato su una finestra visibile
            self.window.blit(canvas, canvas.get_rect())
            pygame.event.pump()
            pygame.display.update()

            #  Mi assicuro di mantenere il framerate
            self.clock.tick(self.metadata["render_fps"])
        else: # rgb_array
            return np.transpose(np.array(pygame.surfarray.pixels3d(canvas)), axes=(1,0,2))

    # Funzione per chiudere la finestra di rendering
    def close(self):
        if self.window is not None:
            pygame.display.quit()
            pygame.quit()


# Registrazione env
from gymnasium.envs.registration import register

register(
    id='GridWorld-v0', 
    entry_point='__main__:GridWorldEnv',  
    max_episodes_step=300,
)


In [7]:
# Creo classe env del tipo GridWorld
env = gym.make('GridWorld-v0', render_mode="human")

#  Init dell'amnbiente
observation, info = env.reset()

for _ in range(1000):
    action = env.action_space.sample()  # agent policy that uses the observation and info
    observation, reward, terminated, truncated, info = env.step(action)

    if terminated or truncated:
        observation, info = env.reset()

env.close()