# **Testing**

Describimos los pasos sencillos para crear un ambiente de gym que utilice Pacman de Atari 2600.

## **Instructivo de descargas**

 - pip install gym
 - conda install swig
 - pip install box2d
 - pip3 install box2d box2d-kengz
 - brew install swig 
 - pip install pygame

## **1. Importar bibliotecas**

In [2]:
import gym
%matplotlib inline
import matplotlib.pyplot as plt


ALE = Arcade Learning Environment

## **2. Crear el environment de Pacman**

Render_mode = 'human' permite que sea visual el juego en otra pestaña.

<code>env = gym.make("ALE/MsPacman-v5", render_mode="human")</code>


## **3. Reset del environment**

Resetear el environment para crear un nuevo episodio.

<code>episodio = env.reset()</code>

observation, reward, terminated, truncated, info = env.step(env.action_space.sample())
print(info)

## **4. Ejemplo de juego aleatorizado**

Nos va a servir para al final comparar con un video como actua de forma aleatoria, y va cambiando por entrenos

- **Observación:** contiene información sobre el estado del ambiente en un episodio dado. Generalmente, contiene información en la velocidad a la que va el agente, los cambios de velocidad de otros agentes y la posición. 
- **info**
- **Step:** actualiza los outputs
- **Action_space.sample():** elige aleatoriamente una acción del espacio posible
- **Terminated:** cuando termina el episodio (pierde o gana)
- **Truncated:** cuando llega al máximo de steps

<code>
env.action_space.seed(42) # Seed aleatoria

observacion, info = env.reset(seed=42) # Resetear el environment a uno aleatorio, pero siempre el mismo

for _ in range(100):  # Por cada paso, que son 100, ejecuta lo siguiente
    observacion, reward, terminated, truncated, info = env.step(env.action_space.sample())
    
    print(reward)

    if terminated or truncated:
        observacion, info = env.reset()

env.close()
</code>

### **Reward system**

El sistema toma un modelo pr default de recompensa, que es el siguiente:


## **Nuevo environment**

In [3]:
class PacmanEnv(gym.Env):
    def __init__(self, render_mode="human", seed=None):
        if render_mode == "human":
            self.env = gym.make("ALE/MsPacman-v5", render_mode="human")
        else:
            self.env = gym.make("ALE/MsPacman-v5")
        self.action_space = self.env.action_space
        self.observation_space = self.env.observation_space
        self.seed = seed
        self.lives = self.env.ale.lives()
        
        # Dejamos lo demás igual, nos ayuda mucho que tengamos las posibles acciones
        
    def step(self, action):
        observation, reward, terminated, truncated, info = self.env.step(action)

        # custom reward
        if reward > 0: # recibió algún tipo de reward
            
            if info['lives'] > 0:  # Si el número de vidas de pacman es positivo
                if reward == 10:  # En el caso por default, 10 de reward es por comer un puntito
                    reward = 25 # Si come un puntito, que el reward sea __
                elif reward == 50: # Si come un power pellet que activa el poder comer fantasmas
                    reward = 60
                elif reward == 200:  # En el caso por default, hay reward de 200 por comer un fantasma
                    reward = 100 # Si come un fantasma, cuánto queremos de reward
            else: # Si a pacman se le acabaron las vidas
                done = True  # Pone en true la bandera de que acabó el juego
                reward = -500  # Si perdemos, cuánto queremos que pierda de reward. Que le duela al pacman
                
        else:
            reward = -1  # Cuando camine pero no consiga nada, que busque la ruta óptima. Importante !
            
            # Castigo por perder vidas
            lives = info['lives']
            if self.env.ale.lives() < lives:
                # Agent lost a life:
                reward -= 1000

        return observation, reward, terminated, truncated, info

    def reset(self):
        return self.env.reset()

    def render(self, mode=None, render=True):
        if self.render_mode == 'human' and render:
            self.env.render(mode=mode)

    def close(self):
        self.env.close()



Iniciar

Iniciar con <code>PacmanEnv(seed = x, render_mode = None)</code> para que no lo haga rendered.

In [4]:
env_new = PacmanEnv(seed = 45, render_mode = None)

A.L.E: Arcade Learning Environment (version 0.8.1+53f58b7)
[Powered by Stella]


In [5]:
episodio_new = env_new.reset()

In [7]:

observacion, info = env_new.reset() # Resetear el environment a uno aleatorio, pero siempre el mismo
frames = [] # almacenar los frames
for _ in range(30):  # Por cada paso, que son 100, ejecuta lo siguiente
    observacion, reward, terminated, truncated, info = env_new.step(env_new.action_space.sample())
    frames.append(observacion)

    if terminated or truncated:
        observacion, info = env_new.reset()

env_new.close()

In [5]:
observation, reward, terminated, truncated, info = env_new.step(env_new.action_space.sample())
print(observation)

[[[  0   0   0]
  [  0   0   0]
  [  0   0   0]
  ...
  [  0   0   0]
  [  0   0   0]
  [  0   0   0]]

 [[228 111 111]
  [228 111 111]
  [228 111 111]
  ...
  [228 111 111]
  [228 111 111]
  [228 111 111]]

 [[228 111 111]
  [228 111 111]
  [228 111 111]
  ...
  [228 111 111]
  [228 111 111]
  [228 111 111]]

 ...

 [[  0   0   0]
  [  0   0   0]
  [  0   0   0]
  ...
  [  0   0   0]
  [  0   0   0]
  [  0   0   0]]

 [[  0   0   0]
  [  0   0   0]
  [  0   0   0]
  ...
  [  0   0   0]
  [  0   0   0]
  [  0   0   0]]

 [[  0   0   0]
  [  0   0   0]
  [  0   0   0]
  ...
  [  0   0   0]
  [  0   0   0]
  [  0   0   0]]]
