### Documentación

Problemas interesantes para Aprendizaje por refuerzo
 * Gymnasium: https://gymnasium.farama.org/environments/box2d/

## Instalación

```bash
%pip install gymnasium  
%pip install gymnasium[box2d] 
```

## Acciones adicionales

Pueden ser necesarias *antes* de instalar gymnasium[box2d].

### En macos

```bash
pip uninstall swig  
xcode-select -—install (instala las herramientas de desarrollador si no se tienen ya)  
pip install swig  / sudo port install swig-python  
pip install 'gymnasium[box2d]' # en zsh hay que poner las comillas
```

### En Windows

```bash
pip install swig
```

Si da error al instalar `box2d`, se debe a la falta de la versión correcta de Microsoft C++ Build Tools, que es una dependencia de Box2D.  
Para solucionar este problema, puede seguir los siguientes pasos:
 * `%pip install --upgrade wheel setuptools`
 * Descargar Microsoft C++ Build Tools desde https://visualstudio.microsoft.com/visual-cpp-build-tools/.
 * Dentro del instalador, seleccione la opción "Desarrollo para el escritorio con C++"
 * Reinicie su sesión en Jupyter Notebook o en Visual Studio.
 * Ejecute nuevamente el comando `%pip install gymnasium[box2d]` en la línea de comandos de su notebook.

### En linux (colab)
```bash
pip install swig
```

In [1]:
# prueba lunar lander por humano

import gymnasium as gym

env = gym.make("LunarLander-v3", render_mode="rgb_array")

import numpy as np
import pygame
import gymnasium.utils.play

lunar_lander_keys = {
    (pygame.K_UP,): 2,
    (pygame.K_LEFT,): 1,
    (pygame.K_RIGHT,): 3,
}
gymnasium.utils.play.play(env, zoom=3, keys_to_action=lunar_lander_keys, noop=0)

In [2]:
# prueba lunar lander por agente

import gymnasium as gym

env = gym.make("LunarLander-v3", render_mode="human")

def run ():
    #observation, info = env.reset(seed=42)
    observation, info = env.reset()
    ite = 0
    racum = 0
    while True:
        action = policy(observation)
        observation, reward, terminated, truncated, info = env.step(action)
        
        racum += reward

        if terminated or truncated:
            r = (racum+200) / 500
            print(racum, r)
            return racum
    
#run()

### ¿Cómo contruir el fitness para aplicar genéticos?

 * El módulo MLP ya tiene implementado el perceptrón multicapa. Se construye con MLP(architecture).
 * Architecture es una tupla (entradas, capa1, capa2, ...).
 * La función fitness toma el cromosoma del individuo y lo convierte a pesos del MLP con model.from_chromosome(ch).
 * usa run para N casos (esto da estabilidad) y calcula el refuerzo medio.
 * Este refuerzo medio es el fitness del individuo.

In [None]:
# neuroevolución

# construir modelo
from MLP import MLP

architecture = [...]
model = MLP(architecture)
ch = [...]
model.from_chromosome(ch)

# pasar al modelo los pesos del mejor cromosoma obtenido con neuroevolución

import numpy as np

# definir política
def policy (observation):
    s = model.forward(observation)
    action = np.argmax(s)
    return action

In [7]:
N = 10
r = 0
for _ in range(N):
    r += run()
    
print('Refuerzo medio', r/N)

274.9540857513989 0.9499081715027978
143.2866076746264 0.6865732153492528
243.3657119129678 0.8867314238259356
295.44532836452765 0.9908906567290553
303.79713143903007 1.00759426287806
260.2921492161858 0.9205842984323717
285.56948735597706 0.9711389747119541
249.44539924701303 0.8988907984940261
161.31490600400647 0.722629812008013
59.34961684962809 0.5186992336992562
Refuerzo medio 227.68204238153612


In [None]:
# para paralelizar el map incluso en windows
# https://github.com/joblib/loky

from loky import get_reusable_executor
executor = get_reusable_executor()

# results = executor.map(fitness, poblacion)

#### ¿No has tenido bastante?

Prueba a controlar el flappy bird https://github.com/markub3327/flappy-bird-gymnasium

pip install flappy-bird-gymnasium

import flappy_bird_gymnasium  
env = gym.make("FlappyBird-v0")

Estado (12 variables):
  * the last pipe's horizontal position
  * the last top pipe's vertical position
  * the last bottom pipe's vertical position
  * the next pipe's horizontal position
  * the next top pipe's vertical position
  * he next bottom pipe's vertical position
  * the next next pipe's horizontal position
  * the next next top pipe's vertical position
  * the next next bottom pipe's vertical position
  * player's vertical position
  * player's vertical velocity
  * player's rotation

  Acciones:
  * 0 -> no hacer nada
  * 1 -> volar