# Construyendo Agentes de aprendizaje por Refuerzo

A continuación desarrollatemos un taller practico para construir una primera versión de un agente de aprendizaje por refuerzo. Para cada uno de los tasks descritos a continuación (**Task 1** a **Task 9**), desarrolle el trabajo en el notebook. Debe entregar, su notebook con los resultados obtenidos para cada task.

Para comenzar la exploración de los angentes de aprendizaje por refuerzo comenzaremos con la implementación básica de un agente. Teniendo esto en mente, nuestra primera tarea es definir las dos partes que interactuan con el sistema, el ambiente y el agente.


## Ambiente 🌎

Para este ejemplo inicial, manejaremos un ambiente que consiste de un laberinto de 5 posiciones ubicados en una línea, sin obstaculos, como se muestra en la figura a continuación.

![ambiente.png](attachment:083ff53c-d05a-41bd-96fd-33dc7a61eff2.png)

El objetivo de este ambiente, es que el agente, en la casilla de la izquierda, logre alcanzar la casilla de la derecha (nuestro objetivo).

La primera tarea es codificar el ambiente. 

#### ¿Cómo podemos codificar el ambiente?

El ambiente debe estar compuesto por la información relevante para el agente. En nuestro caso particular esto corresponde a la posición del agente dentro del laberinto. Adicionalmente, para controlar el agente vamos a definir que el ambiente funcionar por un máximo de 10 pasos.

**Task 1**. Complete el ambiente definiendo el laberinto (junto con el estado ganador) y el número de pasos.

In [None]:
from typing import List
import random

class Environment:
    '''Environment state definition'''
    def __init__(self):
        #Complete task 1.
        
     
    def reset(self):
        #Complete task 1 (reset the agent)
        
    '''Environment defined behavior'''
    #Complete task 2.
        

Ahora, debemos definir el comportamiento del ambiente. dentro de cada iteración, cada uno de los pasos, el ambiente debe revisar si ya se exhaustaron los pasos posibles. De ser así, si el agente no esta en la posición final, la ejecución del ambiente debe terminar, mostrando un error al usuario. De lo contrario, si en alguna iteración el agente llega a la posición deseada, la ejecución debe terminar en éxito.

**Task 2**. Complete la implementación del ambiente con el comportamiento requerido.

## Agente 🤖

Una vez definido el ambiente, ahora debemos definir el agente. En esta versión del ambiente, el agente únicamente tiene posibles movimientos, moverse hacia adelante (en dirección del objetivo), o moverse hacia atras (en dirección del inicio). Por lo tanto, el agente debe ser capaz de, recibir el estado del ambiente y ejecutar alguna de las acciones.
Para esta primera iteración del agente, vamos a construir un agente que escoge sus acciones de forma aleatoria.

**Task 3**. Defina los métodos para cada una de las acciones

**Task 4**. Defina el método action, que recibe el ambiente y escoge y ejecuta una acción de forma aleatoria

In [None]:
import random

class Agent:
    def __init__(self):
        #Complete task 4
        #Agent state
        # Actions coding
    
    def reset(self):
        #Reset the agent
        
    #Complete Task 3
    '''Move forward'''
    
    '''Move backward'''
    
    #Complete Task 4
    '''Choose action'''
        


## Ejecutando el Agente

Ahora que ya tenemos el ambiente y el agente, el siguente programa ejecuta distintos episodios del agente.

![tip.png alt <](attachment:0a176433-e4d3-4635-8228-151de3f15eb4.png)
Los episodios corresponden a un número definido de pasos para la ejecución del agente. Un episodio ejecutará hasta que el agente ejecute todos los pasos, o hasta que el agente alcance la meta.

In [None]:
def main():
    episodes = 10
    a =  Agent()
    e =  Environment()
    for i in range(0, episodes):
        print(f"Episode {i+1}")
        while not e.is_done():
            if a.action(e):
                break
        e.reset()
        a.reset()
        
main()

Note que luego de cada uno de los episodios, es necesario reinicializar el ambiente y el agente (usando el método `reset()` de cada uno) para poder comenzar a ejecutar desde el comienzo nuevamente.

**Task 5**. Ejecute el agente con varios valores de episodios (`episodes`) ¿Qué comportamiento puede observar? ¿Esto corresponde con el comportamiento esperado?

## Recompensas

Hasta el momento, nuestro agente no maneja recompensas. Es decir, la recompensa no esta codificada dentro del ambiente, sino que esta codificada implicitamente dentro del agente. El agente sabe cuando llegó al objetivo, o cuando no, pero esta información no hace parte del ambiente.

Las recompensas se utilizan precisamente para especificar el objetivo del agente, dentro de la interacción de estado-acción (prueba-error). Así pues, debemos codificar la recompensa como conseguir nuestro objetivo. 

En nuestro laberinto recompenzaremos al agente dando un valor de 10 por alcanzar la posición del objetivo (la casilla de más a la izquierda) y no recompenzaremos al agente en ninguna orta casilla. De tal forma que el ambiente se debe codificar como se muestra a continuación

![ambiente2.png](attachment:3f179dd9-1eee-453f-bb68-412ba158cd90.png)

**Task 6**. Codifique nuevamente el ambiente, definiendo, para cada casilla del laberinto, la recompensa correspondiente.


In [None]:
from typing import List
import random

class Environment:
    

 **Task 7**. Una vez codificada la recompensa, asegurese que el agente retorna la recompensa de la casilla a la cual llega el agente una vez ejecutada la acación 
 
 **Task 8**. Ahora, en el agente asegurese de acumular la recompensa del agente hasta el momento (después de ejecutar cada uno de los pasos). Note que ahora debemos asegurarnos que el agente no se salga de los límites del tablero (es posible que deba definir nuevos métodos en el ambiente).

In [None]:
import random

class Agent:
    

Finalmente ejecutaremos nuevamente el agente, para observar lo sucedido (**Task 5**)

In [None]:
def main():
    episodes = 10
    a =  Agent()
    e =  Environment()
    for i in range(0, episodes):
        print(f"Episode {i+1}")
        while not e.is_done():
            if a.action(e):
                break
        print(f"Reward: {a.reward}")
        e.reset()
        a.reset()
        
main()

![tip.png](attachment:e22e0895-78b1-4757-87d9-7605d5ef79ef.png)
Observe que al utilizar la recompensa, el problema de alcanzar el objetivo se puede ver como un problema de maximización. Maximizar la recompensa obtenida

Observe que con el uso de las recompensas ahora podemos ubicar al agente en cualquier posición del laberinto, al igual que la casilla objetivo (cambiando la recompensa a la casilla respectiva).

**Task 9**. Modifique el ambiente y el agente para poder codificar un agente que se encuentra en cualquier posición del laberinto, y busca el objetivo (también en cualquier posición del laberinto). Para hacer esto debe agregar una nueva acción al agente para no moverse. Es posible también que deba modificar el sistema de recompensas ¿cuáles deberían ser las nuevas recompensas?


## Conclusión

Con esto terminamos la implementación de nuestro primer agente de aprendizaje por refuerzo. Sin embargo, note que el comportamiento del agente no varía al ejecutar una mayor cantidad de episodios. Esto sucede puesto que no estamos transfiriendo ningún conocimiento entre las ejecuciones de los episodios. Aunque nuestro agente tiene todos los componentes de los agentes del aprendizaje por refuerzo, para realmente aprender nos hace falta un componente, la memoria.

En las siguientes implementaciones de nuestro agente de arendizaje por refuerzo refinaremos el comportamiento hasta llegar a agentes que son capaces de aprender, incluso en situaciones desconocidas.