# Introducción al Aprendizaje por Refuerzos

* Introducción. Modelo Agente Entorno. Agente Situado. Arquitectura Actor-Crítico.
* Aprendizaje por Refuerzos. Elementos. Ciclo del Aprendizaje por Refuerzos. Definición Formal.
* Procesos de Decisión de Markov. Función de Valor. Ecuación de Bellman. Optimalidad.
* Aproximaciones al Aprendizaje. Model Free y Model Based.
    * Iteración de Política.
    * Iteración de Valor.
* Ejercicios.

## 5to año - Ingeniería en Sistemas de Información

### Facultad Regional Villa María

## Introducción: Entidad Inteligente -> Agente Situado
* El desarrollo de la inteligencia requiere que la entidad o el agente esté situada/o en un entorno **(Measuring universal intelligence: Towards an anytime intelligence test, Hernandez-Orallo & Dowe, Artificial Intelligence, 2010).**
![](images/Situated Agent.png)


## Agent-Environment Framework
* El agente y su entorno interactúan a través de la ejecución de acciones, observación de estados y señales rewards. La inteligencia tendrá efecto sólo si el agente tiene claramente definidos objetivos o metas que persigue activamente mientras ocurre la interacción.
![](images/AE Interaction.png)

## Arquitectura Actor-Crítico
![](images/RL Diagram.png)

## Aprendizaje por Refuerzos

* La toma de decisiones secuencial involucra aprender sobre nuestro entorno y elegir acciones que maximizan el retorno esperado. El RL computacional, inspirado por estas ideas, las formalizo y produjo un impacto importante en robótica, machine learning y neurociencias.

* El Aprendizaje por Refuerzos (RL) consiste en un agente que se encuentra en algún estado $s \in S$ inmerso en un entorno $E$ y toma acciones $a \in A$ en busca de una meta. El agente puede ser modelado formalmente como una función f, que toma un  historial de interacción como entrada, y devuelve una acción a tomar. Una manera conveniente para representar el agente es una medida de probabilidad sobre el set A de acciones, en base a un historial de interacción: $$ f(a_{n}|s_{1}a_{1} r_{2} s_{2}a_{2}...r_{n}s_{n}) $$ que representa la probabilidad de la acción a en el ciclo n dado un historial de interacción.

* Problema RL: ¿Cómo el agente produce la distribución de probabilidad sobre las acciones?

* Dilema de exploración - explotación: debido a que el Agente no recibe ejemplos de entrenamiento, debe probar alternativas, procesar los resultados de sus acciones y modificar su comportamiento en algún sentido. ¿Cuándo explotar este conocimiento vs. cuándo probar nuevas estrategias?

## Elementos del Aprendizaje por Refuerzos
![](images/RL Elements.png)

* **Policy (Política): **

Una política define la manera de comportarse de un agente, en cualquier momento de tiempo dado. Basicamente, es un mapeo de un estado o percepción s a una acción a, pudiendo ser estocásticas.

* **Reward Function (Función de Recompensa)**

Define cuantitativamente el objetivo del agente. Es un mapeo de un par estado-acción a un número real que indica "cuán deseable" es ejecutar dicha acción en ese estado. Asimismo, el único objetivo del agente es maximizar la recompensa total que recibe a lo large del tiempo. Cabe mencionar que, si bien la función de reward no puede ser alterada por el agente, provee las bases para cambiar la política del mismo.

* **Value function (Función de Valor)**

La función de valor se diferencia de la función de reward en el sentido de que indica "cuán deseable" es, a largo plazo, ejecutar una acción en un determinado estado. Así, el valor de un estado s es la cantidad total de reward que el agente espera obtener a futuro comenzando la interacción en el estado s.

* **Environment (Entorno)**

El entorno se encuentra constitutido por todo aquel elemento (real o simulado) que el agente no puede controlar. Es con quién el agente interactúa a partir de la ejecución de acciones de control.

## Ciclo del Aprendizaje por Refuerzos
![](images/RL Cycle.png)




### Definición formal

* Si el problema de RL dado tiene un conjunto finito de estados y acciones y satisface la propiedad de Markov entonces puede definirse como un Proceso de Decisión de Markov

\begin{equation}
MDPFinito = (S, A, P(.), R(.), γ)
\end{equation}

donde

$$ S = {s_{1}, s_{2}, ..., s_{n}} $$
es un conjunto finito de estados.
$$ A = {a_{1}, a_{2}, ..., a_{m}} $$
es un conjunto finito de acciones.
$$ P_{a}(s,s') = P(s_{t+1} = s | s_{t} = s, a_{t} = a) $$ 
es la probabilidad de que la acción a tomada en tiempo t y en estado s lleve al agente al estado s' en tiempo t+1
$$ R_{a}(s,s') $$
es la recompensa inmediata recibido tras transicionar, luego de tomar la acción a, desde el estado s al estado s'
$$\gamma \in  [0,1]$$ 
es el factor de descuento, representando la diferencia en la importancia de la recompensa a corto plazo vs la recompensa a largo plazo.


![](images/mdp_example.png)

* Un episodio (instancia) de este MDP forma una secuencia finita 
$$s_{0}, a_{0}, r_{1}, s_{1}, a_{1}, r_{2}, s_{2}, ... , s_{n-1}, a_{n-1}, r_{n}, s_{n} $$ 
donde $$s_{n}$$
es un estado final (o n es el tiempo de corte).

* La recompensa total del episodio está dado por 
$$ R = r_{1} + r_{2} + ... + r_{n} $$

* En consecuencia, la recompensa a futuro partiendo del tiempo $t$ está dado por 
$$R_{t} = r_{t} + r_{t+1} + ... $$

* Hay que considerar que el ambiente es estocástico en la mayor parte de los entornos reales y, por tanto, la recompensa suele diverger mientras más alejado se encuentre el instante de tiempo considerado. Es por esto que se utiliza un parámetro $γ$ llamado _factor de descuento_, para descontar el valor de las recompensas futuras. De esta manera,

\begin{equation} R_{t} = r_{t} + γr_{t+1} + γ^2r_{t+2} + γ^3r_{t+3} + ... = r_{t} + γ(r_{t+1} + γr_{t+2} + γ^2r_{t+3} ...) = r_{t} + γR_{t+1} \end{equation}

* Si utilizamos $γ=0$, el agente priorizará sólo la recompensa inmediata, mientras que $\gamma=1$ hará que considere todas los recompensas de la misma manera, independientemente del momento en donde las reciba.
![](images/RL Problem Statement.png)
![](images/Policy Definition.png)





## Procesos de Decisión de Markov

### Función de Valor

* El valor de un estado es el retorno esperado por el agente, comenzando la interacción en dicho estado, dependiendo de la política ejecutada por el agente.

![](images/Funcion de Estado Valor.png)

* El valor de la ejecución de una acción en un estado es el retorno esperado por el agente, comenzando la interacción en dicho estado a partir de la ejecución de dicha acción, dependiendo de la política ejecutada por el agente.

![](images/Funcion de Accion Valor.png)

Una propiedad fundamental de las funciones de valor es que satisfacen ciertas propiedades recursivas. Para cualquier política  π y cualquier estado s, V(s) y Q(s,a) pueden ser definidas recursivamente en términos de la denominada *Ecuación de Bellman* ** (Bellman, 1957) **

### Ecuación de Bellman

* La idea básica es:

![](images/Retorno.png)

* Entonces,

![](images/Retorno - Valor.png)

* O, sin el operador de valor esperado:

![](images/Bellman Equation.png)

La ecuación anterior refleja el hecho de que el valor de un estado se encuentra definido en términos de la recompensa inmediata y los valores de los estados siguientes ponderados en función de las probabilidades de transición, y adicionalmente un factor de descuento.

### Ecuación de Optimalidad de Bellman

La Ecuación de Optimalidad de Bellman refleja el hecho de que el Valor de un estado bajo la política óptima debe ser igual al retorno esperado para la mejor acción en dicho estado:

![](images/Ecuacion de Optimalidad Valor.png)

Al mismo tiempo, la acción óptima para un estado s dada la función de valor, puede obtenerse mediante:

![](images/Accion Optima.png)

La política anterior se denomina **Política Greedy**, dado que selecciona la mejor acción para cada estado, teniendo en cuenta la función de valor V(s). De manera análoga, la función de acción-valor óptima puede expresarse como:

![](images/Accion Valor Optima.png)

## Aproximaciones para el aprendizaje de V y Q

![](images/Aproximaciones al aprendizaje.png)

### Model Based vs. Model Free

* Model-free aprende Q/V directamente y presenta muy baja complejidad computacional.

* Model-based aprende T y R y usa un algoritmo de planning para encontrar la política. Uso eficiente de los datos/experiencia. Alto costo computacional.

### Programación Dinámica: Iteración de Valor e Iteración de Política (Model Based)

#### Iteración de Valor

![](images/Iteracion de Valor.png)

#### Iteración de Política

![](images/Iteracion de Politica.png)

## Ejercicios

Fecha de entrega: **07/06/2017**

Nota: la resolución de los ejercicios es individual; en el caso de que dos ejercicios enviados contengan un código igual o muy similar (sin considerar los comentarios), se los considerará a ambos como desaprobados. La reutilización del código de los notebooks está permitida (por ejemplo para confeccionar gráficos).

1. Un entorno denominado **"gridworld"** consiste en un agente que se mueve en una grilla formada por un conjunto de celdas, cada una de las cuales se corresponde con un estado. En cada una de las celdas, el agente puede ejecutar una entre cuatro acciones posibles: norte, sur, este y oeste, las que producen el efecto de mover el agente hacia la celda adyacente de acuerdo a la acción ejecutada (de manera determinística). Aquella acción que lleva al agente fuera de la grilla, tiene el efecto de mantener al mismo en la misma celda, pero producen una recompensa de -1. Las demás acciones producen una recompensa de 0, excepto aquellas que mueven al agente fuera de los estados especiales denominados A y B. Desde el estado A, las cuatro acciones producen una recompensa de 10, y el efecto es que el esado siguiente siempre es A'. Lo mismo ocurre con el estado B, excepto que la recompensa es 5 y el estado siguiente es B' (Ver figura inferior a)).

![](images/Gridworld.png)

La parte b) de la figura, muestra la función de valor calculada para un agente que actúa de manera aleatoria, es decir, aquel que siempre elige las acciones de manera equiprobable, obtenidas a partir de la aplicación de la siguiente implementación de Iteración de Valor:

In [7]:
from __future__ import print_function
from python_utils.import_ import import_global
import numpy as np

# Límites de la grilla y posiciones especiales
WORLD_SIZE = 5
A_POS = [0, 1]
A_PRIME_POS = [4, 1]
B_POS = [0, 3]
B_PRIME_POS = [2, 3]
discount = 0.9

world = np.zeros((WORLD_SIZE, WORLD_SIZE))

# acciones left, up, right, down
actions = ['L', 'U', 'R', 'D']

# se agrega en actionProb la probabilidad de las acciones para la política
actionProb = []
for i in range(0, WORLD_SIZE):
    actionProb.append([])
    for j in range(0, WORLD_SIZE):
        actionProb[i].append(dict({'L':0.25, 'U':0.25, 'R':0.25, 'D':0.25}))

# se setea la función de transición y la función de reward        
nextState = []
actionReward = []
for i in range(0, WORLD_SIZE):
    nextState.append([])
    actionReward.append([])
    for j in range(0, WORLD_SIZE):
        next = dict()
        reward = dict()
        if i == 0:
            next['U'] = [i, j]
            reward['U'] = -1.0
        else:
            next['U'] = [i - 1, j]
            reward['U'] = 0.0

        if i == WORLD_SIZE - 1:
            next['D'] = [i, j]
            reward['D'] = -1.0
        else:
            next['D'] = [i + 1, j]
            reward['D'] = 0.0

        if j == 0:
            next['L'] = [i, j]
            reward['L'] = -1.0
        else:
            next['L'] = [i, j - 1]
            reward['L'] = 0.0

        if j == WORLD_SIZE - 1:
            next['R'] = [i, j]
            reward['R'] = -1.0
        else:
            next['R'] = [i, j + 1]
            reward['R'] = 0.0

        if [i, j] == A_POS:
            next['L'] = next['R'] = next['D'] = next['U'] = A_PRIME_POS
            reward['L'] = reward['R'] = reward['D'] = reward['U'] = 10.0

        if [i, j] == B_POS:
            next['L'] = next['R'] = next['D'] = next['U'] = B_PRIME_POS
            reward['L'] = reward['R'] = reward['D'] = reward['U'] = 5.0

        nextState[i].append(next)
        actionReward[i].append(reward)

#Iteración de Valor
while True:
    # Se itera hasta lograr la convergencia
    newWorld = np.zeros((WORLD_SIZE, WORLD_SIZE))
    print(newWorld)
    for i in range(0, WORLD_SIZE):
        for j in range(0, WORLD_SIZE):
            for action in actions:
                newPosition = nextState[i][j][action]
                # Actualización basada en Bellman
                newWorld[i, j] += actionProb[i][j][action] * (actionReward[i][j][action] + discount * world[newPosition[0], newPosition[1]])
                print('Accion:', action)
                print('nw:', newWorld[i, j], 'ap:', actionProb[i][j][action], 'ar:', actionReward[i][j][action], 'd:', discount, 'w:', world[newPosition[0], newPosition[1]])
            print(newWorld)
    if np.sum(np.abs(world - newWorld)) < 1e-4:
        print('Política Aleatoria')
        print(newWorld)
        break
    world = newWorld

[[ 0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.]]
Accion: L
nw: -0.25 ap: 0.25 ar: -1.0 d: 0.9 w: 0.0
Accion: U
nw: -0.5 ap: 0.25 ar: -1.0 d: 0.9 w: 0.0
Accion: R
nw: -0.5 ap: 0.25 ar: 0.0 d: 0.9 w: 0.0
Accion: D
nw: -0.5 ap: 0.25 ar: 0.0 d: 0.9 w: 0.0
[[-0.5  0.   0.   0.   0. ]
 [ 0.   0.   0.   0.   0. ]
 [ 0.   0.   0.   0.   0. ]
 [ 0.   0.   0.   0.   0. ]
 [ 0.   0.   0.   0.   0. ]]
Accion: L
nw: 2.5 ap: 0.25 ar: 10.0 d: 0.9 w: 0.0
Accion: U
nw: 5.0 ap: 0.25 ar: 10.0 d: 0.9 w: 0.0
Accion: R
nw: 7.5 ap: 0.25 ar: 10.0 d: 0.9 w: 0.0
Accion: D
nw: 10.0 ap: 0.25 ar: 10.0 d: 0.9 w: 0.0
[[ -0.5  10.    0.    0.    0. ]
 [  0.    0.    0.    0.    0. ]
 [  0.    0.    0.    0.    0. ]
 [  0.    0.    0.    0.    0. ]
 [  0.    0.    0.    0.    0. ]]
Accion: L
nw: 0.0 ap: 0.25 ar: 0.0 d: 0.9 w: 0.0
Accion: U
nw: -0.25 ap: 0.25 ar: -1.0 d: 0.9 w: 0.0
Accion: R
nw: -0.25 ap: 0.25 ar: 0.0 d: 0.9 w: 0.0
Accion: D
nw: -0.25 a

nw: 0.0 ap: 0.25 ar: 0.0 d: 0.9 w: 0.0
Accion: R
nw: 0.0 ap: 0.25 ar: 0.0 d: 0.9 w: 0.0
Accion: D
nw: -0.05625 ap: 0.25 ar: 0.0 d: 0.9 w: -0.25
[[ 1.46875  9.775    3.06875  5.       0.34375]
 [-0.475    2.19375 -0.05625  1.06875 -0.475  ]
 [-0.41875 -0.05625  0.      -0.05625 -0.41875]
 [-0.475   -0.1125  -0.05625  0.       0.     ]
 [ 0.       0.       0.       0.       0.     ]]
Accion: L
nw: 0.0 ap: 0.25 ar: 0.0 d: 0.9 w: 0.0
Accion: U
nw: 0.0 ap: 0.25 ar: 0.0 d: 0.9 w: 0.0
Accion: R
nw: -0.05625 ap: 0.25 ar: 0.0 d: 0.9 w: -0.25
Accion: D
nw: -0.1125 ap: 0.25 ar: 0.0 d: 0.9 w: -0.25
[[ 1.46875  9.775    3.06875  5.       0.34375]
 [-0.475    2.19375 -0.05625  1.06875 -0.475  ]
 [-0.41875 -0.05625  0.      -0.05625 -0.41875]
 [-0.475   -0.1125  -0.05625 -0.1125   0.     ]
 [ 0.       0.       0.       0.       0.     ]]
Accion: L
nw: 0.0 ap: 0.25 ar: 0.0 d: 0.9 w: 0.0
Accion: U
nw: -0.05625 ap: 0.25 ar: 0.0 d: 0.9 w: -0.25
Accion: R
nw: -0.3625 ap: 0.25 ar: -1.0 d: 0.9 w: -0.25
Acci

nw: -0.11953125 ap: 0.25 ar: 0.0 d: 0.9 w: -0.05625
Accion: R
nw: -0.22640625 ap: 0.25 ar: 0.0 d: 0.9 w: -0.475
Accion: D
nw: -0.570625 ap: 0.25 ar: -1.0 d: 0.9 w: -0.41875
[[ 2.2534375   9.5725      3.7521875   4.949375    0.6728125 ]
 [ 0.37296875  2.0671875   1.42453125  0.9928125  -0.13328125]
 [-0.570625    0.3740625  -0.050625    0.1209375  -0.570625  ]
 [-0.66484375 -0.2390625  -0.14484375 -0.2390625  -0.66484375]
 [-1.090625   -0.66484375 -0.570625    0.          0.        ]]
Accion: L
nw: -0.09421875 ap: 0.25 ar: 0.0 d: 0.9 w: -0.41875
Accion: U
nw: -0.11953125 ap: 0.25 ar: 0.0 d: 0.9 w: -0.1125
Accion: R
nw: -0.30796875 ap: 0.25 ar: 0.0 d: 0.9 w: -0.8375
Accion: D
nw: -0.66484375 ap: 0.25 ar: -1.0 d: 0.9 w: -0.475
[[ 2.2534375   9.5725      3.7521875   4.949375    0.6728125 ]
 [ 0.37296875  2.0671875   1.42453125  0.9928125  -0.13328125]
 [-0.570625    0.3740625  -0.050625    0.1209375  -0.570625  ]
 [-0.66484375 -0.2390625  -0.14484375 -0.2390625  -0.66484375]
 [-1.090625   

nw: 2.08250006836 ap: 0.25 ar: 0.0 d: 0.9 w: 9.25555585938
Accion: U
nw: 2.79958480713 ap: 0.25 ar: -1.0 d: 0.9 w: 4.29815439453
Accion: R
nw: 3.93062183838 ap: 0.25 ar: 0.0 d: 0.9 w: 5.02683125
Accion: D
nw: 4.36879406738 ap: 0.25 ar: 0.0 d: 0.9 w: 1.94743212891
[[ 3.168183    9.15233544  4.36879407  0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]]
Accion: L
nw: 1.30038907959 ap: 0.25 ar: 5.0 d: 0.9 w: 0.223951464844
Accion: U
nw: 2.60077815918 ap: 0.25 ar: 5.0 d: 0.9 w: 0.223951464844
Accion: R
nw: 3.90116723877 ap: 0.25 ar: 5.0 d: 0.9 w: 0.223951464844
Accion: D
nw: 5.20155631836 ap: 0.25 ar: 5.0 d: 0.9 w: 0.223951464844
[[ 3.168183    9.15233544  4.36879407  5.20155632  0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.         

nw: -0.24185150354 ap: 0.25 ar: 0.0 d: 0.9 w: -1.07489557129
Accion: U
nw: -0.467419841675 ap: 0.25 ar: 0.0 d: 0.9 w: -1.00252594727
Accion: R
nw: -1.07162239313 ap: 0.25 ar: -1.0 d: 0.9 w: -1.57423356201
Accion: D
nw: -1.67582494458 ap: 0.25 ar: -1.0 d: 0.9 w: -1.57423356201
[[ 3.25316685  9.04620294  4.40885325  5.1757368   1.23077835]
 [ 1.34316216  2.89297587  2.12981223  1.71160125  0.31542319]
 [-0.1051399   0.66645949  0.5450731   0.29438931 -0.49261639]
 [-0.91702591 -0.39097757 -0.24325955 -0.48783811 -1.0349301 ]
 [-1.64778532 -1.11738189 -0.9991513  -1.14366113 -1.67582494]]
[[ 0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.]]
Accion: L
nw: 0.481962541107 ap: 0.25 ar: -1.0 d: 0.9 w: 3.25316684937
Accion: U
nw: 0.963925082214 ap: 0.25 ar: -1.0 d: 0.9 w: 3.25316684937
Accion: R
nw: 2.9993207426 ap: 0.25 ar: 0.0 d: 0.9 w: 9.04620293506
Accion: D
nw: 3.30153222956 ap: 0.25 ar: 0.0 d: 0.9 w: 1.34316216425
[[ 3.3015322

nw: -0.0674777532654 ap: 0.25 ar: 0.0 d: 0.9 w: -0.299901125624
Accion: U
nw: -0.00286912377445 ap: 0.25 ar: 0.0 d: 0.9 w: 0.287149464404
Accion: R
nw: -0.245986606934 ap: 0.25 ar: 0.0 d: 0.9 w: -1.08052214737
Accion: D
nw: -0.520251928519 ap: 0.25 ar: 0.0 d: 0.9 w: -1.21895698482
[[  3.32699302e+00   8.93355254e+00   4.43699888e+00   5.25843452e+00
    1.34856396e+00]
 [  1.47168092e+00   2.97413804e+00   2.20714338e+00   1.81685926e+00
    4.21848738e-01]
 [ -9.60930696e-04   7.23845117e-01   6.29965395e-01   3.34451857e-01
   -4.47481576e-01]
 [ -9.31367121e-01  -3.96363852e-01  -2.78732788e-01  -5.20251929e-01
    0.00000000e+00]
 [  0.00000000e+00   0.00000000e+00   0.00000000e+00   0.00000000e+00
    0.00000000e+00]]
Accion: L
nw: -0.107702736735 ap: 0.25 ar: 0.0 d: 0.9 w: -0.478678829933
Accion: U
nw: -0.210413019972 ap: 0.25 ar: 0.0 d: 0.9 w: -0.45649014772
Accion: R
nw: -0.703530503131 ap: 0.25 ar: -1.0 d: 0.9 w: -1.08052214737
Accion: D
nw: -1.09599895956 ap: 0.25 ar: 0.0 d: 

nw: -1.20892719194 ap: 0.25 ar: -1.0 d: 0.9 w: -1.84070463393
Accion: D
nw: -1.87308573458 ap: 0.25 ar: -1.0 d: 0.9 w: -1.84070463393
[[ 3.34358628  8.87490074  4.44450519  5.29951596  1.41864127]
 [ 1.52116858  3.00274277  2.24115995  1.86936668  0.48443994]
 [ 0.04551436  0.74796614  0.66648894  0.35498079 -0.420489  ]
 [-0.93765198 -0.40045233 -0.30202772 -0.53968218 -1.12858131]
 [-1.78808627 -1.26569336 -1.14466242 -1.32410652 -1.87308573]]
[[ 0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.]]
Accion: L
nw: 0.502306911923 ap: 0.25 ar: -1.0 d: 0.9 w: 3.34358627521
Accion: U
nw: 1.00461382385 ap: 0.25 ar: -1.0 d: 0.9 w: 3.34358627521
Accion: R
nw: 3.00146649044 ap: 0.25 ar: 0.0 d: 0.9 w: 8.8749007404
Accion: D
nw: 3.34372942128 ap: 0.25 ar: 0.0 d: 0.9 w: 1.52116858153
[[ 3.34372942  0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0. 

Accion: U
nw: 0.062067136953 ap: 0.25 ar: 0.0 d: 0.9 w: 0.681147924124
Accion: R
nw: -0.0621843161026 ap: 0.25 ar: 0.0 d: 0.9 w: -0.552228680247
Accion: D
nw: -0.32652466175 ap: 0.25 ar: 0.0 d: 0.9 w: -1.17484598066
[[ 3.34006113  8.83564916  4.44445215  5.32812656  1.46987262]
 [ 1.53989763  3.01348858  2.25756656  1.90322673  0.53016376]
 [ 0.06825618  0.75385386  0.68834814  0.36419114 -0.40042048]
 [-0.94663834 -0.40442705 -0.32652466  0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]]
Accion: L
nw: -0.0713356529031 ap: 0.25 ar: 0.0 d: 0.9 w: -0.317047346236
Accion: U
nw: 0.010695987538 ap: 0.25 ar: 0.0 d: 0.9 w: 0.364585068627
Accion: R
nw: -0.247333538716 ap: 0.25 ar: 0.0 d: 0.9 w: -1.14679789446
Accion: D
nw: -0.553733799175 ap: 0.25 ar: 0.0 d: 0.9 w: -1.36177893537
[[ 3.34006113  8.83564916  4.44445215  5.32812656  1.46987262]
 [ 1.53989763  3.01348858  2.25756656  1.90322673  0.53016376]
 [ 0.06825618  0.75385386  0.68834814  0.36419114 -0.

nw: -0.56237211214 ap: 0.25 ar: 0.0 d: 0.9 w: -1.3834330252
[[ 3.33459795  8.82119241  4.44348649  5.33157767  1.48563122]
 [ 1.54087277  3.01185502  2.26145851  1.91148126  0.54362015]
 [ 0.06935377  0.75516334  0.68848103  0.36785685 -0.39612557]
 [-0.9507181  -0.41111938 -0.3324278  -0.56237211  0.        ]
 [ 0.          0.          0.          0.          0.        ]]
Accion: L
nw: -0.126141360912 ap: 0.25 ar: 0.0 d: 0.9 w: -0.560628270722
Accion: U
nw: -0.215805600921 ap: 0.25 ar: 0.0 d: 0.9 w: -0.398507733371
Accion: R
nw: -0.726242755936 ap: 0.25 ar: -1.0 d: 0.9 w: -1.15749846673
Accion: D
nw: -1.16171783192 ap: 0.25 ar: 0.0 d: 0.9 w: -1.93544478214
[[ 3.33459795  8.82119241  4.44348649  5.33157767  1.48563122]
 [ 1.54087277  3.01185502  2.26145851  1.91148126  0.54362015]
 [ 0.06935377  0.75516334  0.68848103  0.36785685 -0.39612557]
 [-0.9507181  -0.41111938 -0.3324278  -0.56237211 -1.16171783]
 [ 0.          0.          0.          0.          0.        ]]
Accion: L
nw: -0.6

nw: 2.10729152656 ap: 0.25 ar: 0.0 d: 0.9 w: 1.91483564653
Accion: D
nw: 2.26189039314 ap: 0.25 ar: 0.0 d: 0.9 w: 0.687106073686
[[ 3.32730713  8.80887144  4.44090817  5.33176687  1.49559132]
 [ 1.53768486  3.00759705  2.26189039  0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]]
Accion: L
nw: 0.508954255956 ap: 0.25 ar: 0.0 d: 0.9 w: 2.26201891536
Accion: U
nw: 1.70874348739 ap: 0.25 ar: 0.0 d: 0.9 w: 5.33239658416
Accion: R
nw: 1.83251969173 ap: 0.25 ar: 0.0 d: 0.9 w: 0.550116463736
Accion: D
nw: 1.91546141 ap: 0.25 ar: 0.0 d: 0.9 w: 0.368629858953
[[ 3.32730713  8.80887144  4.44090817  5.33176687  1.49559132]
 [ 1.53768486  3.00759705  2.26189039  1.91546141  0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          

nw: 0.508762837073 ap: 0.25 ar: 0.0 d: 0.9 w: 2.26116816477
Accion: U
nw: 1.70845286466 ap: 0.25 ar: 0.0 d: 0.9 w: 5.33195567819
Accion: R
nw: 1.83284780467 ap: 0.25 ar: 0.0 d: 0.9 w: 0.552866400011
Accion: D
nw: 1.91566682261 ap: 0.25 ar: 0.0 d: 0.9 w: 0.368084524183
[[ 3.32348773  8.80419529  4.43886535  5.33127607  1.49765739]
 [ 1.53494329  3.00500703  2.26060309  1.91566682  0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]]
Accion: L
nw: 0.431038296231 ap: 0.25 ar: 0.0 d: 0.9 w: 1.91572576103
Accion: U
nw: 0.767824505189 ap: 0.25 ar: 0.0 d: 0.9 w: 1.49682759537
Accion: R
nw: 0.642219445192 ap: 0.25 ar: -1.0 d: 0.9 w: 0.552866400011
Accion: D
nw: 0.553445104966 ap: 0.25 ar: 0.0 d: 0.9 w: -0.394552623223
[[ 3.32348773  8.80419529  4.43886535  5.33127607  1.49765739]
 [ 1.53494329  3.00500703  2.26060309  1.91566682  0.5534451 ]
 [ 0.

nw: -0.694512523369 ap: 0.25 ar: 0.0 d: 0.9 w: -1.41080503537
Accion: D
nw: -1.21827037233 ap: 0.25 ar: -1.0 d: 0.9 w: -1.21670155093
[[ 3.32046698  8.80083429  4.43699984  5.3303088   1.49815039]
 [ 1.53246781  3.00270315  2.25911761  1.91508094  0.55368486]
 [ 0.06152743  0.74848233  0.68236745  0.36648005 -0.39566301]
 [-0.96246789 -0.42473189 -0.34458505 -0.57604265 -1.17389327]
 [-1.8461696  -1.33385259 -1.21827037  0.          0.        ]]
Accion: L
nw: -0.273757848958 ap: 0.25 ar: 0.0 d: 0.9 w: -1.21670155093
Accion: U
nw: -0.403090375362 ap: 0.25 ar: 0.0 d: 0.9 w: -0.574811228463
Accion: R
nw: -0.844834028569 ap: 0.25 ar: 0.0 d: 0.9 w: -1.96330512536
Accion: D
nw: -1.41226516153 ap: 0.25 ar: -1.0 d: 0.9 w: -1.41080503537
[[ 3.32046698  8.80083429  4.43699984  5.3303088   1.49815039]
 [ 1.53246781  3.00270315  2.25911761  1.91508094  0.55368486]
 [ 0.06152743  0.74848233  0.68236745  0.36648005 -0.39566301]
 [-0.96246789 -0.42473189 -0.34458505 -0.57604265 -1.17389327]
 [-1.8461

nw: -0.126449322055 ap: 0.25 ar: 0.0 d: 0.9 w: -0.345752428248
Accion: D
nw: -0.426864934753 ap: 0.25 ar: 0.0 d: 0.9 w: -1.33518050088
[[ 3.31809275  8.79833755  4.43536791  5.3292129   1.49788671]
 [ 1.53037335  3.00075161  2.25767947  1.91419091  0.55328222]
 [ 0.05951446  0.74656041  0.68080919  0.36522497 -0.39661734]
 [-0.96469133 -0.42686493  0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]]
Accion: L
nw: -0.0958039238591 ap: 0.25 ar: 0.0 d: 0.9 w: -0.425795217152
Accion: U
nw: 0.0575642574353 ap: 0.25 ar: 0.0 d: 0.9 w: 0.681636361308
Accion: R
nw: -0.0722515790777 ap: 0.25 ar: 0.0 d: 0.9 w: -0.576959273391
Accion: D
nw: -0.346643345721 ap: 0.25 ar: 0.0 d: 0.9 w: -1.21951896286
[[ 3.31809275  8.79833755  4.43536791  5.3292129   1.49788671]
 [ 1.53037335  3.00075161  2.25767947  1.91419091  0.55328222]
 [ 0.05951446  0.74656041  0.68080919  0.36522497 -0.39661734]
 [-0.96469133 -0.42686493 -0.34664335  0.          0.        ]
 [ 0.

nw: 0.688175826727 ap: 0.25 ar: 0.0 d: 0.9 w: 2.99991392749
Accion: R
nw: 0.8412061655 ap: 0.25 ar: 0.0 d: 0.9 w: 0.680134838989
Accion: D
nw: 0.744964929063 ap: 0.25 ar: 0.0 d: 0.9 w: -0.427738828609
[[ 3.31622717  8.79643949  4.43397809  5.32815125  1.49730034]
 [ 1.52865327  2.99913874  2.25638959  1.91323889  0.55261953]
 [ 0.05783708  0.74496493  0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]]
Accion: L
nw: 0.167781897725 ap: 0.25 ar: 0.0 d: 0.9 w: 0.745697323224
Accion: U
nw: 0.67560732886 ap: 0.25 ar: 0.0 d: 0.9 w: 2.25700191615
Accion: R
nw: 0.757645140821 ap: 0.25 ar: 0.0 d: 0.9 w: 0.364612497607
Accion: D
nw: 0.679450166325 ap: 0.25 ar: 0.0 d: 0.9 w: -0.347533219982
[[ 3.31622717  8.79643949  4.43397809  5.32815125  1.49730034]
 [ 1.52865327  2.99913874  2.25638959  1.91323889  0.55261953]
 [ 0.05783708  0.74496493  0.67945017  0.          0.        ]
 [ 0.      

nw: -0.398464459397 ap: 0.25 ar: 0.0 d: 0.9 w: -1.17761677119
[[ 3.31475825  8.79497299  4.43281472  5.32719286  1.49661482]
 [ 1.52726094  2.9978231   2.25527819  1.9123381   0.551892  ]
 [ 0.05646739  0.74365967  0.67829974  0.36307387 -0.39846446]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]]
Accion: L
nw: -0.467626398774 ap: 0.25 ar: -1.0 d: 0.9 w: -0.967228438998
Accion: U
nw: -0.454774150346 ap: 0.25 ar: 0.0 d: 0.9 w: 0.0571211041279
Accion: R
nw: -0.551362431512 ap: 0.25 ar: 0.0 d: 0.9 w: -0.429281249627
Accion: D
nw: -0.967894280094 ap: 0.25 ar: 0.0 d: 0.9 w: -1.85125266036
[[ 3.31475825  8.79497299  4.43281472  5.32719286  1.49661482]
 [ 1.52726094  2.9978231   2.25527819  1.9123381   0.551892  ]
 [ 0.05646739  0.74365967  0.67829974  0.36307387 -0.39846446]
 [-0.96789428  0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]]
Accion: L
nw: 

nw: -0.552201501789 ap: 0.25 ar: 0.0 d: 0.9 w: -0.430508718875
Accion: D
nw: -0.969027541986 ap: 0.25 ar: 0.0 d: 0.9 w: -1.85256017865
[[ 3.31359831  8.79382682  4.43185179  5.32635996  1.49593981]
 [ 1.52614173  2.99675743  2.25434245  1.91153504  0.55119374]
 [ 0.0553604   0.74260026  0.67734226  0.36221519 -0.39924874]
 [-0.96902754  0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]]
Accion: L
nw: -0.217911409339 ap: 0.25 ar: 0.0 d: 0.9 w: -0.968495152616
Accion: U
nw: -0.0507146431616 ap: 0.25 ar: 0.0 d: 0.9 w: 0.743096738565
Accion: R
nw: -0.129486218046 ap: 0.25 ar: 0.0 d: 0.9 w: -0.350095888377
Accion: D
nw: -0.431029513124 ap: 0.25 ar: 0.0 d: 0.9 w: -1.34019242257
[[ 3.31359831  8.79382682  4.43185179  5.32635996  1.49593981]
 [ 1.52614173  2.99675743  2.25434245  1.91153504  0.55119374]
 [ 0.0553604   0.74260026  0.67734226  0.36221519 -0.39924874]
 [-0.96902754 -0.43102951  0.          0.          0.        ]
 [ 0. 

 [-1.8540242   0.          0.          0.          0.        ]]
Accion: L
nw: -0.41705813836 ap: 0.25 ar: 0.0 d: 0.9 w: -1.85359172604
Accion: U
nw: -0.51414293068 ap: 0.25 ar: 0.0 d: 0.9 w: -0.43148796587
Accion: R
nw: -0.789847060848 ap: 0.25 ar: 0.0 d: 0.9 w: -1.22535168964
Accion: D
nw: -1.34161618897 ap: 0.25 ar: -1.0 d: 0.9 w: -1.34119612499
[[ 3.31267955  8.79292349  4.43106064  5.32565224  1.49532433]
 [ 1.52524484  2.99589738  2.25356557  1.91084252  0.55056533]
 [ 0.05447022  0.74174402  0.67655339  0.36149278 -0.3999235 ]
 [-0.96993107 -0.43190285 -0.35140078 -0.58224094 -1.17978318]
 [-1.8540242  -1.34161619  0.          0.          0.        ]]
Accion: L
nw: -0.301769128123 ap: 0.25 ar: 0.0 d: 0.9 w: -1.34119612499
Accion: U
nw: -0.380747101572 ap: 0.25 ar: 0.0 d: 0.9 w: -0.351013215328
Accion: R
nw: -0.700050682866 ap: 0.25 ar: 0.0 d: 0.9 w: -1.41912702797
Accion: D
nw: -1.22575481303 ap: 0.25 ar: -1.0 d: 0.9 w: -1.22535168964
[[ 3.31267955  8.79292349  4.43106064  5.3256

nw: -0.352066190917 ap: 0.25 ar: 0.0 d: 0.9 w: -1.2261131077
[[ 3.31194966  8.79220714  4.43041378  5.32505937  1.49478593]
 [ 1.52452678  2.99520446  2.25292622  1.91025724  0.55001968]
 [ 0.05375592  0.74105343  0.67590745  0.36089135 -0.40049419]
 [-0.97065214 -0.43260253 -0.35206619  0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]]
Accion: L
nw: -0.0791443513514 ap: 0.25 ar: 0.0 d: 0.9 w: -0.351752672673
Accion: U
nw: 0.00212049186102 ap: 0.25 ar: 0.0 d: 0.9 w: 0.361177080944
Accion: R
nw: -0.263402266315 ap: 0.25 ar: 0.0 d: 0.9 w: -1.18010114745
Accion: D
nw: -0.582868838695 ap: 0.25 ar: 0.0 d: 0.9 w: -1.4198514328
[[ 3.31194966  8.79220714  4.43041378  5.32505937  1.49478593]
 [ 1.52452678  2.99520446  2.25292622  1.91025724  0.55001968]
 [ 0.05375592  0.74105343  0.67590745  0.36089135 -0.40049419]
 [-0.97065214 -0.43260253 -0.35206619 -0.58286884  0.        ]
 [ 0.          0.          0.          0.          0.        ]]
Accion: L
nw: -0.

nw: -0.319597475128 ap: 0.25 ar: 0.0 d: 0.9 w: -1.42043322279
Accion: U
nw: -0.585243383754 ap: 0.25 ar: 0.0 d: 0.9 w: -1.18064848278
Accion: R
nw: -1.27910802848 ap: 0.25 ar: -1.0 d: 0.9 w: -1.97273175433
Accion: D
nw: -1.9729726732 ap: 0.25 ar: -1.0 d: 0.9 w: -1.97273175433
[[ 3.31136821  8.79163645  4.42988657  5.32456734  1.49432644]
 [ 1.5239518   2.99464653  2.25240296  1.90976888  0.54955608]
 [ 0.05318308  0.74049692  0.6753806   0.36039422 -0.40097134]
 [-0.97122841 -0.43316385 -0.35260332 -0.58338022 -1.18088372]
 [-1.8553326  -1.34289358 -1.22697941 -1.42068036 -1.97297267]]
[[ 0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.]]
Accion: L
nw: 0.495057846905 ap: 0.25 ar: -1.0 d: 0.9 w: 3.31136820847
Accion: U
nw: 0.99011569381 ap: 0.25 ar: -1.0 d: 0.9 w: 3.31136820847
Accion: R
nw: 2.96823389459 ap: 0.25 ar: 0.0 d: 0.9 w: 8.79163644791
Accion: D
nw: 3.3111230492 ap: 0.25 ar: 0.0 d: 0.9 w: 1.52395179826
[[ 3.31112305

nw: -0.238137203665 ap: 0.25 ar: -1.0 d: 0.9 w: 0.0527235392649
Accion: U
nw: 0.104648275455 ap: 0.25 ar: 0.0 d: 0.9 w: 1.52349101831
Accion: R
nw: 0.271159197406 ap: 0.25 ar: 0.0 d: 0.9 w: 0.740048542005
Accion: D
nw: 0.0525290214877 ap: 0.25 ar: 0.0 d: 0.9 w: -0.971689670749
[[ 3.31070776  8.79098732  4.42927456  5.32398684  1.49377224]
 [ 1.52329603  2.9940066   2.25179366  1.90919045  0.54899879]
 [ 0.05252902  0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]]
Accion: L
nw: 0.0118627963346 ap: 0.25 ar: 0.0 d: 0.9 w: 0.0527235392649
Accion: U
nw: 0.6855571837 ap: 0.25 ar: 0.0 d: 0.9 w: 2.99419727718
Accion: R
nw: 0.83742136996 ap: 0.25 ar: 0.0 d: 0.9 w: 0.674951938933
Accion: D
nw: 0.739858047123 ap: 0.25 ar: 0.0 d: 0.9 w: -0.433614768165
[[ 3.31070776  8.79098732  4.42927456  5.32398684  1.49377224]
 [ 1.52329603  2.9940066   2.25179366  1.90919045  0.5489987

nw: 2.99354372327 ap: 0.25 ar: 0.0 d: 0.9 w: 0.739533665598
[[ 3.31023426  8.79052061  4.42882695  5.32355584  1.49335411]
 [ 1.52282449  2.99354372  0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]]
Accion: L
nw: 0.673578387793 ap: 0.25 ar: 0.0 d: 0.9 w: 2.99368172352
Accion: U
nw: 1.67009457788 ap: 0.25 ar: 0.0 d: 0.9 w: 4.42896084485
Accion: R
nw: 2.09959470619 ap: 0.25 ar: 0.0 d: 0.9 w: 1.90888945913
Accion: D
nw: 2.25134710021 ap: 0.25 ar: 0.0 d: 0.9 w: 0.674455084543
[[ 3.31023426  8.79052061  4.42882695  5.32355584  1.49335411]
 [ 1.52282449  2.99354372  2.2513471   0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]]
Accion: L
nw: 0.506583168006 a

nw: -0.136151337063 ap: 0.25 ar: -1.0 d: 0.9 w: -0.401961770008
Accion: D
nw: -0.402077086743 ap: 0.25 ar: 0.0 d: 0.9 w: -1.1818922208
[[ 3.31010806  8.79039601  4.42870636  5.32343891  1.49323975]
 [ 1.52269865  2.99341981  2.25122668  1.90864322  0.54846464]
 [ 0.05193251  0.73927206  0.67420055  0.35925918 -0.40207709]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]]
Accion: L
nw: -0.468780165713 ap: 0.25 ar: -1.0 d: 0.9 w: -0.972356292059
Accion: U
nw: -0.457067073678 ap: 0.25 ar: 0.0 d: 0.9 w: 0.052058186822
Accion: R
nw: -0.554777700843 ap: 0.25 ar: 0.0 d: 0.9 w: -0.434269454065
Accion: D
nw: -0.972482103057 ap: 0.25 ar: 0.0 d: 0.9 w: -1.85646400984
[[ 3.31010806  8.79039601  4.42870636  5.32343891  1.49323975]
 [ 1.52269865  2.99341981  2.25122668  1.90864322  0.54846464]
 [ 0.05193251  0.73927206  0.67420055  0.35925918 -0.40207709]
 [-0.9724821   0.          0.          0.          0.        ]
 [ 0. 

Accion: U
nw: 1.70420816037 ap: 0.25 ar: 0.0 d: 0.9 w: 5.32323792005
Accion: R
nw: 1.82756823286 ap: 0.25 ar: 0.0 d: 0.9 w: 0.548266988864
Accion: D
nw: 1.90835619678 ap: 0.25 ar: 0.0 d: 0.9 w: 0.359057617394
[[ 3.30980243  8.7900937   4.42841203  5.32315186  1.49295771]
 [ 1.52239365  2.99311872  2.25093263  1.9083562   0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]]
Accion: L
nw: 0.429399509366 ap: 0.25 ar: 0.0 d: 0.9 w: 1.90844226385
Accion: U
nw: 0.765334063503 ap: 0.25 ar: 0.0 d: 0.9 w: 1.49304246283
Accion: R
nw: 0.638694135997 ap: 0.25 ar: -1.0 d: 0.9 w: 0.548266988864
Accion: D
nw: 0.548182114359 ap: 0.25 ar: 0.0 d: 0.9 w: -0.402275651724
[[ 3.30980243  8.7900937   4.42841203  5.32315186  1.49295771]
 [ 1.52239365  2.99311872  2.25093263  1.9083562   0.54818211]
 [ 0.          0.          0.          0.          0.        ]
 [

nw: 0.15161105881 ap: 0.25 ar: 0.0 d: 0.9 w: 0.673826928042
Accion: U
nw: 0.580973730486 ap: 0.25 ar: 0.0 d: 0.9 w: 1.90827854078
Accion: R
nw: 0.490425240398 ap: 0.25 ar: 0.0 d: 0.9 w: -0.402437733722
Accion: D
nw: 0.358823388789 ap: 0.25 ar: 0.0 d: 0.9 w: -0.584897118266
[[ 3.30964743  8.78994008  4.42826148  5.32300419  1.49281192]
 [ 1.52223885  2.99296549  2.25078216  1.90820849  0.54803615]
 [ 0.05147309  0.73881807  0.6737556   0.35882339  0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]]
Accion: L
nw: 0.08075104815 ap: 0.25 ar: 0.0 d: 0.9 w: 0.358893547333
Accion: U
nw: 0.204074767764 ap: 0.25 ar: 0.0 d: 0.9 w: 0.548105420507
Accion: R
nw: -0.136473722324 ap: 0.25 ar: -1.0 d: 0.9 w: -0.402437733722
Accion: D
nw: -0.402507168839 ap: 0.25 ar: 0.0 d: 0.9 w: -1.1823708734
[[ 3.30964743  8.78994008  4.42826148  5.32300419  1.49281192]
 [ 1.52223885  2.99296549  2.25078216  1.90820849  0.54803615

Accion: U
nw: 0.0537251274933 ap: 0.25 ar: 0.0 d: 0.9 w: 0.673691393455
Accion: R
nw: -0.0779068051029 ap: 0.25 ar: 0.0 d: 0.9 w: -0.585030811539
Accion: D
nw: -0.354361777467 ap: 0.25 ar: 0.0 d: 0.9 w: -1.22868876606
[[ 3.30952249  8.78981608  4.42813949  5.32288412  1.49269305]
 [ 1.52211404  2.99284172  2.25066022  1.90808838  0.54791717]
 [ 0.05134834  0.73869436  0.6736336   0.35870312 -0.40262637]
 [-0.97306647 -0.43497163 -0.35436178  0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]]
Accion: L
nw: -0.0797183851397 ap: 0.25 ar: 0.0 d: 0.9 w: -0.354303933954
Accion: U
nw: 0.00100264479127 ap: 0.25 ar: 0.0 d: 0.9 w: 0.358760133027
Accion: R
nw: -0.26506060166 ap: 0.25 ar: 0.0 d: 0.9 w: -1.18250331756
Accion: D
nw: -0.585087917488 ap: 0.25 ar: 0.0 d: 0.9 w: -1.4223436259
[[ 3.30952249  8.78981608  4.42813949  5.32288412  1.49269305]
 [ 1.52211404  2.99284172  2.25066022  1.90808838  0.54791717]
 [ 0.05134834  0.73869436  0.6736336   0.35870312 -

nw: -1.42249867875 ap: 0.25 ar: -1.0 d: 0.9 w: -1.42245229066
[[ 3.3094217   8.78971592  4.42804066  5.32278656  1.49259626]
 [ 1.52201332  2.9927417   2.25056141  1.90799078  0.54782032]
 [ 0.05124766  0.73859437  0.67353476  0.35860543 -0.40272334]
 [-0.97316715 -0.43507164 -0.35446069 -0.58518572 -1.18265709]
 [-1.85727539 -1.34480744 -1.22884562 -1.42249868  0.        ]]
Accion: L
nw: -0.320051765398 ap: 0.25 ar: 0.0 d: 0.9 w: -1.42245229066
Accion: U
nw: -0.586139249131 ap: 0.25 ar: 0.0 d: 0.9 w: -1.18261103881
Accion: R
nw: -1.2804500875 ap: 0.25 ar: -1.0 d: 0.9 w: -1.97471483721
Accion: D
nw: -1.97476092588 ap: 0.25 ar: -1.0 d: 0.9 w: -1.97471483721
[[ 3.3094217   8.78971592  4.42804066  5.32278656  1.49259626]
 [ 1.52201332  2.9927417   2.25056141  1.90799078  0.54782032]
 [ 0.05124766  0.73859437  0.67353476  0.35860543 -0.40272334]
 [-0.97316715 -0.43507164 -0.35446069 -0.58518572 -1.18265709]
 [-1.85727539 -1.34480744 -1.22884562 -1.42249868 -1.97476093]]
[[ 0.  0.  0.  0.  

nw: 0.753192227756 ap: 0.25 ar: 0.0 d: 0.9 w: 0.358526119824
Accion: D
nw: 0.67342054911 ap: 0.25 ar: 0.0 d: 0.9 w: -0.354540793982
[[ 3.30930572  8.78960053  4.42792646  5.32267351  1.4924839 ]
 [ 1.5218974   2.99262642  2.25044722  1.90787768  0.5477079 ]
 [ 0.05113178  0.73847912  0.67342055  0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]]
Accion: L
nw: 0.151527304677 ap: 0.25 ar: 0.0 d: 0.9 w: 0.673454687453
Accion: U
nw: 0.580807397517 ap: 0.25 ar: 0.0 d: 0.9 w: 1.90791152373
Accion: R
nw: 0.490176907766 ap: 0.25 ar: 0.0 d: 0.9 w: -0.402802176669
Accion: D
nw: 0.358492261518 ap: 0.25 ar: 0.0 d: 0.9 w: -0.585265094436
[[ 3.30930572  8.78960053  4.42792646  5.32267351  1.4924839 ]
 [ 1.5218974   2.99262642  2.25044722  1.90787768  0.5477079 ]
 [ 0.05113178  0.73847912  0.67342055  0.35849226  0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          

nw: -0.585356965912 ap: 0.25 ar: 0.0 d: 0.9 w: -1.42264251237
[[ 3.30924664  8.78954168  4.42786808  5.32261559  1.49242624]
 [ 1.52183833  2.99256761  2.25038885  1.90781974  0.54765023]
 [ 0.05107273  0.73842032  0.67336217  0.3584343  -0.40289357]
 [-0.97334208 -0.4352457  -0.35463334 -0.58535697  0.        ]
 [ 0.          0.          0.          0.          0.        ]]
Accion: L
nw: -0.131699134458 ap: 0.25 ar: 0.0 d: 0.9 w: -0.58532948648
Accion: U
nw: -0.222344033412 ap: 0.25 ar: 0.0 d: 0.9 w: -0.402866217573
Accion: R
nw: -0.738474053405 ap: 0.25 ar: -1.0 d: 0.9 w: -1.18280008886
Accion: D
nw: -1.18282745657 ap: 0.25 ar: 0.0 d: 0.9 w: -1.97490401405
[[ 3.30924664  8.78954168  4.42786808  5.32261559  1.49242624]
 [ 1.52183833  2.99256761  2.25038885  1.90781974  0.54765023]
 [ 0.05107273  0.73842032  0.67336217  0.3584343  -0.40289357]
 [-0.97334208 -0.4352457  -0.35463334 -0.58535697 -1.18282746]
 [ 0.          0.          0.          0.          0.        ]]
Accion: L
nw: -0.

nw: 0.342402883068 ap: 0.25 ar: 0.0 d: 0.9 w: 1.52179059141
Accion: U
nw: 2.32003905263 ap: 0.25 ar: 0.0 d: 0.9 w: 8.78949408692
Accion: R
nw: 2.82636590446 ap: 0.25 ar: 0.0 d: 0.9 w: 2.2503415637
Accion: D
nw: 2.99249977515 ap: 0.25 ar: 0.0 d: 0.9 w: 0.738372758605
[[ 3.30917855  8.78947381  4.42780064  5.32254856  1.49235945]
 [ 1.52177026  2.99249978  0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]]
Accion: L
nw: 0.673317009045 ap: 0.25 ar: 0.0 d: 0.9 w: 2.9925200402
Accion: U
nw: 1.6695766883 ap: 0.25 ar: 0.0 d: 0.9 w: 4.42782079669
Accion: R
nw: 2.09882555627 ap: 0.25 ar: 0.0 d: 0.9 w: 1.90777274655
Accion: D
nw: 2.25032140405 ap: 0.25 ar: 0.0 d: 0.9 w: 0.673314878982
[[ 3.30917855  8.78947381  4.42780064  5.32254856  1.49235945]
 [ 1.52177026  2.99249978  2.2503214   0.          0.        ]
 [ 0.          

nw: 0.673260241894 ap: 0.25 ar: 0.0 d: 0.9 w: -0.354718948052
[[ 3.30914382  8.78943917  4.42776616  5.32251425  1.49232523]
 [ 1.52173554  2.99246515  2.25028693  1.90771837  0.54754919]
 [ 0.05096995  0.73831787  0.67326024  0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]]
Accion: L
nw: 0.151487228867 ap: 0.25 ar: 0.0 d: 0.9 w: 0.67327657274
Accion: U
nw: 0.580727521523 ap: 0.25 ar: 0.0 d: 0.9 w: 1.90773463403
Accion: R
nw: 0.490057376536 ap: 0.25 ar: 0.0 d: 0.9 w: -0.402978422165
Accion: D
nw: 0.358332897876 ap: 0.25 ar: 0.0 d: 0.9 w: -0.585442127378
[[ 3.30914382  8.78943917  4.42776616  5.32251425  1.49232523]
 [ 1.52173554  2.99246515  2.25028693  1.90771837  0.54754919]
 [ 0.05096995  0.73831787  0.67326024  0.3583329   0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]]
Accion: L
nw: 0.080628

nw: -0.0979566533795 ap: 0.25 ar: 0.0 d: 0.9 w: -0.435362903909
Accion: U
nw: 0.0535235940268 ap: 0.25 ar: 0.0 d: 0.9 w: 0.673245544028
Accion: R
nw: -0.078207839793 ap: 0.25 ar: 0.0 d: 0.9 w: -0.585473039199
Accion: D
nw: -0.354763208322 ap: 0.25 ar: 0.0 d: 0.9 w: -1.22913497124
[[ 3.30911573  8.78941114  4.42773824  5.32248643  1.49229747]
 [ 1.52170745  2.99243712  2.250259    1.90769055  0.54752143]
 [ 0.05094187  0.73828984  0.67323232  0.35830507 -0.40302241]
 [-0.97347293 -0.43537618 -0.35476321  0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]]
Accion: L
nw: -0.0798187453473 ap: 0.25 ar: 0.0 d: 0.9 w: -0.354749979321
Accion: U
nw: 0.000802862037482 ap: 0.25 ar: 0.0 d: 0.9 w: 0.358318255043
Accion: R
nw: -0.26535935334 ap: 0.25 ar: 0.0 d: 0.9 w: -1.18294317946
Accion: D
nw: -0.58548622437 ap: 0.25 ar: 0.0 d: 0.9 w: -1.42278609347
[[ 3.30911573  8.78941114  4.42773824  5.32248643  1.49229747]
 [ 1.52170745  2.99243712  2.250259    1.90769055 

nw: 1.19755437361 ap: 0.25 ar: 0.0 d: 0.9 w: 5.3224638827
Accion: U
nw: 1.28331624147 ap: 0.25 ar: -1.0 d: 0.9 w: 1.49227496829
Accion: R
nw: 1.36907810934 ap: 0.25 ar: -1.0 d: 0.9 w: 1.49227496829
Accion: D
nw: 1.49226536655 ap: 0.25 ar: 0.0 d: 0.9 w: 0.547498920967
[[ 3.30908331  8.78937877  4.42770597  5.32245427  1.49226537]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]]
Accion: L
nw: 0.0923790625035 ap: 0.25 ar: -1.0 d: 0.9 w: 1.52168472224
Accion: U
nw: 0.83692498611 ap: 0.25 ar: 0.0 d: 0.9 w: 3.30909299381
Accion: R
nw: 1.51021823237 ap: 0.25 ar: 0.0 d: 0.9 w: 2.99241442782
Accion: D
nw: 1.52167503872 ap: 0.25 ar: 0.0 d: 0.9 w: 0.0509191393345
[[ 3.30908331  8.78937877  4.42770597  5.32245427  1.49226537]
 [ 1.52167504  0.          0.          0.          0.        ]
 [ 0.    

nw: 1.90764193138 ap: 0.25 ar: 0.0 d: 0.9 w: 0.358264239649
[[ 3.30906676  8.78936224  4.42768948  5.32243782  1.49224894]
 [ 1.52165849  2.99238823  2.25021025  1.90764193  0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]]
Accion: L
nw: 0.429221188279 ap: 0.25 ar: 0.0 d: 0.9 w: 1.90764972569
Accion: U
nw: 0.7649789506 ap: 0.25 ar: 0.0 d: 0.9 w: 1.49225672143
Accion: R
nw: 0.638162101843 ap: 0.25 ar: -1.0 d: 0.9 w: 0.547480672187
Accion: D
nw: 0.547472887973 ap: 0.25 ar: 0.0 d: 0.9 w: -0.403063172754
[[ 3.30906676  8.78936224  4.42768948  5.32243782  1.49224894]
 [ 1.52165849  2.99238823  2.25021025  1.90764193  0.54747289]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]]
Accion: L
nw: -0.238547332

nw: -0.276570897511 ap: 0.25 ar: 0.0 d: 0.9 w: -1.22920398894
Accion: U
nw: -0.408317819084 ap: 0.25 ar: 0.0 d: 0.9 w: -0.585541873658
Accion: R
nw: -0.85271888936 ap: 0.25 ar: 0.0 d: 0.9 w: -1.97511586789
Accion: D
nw: -1.42286124911 ap: 0.25 ar: -1.0 d: 0.9 w: -1.42285493224
[[ 3.30905336  8.78934886  4.42767613  5.32242448  1.49223562]
 [ 1.52164509  2.99237485  2.25019689  1.9076286   0.54745957]
 [ 0.05087951  0.73822758  0.6731702   0.35824311 -0.40308428]
 [-0.97353528 -0.43543844 -0.35482532 -0.58554819 -1.18301821]
 [-1.85764353 -1.34517427 -1.22921032 -1.42286125  0.        ]]
Accion: L
nw: -0.320142359754 ap: 0.25 ar: 0.0 d: 0.9 w: -1.42285493224
Accion: U
nw: -0.586320037742 ap: 0.25 ar: 0.0 d: 0.9 w: -1.18301190217
Accion: R
nw: -1.28072110802 ap: 0.25 ar: -1.0 d: 0.9 w: -1.97511586789
Accion: D
nw: -1.97512217829 ap: 0.25 ar: -1.0 d: 0.9 w: -1.97511586789
[[ 3.30905336  8.78934886  4.42767613  5.32242448  1.49223562]
 [ 1.52164509  2.99237485  2.25019689  1.9076286   0.54

nw: 1.49222022706 ap: 0.25 ar: 0.0 d: 0.9 w: 0.547448777916
[[ 3.30903789  8.7893334   4.42766069  5.32240908  1.49222023]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]]
Accion: L
nw: 0.0923677054503 ap: 0.25 ar: -1.0 d: 0.9 w: 1.52163424645
Accion: U
nw: 0.836902271155 ap: 0.25 ar: 0.0 d: 0.9 w: 3.30904251424
Accion: R
nw: 1.5101841743 ap: 0.25 ar: 0.0 d: 0.9 w: 2.99236401399
Accion: D
nw: 1.5216296243 ap: 0.25 ar: 0.0 d: 0.9 w: 0.0508686666656
[[ 3.30903789  8.7893334   4.42766069  5.32240908  1.49222023]
 [ 1.52162962  0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.        ]]
Accion: L
nw: 0.34236770545 

1.1 Genere una gráfica que muestre la evolución del cálculo "np.sum(np.abs(world - newWorld))", para cada paso de actualización realizado hasta lograr la convergencia.

1.2 Modifique el algoritmo anterior para encontrar el valor de la política óptima. Genere una gráfica que muestre la evolución del cálculo "np.sum(np.abs(world - newWorld))", para cada paso de actualización realizado hasta lograr la convergencia.

2\. Un robot de reciclaje de residuos debe decidir, en cada instante de tiempo, si busca activamente un contenedor de residuos, si permanece en el lugar en que se encuentra a la espera de que alguien le traiga un contenedor de residuos, o bien si debe volver a su base para recargar la batería. La mejor forma de encontrar contenedores es buscarlos, pero dicha acción reduce la carga de la batería, mientras que la acción de esperar no. Por otra parte, en cualquier caso en que el robot se encuentre buscando contenedores, existe la posibilidad de que la batería se agote. En este caso, el robot se apaga y necesita ser rescatado (produciendo una recompensa muy baja). Asuma que el problema puede ser modelado de la manera que se muestra en la figura siguiente (Diagrama y función de transición de estados), en donde $R_{search}$ es el número esperado de contenedores que se espera encontrar mientras se ejecuta search, y $R_{wait}$ es el número esperado de contenedores que se espera recibir mientras se ejecuta wait, y $R_{search} > R_{wait}$.

![](images/Recycling Robot.png)

2.1 Implemente un algoritmo de Iteración de Valor para obtener la política óptima del robot de reciclaje.

2.2 Utilice el algoritmo implementado en (2.1) para evaluar cómo cambia el valor de la política óptima a partir de alterar  $\alpha$, $\beta$ para un valor de $R_{search}=5 $ y $R_{wait} = 2$. Para dicha evaluación, emplee una gráfica que permita determinar cuáles son los valores de dichas variables que maximizan el retorno esperado por el agente en cada estado. AYUDA: Varíe algoritmicamente los valores de $\alpha$ y $\beta$ y calcule la política óptima correspondiente. La gráfica debería presentar tres ejes: $\alpha$, $\beta$, y una variable que totalice los valores de los estados.

2.3 Con los mejores valores de $\alpha$ y $\beta$ obtenidos en 2.2, realice la misma operación variando $R_{search} $  con un tope de 10, manteniendo $R_{wait}$ = en 4. 

3\. Un agente debe aprender a llegar en la menor cantidad de pasos desde la posición S a la posición G en una grilla como la que sigue.

![](images/Gridworld Labyrinth.png)

Las acciones disponibles en cada estado son las mismas que las descriptas para el agente del Ejercicio 1. El efecto de una acción que llevaría al agente fuera de la grilla, es que el agente vuelve al estado S.

3.1 Plantee una función de recompensa que permita al agente aprender a lograr el objetivo expresado en 3.

3.2 Implemente un algoritmo basado en Iteración de Valor para aprender la política óptima en el entorno especificado.

3.3 Realice una gráfica que permita evaluar como cambia el valor de la política óptima en relación al factor de descuento $\gamma$.

4\. Implemente la solución de los ejercicios anteriores empleando Iteración de Política. Puede utilizar como base de implementación el siguiente código fuente:

In [1]:
import numpy as np

"""Este es el pseudocódigo correspondiente al algoritmo implementado más abajo.

1: Procedure Policy_Iteration(S,A,P,R)
2:           Inputs
3:                     S is the set of all states
4:                     A is the set of all actions
5:                     P is state transition function specifying P(s'|s,a)
6:                     R is a reward function R(s,a,s')
7:           Output
8:                     optimal policy π
9:           Local
10:                     action array π[S]
11:                     Boolean variable noChange
12:                     real array V[S]
13:           set π arbitrarily
14:           repeat
15:                     noChange ←true
16:                     Solve V[s] = ∑s'∈S P(s'|s,π[s])(R(s,a,s')+γV[s'])
17:                     for each s∈S do
18:                               Let QBest=V[s]
19:                               for each a ∈A do
20:                                         Let Qsa=∑s'∈S P(s'|s,a)(R(s,a,s')+γV[s'])
21:                                         if (Qsa > QBest) then
22:                                                   π[s]←a
23:                                                   QBest ←Qsa
24:                                                   noChange ←false
25:           until noChange
26:           return π
"""

# aquí se setea un entorno de ejemplo
states = [0,1,2,3,4]
actions = [0,1]
N_STATES = len(states)
N_ACTIONS = len(actions)
P = np.zeros((N_STATES, N_ACTIONS, N_STATES))  # Probabilidades de Transición
R = np.zeros((N_STATES, N_ACTIONS, N_STATES))  # Rewards

P[0,0,1] = 1.0
P[1,1,2] = 1.0
P[2,0,3] = 1.0
P[3,1,4] = 1.0
P[4,0,4] = 1.0


R[0,0,1] = 1
R[1,1,2] = 10
R[2,0,3] = 100
R[3,1,4] = 1000
R[4,0,4] = 1.0

# factor de descuento
gamma = 0.75

# inicializa la política y la función de valor
policy = [0 for s in range(N_STATES)]
V = np.zeros(N_STATES)

print("Política Inicial")
print(V)
print(policy)

is_value_changed = True
iterations = 0
while is_value_changed:
    is_value_changed = False
    iterations += 1
    # corre la iteración de valor para cada estado 
    for s in range(N_STATES):
        V[s] = sum([P[s,policy[s],s1] * (R[s,policy[s],s1] + gamma*V[s1]) for s1 in range(N_STATES)])
        
    # realiza la mejora de la política
    for s in range(N_STATES):
        q_best = V[s]
        for a in range(N_ACTIONS):
            q_sa = sum([P[s, a, s1] * (R[s, a, s1] + gamma * V[s1]) for s1 in range(N_STATES)])
            if q_sa > q_best:
                policy[s] = a
                print("State", s, ": q_sa", q_sa, "q_best", q_best, "policy", policy[s])
                q_best = q_sa
                is_value_changed = True

    print ("Iteracion:", iterations)

print ("Política Final")
print (policy)
print (V)

Política Inicial
[ 0.  0.  0.  0.  0.]
[0, 0, 0, 0, 0]
State 1 : q_sa 85.0 q_best 0.0 policy 1
State 3 : q_sa 1000.75 q_best 0.0 policy 1
State 4 : q_sa 1.75 q_best 1.0 policy 0
Iteracion: 1
State 0 : q_sa 64.75 q_best 1.0 policy 0
State 2 : q_sa 850.5625 q_best 100.0 policy 0
State 3 : q_sa 1001.3125 q_best 1000.75 policy 1
State 4 : q_sa 2.3125 q_best 1.75 policy 0
Iteracion: 2
State 1 : q_sa 647.921875 q_best 85.0 policy 1
State 2 : q_sa 850.984375 q_best 850.5625 policy 0
State 3 : q_sa 1001.734375 q_best 1001.3125 policy 1
State 4 : q_sa 2.734375 q_best 2.3125 policy 0
Iteracion: 3
State 0 : q_sa 486.94140625 q_best 64.75 policy 0
State 1 : q_sa 648.23828125 q_best 647.921875 policy 1
State 2 : q_sa 851.30078125 q_best 850.984375 policy 0
State 3 : q_sa 1002.05078125 q_best 1001.734375 policy 1
State 4 : q_sa 3.05078125 q_best 2.734375 policy 0
Iteracion: 4
State 0 : q_sa 487.178710938 q_best 486.94140625 policy 0
State 1 : q_sa 648.475585938 q_best 648.23828125 policy 1
State 2 :

State 4 : q_sa 3.99999990433 q_best 3.99999987243 policy 0
Iteracion: 60
State 0 : q_sa 487.890624928 q_best 487.890624904 policy 0
State 1 : q_sa 649.187499928 q_best 649.187499904 policy 1
State 2 : q_sa 852.249999928 q_best 852.249999904 policy 0
State 3 : q_sa 1002.99999993 q_best 1002.9999999 policy 1
State 4 : q_sa 3.99999992824 q_best 3.99999990433 policy 0
Iteracion: 61
State 0 : q_sa 487.890624946 q_best 487.890624928 policy 0
State 1 : q_sa 649.187499946 q_best 649.187499928 policy 1
State 2 : q_sa 852.249999946 q_best 852.249999928 policy 0
State 3 : q_sa 1002.99999995 q_best 1002.99999993 policy 1
State 4 : q_sa 3.99999994618 q_best 3.99999992824 policy 0
Iteracion: 62
State 0 : q_sa 487.89062496 q_best 487.890624946 policy 0
State 1 : q_sa 649.18749996 q_best 649.187499946 policy 1
State 2 : q_sa 852.24999996 q_best 852.249999946 policy 0
State 3 : q_sa 1002.99999996 q_best 1002.99999995 policy 1
State 4 : q_sa 3.99999995964 q_best 3.99999994618 policy 0
Iteracion: 63
Stat