# Tarea Parte 1: Aprendiendo a jugar Pacman con TD($\lambda$)

En 1992, Gerald Tesauro sorprendio al mundo con *TD-Gammon*, el primer programa de computadora que podia jugar Backgammon a un nivel cercano al de los mejores jugadores profesionales del momento.

<img src='attachment:image.png' width = 250 height = 180/>

TD-Gammon estaba basado en el algoritmo TD($\lambda$), una tecnica que generaliza y conecta el metodo de Monte Carlo y el metodo de *Temporal Difference Learning* que aprendimos en clase. TD-Gammon es en realidad un metodo aproximado que utiliza redes neuronales debido a la gran cantidad de estados posibles en el juego, mas informacion [aqui](http://www.bkgm.com/articles/tesauro/tdl.html). En la proxima tarea entenderan mas la idea detras de los metodos aproximados, en esta nos consentratemos en lo que corresponde a TD($\lambda$).

Encontran series de preguntas y ejercicios marcados en rojo que deberan contestar y entregar.

## El Algoritmo TD($\lambda$)


La implementacion mas sencilla del algoritmo TD($\lambda$) es a traves de la siguiente version que utiliza *trazas de eligibilidad*. Podemos usar la version on-policy u off-policy del algoritmo.


## SARSA TD($\lambda$)  (On-policy control)
* **Inputs**: 
    + Velocidad de aprendizaje $0 < \alpha < 1$
    + Tasa de descuento de la utilidad en el futuro $0 < \gamma \leq 1$ 
    + Parametro del algoritmo $0\leq \lambda \leq 1$ cuyo significado aun tenemos que entender.
* **Outputs**
    + Una tabla $Q$ donde $Q(s,a)$ es la utilidad o pago total esperado por episodio al tomar la accion $a$ en el estado $s$.
* **Inicializar** la tabla de valor estado-accion $Q$ y la traza de elegibilidad $e$ como funcion de cada pareja estado-accion $(s,a)$.
* **Para cada episodio** con estado-accion inicial $(s_0, a_0)$:
    + Poner la **eligibidad en cero**, i.e., $e(s,a) = 0$  para toda pareja $(s,a)$
    + Para cada $t$ mientras el episodio no haya terminado:
        - **Aumentar la traza de eligibilidad** para la pareja actual $$e(s_t, a_t) = e(s_t, a_t) + 1$$
        - **Hacer una transicion** a un nuevo estado-accion $(s_{t+1}, a_{t+1})$ obteniendo un pago $r_{t+1}$.
        - <span style='color: blue'>**Calcular la diferencia en utilidad segun la regla SARSA**</span>
          $$ \delta = r_{t+1} + \gamma Q(s_{t+1}, a_{t+1}) - Q(s_t,a_t) $$
        - **Para cada pareja estado accion $(s, a)$**:
            * **Actualizar la matriz $Q$** con la regla:
            $$ Q(s,a) = Q(s,a) + \alpha\delta e(s,a)$$
            * **Actualizar la traza de elegibilidad**
            $$ e(s,a) = \lambda \gamma e(s,a) $$

## Q-Learning TD($\lambda$)  (Off-policy control)

El algoritmo es practicamente identico pero la regla para calcular $\delta$ y actualizar el valor de $Q$ es:

* + - <span style='color: blue'>**Calcular la diferencia en utilidad segun la regla Q-Learning**</span>:
     $$ \delta = r_{t+1} + \gamma \left(\max_{a}Q(s_{t+1}, a)\right) - Q(s_t,a_t) $$

### <span style='color: red'> Serie de preguntas 1 </span>
 
Para las siguientes preguntas supongan que $\gamma = 1$ como usualmente suele hacerse en las tareas episodicas. 

1. Verifica que si $\lambda = 0$ entonces el algoritmo anterior se converite en el metodo de *Temporal Difference Learning* que estudiamos en clase.
2. Verifica que con $\lambda = 1$ recuperamos un metodo similar al de Monte Carlo que estudiamos en clase (con la diferencia solamente de que la tabla $Q$ se actualiza durante los episodios y no solo al final).
3. Explica intuitivamente porque $e(s,a)$ es una traza de elegibilidad?
4. Que es $\lambda$? Intuitivamente, cual es el efecto de cambiar el valor de $\lambda$?
5. Esta pregunta es mas general y no tiene que ver solo con TD($\lambda$), cual es la diferencia entre control *off-policy* y *on-policy*, y que implicacion tiene al momento de elegir acciones?



## Aprendiendo a jugar PacMan

A continuacion tendran que hacer una implementacion del algoritmo para aprender a jugar Pacman. Les ayudate con algunas partes del codigo

### 1. Cargar el juego PacMan

In [1]:
using PyCall 
@pyimport gym
env = gym.make("Pong-v0")

[2017-05-03 01:03:15,274] Making new env: Pong-v0


PyObject <TimeLimit<AtariEnv<Pong-v0>>>

### 2. Determinar el espacio de estados/observaciones y de acciones

El conjunto de estados es discreto. La version del juego que utilizaremos utiliza la memoria RAM, que esta hecho de 128 bytes (128 entradas y cada byte puede tener 256 valores).

Hay otra version de MsPacman que utiliza pixeles en vez de RAM, pero el conjunto de estado se vuelve mas grande.

In [2]:
println(env[:observation_space])

PyObject Box(210, 160, 3)


En cada estado Ms Pacman puede tomar 9 posibles acciones. Realmente no necesitamos saber que significa cada accion para implementar el algoritmo.

In [3]:
println(env[:action_space])

PyObject Discrete(6)


In [4]:
function preprocess(arr::Array, n::Int = 5)
    arr = (.21arr[30:end,:,1] + .71arr[30:end,:,2] + .07arr[30:end,:,3]) / 255.
    h, w = size(arr)
    pre = Array{Bool}(div(h, n), div(w, n)) # preallocate size
    @inbounds for j in 1:div(w, n)
        @inbounds for i in 1:div(h, n)
              pre[i, j] = maximum(arr[(n*(i-1)+1):(i*n), (n*(j-1)+1):(j*n)]) > 0.5 ? 0 : 1
        end
    end
    join(find(pre[:]),",")
end

preprocess (generic function with 2 methods)

### 3. Hacer simulaciones y preprocesar estados

Antes de aplicar el algoritmo queremos ver que podamos hacer simulaciones. 

Un metodo que nos sera conveniente por el momento que no tenemos una politica entrenada es tomar acciones completamente al azar, para eso existe un metodo de muestreo de acciones (pudimos haber usado `rand(0:8)` si de antemano ya sabiamos que el espacio de acciones es de tamamo 9, las acciones comienzan numerandose en 0 por default debido a la interfaz con Python).

In [5]:
env[:action_space][:sample]()

4

El siguiente codigo muestra un loop en el que se juegan 5 episodios completamente al azar (evidentemente, en todos pierde MsPacman). Es importante entender esta parte para poder aprender a jugar.

In [6]:
for i in 1:5 # jugar 5 episodios
    state = env[:reset]() # regresa el ambiente al comienzo de un episodio
    done = false # sera true cuando termine el episodio
    ep_reward = 0 # iniciar pago total en el episodio
    ep_steps = 0 # iniciar pasos totales en el episodio
    while !done 
        env[:render]() # crea la visualizacion del estado del juego
        action = env[:action_space][:sample]() # selecionar accion al azar
        state, reward, done, info = env[:step](action) # simula una transicion
        ep_reward += reward # agrega el pago de la transicion al pago del ep.
        ep_steps += 1 # agrega un paso al total de pasos en el episodio
    end
    println("Ep. $i terminado en $ep_steps pasos con pago $ep_reward")
end
env[:render](close = true) # es la unica forma de cerrar la visualizacion
        

Ep. 1 terminado en 1246 pasos con pago -20.0
Ep. 2 terminado en 1254 pasos con pago -20.0
Ep. 3 terminado en 1391 pasos con pago -20.0
Ep. 4 terminado en 1236 pasos con pago -20.0
Ep. 5 terminado en 1199 pasos con pago -21.0


Tras ver las simulaciones es evidente que no debemos incluir datos como el marcador. Para tratar de reducir el universo de estados, vamos a quitar esos pixeles.

### 4. Como inicializar y manipular $Q$ y $e$

La forma mas tentadora de almacenar la informacion de $Q$ y $e$ es utilizando una matriz o un vector. Muchas veces en la practica es mucho mas facil y eficiente usar *tablas hash*, que en Julia son llamadas *diccionarios*. Una tabla hash es una estructura de datos que consiste de *claves* y *valores*, asignando a cada clave un valor. Es una estructura no ordenada, a diferencia de un vector. 

Usualmente iniciamos los diccionarios vacios y agregamos claves la primera vez que ocurren. En problemas de reinforcement learning hay muchisimos estados que nunca son visitados y que resulta ineficiente o imposible almacenar un valor para cada estado (como en el ajedrez). Las tablas has permite solo asignar valores a las tuplas de estado-accion observables, mas similar a como aprendemos en la realidad.

In [7]:
Q = eligibility = Dict() # inicializa el diccionario y la funcion de eligibilidad

Dict{Any,Any} with 0 entries

Las parejas estado-accion se pueden modelar como tuplas, representadas en Julia con parentesis $(s,a)$. El siguiente ejemplo muestra como manipular $Q$ como un diccionario que tiene como claves las tuplas $(s,a)$. Se pueden usar brackets [] para accesar el valor de las claves de un diccionario en julia.

In [8]:
state = env[:reset]() # inicializa un episodio y guarda el estado inicial
action = env[:action_space][:sample]() # elige alguna accion al azar
println(haskey(Q, (state, action))) # consulta si existe una clave para ese (estado,accion)

false


In [9]:
Q[(state, action)] = 0 # asi asignamos valores
println(haskey(Q, (state, action))) # ahora ya tiene la clave
println(Q[(state, action)]) # asi recuperamos el valor asignado

true
0


Afortunadamente Julia ya tiene una manera de asignar un valor *default* en caso de que una clave nunca haya sido asignada aun, esto se logra con el metodo `get` y asignado el valor *default* como tercer argumento.

In [10]:
Q = Dict()
random_state, random_action = rand(2)
println(get(Q, (random_state, random_action), 0))
Q[(random_state, random_action)] = 1
println(get(Q, (random_state, random_action), 0))

0
1


Un problema comun que querremos resolver es encontrar el maximo valor de $Q$ dado un estado $s$,
iterando sobre todas las posibles acciones $a$. Este paso es esencial para determinar la decision optima segun la estimacion actual de valor
$$\text{argmax}_a Q(s,a)$$
Queremos mostrar como es posible programar esto en Julia con un ejemplo:

In [11]:
Q = Dict()
state = "I am a state"
action_space = 0:3
Q[(state, 0)] = Q[(state, 3)] = 1 # dos entradas con mayor valor
Q[(state, 1)] = Q[(state, 2)] = 0
Q

Dict{Any,Any} with 4 entries:
  ("I am a state",2) => 0
  ("I am a state",1) => 0
  ("I am a state",3) => 1
  ("I am a state",0) => 1

In [12]:
Q_values_for_state = [get(Q, (state, a), 0) for a in action_space] # ejemplo de list comprehension
max_Q_value = maximum(Q_values_for_state)
println(max_Q_value) # max_a Q(s,a)

1


Quisieramos encontrar *todas* las parejas que dan el maximo valor de $Q$. La mayoria de los algoritmos regresan solo un valor que maximiza. Muy facilmente podriamos definir nuestra propia funcion que hiciera esto, aqui simplemente vamos a usar lo que ya existe programado usando comprehension de listas

### <span style='color: red'> Ejercicio necesario </span>
1. Escribe una funcion llamada allindmax que devuelva los indices de todos los elementos maximos de un vector. Ni python ni julia tienen preprogramada esta funcion (as far as I know). Pueden encontrar utiles las funciones `find` y `findmax` de julia o la instruccion `value.index(max(value))` de python.

In [13]:
function allindmax(arr::Array)
    indmax = Int[1]
    maxval = -Inf
    for i in 2:length(arr) 
        if arr[i] > maxval
            indmax = [i]
            maxval = arr[i]
        elseif arr[i] == maxval
            push!(indmax, i)
        end          
    end
    return indmax
end

allindmax (generic function with 1 method)

### 5. Como crear un agente (una politica) que toma decisiones optimas

Los metodos que vamos a implementar son de tipo $\epsilon$-greedy, lo que significa que el agente que aprende a jugar Pacman siempre tomara una decision de acuerda a la mejor estimacion de $Q$, y con una probabilidad $\epsilon$ tomara una decision completamente aleatoria.

Tradicionalmente $\epsilon$ debe comenzar con un valor muy grande durante la face inicial de aprendizaje e ir disminuyendo gradualmente. Por simplicidad, en todo nuestro codigo sera una constante dada al inicio del algoritmo, es muy facil hacer las adaptaciones necesarias para que disminuya con el tiempo.

La politica es muy sencilla y debe consistir en los siguientes ingredientes:

#### Ingredientes de una politica de tipo $\epsilon$-greedy:
* **Inputs**
    1. `state`: el estado actual en el cual se tiene que tomar una accion
    2. `actions`: las acciones disponibles al estado `state`
    3. `Q`: la mejor estimacion hasta el momento de la matriz `Q`, que se usara para tomar la decision greedy $$\mathrm{greedy}(\text{state}) = \mathrm{argmax}_{a\in\text{actions}} Q(\text{state}, a)$$
    4. $\epsilon$: la probabilidad de tomar una decision completamente al azar y no greedy
* **Output**
    + La accion $\mathrm{policy}(\text{state})$ decidida por 
        - aleatoriamente entre cualquier accion con probabilidad $\epsilon$ 
        - aleatoriamente entre las acciones que maximicen $Q(\text{state}, \cdot)$ con probabilidad $1-\epsilon$.
        
A continuacion vemos una implementacion:

In [14]:
function policy(state::Any, action_space::Any, Q::Dict, ϵ::Float64)
    if rand() > ϵ # Prob(rand() > eps) = 1 - eps => Then be greedy
        state_Q_values = [get(Q, (state, a), 0.) for a in action_space] # All Q values for state and te given ations
        return(rand(action_space[allindmax(state_Q_values)])) # Random action from the actions that maximize Q for state
    else # Prob(rand() <= eps) = eps => Then take random action
        return(rand(action_space)) # Totally random actions
    end
end

policy (generic function with 1 method)

### 6. Poner todo junto y entrenar

Pudimos haber empezado por aqui, pero seria solo codigo sin saber que hace cada parte. Podemos ensamblar todo segun la receta del algoritmo y ponerlo dentro de una funcion de entrenamiento.

#### Ejemplo con SARSA TD($\lambda$)

In [15]:
function sarsa_td_lambda(
        env, # el ambiente de open ai gym para trabajar
        Q = Dict(); # recibe Q y la sobreescribe, mejorando su estimacion
        λ = 0.1, # eligibility trace parameter
        α = 0.05, # learning rate
        γ = 1., # discount rate
        ϵ = 0.15, # exploration rate
        action_space = 0:(env[:action_space][:n] - 1), # available actions
        n_episodes = 10000, # number of episodes
        render = false, # show game visualization (much slower when rendering...)
        print_ep = true, # print results after each episode,
        max_time = 3600 # maximo 1 hora
    )
    # Outer loop for episodes
    ep_reward_hist = Float64[] # empty float array
    ep_steps_hist = Int[]
    total_time = 0.
    for i in 1:n_episodes
        tic() # comienza el reloj
        # Reset game and render
        state = env[:reset]() # regresa el ambiente al comienzo de un episodio
        state = preprocess(state)
        render && env[:render]() # si render es true, crea la visualizacion del estado del juego
        # Reset eligibility
        eligibility = Dict() # tambien regresa la traza de eligibilidad
        # Get initial action
        action = policy(state, action_space, Q, ϵ) # selecionar accion con politica
        if !haskey(Q, (state, action)) Q[(state, action)] = 0. end # add key if missing
        # Episode iteration information
        done = false # sera true cuando termine el episodio
        ep_reward = 0. # iniciar pago total en el episodio
        ep_steps = 0 # iniciar pasos totales en el episodio
        while !done 
            # Add to eligibility
            eligibility[(state, action)] = get(eligibility, (state, action), 0.) + 1.
            # Simulate transition
            new_state, reward, done, info = env[:step](action) # simula una transicion
            new_state = preprocess(new_state)
            new_action = policy(new_state, action_space, Q, ϵ) # selecionar accion con politica
            if !haskey(Q, (new_state, new_action)) Q[(new_state, new_action)] = 0. end # add key if missing
            # Compute utility difference (delta)
            δ = reward + γ*Q[(new_state, new_action)] - Q[(state, action)] 
            # Update Q and eligibity
            for (s, a) in keys(eligibility)
                Q[(s, a)] = Q[(s, a)] + α*δ
                eligibility[(s, a)] = λ*γ*eligibility[(s, a)] # no need for get si ya existe la clave
            end
            # Change new states to old states for next step
            state = new_state
            action = new_action
            # Save episode information and render if needed
            render && env[:render]()
            ep_reward += reward # agrega el pago de la transicion al pago del ep.|
            ep_steps += 1 # agrega un paso al total de pasos en el episodio
        end
        push!(ep_reward_hist, ep_reward)
        push!(ep_steps_hist, ep_steps)
        print_ep && println("Ep. $i terminado en $ep_steps pasos con pago $ep_reward") # imprime si print_ep es true
        total_time += toq() # agrega el tiempo de este episodio al tiempo total
        total_time > max_time && break
    end
    render && env[:render](close = true)
    return Q, ep_reward_hist, ep_steps_hist
end

Ahora corremos la funcion

In [16]:
Q = Dict{Tuple{String, Int}, Float32}() # Be more specific to save more time

Dict{Tuple{String,Int64},Float32} with 0 entries

In [17]:
Q, rewards, steps = sarsa_td_lambda(env, Q, λ = 0.9, ϵ = 0.1, render = true, n_episodes = 30000, max_time = 1);

Ep. 1 terminado en 1098 pasos con pago -21.0
  5.995562 seconds (14.90 M allocations: 2.423 GB, 2.74% gc time)


In [None]:
Q, rewards, steps = sarsa_td_lambda(env, Q, λ = 0.9, ϵ = 0.1, render = true, n_episodes = 30000, max_time = 30000);

Ep. 1 terminado en 1372 pasos con pago -18.0
Ep. 2 terminado en 1182 pasos con pago -21.0
Ep. 3 terminado en 1118 pasos con pago -21.0
Ep. 4 terminado en 1431 pasos con pago -20.0
Ep. 5 terminado en 1273 pasos con pago -20.0
Ep. 6 terminado en 1111 pasos con pago -21.0
Ep. 7 terminado en 1398 pasos con pago -19.0
Ep. 8 terminado en 1186 pasos con pago -21.0
Ep. 9 terminado en 1310 pasos con pago -20.0
Ep. 10 terminado en 1336 pasos con pago -20.0
Ep. 11 terminado en 1146 pasos con pago -21.0
Ep. 12 terminado en 1211 pasos con pago -20.0
Ep. 13 terminado en 1311 pasos con pago -20.0
Ep. 14 terminado en 1329 pasos con pago -20.0
Ep. 15 terminado en 1206 pasos con pago -20.0
Ep. 16 terminado en 1372 pasos con pago -19.0
Ep. 17 terminado en 1127 pasos con pago -20.0
Ep. 18 terminado en 1079 pasos con pago -21.0
Ep. 19 terminado en 1114 pasos con pago -21.0
Ep. 20 terminado en 1377 pasos con pago -20.0
Ep. 21 terminado en 1142 pasos con pago -21.0
Ep. 22 terminado en 1335 pasos con pago -21

Ep. 178 terminado en 1145 pasos con pago -21.0
Ep. 179 terminado en 1129 pasos con pago -21.0
Ep. 180 terminado en 1156 pasos con pago -20.0
Ep. 181 terminado en 1136 pasos con pago -20.0
Ep. 182 terminado en 1237 pasos con pago -20.0
Ep. 183 terminado en 1080 pasos con pago -21.0
Ep. 184 terminado en 1234 pasos con pago -20.0
Ep. 185 terminado en 1089 pasos con pago -21.0
Ep. 186 terminado en 1213 pasos con pago -21.0
Ep. 187 terminado en 1433 pasos con pago -19.0
Ep. 188 terminado en 1377 pasos con pago -19.0
Ep. 189 terminado en 1139 pasos con pago -21.0
Ep. 190 terminado en 1322 pasos con pago -20.0
Ep. 191 terminado en 1692 pasos con pago -18.0
Ep. 192 terminado en 1254 pasos con pago -19.0
Ep. 193 terminado en 1169 pasos con pago -21.0
Ep. 194 terminado en 1110 pasos con pago -21.0
Ep. 195 terminado en 1311 pasos con pago -20.0
Ep. 196 terminado en 1214 pasos con pago -20.0
Ep. 197 terminado en 1040 pasos con pago -21.0
Ep. 198 terminado en 1212 pasos con pago -21.0
Ep. 199 termi

Ep. 354 terminado en 1261 pasos con pago -21.0
Ep. 355 terminado en 1179 pasos con pago -20.0
Ep. 356 terminado en 1014 pasos con pago -21.0
Ep. 357 terminado en 1167 pasos con pago -20.0
Ep. 358 terminado en 1075 pasos con pago -21.0
Ep. 359 terminado en 1089 pasos con pago -21.0
Ep. 360 terminado en 1599 pasos con pago -18.0
Ep. 361 terminado en 1380 pasos con pago -20.0
Ep. 362 terminado en 1020 pasos con pago -21.0
Ep. 363 terminado en 1068 pasos con pago -21.0
Ep. 364 terminado en 1261 pasos con pago -20.0
Ep. 365 terminado en 1184 pasos con pago -20.0
Ep. 366 terminado en 1159 pasos con pago -20.0
Ep. 367 terminado en 1455 pasos con pago -20.0
Ep. 368 terminado en 1339 pasos con pago -20.0
Ep. 369 terminado en 1382 pasos con pago -19.0
Ep. 370 terminado en 1556 pasos con pago -18.0
Ep. 371 terminado en 1122 pasos con pago -21.0
Ep. 372 terminado en 1210 pasos con pago -21.0
Ep. 373 terminado en 1277 pasos con pago -20.0
Ep. 374 terminado en 1017 pasos con pago -21.0
Ep. 375 termi

Ep. 529 terminado en 1287 pasos con pago -20.0
Ep. 530 terminado en 1209 pasos con pago -20.0
Ep. 531 terminado en 1138 pasos con pago -21.0
Ep. 532 terminado en 1175 pasos con pago -21.0
Ep. 533 terminado en 1428 pasos con pago -20.0
Ep. 534 terminado en 1153 pasos con pago -20.0
Ep. 535 terminado en 1212 pasos con pago -21.0
Ep. 536 terminado en 1278 pasos con pago -20.0
Ep. 537 terminado en 1351 pasos con pago -19.0
Ep. 538 terminado en 1287 pasos con pago -21.0
Ep. 539 terminado en 1406 pasos con pago -20.0
Ep. 540 terminado en 1304 pasos con pago -20.0
Ep. 541 terminado en 1173 pasos con pago -21.0
Ep. 542 terminado en 1204 pasos con pago -21.0
Ep. 543 terminado en 1200 pasos con pago -20.0
Ep. 544 terminado en 1117 pasos con pago -20.0
Ep. 545 terminado en 1514 pasos con pago -19.0
Ep. 546 terminado en 1447 pasos con pago -19.0
Ep. 547 terminado en 1213 pasos con pago -21.0
Ep. 548 terminado en 1542 pasos con pago -20.0
Ep. 549 terminado en 1399 pasos con pago -19.0
Ep. 550 termi

Ep. 704 terminado en 1303 pasos con pago -20.0
Ep. 705 terminado en 1247 pasos con pago -19.0
Ep. 706 terminado en 1287 pasos con pago -20.0
Ep. 707 terminado en 1261 pasos con pago -21.0
Ep. 708 terminado en 1269 pasos con pago -20.0
Ep. 709 terminado en 1357 pasos con pago -20.0
Ep. 710 terminado en 1017 pasos con pago -21.0
Ep. 711 terminado en 1113 pasos con pago -21.0
Ep. 712 terminado en 1240 pasos con pago -19.0
Ep. 713 terminado en 1113 pasos con pago -21.0
Ep. 714 terminado en 1191 pasos con pago -20.0
Ep. 715 terminado en 1267 pasos con pago -20.0
Ep. 716 terminado en 1089 pasos con pago -21.0
Ep. 717 terminado en 1138 pasos con pago -21.0
Ep. 718 terminado en 1198 pasos con pago -20.0
Ep. 719 terminado en 1217 pasos con pago -20.0
Ep. 720 terminado en 1039 pasos con pago -21.0
Ep. 721 terminado en 1208 pasos con pago -21.0
Ep. 722 terminado en 1201 pasos con pago -20.0
Ep. 723 terminado en 1118 pasos con pago -20.0
Ep. 724 terminado en 1277 pasos con pago -21.0
Ep. 725 termi

Ep. 879 terminado en 1570 pasos con pago -18.0
Ep. 880 terminado en 1348 pasos con pago -21.0
Ep. 881 terminado en 1101 pasos con pago -21.0
Ep. 882 terminado en 1185 pasos con pago -20.0
Ep. 883 terminado en 1598 pasos con pago -19.0
Ep. 884 terminado en 1129 pasos con pago -21.0
Ep. 885 terminado en 1092 pasos con pago -21.0
Ep. 886 terminado en 1313 pasos con pago -19.0
Ep. 887 terminado en 1355 pasos con pago -20.0
Ep. 888 terminado en 1162 pasos con pago -21.0
Ep. 889 terminado en 1396 pasos con pago -21.0
Ep. 890 terminado en 1062 pasos con pago -21.0
Ep. 891 terminado en 1212 pasos con pago -20.0
Ep. 892 terminado en 1442 pasos con pago -18.0
Ep. 893 terminado en 1155 pasos con pago -21.0
Ep. 894 terminado en 1272 pasos con pago -21.0
Ep. 895 terminado en 1210 pasos con pago -21.0
Ep. 896 terminado en 1142 pasos con pago -21.0
Ep. 897 terminado en 1328 pasos con pago -19.0
Ep. 898 terminado en 1175 pasos con pago -21.0
Ep. 899 terminado en 1174 pasos con pago -21.0
Ep. 900 termi

Ep. 1053 terminado en 1033 pasos con pago -21.0
Ep. 1054 terminado en 1528 pasos con pago -20.0
Ep. 1055 terminado en 1357 pasos con pago -19.0
Ep. 1056 terminado en 1132 pasos con pago -20.0
Ep. 1057 terminado en 1164 pasos con pago -21.0
Ep. 1058 terminado en 1389 pasos con pago -18.0
Ep. 1059 terminado en 1051 pasos con pago -21.0
Ep. 1060 terminado en 1455 pasos con pago -20.0
Ep. 1061 terminado en 1313 pasos con pago -19.0
Ep. 1062 terminado en 1178 pasos con pago -21.0
Ep. 1063 terminado en 1193 pasos con pago -20.0
Ep. 1064 terminado en 1127 pasos con pago -20.0
Ep. 1065 terminado en 1419 pasos con pago -20.0
Ep. 1066 terminado en 1492 pasos con pago -17.0
Ep. 1067 terminado en 1255 pasos con pago -19.0
Ep. 1068 terminado en 1194 pasos con pago -20.0
Ep. 1069 terminado en 1115 pasos con pago -20.0
Ep. 1070 terminado en 1483 pasos con pago -19.0
Ep. 1071 terminado en 1062 pasos con pago -21.0
Ep. 1072 terminado en 1374 pasos con pago -19.0
Ep. 1073 terminado en 1037 pasos con pag

Ep. 1224 terminado en 1046 pasos con pago -21.0
Ep. 1225 terminado en 1067 pasos con pago -21.0
Ep. 1226 terminado en 1361 pasos con pago -19.0
Ep. 1227 terminado en 1388 pasos con pago -21.0
Ep. 1228 terminado en 1527 pasos con pago -19.0
Ep. 1229 terminado en 1174 pasos con pago -20.0
Ep. 1230 terminado en 1259 pasos con pago -19.0
Ep. 1231 terminado en 1238 pasos con pago -20.0
Ep. 1232 terminado en 1358 pasos con pago -20.0
Ep. 1233 terminado en 1211 pasos con pago -20.0
Ep. 1234 terminado en 1137 pasos con pago -21.0
Ep. 1235 terminado en 1108 pasos con pago -21.0
Ep. 1236 terminado en 1278 pasos con pago -20.0
Ep. 1237 terminado en 1453 pasos con pago -19.0
Ep. 1238 terminado en 1352 pasos con pago -20.0
Ep. 1239 terminado en 1230 pasos con pago -21.0
Ep. 1240 terminado en 1434 pasos con pago -18.0
Ep. 1241 terminado en 1259 pasos con pago -20.0
Ep. 1242 terminado en 1395 pasos con pago -21.0
Ep. 1243 terminado en 1128 pasos con pago -21.0
Ep. 1244 terminado en 1285 pasos con pag

Ep. 1395 terminado en 1248 pasos con pago -21.0
Ep. 1396 terminado en 1426 pasos con pago -21.0
Ep. 1397 terminado en 1284 pasos con pago -20.0
Ep. 1398 terminado en 1438 pasos con pago -19.0
Ep. 1399 terminado en 1102 pasos con pago -21.0
Ep. 1400 terminado en 1224 pasos con pago -21.0
Ep. 1401 terminado en 1452 pasos con pago -20.0
Ep. 1402 terminado en 1248 pasos con pago -20.0
Ep. 1403 terminado en 1179 pasos con pago -20.0
Ep. 1404 terminado en 1176 pasos con pago -21.0
Ep. 1405 terminado en 1230 pasos con pago -20.0
Ep. 1406 terminado en 1026 pasos con pago -21.0
Ep. 1407 terminado en 1444 pasos con pago -19.0
Ep. 1408 terminado en 1022 pasos con pago -21.0
Ep. 1409 terminado en 1164 pasos con pago -20.0
Ep. 1410 terminado en 1108 pasos con pago -21.0
Ep. 1411 terminado en 1209 pasos con pago -21.0
Ep. 1412 terminado en 1630 pasos con pago -18.0
Ep. 1413 terminado en 1423 pasos con pago -20.0
Ep. 1414 terminado en 1155 pasos con pago -21.0
Ep. 1415 terminado en 1348 pasos con pag

Ep. 1566 terminado en 1700 pasos con pago -18.0
Ep. 1567 terminado en 1119 pasos con pago -20.0
Ep. 1568 terminado en 1258 pasos con pago -21.0
Ep. 1569 terminado en 1271 pasos con pago -20.0
Ep. 1570 terminado en 1332 pasos con pago -19.0
Ep. 1571 terminado en 1210 pasos con pago -20.0
Ep. 1572 terminado en 1469 pasos con pago -20.0
Ep. 1573 terminado en 1740 pasos con pago -20.0
Ep. 1574 terminado en 1093 pasos con pago -21.0
Ep. 1575 terminado en 1402 pasos con pago -20.0
Ep. 1576 terminado en 1224 pasos con pago -21.0
Ep. 1577 terminado en 1291 pasos con pago -19.0
Ep. 1578 terminado en 1322 pasos con pago -19.0
Ep. 1579 terminado en 1392 pasos con pago -19.0
Ep. 1580 terminado en 1435 pasos con pago -17.0
Ep. 1581 terminado en 1295 pasos con pago -19.0
Ep. 1582 terminado en 1573 pasos con pago -18.0
Ep. 1583 terminado en 1045 pasos con pago -21.0
Ep. 1584 terminado en 1209 pasos con pago -20.0
Ep. 1585 terminado en 1126 pasos con pago -21.0
Ep. 1586 terminado en 1427 pasos con pag

Ep. 1737 terminado en 1060 pasos con pago -21.0
Ep. 1738 terminado en 1204 pasos con pago -20.0
Ep. 1739 terminado en 1136 pasos con pago -21.0
Ep. 1740 terminado en 1433 pasos con pago -21.0
Ep. 1741 terminado en 1134 pasos con pago -21.0
Ep. 1742 terminado en 1377 pasos con pago -20.0
Ep. 1743 terminado en 1216 pasos con pago -20.0
Ep. 1744 terminado en 1129 pasos con pago -20.0
Ep. 1745 terminado en 1458 pasos con pago -19.0
Ep. 1746 terminado en 1094 pasos con pago -21.0
Ep. 1747 terminado en 1483 pasos con pago -17.0
Ep. 1748 terminado en 1179 pasos con pago -20.0
Ep. 1749 terminado en 1139 pasos con pago -21.0
Ep. 1750 terminado en 1239 pasos con pago -20.0
Ep. 1751 terminado en 1106 pasos con pago -21.0
Ep. 1752 terminado en 1342 pasos con pago -20.0
Ep. 1753 terminado en 1365 pasos con pago -20.0
Ep. 1754 terminado en 1232 pasos con pago -19.0
Ep. 1755 terminado en 1231 pasos con pago -20.0
Ep. 1756 terminado en 1576 pasos con pago -18.0
Ep. 1757 terminado en 1527 pasos con pag

Ep. 1908 terminado en 1419 pasos con pago -21.0
Ep. 1909 terminado en 1161 pasos con pago -20.0
Ep. 1910 terminado en 1209 pasos con pago -20.0
Ep. 1911 terminado en 1134 pasos con pago -21.0
Ep. 1912 terminado en 1220 pasos con pago -21.0
Ep. 1913 terminado en 1412 pasos con pago -19.0
Ep. 1914 terminado en 1373 pasos con pago -20.0
Ep. 1915 terminado en 1048 pasos con pago -21.0
Ep. 1916 terminado en 1114 pasos con pago -20.0
Ep. 1917 terminado en 1634 pasos con pago -20.0
Ep. 1918 terminado en 1290 pasos con pago -21.0
Ep. 1919 terminado en 1050 pasos con pago -21.0
Ep. 1920 terminado en 1223 pasos con pago -20.0
Ep. 1921 terminado en 1280 pasos con pago -19.0
Ep. 1922 terminado en 1188 pasos con pago -21.0
Ep. 1923 terminado en 1134 pasos con pago -21.0
Ep. 1924 terminado en 1166 pasos con pago -20.0
Ep. 1925 terminado en 1149 pasos con pago -20.0
Ep. 1926 terminado en 1155 pasos con pago -21.0
Ep. 1927 terminado en 1280 pasos con pago -21.0
Ep. 1928 terminado en 1191 pasos con pag

Ep. 2079 terminado en 1273 pasos con pago -20.0
Ep. 2080 terminado en 1258 pasos con pago -19.0
Ep. 2081 terminado en 1290 pasos con pago -20.0
Ep. 2082 terminado en 1348 pasos con pago -20.0
Ep. 2083 terminado en 1299 pasos con pago -20.0
Ep. 2084 terminado en 1463 pasos con pago -18.0
Ep. 2085 terminado en 1076 pasos con pago -21.0
Ep. 2086 terminado en 1092 pasos con pago -21.0
Ep. 2087 terminado en 1566 pasos con pago -19.0
Ep. 2088 terminado en 1499 pasos con pago -20.0
Ep. 2089 terminado en 1145 pasos con pago -21.0
Ep. 2090 terminado en 1588 pasos con pago -19.0
Ep. 2091 terminado en 1208 pasos con pago -21.0
Ep. 2092 terminado en 1485 pasos con pago -19.0
Ep. 2093 terminado en 1881 pasos con pago -16.0
Ep. 2094 terminado en 1227 pasos con pago -20.0
Ep. 2095 terminado en 1123 pasos con pago -21.0
Ep. 2096 terminado en 1058 pasos con pago -21.0
Ep. 2097 terminado en 1233 pasos con pago -20.0
Ep. 2098 terminado en 1257 pasos con pago -20.0
Ep. 2099 terminado en 1166 pasos con pag

Ep. 2250 terminado en 1208 pasos con pago -21.0
Ep. 2251 terminado en 1303 pasos con pago -20.0
Ep. 2252 terminado en 1435 pasos con pago -19.0
Ep. 2253 terminado en 1338 pasos con pago -19.0
Ep. 2254 terminado en 1111 pasos con pago -21.0
Ep. 2255 terminado en 1398 pasos con pago -19.0
Ep. 2256 terminado en 1164 pasos con pago -21.0
Ep. 2257 terminado en 1241 pasos con pago -21.0
Ep. 2258 terminado en 1244 pasos con pago -20.0
Ep. 2259 terminado en 1143 pasos con pago -21.0
Ep. 2260 terminado en 1104 pasos con pago -21.0
Ep. 2261 terminado en 1279 pasos con pago -21.0
Ep. 2262 terminado en 1064 pasos con pago -21.0
Ep. 2263 terminado en 1068 pasos con pago -21.0
Ep. 2264 terminado en 1071 pasos con pago -21.0
Ep. 2265 terminado en 1166 pasos con pago -21.0
Ep. 2266 terminado en 1257 pasos con pago -19.0
Ep. 2267 terminado en 1484 pasos con pago -18.0
Ep. 2268 terminado en 1183 pasos con pago -21.0
Ep. 2269 terminado en 1272 pasos con pago -19.0
Ep. 2270 terminado en 1141 pasos con pag

Ep. 2421 terminado en 1150 pasos con pago -21.0
Ep. 2422 terminado en 1416 pasos con pago -19.0
Ep. 2423 terminado en 1026 pasos con pago -21.0
Ep. 2424 terminado en 1334 pasos con pago -19.0
Ep. 2425 terminado en 1106 pasos con pago -21.0
Ep. 2426 terminado en 1314 pasos con pago -20.0
Ep. 2427 terminado en 1449 pasos con pago -18.0
Ep. 2428 terminado en 1495 pasos con pago -20.0
Ep. 2429 terminado en 1045 pasos con pago -21.0
Ep. 2430 terminado en 1672 pasos con pago -18.0
Ep. 2431 terminado en 1237 pasos con pago -20.0
Ep. 2432 terminado en 1129 pasos con pago -21.0
Ep. 2433 terminado en 1067 pasos con pago -21.0
Ep. 2434 terminado en 1336 pasos con pago -19.0
Ep. 2435 terminado en 1305 pasos con pago -20.0
Ep. 2436 terminado en 1310 pasos con pago -20.0
Ep. 2437 terminado en 1135 pasos con pago -21.0
Ep. 2438 terminado en 1132 pasos con pago -20.0
Ep. 2439 terminado en 1372 pasos con pago -19.0
Ep. 2440 terminado en 1202 pasos con pago -20.0
Ep. 2441 terminado en 1059 pasos con pag

Ep. 2592 terminado en 1050 pasos con pago -21.0
Ep. 2593 terminado en 1182 pasos con pago -20.0
Ep. 2594 terminado en 1323 pasos con pago -19.0
Ep. 2595 terminado en 1116 pasos con pago -21.0
Ep. 2596 terminado en 1268 pasos con pago -20.0
Ep. 2597 terminado en 1404 pasos con pago -18.0
Ep. 2598 terminado en 1459 pasos con pago -20.0
Ep. 2599 terminado en 1449 pasos con pago -18.0
Ep. 2600 terminado en 1615 pasos con pago -20.0
Ep. 2601 terminado en 1317 pasos con pago -20.0
Ep. 2602 terminado en 1249 pasos con pago -21.0
Ep. 2603 terminado en 1377 pasos con pago -18.0
Ep. 2604 terminado en 1316 pasos con pago -20.0
Ep. 2605 terminado en 1187 pasos con pago -21.0
Ep. 2606 terminado en 1353 pasos con pago -19.0
Ep. 2607 terminado en 1184 pasos con pago -20.0
Ep. 2608 terminado en 1315 pasos con pago -20.0
Ep. 2609 terminado en 1242 pasos con pago -20.0
Ep. 2610 terminado en 1164 pasos con pago -20.0
Ep. 2611 terminado en 1423 pasos con pago -19.0
Ep. 2612 terminado en 1220 pasos con pag

Ep. 2763 terminado en 1539 pasos con pago -18.0
Ep. 2764 terminado en 1156 pasos con pago -20.0
Ep. 2765 terminado en 1161 pasos con pago -20.0
Ep. 2766 terminado en 1155 pasos con pago -20.0
Ep. 2767 terminado en 1037 pasos con pago -21.0
Ep. 2768 terminado en 1016 pasos con pago -21.0
Ep. 2769 terminado en 1295 pasos con pago -20.0
Ep. 2770 terminado en 1324 pasos con pago -21.0
Ep. 2771 terminado en 1311 pasos con pago -19.0
Ep. 2772 terminado en 1225 pasos con pago -21.0
Ep. 2773 terminado en 1474 pasos con pago -18.0
Ep. 2774 terminado en 1190 pasos con pago -21.0
Ep. 2775 terminado en 1250 pasos con pago -20.0
Ep. 2776 terminado en 1263 pasos con pago -21.0
Ep. 2777 terminado en 1048 pasos con pago -21.0
Ep. 2778 terminado en 1496 pasos con pago -19.0
Ep. 2779 terminado en 1378 pasos con pago -20.0
Ep. 2780 terminado en 1485 pasos con pago -20.0
Ep. 2781 terminado en 1049 pasos con pago -21.0
Ep. 2782 terminado en 1139 pasos con pago -21.0
Ep. 2783 terminado en 1291 pasos con pag

In [None]:
using JLD
save(joinpath(dirname(@__FILE__), "Q.jld"), "Q", Q)