# 1.- Aprendizaje por Refuerzo (Reinforcement Learning)


* El ***Reinforcement Learning*** (en Español: Aprendizaje por Refuerzo) es un tipo de ***Aprendizaje Automático***, mediante el cual un ***Agente*** (robot, software, etc.) aprende a comportarse en un ***Entorno*** realizando ***Acciones*** y viendo los resultados de esas acciones por medio de ***Recompensas*** positivas o negativas en función de la acción realizada.


* El interés por el *Aprendizaje por Refuerzo* esta creciendo en los últimos años debido a los grandes resultados que se están obteniendo con este tipo de aprendizaje automático en áreas como la conducción automática, juegos de estrategia como el Ajedrez o el Go, videojuegos, etc.


* En este notebook vamos a ver los siguientes puntos:
<span></span><br>
    1. [¿Qué es el Aprendizaje por Refuerzo? - Ciclo de Vida](#M1)
<span></span><br>
    2. [Elementos y Terminología en el Aprendizaje por Refuerzo](#M2)
<span></span><br>
    3. [Explorar vs Explotar](#M3)
    <span></span><br>
    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;3.1 [Analogía: Aprendizaje por Refuerzo vs "Vida Real"](#M31)
    <span></span><br>
    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;3.2 [Exploración](#M32)
    <span></span><br>
    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;3.3 [Explotación](#M33)
    <span></span><br>
    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;3.4 [Cuando Explorar o Explotar](#M34)
<span></span><br>
    4. [Ecuación de Bellman: Programación dinámica](#M4)
    <span></span><br>
    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;4.1 [Ecuación de Bellman](#M41)
    <span></span><br>
    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;4.2 [Estrategia](#M42)
    <span></span><br>
    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;4.3 [Recompensas parciales](#M43)
<span></span><br>
    5. [Q-Function: State-Action Value Function](#M5)
<span></span><br>
    6. [Q-Table](#M6)
<span></span><br>
    7. [Algoritmos](#M7)
    <span></span><br>
    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;7.1 [Q-Learning](#M71)
    <span></span><br>
    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;7.2 [SARSA Learning](#M72)



<hr>


## <a name="M1">1.- ¿Qué es el Aprendizaje por Refuerzo? - Ciclo de Vida</a>


* El ***Aprendizaje por Refuerzo*** es un tipo de ***Aprendizaje Automático*** mediante el cual un ***Agente*** que ***vive*** en un ***Entorno*** es capaz de percibir un ***Estado***.


* El ***Agente*** puede realizar una serie de ***Acciones*** en cada ***Estado*** y estas acciones conllevan diferentes ***Recompensas*** positivas o negativas en función de la acción realizada.


* El ***Agente*** tomas las ***Acciones*** basándose en una ***Política*** que tiene ***Aprender*** con el objetivo de ***maximizar las recomensas*** que obtiene por sus acciones.


* Por hacer un símil con los aprendizajes supervisado y no supervisado, podemos considerar la ***Política*** como el ***Modelo del Aprendizaje por Refuerzo***.


* El proceso del Aprendizaje por Refuerzo sería el siguiente:
<span></span><br><br>
    1. **<span style="font-size:18px">Acción</span>**: El ***agente*** basandose en su ***estado*** ($S_t$) y su ***política*** toma la decisión de realizar una determinada ***acción***.
<span></span><br><br>
    2. **<span style="font-size:18px">Recompensa</span>**: Al realizar la ***acción*** el agente ***evalua su estado*** ($S_{t+1}$) y recibe una ***recompensa*** (positiva o negativa)
<span></span><br><br>
    3. **<span style="font-size:18px">Estado</span>**: Tras realizar la ***acción el estado cambia*** ($S_t = S_{t+1}$).
<span></span><br><br>
    4. **<span style="font-size:18px">Política</span>**: En función de la ***recompensa*** obtenida el agente ***modifica (o no) su política***.


* El ***esquema*** del proceso del ***aprendizaje por refuerzo*** es el siguiente:


<img src="./imgs/001_RL.png" style="width: 600px;"/>


<hr>


## <a name="M2"> 2.- Elementos y Terminología en el Aprendizaje por Refuerzo</a>


* Dentro del Aprendizaje por refuerzo tenemos los siguientes elementos:
<span></span><br><br>
    + **<span style="font-size:18px">Agente</span>**: Es un Ente que esta viviendo en un entorno y realiza una serie de acciones para cambiar el estado del entorno.
<span></span><br><br>
    + **<span style="font-size:18px">Entorno</span>**: Sistema que el agente puede percibir e interactual sobre él.
<span></span><br><br>
    + **<span style="font-size:18px">Estados</span>**: Conjunto finito de posiciones del entorno donde puede encontarse el agente.
<span></span><br><br>
    + **<span style="font-size:18px">Acciones</span>**: Conjunto finito de ópciones que tiene el agente para modificar su estado.
<span></span><br><br>
    + **<span style="font-size:18px">Recompensa</span>**: Valor que recibe el agente por la realización de una determinada acción.
<span></span><br><br>
    + **<span style="font-size:18px">Política</span>**: Modelo que sigue el agente para la toma de acciones.
<span></span><br><br>
    + **<span style="font-size:18px">Función de estado</span>**: (Value function) Función que calcula el valor de estar en un determinado estado del entorno. Esta función indica lo bueno o malo que es para el agente estar en un estado.
<span></span><br><br>
    + **<span style="font-size:18px">Q-Table</span>**: Tabla que guarda para cada estado y cada una de las posibles acciones a realizar en el estado, un valor que nos permite decidir cual de las posibles acciones nos devolverá una mejor recompensa. En otras palabras, en la QTable se guarda la política.

|Estado|Acción|Valor|
|---|---|---|
|(0,0)|Arriba|0,0|
|(0,0)|Abajo|0,5|
|(0,0)|Izquierda|0,0|
|(0,0)|Derecha|0,6|
|(0,1)|Arriba|0,0|
|(0,1)|Abajo|2,3|
|(0,1)|Izquierda|0,1|
|(0,1)|Derecha|4,7|
|...|...|...|
|(n,m)|Arriba|3,6|
|(n,m)|Abajo|0,0|
|(n,m)|Izquierda|7,2|
|(n,m)|Derecha|0,0|



<hr>



## <a name="M3">3.- Explorar vs Explotar</a>


### <a name="M31">3.1.- Analogía: Aprendizaje por Refuerzo vs "Vida Real"</a>

* Supongamos un hipotético caso en el que *tenemos que aprender* de nuevo a *ir desde nuestro trabajo a casa* y no disponemos de mapas ni de GPS para obtener el camino más corto. 


<img src="./imgs/002_RL.png" style="width: 150px;"/>


* Para *resolver por primera vez esta tarea* empezaremos recorriendo una calle y cuando lleguemos a una intersección *tomaremos una decisión sobre que calle coger* para llegar a casa. Como es la primera vez que nos enfrentamos a esta tarea tendremos que ir *tomando decisiones al azar* sobre que calle coger hasta que lleguemos a casa. Este primer día habremos aprendido un camino para llegar a casa aunque este no sea ni de lejos el más corto.


<img src="./imgs/003_RL.png" style="width: 150px;"/>


* El segundo día que nos enfrentemos a esta tarea ya *tendremos un conocimiento previo de como llegar a casa*, así que podemos *seguir el mismo camino que el día anterior* (camino muy largo) o seguir algunas partes del camino que tomamos el día anterior e investigar otros caminos *tomando decisiones al azar sobre que caminos seguir* para aprender nuevas rutas.


<img src="./imgs/004_RL.png" style="width: 150px;"/>


* Si hacemos esta tarea muchos dias, al final conseguiremos aprender un camino muy corto (no necesariamente el más corto) para llegar a casa y ya no nos será necesario tomar decisiones al azar sobre que camino seguir.


<img src="./imgs/005_RL.png" style="width: 150px;"/>


* Esta tarea que acabamos de explicar es un ejemplo de como resolver un problema con aprendizaje por refuerzo en el que un ***Agente=Persona*** realiza una serie de ***Acciones=Decisiones*** en un ***Entorno=Ciudad*** para obtener una ***Recompensa=Llegar a casa***. 


* Esta ***Recompensa será mayor cuanto menos tiempo se tarde en llegar a casa*** y por tanto hay que ***Aprender*** una ***Politica*** que nos permita determinar que calle coger para llegar a casa lo antes posible.


* En esta analogía aparecen dos conceptos muy interesantes dentro del Aprendizaje por Refuerzo como son la ***Exploración*** y la ***Explotación***.


### <a name="M32">3.2.- Exploración</a>


* La ***Exploración*** es la tarea que consiste en ***visitar y recopilar información de todos los estados*** del entorno. Esto se consigue ***tomando acciones de manera aleatoria*** sin tener en cuenta el conocimiento que se tiene sobre los estados del entorno.


* Dada la analogía anterior, el primer día en el que tenemos que ir del trabajo a casa, estaremos *Explorando* las calles de la ciudad ya que no tenemos ningún conocimiento sobre los caminos a tomar para llegar a casa.


### <a name="M33">3.3.- Explotación</a>


* La ***Explotación*** es la tarea que consiste en ***realizar la mejor acción que se puede tomar dado el conocimiento actual del problema*** (la Política).


* Dada la analogía anterior, cuando ya llevemos muchos dias llendo a casa, estaremos *Explotando* el conocimiento que ya tenemos sobre las calles de la ciudad ya que sabremos el camino de regreso a casa de memoria.



### <a name="M34"> 3.4.- Cuando Explorar o Explotar</a>


* Es evidente que ***la primera vez*** que nos enfrentamos al problema vamos a tener que ***explorar*** ya que el ***conocimiento actual*** que tenemos ***sobre el problema es nulo***.


* Según vayamos iterando con el entorno debemos de ir ***disminuyendo nuestra exploración y aumentando la explotación*** del conocimiento adquirido ya que este será cada vez mayor.


* La lógica nos puede decir que llegado un determinado momento del problema ya *no será necesario explorar el entorno y dedicarnos solo a explotar el conocimiento* que tenemos y por tanto seguir siempre el mismo camino a casa. 


* Esta última suposición (que bien pudiera parecer lógica) es erronea ya que en este tipo de problemas ***siempre debemos de explorar aunque sea poco*** ya que es posible que existan caminos más cortos para llegar a casa y que por no explorar de vez en cuando, nunca nos veamos en la situación de poder descubrir un nuevo camino.


* Supongamos en el ejemplo visual anterior en el que el primer día tomamos la decisión de ir hacia abajo y como desde el primer día sabemos que tomando la decisión de ir hacia abajo llegamos a casa, solo conseguiremos uno de los mejores camino que se puede obtener (camino rojo) para llegar a casa tomando como primera decisión la de ir hacia abajo. Si nunca exploramos el entorno y nunca tomamos como primera decisión la de ir hacia la derecha, nunca vamos a conseguir uno de los mejores caminos (camino verde) para llegar a casa.


<img src="./imgs/006_RL.png" style="width: 150px;"/>


<hr>



## <a name="M4">4.- Ecuación de Bellman: Programación dinámica</a>


* La ***ecuación de Bellman*** (Richard Bellman) es conocida como la ecuación de programación dinámica que es una condición necesaria para la optimalidad asociada con el método de la optimización matemática conocida como ***programación dinámica***. 


* La ***programación dinámica*** viene de las palabras ***programación*** que en matemáticas viene a significar ***optimizar un programa*** (en Aprendizaje por Refuerzo consiste en optimizar una política) y  por otro lado la palabra ***dinámica*** significa que ***el problema tiene un componente secuencial o temporal***. 


* Haciendo una gran abstracción, definimos la programación dinámica como un método de optimización para problemas secuenciales.


* La programación dinámica divide el problema en sub-problemas y los resuelve, uniendo luego estos sub-problemas para encontrar la solución general.


* Para usar la programación dinámica deben de cumplirse dos propiedades:
<span></span><br><br>
    + ***Sub-estructura óptima***: Para que se cumpla esta propiedad debe cumplirse el principio de optimalidad, lo cual significa que el problema se puede resolver si se parte en 2 o más sub-problemas y las soluciones óptimas para esos sub-problemas al unirlos dan como resultado la solución óptima a todo el problema.
<span></span><br><br>
    + ***Sub-problemas superpuestos***: Para que se cumpla esta propiedad, los sub-problemas deben ser similares, debido a que si se comportan de la misma manera su respuesta termina siendo bastante parecida y por lo tanto la solución se encuentra más rápidamente. Para que se cumpla esta propiedad los sub-problemas se deben repetir.
    
    
### Procesos de Decisión de Markov


* En la teoría de la probabilidad y en estadística, un ***proceso de Márkov*** (Andréi Márkov), es un ***fenómeno aleatorio dependiente del tiempo*** para el cual se cumple una propiedad específica: ***la propiedad de Márkov***. 


* ***La propiedad de Márkov*** dice que ***la probabilidad condicional sobre el estado presente, futuro y pasado del sistema son independientes***; o dicho de otra manera, para ciertos procesos estocásticos (aleatorios) la ***distribución de probabilidad del valor futuro de la variable aleatoria solo depende del valor en el presente, independientemente de todo lo que ha ocurrido en el pasado***; es decir, que carecen de memoria.


* Esta propiedad es muy interesante para el Aprendizaje por Refuerzo ya que la acción que tomemos en un estado del problema será independiente a las acciones que hayamos tomado en el pasado.



### <a name="M41"> 4.1.- Ecuación de Bellman</a>


* La ecuación de Bellman (en una de sus diferentes formas) define el valor de estar en un estado $S_t$ como:


$$V(s_t) = \underset{a}{max} (R(s_t,a) + \gamma \cdot V(s_{t+1}))$$


* Siendo:
    + $R(s_t,a)$: Recompensa por tomar la acción '$a$' desde el estado actual $S_t$.
    + $V(s_{t+1})$: Valor del estado al que nos moveríamos ($s_{t+1}$) si tomasemos la acción '$a$'.
    + $\gamma$: Factor de descuento. Se utiliza para penalizar el número de movimientos.
    
    
* Veamos a continuación un ejemplo en el que calcularemos los valores de los estados. Supongamos el siguiente tablero en el que queremos obtener la recompensa máxima que se obtiene en el estado $[4,4]$ con 100 puntos pero también podemos obtener una recompensa negativa de -100 puntos si caemos en el estado $[4,3]$:


<img src="./imgs/007_RL.png" style="width: 250px;"/>


* Si en un primer momento partimos desde el estado inicial $[1,1]$ donde todos los valores de los estados están sin calcular;es decir que tienen valor $0$, y realizamos una exploración de todos los estados, solo podemos obtener con valor distinto de $0$ la posición $[3,4]$:

<img src="./imgs/008_RL.png" style="width: 700px;"/>

* En una segunda iteracción ya podemos calcular el valor de dos estados más que tendrán valor distinto de $0$:

<img src="./imgs/009_RL.png" style="width: 700px;"/>

* Tras varias iteracciones, podemos calcular el valor de todos los estados:

<img src="./imgs/010_RL.png" style="width: 250px;"/>



### <a name="M42"> 4.2.- Estrategia</a>


* Una vez que tenemos calculado el valor de cada uno de los estados, debemos de tomar un conjunto de acciones que nos lleven a obtener la recompensa máxima, siendo esta recompensa de valor igual a 100 en el ejemplo propuesto.


* Para ello debemos de seguir un plan de actuación y uno de ellos puede ser el de movernos hacia el estado adyacente que mayor valor de estado ($V(S_t)$) tenga. De esta manera conseguiremos un conjunto de acciones que nos lleven a la recompensa máxima.


* Siguiendo el ejemplo anterior, podemos tomar diferentes conjuntos de acciones para obtener la recompensa, siendo algunas de ellas las marcadas en la siguiente imagen: 


<img src="./imgs/011_RL.png" style="width: 300px;"/>



### <a name="M43">4.3.- Recompensas parciales</a>


* Como podemos observar en el ejemplo anterior, solo vamos a obtener una recompensa negativa o positiva si caemos en las casillas $[3,4]$ o $[4,4]$ respectivamente.


* Por otro lado también podemos intuir que cuantas más acciones realicemos más vamos a tardar en llegar "a casa", por lo que parece lógico penalizar de alguna manera el número de paso (o acciones) a realizar ya que cuantos menos pasos demos antes llegaremos a casa.


* En el ejemplo anterior siempre vamos a tener la misma recompensa "al llegar a casa" (100 puntos) independientemente de que realicemos 6 acciones o infinitas acciones, por tanto parece lógico aplicar algún tipo de penalización por cada acción tomada que no sea la que nos devuelva la recompensa final.


* Por tanto a la hora de calcular la recompensa, le restaremos un determinado valor que lo podemos denominar como "penalización por acción", quedando la función de valor de estado como:


$$V(s_t) = \underset{a}{max} (R(s_t,a) - Penalty + \gamma \cdot V(s_{t+1}))$$


* Dado el ejemplo anterior y dando un valor de $-1$ a la penalización tendríamos como primeros valores de estados los siguientes:


<img src="./imgs/012_RL.png" style="width: 700px;"/>


<hr>


## <a name="M5"> 5.- Q-Function: State-Action Value Function</a>


* La ***Q-Function*** es una función que indica al agente cuanto de bueno o de malo es tomar una determinada acción en un estado concreto usando una política $\pi$.


* En un primer momento vamos a definir la Q-Function como:


$$Q^{\pi}(s_t, a) = R(s_t,a) + \gamma \cdot \underset{a}{max} Q(s_{t+1},{a}')$$

* Siendo:
    + $R(s_t,a)$: Recompensa por tomar la acción '$a$' desde el estado actual $s_t$.
    + $Q(s_{t+1},{a}')$: Valor de la función Q en el estados $s_{t+1}$ tomando la acción ${a}'$.
    + $\gamma$: Factor de descuento. Se utiliza para penalizar el número de acciones tomadas.
    
    
* Definimos $Q(s, a)$ como la recompensa por tomar la acción $a$ en el estado $s$ más el valor máximo que puede tomar $Q$ en el nuevo estado tras tomar una de las posibles acciones ${a}'$, multiplicado por un factor de descuento.


* Como podemo observar $Q(s, a)$ antes de tomar la acción tendrá un valor $X$ y tras aplicar la acción, tendrá otro valor ${X}'$ con lo cual tenemos una diferencia del valor de $Q(s, a)$ denominada como "***Diferencia Temporal***" que viene dada por:


$$TD(a,s) = (R(s_t,a) + \gamma \cdot \underset{a}{max} Q(s_{t+1},{a}')) - Q(s_t, a)$$


* Vemos entonces que $TD(a,s)$ es el valor de $Q(s, a)$ de "***después de tomar la acción***" menos el valor de $Q(s, a)$ de "***antes de tomar la acción***"; por tanto al ir tomando acciones, los valores de $Q(s, a)$ se van modificando y cuantas más acciones realicemos más información vamos adquiriendo del entorno; es decir, que ***cuantas más acciones realicemos más aprendemos***. Según esta afirmación podemos intuir que si la diferencia temporal tiene valor $0$ es que no hemos aprendido nada al aplicar esa acción.


* Como lo que nos interesa es ir aprendiendo lo buenas o malas que son las acciones que el agente puede tomar en los diferentes estados del entorno, tenemos que ir modificando poco a poco los valores de $Q(s, a)$; por lo que tenemos que combinar el valor actual de $Q(s, a)$ con un nuevo valor de $Q(s, a)$ tras la realización de una nueva acción.


* Para ello modificaremos el valor de $Q(s, a)$ de la siguiente manera:

$$\widehat{Q}(s, a) = Q(s, a) + \alpha \cdot TD(a,s)$$


* Siendo:
    + $\widehat{Q}(s, a)$:El nuevo valor de $Q(s, a)$
    + $Q(s, a)$: El antiguo valor de $Q(s, a)$
    + $TD(a,s)$: La diferencia temporal: $Q(s, a)_{"despues"}-Q(s, a)_{"antes"}$
    + $\alpha$: Factor de aprendizaje (Learning Rate) que indica "*cuanto*" queremos aprender en cada acción.


* De esta manera en cada acción no sustituimos o "machacamos" el valor de $Q(s, a)$, si no que lo vamos modificando poco a poco según vayamos iterando en nuestro problema.


* Con todo esto podemos concluir que la "***Q-Function***" quedaría definida de la siguiente manera:

<span style="font-size:20px">
$$\widehat{Q}(s, a) = Q(s, a) + \alpha \cdot \left [ R(s,a) + \left (\gamma \cdot \underset{{a}'}{max} Q({s}',{a}') \right ) - Q(s,a) \right ]$$
</span>


* Siendo:
    + $\widehat{Q}(s, a)$:El nuevo valor de $Q(s, a)$
    + $Q(s, a)$: El antiguo valor de $Q(s, a)$ o valor actual.
    + $\alpha$: Factor de aprendizaje (Learning Rate) que indica "*cuanto*" queremos aprender en cada acción.
    + $R(s,a)$: Recompensa por tomar la acción '$a$' desde el estado actual $s$.
    + $\gamma$: Factor de descuento.
    + $\underset{{a}'}{max} Q({s}',{a}')$: Valor de $Q(s, a)$ tras tomar la mejor acción posible.


<hr>


## <a name="M6">6.- Q-Table</a>


* Como ya definimos anteriormente, una ***Q-Table es una tabla*** que guarda ***para cada estado y para cada una de las posibles acciones*** a realizar en el estado, ***un valor que nos permite decidir cual de las posibles acciones nos devolverá (a corto o largo plazo) una mejor recompensa***.


* En un primer momento en el que no sabemos nada del entorno, la Q-Table estará inicializada con algún valor por defecto (por ejemplo a cero) e iremos rellenando los valores de la Q-Table según vayamos explorando el entorno.


* La Q-Table puede tener la siguiente forma, Guardando un determinado valor para cada estado del entorno y para cada una de las acciones que se pueden tomar en el estado:


|Estado|Acción1|Acción2|Acción3|Acción4|
|---|---|---|---|---|
|(0,0)|0,0|0,5|0,0|0,6|
|(0,1)|0,0|2,3|0,1|4,7|
|(1,0)|0,1|6,4|0,0|8,9|
|...|...|...|...|...|...|
|(n,m)|3,6|0,0|7,2|0,0|


* Esta ***Q-Table*** la vamos calculando con la ***Q-Funtion*** según va interactuando el agente con el problema.

$$\widehat{Q}(s, a) = Q(s, a) + \alpha \cdot \left [ R(s,a) + \left (\gamma \cdot \underset{{a}'}{max} Q({s}',{a}') \right ) - Q(s,a) \right ]$$


* Haciendo un símil con otro tipo de aprendizajes, la ***Q-Table es el modelo*** del Aprendizaje por Refuerzo ya que los valores que hay en esta tabla se tienen que ir calculando según el agente va interactuando con el problema y por otro lado es utilizada para la toma de acciones con la *Q-Funtion*.


* La *Q-Table* no solo se guarda en formato tabular si no que dependiendo del problema puede ser guardada en otras estructuras como por ejemplo en una Red Neuronal.



<hr>



## <a name="M7">7.- Algoritmos</a>


* Existen diferentes algoritmos a utilizar en el Aprendizaje por Refuerzo siendo algunos de estos los siguientes:

    + Q-Learning
    + SARSA-Learning
    + Deep Q Network (DQN)
    + Asynchronous Advantage Actor-Critic Algorithm (A3C)
    + Monte Carlo
    + Etc.
    
    
* Dado el número de algoritmo existente, vamos a explicar 2 de los algoritmo más populares y sencillos de entender en el Aprendizaje por refuerzo como son el "*Q-Learning*" y el "*SARSA-Learning*"



### <a name="M71">7.1.- Q-Learning</a>


* Q-learning es una técnica de aprendizaje por refuerzo que tiene como objetivo aprender una estrategia que le diga a un agente qué acción tomar bajo qué circunstancias. 


* Para ello utiliza la ***Q-Function*** definida como: 


<span style="font-size:20px">
$$\widehat{Q}(s, a) = Q(s, a) + \alpha \cdot \left [ R(s,a) + \left (\gamma \cdot \underset{{a}'}{max} Q({s}',{a}') \right ) - Q(s,a) \right ]$$
</span>


* Siendo:
    + $\widehat{Q}(s, a)$:El nuevo valor de $Q(s, a)$
    + $Q(s, a)$: El antiguo valor de $Q(s, a)$ o valor actual.
    + $\alpha$: Factor de aprendizaje (Learning Rate) que indica "*cuanto*" queremos aprender en cada acción.
    + $R(s,a)$: Recompensa por tomar la acción '$a$' desde el estado actual $s$.
    + $\gamma$: Factor de descuento.
    + $\underset{{a}'}{max} Q({s}',{a}')$: Valor de $Q(s, a)$ tras tomar la mejor acción posible.
    
    
* Cabe destacar que este algoritmo puede aprender la estrategia optimizando la recompensa a corto o largo plazo; es decir, que puede aprender a moverse al siguiente estado con mayor recompensar (estrategia a corto plazo) o puede moverse de tal manera que tenga en cuenta maximizar la recompensa final (estrategia a largo plazo) aunque esto le suponga no realizar el movimiento más prometedor dado un estado.


* Para definir que tipo de estrategia tomar, usamos el hiperparámetro $\gamma$ (factor de descuento) que tendrá que tener un valor de $0$ o cercano a $0$ si queremos tomar una estrategia a corto plazo y un valor de $1$ o cercano a $1$ si decidimos tomar una estrategia a largo plazo.


* El Pseudocódigo de este algoritmo es el siguiente:


<img src="./imgs/013_qlearning.png" style="width: 500px;"/>


* En este algoritmo podemos observar los siguiente:
    1. El agente se ejecutara un número determinado de veces (episodios)
    2. Cada vez que se ejecute, el agente partirá del estado inicial $S$ por lo que hay que inicializar el entorno
    3. Para cada ejecución, el agente calculará los valores de las acciones que puede tomar en cada uno de los estados con la Q-Function y actualizará el valor $Q(s,a)$ en la Q-Table.
    4. El agente en cada estado puede realizar las acciones de dos formar:
        + Explorando: Selecciona una acción al azar
        + Explotando: Selecciona la mejor acción entre todas las posibles
    5. El algoritmo se ejecuta hasta que el agente llegue al estado final.
    
    
* Para determinar si el agente tiene que explorar o explotar en un determinado estado se define un parámetro conocido como "greedy control" ($\in$) que no es más que la definición de una probabilidad de explotación o exploración; por ejemplo, si definimos $\in=0.1$, un 10% de las veces exploraremos y un 90% de las veces explotaremos el conocimiento adquirido por el sistema.



## <a name="M72"> 7.2.- SARSA Learning</a>


* El SARSA-learning (State–action–reward–state–action) es una técnica de aprendizaje por refuerzo similar al Q-learning, con la diferencia de que en la Q-función no selecciona el valor máximo esperado $\underset{{a}'}{max} Q({s}',{a}')$, si no que selecciona la acción que hubiesemos tomado en ese nuevo estado ${s}'$.


* Veamos como queda la función de Estado-Acción: 


<span style="font-size:20px">
$$\widehat{Q}(s, a) = Q(s, a) + \alpha \cdot \left [ R(s,a) + \left (\gamma \cdot Q({s}',{a}') \right ) - Q(s,a) \right ]$$
</span>


* Siendo:
    + $\widehat{Q}(s, a)$:El nuevo valor de $Q(s, a)$
    + $Q(s, a)$: El antiguo valor de $Q(s, a)$ o valor actual.
    + $\alpha$: Factor de aprendizaje (Learning Rate) que indica "*cuanto*" queremos aprender en cada acción.
    + $R(s,a)$: Recompensa por tomar la acción '$a$' desde el estado actual $s$.
    + $\gamma$: Factor de descuento.
    + $Q({s}',{a}')$: Valor de la mejor acción que hubiesemos tomado en el nuevo estado ${a}'$
    
    
* El Pseudocódigo de este algoritmo es el siguiente:


<img src="./imgs/014_sarsa.png" style="width: 500px;"/>


* Como se puede observar en el Pseudocódigo la diferencia fundamental frente al Q-Learning es que se selecciona la mejor acción a tomar en el estado actual (igual que en Q-Learning) pero en la función se toma como valor $Q({s}',{a}')$ el valor de la acción que se tomaría en el estado en el que nos moveríamos a continuación; es decir, como si viesemos el valor que tendríamos si tomasemos dos acciones.


* Esta diferencia hace que el SARSA-Learning obtenga por lo general mejores resultados que el Q-Learning.


<hr>


# Referencias

* ***Reinforcement Learning: An Introduction*** de Richard S. Sutton y Andrew G. Barto<br>https://web.stanford.edu/class/psych209/Readings/SuttonBartoIPRLBook2ndEd.pdf


* ***Hands-On Reinforcement Learning with Python*** de Sudharsan Ravichandiran.


* ***Deep Reinforcement Learning Hands-On*** de Maxim Lapan

<hr>

*Este Notebook ha sido desarrollado por **Ricardo Moya García** y registrado en Safe Creative como ***Atribución-NoComercial-CompartirIgual***.*


<a href="https://www.safecreative.org/work/2005103928037" xmlns:cc="http://creativecommons.org/ns#" rel="cc:license"><img src="https://resources.safecreative.org/work/2005103928037/label/standard-72" style="border:0;" alt="Safe Creative #2005103928037"/></a>