<img style="float: left;;" src='Figures/alinco.png' /></a>
# <center> <font color= #000047> Módulo 3: Algoritmos de Aprendizaje por Refuerzo: Q-Learning y SARSA

* En este notebook vamos a resolver un problema con Aprendizaje por refuerzo usando los algoritmos del Q-Learning y SARSA-Learning. El problema que queremos resolver es el de encontrar el camino que nos suponga una mayor recompensa (el más corto) desde un estado inicial $[0,0]$ hasta el estado final $[4,4]$, pudiendo realizar 4 tipos de acciones:


<img src="./Figures/007_RL.png" style="width: 300px;"/>



* Para resolver este problema vamos a realizar lo siguiente:
<span></span><br>
    1. [Definición del entorno](#M1)
<span></span><br>
    2. [Implementación de un algoritmo de toma aleatoria de acciones](#M2)
<span></span><br>
    3. [Ejecución: Entorno - Agente](#M3)
<span></span><br>
    4. [Q-Learner: Implementación y Ejecución](#M4)
<span></span><br>
    5. [SARSA-Learner: Implementación y Ejecución](#M5)
<span></span><br>
    6. [Estrategias a corto y largo plazo](#M5)


<hr>


## Definición del entorno






In [None]:
# importamos las librerias necesarias
import pandas as pd
import numpy as np

# Formato de los decimales en Pandas y la semilla del Random
pd.options.display.float_format = '{:,.2f}'.format
np.random.seed(23)


class Environment(object):
    def __init__(self, action_penalty=-1.0):
        """
        Clase que representa y controla en entorno
        :param action_penalty:    Factor de descuento del Reward por acción tomada
        """
        

    def reset(self):
        """
        Método que reinicia las variables del entorno y devuelve es estado inicial
        :return:    state
        """
        
        return None

    def step(self, action):
        """
        Método que ejecuta una acción determinada del conjunto de acciones {Arriba, Abajo, Izquierda, Derecha}
        para guiar al agente en el entorno.
        :param action:    Acción a ejecutar
        :return:          (state, reward, is_final_state)
        """
        
        return None,None,None

    def __apply_action(self, action):
        """
        Método que calcula el nuevo estado a partir de la acción a ejecutar
        :param action:    Acción a ejecutar
        """
        

    def print_path_episode(self):
        """
        Método que imprime por pantalla el camino seguido por el agente
        :return: 
        """
        



## Implementación de un algoritmo de toma aleatoria de acciones




In [None]:
class Learner(object):

    def __init__(self, environment, learning_rate=0.1, discount_factor=0.1, ratio_exploration=0.05):
        """
        Clase que implementa un algoritmo de aprendiza por refuerzo
        Esta clase implementa un algoritmo de selección aleatoria de acciones
        :param environment:         Entorno en el que tomar las acciones
        :param learning_rate:       Factor de aprendizaje
        :param discount_factor:     Factor de descuento (0=Estrategia a corto plazo, 1=Estrategia a largo plazo)
        :param ratio_exploration:   Ratio de exploración
        """
        

    @property
    def name(self):
        return 'random'

    def get_next_action(self, state):
        """
        Método que selecciona la siguiente acción a tomar:
            Aleatoria -> si el ratio de exploración es inferior al umbral
            Mejor Acción -> si el ratio de exploración es superior al umbral
        :param state:   Estado del agente
        :return:        next_action
        """

        

    def update(self, **kwargs):
        """
        Actualiza la Q-Table
        :param kwargs: 
        """
        pass

    def print_q_table(self):
        """
        Método que imprime por pantalla la Q-Table
        """
        

    def print_best_actions_states(self):
        """
        Método que imprime por pantalla la mejor opción a realizar en cada uno de los estados
        """

        
        
    def print_best_values_states(self):
        """
        Método que imprime por pantalla el valor de la mejor opción a realizar en cada uno de los estados
        """
        


## Ejecución: Entorno - Agente




In [None]:
from copy import deepcopy


def run_agent(learner=Learner, num_episodes=10, learning_rate=0.1, discount_factor=0.1, ratio_exploration=0.05,
              verbose=False):
    """
    Método que ejecuta el proceso de aprendizaje del agente en un entorno
    :param learner:              Algoritmo de Aprendizaje
    :param num_episodes:         Número de veces que se ejecuta (o aprende) el agente en el entorno
    :param learning_rate:        Factor de Aprendizaje
    :param discount_factor:      Factor de descuento (0=Estrategia a corto plazo, 1=Estrategia a largo plazo)
    :param ratio_exploration:    Ratio de exploración
    :param verbose:              Boolean, si queremos o no imprimir por pantalla información del proceso
    :return:                     (episodes_list, best_episode)
    """

    # Instanciamos el entorno
   

    # Instanciamos el método de aprendizaje
   
    # Variables para guardar la información de los episodios
   
        # Guardamos el mejor episodio
        
            # Imprimimos la información de los episodios
            
    return None, None


def print_process_info(episodes_list, best_episode, print_best_episode_info=True,
                       print_q_table=True, print_best_values_states=True,
                       print_best_actions_states=True, print_steps=True, print_path=True):
    """
    Método que imprime por pantalla los resultados de la ejecución
    """
    


#### Política Aleatoria

<hr>


## Q-Learner: Implementación y Ejecución


* Recordemos el Pseudocódigo del Algoritmo:


<img src="./Figures/013_qlearning.png" style="width: 600px;"/>


In [None]:
class QLearner(Learner):

    @property
    def name(self):
        return 'QLearner'

    def update(self, environment, old_state, action_taken, reward_action_taken, new_state, is_final_state, **kwargs):
        """
        Método que implementa el Algoritmo de aprendizaje del Q-Learning
        :param environment:           Entorno en el que tomar las acciones
        :param old_state:             Estado actual
        :param action_taken:          Acción a realizar
        :param reward_action_taken:   Recompensa obtenida por la acción tomada
        :param new_state:             Nuevo estado al que se mueve el agente
        :param is_final_state:        Boolean. Devuelve True si el agente llega al estado final; si no, False
        :param kwargs: 
        """
        # Obtenemos el identificador de la acción
        

        # Obtenemos el valor de la acción tomada
        

#### Estrategia a corto plazo

#### Estrategia a largo plazo

<hr>


## SARSA-Learner: Implementación y Ejecución


* Recordemos el Pseudocódigo del Algoritmo:


<img src="./Figures/014_sarsa.png" style="width: 600px;"/>

In [None]:
class SARSALearner(Learner):

    @property
    def name(self):
        return 'SARSA'

    def update(self, environment, old_state, action_taken, reward_action_taken, new_state, new_action, is_final_state):
        """
        Método que implementa el algoritmo de aprendizaje SARSA
        :param environment:           Entorno en el que tomar las acciones
        :param old_state:             Estado actual
        :param action_taken:          Acción a realizar
        :param reward_action_taken:   Recompensa obtenida por la acción tomada
        :param new_state:             Nuevo estado al que se mueve el agente 
        :param new_action:            Acción a tomar en el nuevo estado
        :param is_final_state:        Boolean. Devuelve True si el agente llega al estado final; si no, False 
        """
        # Obtenemos el identificador de la acción
        

        # Obtenemos el valor de la acción tomada
        


#### Estrategia a corto plazo

#### Estrategia a largo plazo

<hr>


## Estrategias a corto y largo plazo


### Q-Learning

### SARSA