# Ejercicio 1

<img src="files/img2.png">

El código acontinuación hace que el agente aprenda a moverse por la nieve hasta llegar al lugar donde obtendrá un premio. Sin embargo, existen agujeros en la nieve que harían que el agente muera.

El siguiente código implementa el algoritmo Q-learning para que el agente aprenda automáticamente, i.e. los episodios que sirven para actualizar la Q-table y se generan automáticamente considerando aspectos como exploración/explotación.

## Ejercicio 1.1 

Ejecute y analice el código a continuación

In [1]:
import numpy as np
import gym
import random

In [2]:
env = gym.make("FrozenLake-v0")

In [None]:
action_size = env.action_space.n
state_size = env.observation_space.n

qtable = np.zeros((state_size, action_size))
print(qtable)  # estructura de la Q-table, inicializada con 0's

Parámetros de aprendizaje para el algoritmo Q-learning

In [4]:
total_episodes = 15000        # Episodios totales de entrenamiento (mientras más alto el valor, mayor convergencia)
learning_rate = 0.8           # Learning rate
max_steps = 99                # Número máximo de movimientos por episodio
gamma = 0.95                  # Discounting rate

# parámetros de exploración
epsilon = 1.0                 # Exploration rate
max_epsilon = 1.0             # Exploration probability at start
min_epsilon = 0.01            # Minimum exploration probability 
decay_rate = 0.005             # Exponential decay rate for exploration prob

Implementación del entrenamiento para el algoritmo Q-learning

In [None]:
# lista de recompensas
rewards = []

# 2. se entrena el número total de episodios
for episode in range(total_episodes):
    # Reset the environment
    state = env.reset()
    step = 0
    done = False
    total_rewards = 0
    
    for step in range(max_steps):
        # 3. Escoger una acción en el estado actual (s)
        ## First we randomize a number
        exp_exp_tradeoff = random.uniform(0, 1)
        
        ## If this number > greater than epsilon --> exploitation (taking the biggest Q value for this state)
        if exp_exp_tradeoff > epsilon:
            action = np.argmax(qtable[state,:])

        # Else doing a random choice --> exploration
        else:
            action = env.action_space.sample()

        # Take the action (a) and observe the outcome state(s') and reward (r)
        new_state, reward, done, info = env.step(action)

        # Update Q(s,a):= Q(s,a) + lr [R(s,a) + gamma * max Q(s',a') - Q(s,a)]
        # qtable[new_state,:] : all the actions we can take from new state
        qtable[state, action] = qtable[state, action] + learning_rate * (reward + gamma * np.max(qtable[new_state, :]) - qtable[state, action])
        
        total_rewards += reward
        
        # Our new state is state
        state = new_state
        
        # If done (if we're dead) : finish episode
        if done == True: 
            break
        
    # Reduce epsilon (because we need less and less exploration)
    epsilon = min_epsilon + (max_epsilon - min_epsilon)*np.exp(-decay_rate*episode) 
    rewards.append(total_rewards)

print ("Score over time: " +  str(sum(rewards)/total_episodes))
print(qtable)  # q-table resultante

## Ejercicio 1.2 

### Poner a prueba lo aprendido

Ejecute varias veces el siguiente algoritmo y verifique los resultados ¿Cuantas veces el agente llegó al objetivo?

Nota: el agente llega al objetivo cuando llega al casillero G, ubicado en el extremo inferior derecho de la tabla

In [None]:
env.reset()

n_episodes = 10  # número de veces que se jugará
n_correctos = 0
for episode in range(n_episodes):
    state = env.reset()
    step = 0
    done = False
    print("****************************************************")
    print("EPISODE ", episode)

    for step in range(max_steps):
        
        # Take the action (index) that have the maximum expected future reward given that state
        action = np.argmax(qtable[state,:])
        
        new_state, reward, done, info = env.step(action)
        
        if done:
            # Here, we decide to only print the last state (to see if our agent is on the goal or fall into an hole)
            env.render()
            
            # We print the number of step it took.
            print("Number of steps", step)
            break
        state = new_state
    
    if new_state == 15:  # cuando el estado final es 15, el agente llegó al objetivo
        n_correctos += 1

env.close()
print("Porcentaje de veces que el agente llegó al objetivo: {:.2f}%".format(100*n_correctos/n_episodes))

## Ejercicio 1.3 

### Verificando la eficacia del algoritmo

Modifique el código anterior para que la variable `n_episodes` sea igual a 10000 (número de veces que se probará el juego). Calcule el porcentaje de veces que el algoritmo llega a su objetivo. Por simplicidad, comentar la línea `env.render()` en donde se muestra gráficamente el episodio; así mismo comentar los mensajes innesearios.

Ayuda: el agente llega a su objetivo cuando su estado final (`new_state` en la última iteración) es 15

## Ejercicio 1.4 

### Modificando parámetros para mejorar el algoritmo

Modifique los valores de parámetros para el algoritmo. El objetivo es mejorar el porcentaje de efectividad del agente. ¿Cual es el conjunto de parámetros y su porcentaje de efectividad? (Los parámetros que usted encontró que le proveen los mejores resultados)

Ayuda: Ponga especial énfasis en la variable `total_episodes`. Al fin y al cabo, el algoritmo llega a converger mientras más episodios existan.