# Módulo Deep Learning
## Actividad 2: Reinforcement Learning: **Frozen lake problem**

GRUPO 7

Alina Oganesyan  
Celia Vincent  
Orlando Dotollo  

# Actividad Reinforcemente Learning

Resolver el problema del Frozen lake de OpenAI Gym. Documentación: https://www.gymlibrary.dev/environments/toy_text/frozen_lake/

## Objetivos
- Conseguir movermos aleatoriamente hasta cumplir el objetivo
- Conseguir que el agente aprenda con Q-learning
- (Opcional) Probar con otros hiperparámetros
- (Opcional) Modificar la recompensa

## Consideraciones
- No hay penalizaciones
- Si el agente cae en un "hole", entonces done = True y se queda atascado sin poder salir (al igual que ocurre cuando llega al "goal")

## Normas a seguir

- Se debe entregar un **ÚNICO GOOGLE COLAB notebook** (archivo .ipynb) que incluya las instrucciones presentes y su **EJECUCIÓN!!!**.
- Poner el nombre del grupo en el nombre del archivo y el nombre de todos los integrantes del grupo al inicio del notebook.

## Criterio de evaluación

- Seguimiento de las normas establecidas en la actividad.
- Corrección en el uso de algoritmos, modelos y formas idiomáticas en Python.
- El código debe poder ejecutarse sin modificación alguna en Google Colaboratory.

## **Instalamos librerías**

In [None]:
!pip install gym==0.17.3
!pip install numpy==1.23.5

In [77]:
import gym
import numpy as np
from time import sleep
from IPython.display import clear_output
import random as rd

## **Definición del entorno**

![GIF Animado](https://www.gymlibrary.dev/_images/frozen_lake.gif)

In [78]:
# Definimos el entorno
env = gym.make('FrozenLake-v0', desc=None, map_name="4x4", is_slippery=False)

In [107]:
# Fijamos una semilla
seed_value = 42
env.seed(seed_value)
np.random.seed(seed_value)

In [80]:
env.reset() # En este caso, empieza desde la misma posición inicial
print(env.render())


[41mS[0mFFF
FHFH
FFFH
HFFG
None


In [81]:
print("Action Space {}".format(env.action_space))
print("State Space {}".format(env.observation_space))

Action Space Discrete(4)
State Space Discrete(16)


Acciones posibles:
* 0: izquierda
* 1: abajo
* 2: derecha
* 3: arriba

In [82]:
# Identificador de estado
state = env.s
print("State:", state)

State: 0


## **Comprobamos las acciones.**

In [83]:
# Posición inicial
steps = 0
env.reset()
env.render()


[41mS[0mFFF
FHFH
FFFH
HFFG


In [84]:
# Acciones: 0=izquierda, 1=abajo, 2=derecha, 3=arriba

action = 1 # abajo
state, reward, done, info = env.step(action)

print("State:", state)

env.s = state
env.render()

steps += 1

print(f"Step: {steps}")

State: 4
  (Down)
SFFF
[41mF[0mHFH
FFFH
HFFG
Step: 1


In [85]:
action = 3 # arriba
state, reward, done, info = env.step(action)
print("State:", state)
env.s = state
env.render()
steps += 1
print(f"Step: {steps}")

State: 0
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
Step: 2


In [86]:
action = 2 # derecha
state, reward, done, info = env.step(action)
print("State:", state)
env.s = state
env.render()
steps += 1
print(f"Step: {steps}")

State: 1
  (Right)
S[41mF[0mFF
FHFH
FFFH
HFFG
Step: 3


In [87]:
action = 0 # izquierda
state, reward, done, info = env.step(action)
print("State:", state)
env.s = state
env.render()
steps += 1
print(f"Step: {steps}")

State: 0
  (Left)
[41mS[0mFFF
FHFH
FFFH
HFFG
Step: 4


## **¡Nos movemos aleatoriamente!**

Le decimos que haga 10 acciones de forma aleatoria desde el estado inicial y le fijamos un contador de las iteraciones de tiempo, penalzaciónes y victorias. Iniciamos con los contadores a cero.

Para movernos aleatoriamente usamos .env_action_space.sample() y esto se lo pasamos a env.step

Almacenamos los resultados generados en cada acción.

In [129]:
state = env.reset()
print(f'Initial state: {state}')

timestep = 0
victories = 0

for num_paso in range(10):

  action = env.action_space.sample() # con "sample" elegimos una de las acciones del action_space al azar
  state, reward, done, info = env.step(action) # con "step" realizamos la acción elegida

  timestep += 1

  # Visualizamos el estado actual del entorno
  env.render()
  print(f"Step: {timestep}, Action: {action}, state: {state}, Reward: {reward}, Done: {done}")
  print("-" * 55)  # Línea de separación
  
  if done:
    if reward == 1:
      victories += 1 # si llegamos al objetivo, sumamos 1 al contador de victorias
      print('\033[1m¡VICTORIA!\033[0m')  # Texto en negrita
      break
    else:
      print('\033[1m¡Oh!Caíste en un agujero. Iniciando...\033[0m')  # Texto en negrita
    break

print("Pasos dados: {}".format(timestep))
print("Victories: {}".format(victories))
print('Estado final:', state)
env.render() # visualizamos el estado final

Initial state: 0
  (Down)
SFFF
[41mF[0mHFH
FFFH
HFFG
Step: 1, Action: 1, state: 4, Reward: 0.0, Done: False
-------------------------------------------------------
  (Down)
SFFF
FHFH
[41mF[0mFFH
HFFG
Step: 2, Action: 1, state: 8, Reward: 0.0, Done: False
-------------------------------------------------------
  (Left)
SFFF
FHFH
[41mF[0mFFH
HFFG
Step: 3, Action: 0, state: 8, Reward: 0.0, Done: False
-------------------------------------------------------
  (Right)
SFFF
FHFH
F[41mF[0mFH
HFFG
Step: 4, Action: 2, state: 9, Reward: 0.0, Done: False
-------------------------------------------------------
  (Left)
SFFF
FHFH
[41mF[0mFFH
HFFG
Step: 5, Action: 0, state: 8, Reward: 0.0, Done: False
-------------------------------------------------------
  (Down)
SFFF
FHFH
FFFH
[41mH[0mFFG
Step: 6, Action: 1, state: 12, Reward: 0.0, Done: True
-------------------------------------------------------
[1m¡Oh!Caíste en un agujero. Iniciando...[0m
Pasos dados: 6
Victories: 0
Estado final:

## **Nos movemos aleatoriamente hasta el goal.**


In [128]:
class bcolors:
    RED = '\u001b[31m'
    GREEN = '\u001b[32m'
    RESET = '\u001b[0m'

# Reiniciamos el entorno para comenzar un nuevo episodio
state = env.reset()
print(f'Initial state: {state}')

# Inicializamos las variables
timestep = 0
victories = 0

while victories == 0:
    # Reiniciamos el entorno para comenzar un nuevo episodio
    state = env.reset()
    print(f'Initial state: {state}')

    while True:
        action = env.action_space.sample()  # Elegimos una acción al azar. 0=izquierda, 1=abajo, 2=derecha, 3=arriba
        state, reward, done, info = env.step(action)  # Realizamos la acción elegida

        timestep += 1  # Incrementamos el contador de pasos

        # Visualizamos el estado actual del entorno
        env.render()
        print(f'Step: {timestep}, Action: {action}, state: {state}, Reward: {reward}, Done: {done}')
        print('-' * 55)  # Línea de separación

        if done:
            if reward == 1:
                victories += 1  # Incrementamos el contador de victorias si se alcanza el objetivo
                print(f'{bcolors.GREEN}\033[1m¡VICTORIA!\033[0m{bcolors.RESET}')  # Texto verde y en negrita
                break
            else:
                print(f'{bcolors.RED}\033[1m¡Oh! Caíste en un agujero. Iniciando...\033[0m{bcolors.RESET}')  # Texto rojo y en negrita
            break

print('Pasos dados: {}'.format(timestep))
print('Victories: {}'.format(victories))
print('Estado final:', state)
env.render()  # Visualizamos el estado final

Initial state: 0
Initial state: 0
  (Right)
S[41mF[0mFF
FHFH
FFFH
HFFG
Step: 1, Action: 2, state: 1, Reward: 0.0, Done: False
-------------------------------------------------------
  (Left)
[41mS[0mFFF
FHFH
FFFH
HFFG
Step: 2, Action: 0, state: 0, Reward: 0.0, Done: False
-------------------------------------------------------
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
Step: 3, Action: 3, state: 0, Reward: 0.0, Done: False
-------------------------------------------------------
  (Left)
[41mS[0mFFF
FHFH
FFFH
HFFG
Step: 4, Action: 0, state: 0, Reward: 0.0, Done: False
-------------------------------------------------------
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
Step: 5, Action: 3, state: 0, Reward: 0.0, Done: False
-------------------------------------------------------
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
Step: 6, Action: 3, state: 0, Reward: 0.0, Done: False
-------------------------------------------------------
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
Step: 7, Action: 3, state: 0, Reward: 0.0

## Q-learning: train

In [None]:
q_table = np.zeros([env.observation_space.n, env.action_space.n])

In [None]:
q_table[0]

In [None]:
#trade-off entre explorar y explotar: epsilon
def greedy_trade_off(epsilon, q_table, state, env):
  if rd.random() < epsilon:
    action = env.action_space.sample() #explorar
  else:
    action = np.argmax(q_table[state]) #explotar
  return action

In [None]:
# Hyperparameters
alpha = 0.2 # tasa de aprendizaje
gamma = 0.7 # tasa de descuento
epsilon = 0.15 # greedy policy

# For plotting metrics
all_timestep = []
all_penalties = []

episodes = 100000

q_table = np.zeros([env.observation_space.n, env.action_space.n])

for i in range(episodes):
  state = env.reset()

  timestep, penalties = 0, 0
  done = False

  while not done and reward !=0:
    action = greedy_trade_off(epsilon, q_table, state, env) # aplicamos la greedy policy

    next_state, reward, done, info = env.step(action) # tomamos la acción elegida

    old_value = q_table[state, action] # en la Q-table, tomamos el valor Q de la acción elegida para el estado actual
    next_max = np.max(q_table[next_state]) # en la Q-table, tomamos el máximo entre los valores Q para el nuevo estado

    new_value = (1 - alpha) * old_value + alpha * (reward + gamma * next_max) # actualizamos el valor Q
    q_table[state, action] = new_value

    if reward == -10:
      penalties += 1

    state = next_state

  if i % 100 == 0:
    clear_output(wait=True)
    print(f"Episodio: {i+1}")

  timestep += 1

clear_output(wait=True)
print(f"Episodio: {i+1}")
print("¡Entrenamiento finalizado!")

In [None]:
q_table[0]

## Prueba de CHATGPT

Inicializar la tabla Q con ceros.  
Para cada episodio:  
Inicializar el estado S.  
Mientras el episodio no termine:  
Elegir una acción A desde el estado S usando la política derivada de Q (por ejemplo, ε-greedy).  
Tomar la acción A, observar el nuevo estado S' y la recompensa R.  
Actualizar la tabla Q usando la ecuación de Bellman: Q(S,A) = Q(S,A) + α * (R + γ * max(Q(S',a)) - Q(S,A))
S = S'.  
Repetir el proceso para el número deseado de episodios.  
Código en Python:

In [None]:
# Inicializar la tabla Q
Q = np.zeros([env.observation_space.n, env.action_space.n])

# Parámetros del aprendizaje
alpha = 0.8  # Tasa de aprendizaje
gamma = 0.95  # Factor de descuento
num_episodes = 2000  # Número de episodios

# Proceso de aprendizaje
for i in range(num_episodes):
    # Resetear el entorno y obtener el primer estado
    state = env.reset()
    done = False

    while not done:
        # Elegir una acción por la política ε-greedy
        if np.random.rand() < (1 - (i / num_episodes)):
            action = env.action_space.sample()
        else:
            action = np.argmax(Q[state, :])

        # Tomar la acción y obtener el nuevo estado y recompensa
        new_state, reward, done, _ = env.step(action)

        # Actualizar Q
        Q[state, action] = Q[state, action] + alpha * (reward + gamma * np.max(Q[new_state, :]) - Q[state, action])

        # Actualizar el estado
        state = new_state

# Imprimir la tabla Q aprendida
print("Tabla Q aprendida:")
print(Q)