# Módulo Deep Learning
## Actividad 2: Reinforcement Learning: **Frozen lake problem**

GRUPO 7

Alina Oganesyan  
Celia Vincent  
Orlando Dotollo  

# Actividad Reinforcemente Learning

Resolver el problema del Frozen lake de OpenAI Gym. Documentación: https://www.gymlibrary.dev/environments/toy_text/frozen_lake/

## Objetivos
- Conseguir movermos aleatoriamente hasta cumplir el objetivo
- Conseguir que el agente aprenda con Q-learning
- (Opcional) Probar con otros hiperparámetros
- (Opcional) Modificar la recompensa

## Consideraciones
- No hay penalizaciones
- Si el agente cae en un "hole", entonces done = True y se queda atascado sin poder salir (al igual que ocurre cuando llega al "goal")

## Normas a seguir

- Se debe entregar un **ÚNICO GOOGLE COLAB notebook** (archivo .ipynb) que incluya las instrucciones presentes y su **EJECUCIÓN!!!**.
- Poner el nombre del grupo en el nombre del archivo y el nombre de todos los integrantes del grupo al inicio del notebook.

## Criterio de evaluación

- Seguimiento de las normas establecidas en la actividad.
- Corrección en el uso de algoritmos, modelos y formas idiomáticas en Python.
- El código debe poder ejecutarse sin modificación alguna en Google Colaboratory.

## **Instalamos librerías**

In [1]:
%pip install gym==0.17.3
%pip install numpy==1.23.5

Note: you may need to restart the kernel to use updated packages.
Collecting numpy==1.23.5
  Using cached numpy-1.23.5.tar.gz (10.7 MB)
  Installing build dependencies: started
  Installing build dependencies: finished with status 'done'
  Getting requirements to build wheel: started
  Getting requirements to build wheel: finished with status 'error'
Note: you may need to restart the kernel to use updated packages.


  error: subprocess-exited-with-error
  
  × Getting requirements to build wheel did not run successfully.
  │ exit code: 1
  ╰─> [33 lines of output]
      Traceback (most recent call last):
        File "c:\Users\odoto\AppData\Local\Programs\Python\Python312\Lib\site-packages\pip\_vendor\pyproject_hooks\_in_process\_in_process.py", line 353, in <module>
          main()
        File "c:\Users\odoto\AppData\Local\Programs\Python\Python312\Lib\site-packages\pip\_vendor\pyproject_hooks\_in_process\_in_process.py", line 335, in main
          json_out['return_val'] = hook(**hook_input['kwargs'])
                                   ^^^^^^^^^^^^^^^^^^^^^^^^^^^^
        File "c:\Users\odoto\AppData\Local\Programs\Python\Python312\Lib\site-packages\pip\_vendor\pyproject_hooks\_in_process\_in_process.py", line 112, in get_requires_for_build_wheel
          backend = _build_backend()
                    ^^^^^^^^^^^^^^^^
        File "c:\Users\odoto\AppData\Local\Programs\Python\Python312\Lib\si

In [2]:
import gym
import numpy as np
from time import sleep
from IPython.display import clear_output
import random as rd

## **Definición del entorno**

![GIF Animado](https://www.gymlibrary.dev/_images/frozen_lake.gif)

In [3]:
# Definimos el entorno
env = gym.make('FrozenLake-v0', desc=None, map_name="4x4", is_slippery=False)

In [4]:
# Fijamos una semilla
seed_value = 42
env.seed(seed_value)
np.random.seed(seed_value)

In [5]:
env.reset() # En este caso, empieza desde la misma posición inicial
print(env.render())


[41mS[0mFFF
FHFH
FFFH
HFFG
None


In [6]:
print("Action Space {}".format(env.action_space))
print("State Space {}".format(env.observation_space))

Action Space Discrete(4)
State Space Discrete(16)


Acciones posibles:
* 0: izquierda
* 1: abajo
* 2: derecha
* 3: arriba

In [7]:
# Identificador de estado
state = env.s
print("State:", state)

State: 0


## **Comprobamos las acciones.**

In [8]:
# Posición inicial
steps = 0
env.reset()
env.render()


[41mS[0mFFF
FHFH
FFFH
HFFG


In [9]:
# Acciones: 0=izquierda, 1=abajo, 2=derecha, 3=arriba

action = 1 # abajo
state, reward, done, info = env.step(action)

print("State:", state)

env.s = state
env.render()

steps += 1

print(f"Step: {steps}")

State: 4
  (Down)
SFFF
[41mF[0mHFH
FFFH
HFFG
Step: 1


In [10]:
action = 3 # arriba
state, reward, done, info = env.step(action)
print("State:", state)
env.s = state
env.render()
steps += 1
print(f"Step: {steps}")

State: 0
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
Step: 2


In [11]:
action = 2 # derecha
state, reward, done, info = env.step(action)
print("State:", state)
env.s = state
env.render()
steps += 1
print(f"Step: {steps}")

State: 1
  (Right)
S[41mF[0mFF
FHFH
FFFH
HFFG
Step: 3


In [12]:
action = 0 # izquierda
state, reward, done, info = env.step(action)
print("State:", state)
env.s = state
env.render()
steps += 1
print(f"Step: {steps}")

State: 0
  (Left)
[41mS[0mFFF
FHFH
FFFH
HFFG
Step: 4


## **¡Nos movemos aleatoriamente!**

Le decimos que haga 10 acciones de forma aleatoria desde el estado inicial y le fijamos un contador de las iteraciones de tiempo, penalzaciónes y victorias. Iniciamos con los contadores a cero.

Para movernos aleatoriamente usamos .env_action_space.sample() y esto se lo pasamos a env.step

Almacenamos los resultados generados en cada acción.

In [13]:
state = env.reset()
print(f'Initial state: {state}')

timestep = 0
victories = 0

for num_paso in range(10):

  action = env.action_space.sample() # con "sample" elegimos una de las acciones del action_space al azar
  state, reward, done, info = env.step(action) # con "step" realizamos la acción elegida

  timestep += 1

  # Visualizamos el estado actual del entorno
  env.render()
  print(f"Step: {timestep}, Action: {action}, state: {state}, Reward: {reward}, Done: {done}")
  print("-" * 55)  # Línea de separación
  
  if done:
    if reward == 1:
      victories += 1 # si llegamos al objetivo, sumamos 1 al contador de victorias
      print('\033[1m¡VICTORIA!\033[0m')  # Texto en negrita
      break
    else:
      print('\033[1m¡Oh!Caíste en un agujero. Iniciando...\033[0m')  # Texto en negrita
    break

print("Pasos dados: {}".format(timestep))
print("Victories: {}".format(victories))
print('Estado final:', state)
env.render() # visualizamos el estado final

Initial state: 0
  (Down)
SFFF
[41mF[0mHFH
FFFH
HFFG
Step: 1, Action: 1, state: 4, Reward: 0.0, Done: False
-------------------------------------------------------
  (Right)
SFFF
F[41mH[0mFH
FFFH
HFFG
Step: 2, Action: 2, state: 5, Reward: 0.0, Done: True
-------------------------------------------------------
[1m¡Oh!Caíste en un agujero. Iniciando...[0m
Pasos dados: 2
Victories: 0
Estado final: 5
  (Right)
SFFF
F[41mH[0mFH
FFFH
HFFG


## **Nos movemos aleatoriamente hasta el goal.**


In [14]:
# Opciones de colores para formatos de texto
class bcolors:
    RED = '\u001b[31m'
    GREEN = '\u001b[32m'
    RESET = '\u001b[0m'

# Reiniciamos el entorno para comenzar un nuevo episodio
state = env.reset()
print(f'Initial state: {state}')

# Inicializamos las variables
timestep = 0
victories = 0

while victories == 0:
    # Reiniciamos el entorno para comenzar un nuevo episodio
    state = env.reset()
    print(f'Initial state: {state}')

    while True:
        action = env.action_space.sample()  # Elegimos una acción al azar. 0=izquierda, 1=abajo, 2=derecha, 3=arriba
        state, reward, done, info = env.step(action)  # Realizamos la acción elegida

        timestep += 1  # Incrementamos el contador de pasos

        # Visualizamos el estado actual del entorno
        env.render()
        print(f'Step: {timestep}, Action: {action}, state: {state}, Reward: {reward}, Done: {done}')
        print('-' * 55)  # Línea de separación

        if done:
            if reward == 1:
                victories += 1  # Incrementamos el contador de victorias si se alcanza el objetivo
                print(f'{bcolors.GREEN}\033[1m¡VICTORIA!\033[0m{bcolors.RESET}')  # Texto verde y en negrita
                break
            else:
                print(f'{bcolors.RED}\033[1m¡Oh! Caíste en un agujero. Iniciando...\033[0m{bcolors.RESET}')  # Texto rojo y en negrita
            break

print('Pasos dados: {}'.format(timestep))
print('Victories: {}'.format(victories))
print('Estado final:', state)
env.render()  # Visualizamos el estado final

Initial state: 0
Initial state: 0
  (Down)
SFFF
[41mF[0mHFH
FFFH
HFFG
Step: 1, Action: 1, state: 4, Reward: 0.0, Done: False
-------------------------------------------------------
  (Left)
SFFF
[41mF[0mHFH
FFFH
HFFG
Step: 2, Action: 0, state: 4, Reward: 0.0, Done: False
-------------------------------------------------------
  (Left)
SFFF
[41mF[0mHFH
FFFH
HFFG
Step: 3, Action: 0, state: 4, Reward: 0.0, Done: False
-------------------------------------------------------
  (Right)
SFFF
F[41mH[0mFH
FFFH
HFFG
Step: 4, Action: 2, state: 5, Reward: 0.0, Done: True
-------------------------------------------------------
[31m[1m¡Oh! Caíste en un agujero. Iniciando...[0m[0m
Initial state: 0
  (Down)
SFFF
[41mF[0mHFH
FFFH
HFFG
Step: 5, Action: 1, state: 4, Reward: 0.0, Done: False
-------------------------------------------------------
  (Left)
SFFF
[41mF[0mHFH
FFFH
HFFG
Step: 6, Action: 0, state: 4, Reward: 0.0, Done: False
------------------------------------------------------

## **Q-learning: train**

In [15]:
# Iniciamos la Q-table con ceros.
q_table = np.zeros([env.observation_space.n, env.action_space.n])

In [16]:
q_table # Contiene los valores correspondientes a cada acción (4) en cada estado (16). 4x16 = 64 valores.

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [17]:
#Establecemos greedy policy, trade-off entre explorar y explotar: epsilon
def greedy_trade_off(epsilon, q_table, state, env):
  # Generamos una acción aleatoria y comparamos con el valor de epsilon
  if rd.random() < epsilon:
    action = env.action_space.sample() #explorar: elegir una acción al azar
  else:
    action = np.argmax(q_table[state]) #explotar: elegir la acción con el valor Q más alto en el estado actual
  return action

In [18]:
# Hyperparameters
alpha = 0.2 # Tasa de aprendizaje. Cuánto se actualiza el valor Q en cada iteración
gamma = 0.7 # Tasa de descuento. Cuánto valoramos las recompensas futuras
epsilon = 0.15 # Greedy policy. Probabilidad de elegir una acción aleatoria en lugar de explotar el valor Q más alto
episodes = 25000 # Número de episodios de entrenamiento

# Para graficar métricas
all_timestep = []

# Iniciando Q-table con ceros
q_table = np.zeros([env.observation_space.n, env.action_space.n])

# Entrenamiento Q-learning
for i in range(episodes):
  state = env.reset()
  done = False

  timestep = 0
  victories = 0


  while not done:
    action = greedy_trade_off(epsilon, q_table, state, env) # aplicamos la greedy policy

    next_state, reward, done, info = env.step(action) # tomamos la acción elegida y observamos el próximo estado, la recompensa y si el episodio ha terminado

    old_value = q_table[state, action] # en la Q-table, tomamos el valor Q de la acción elegida para el estado actual
    next_max = np.max(q_table[next_state]) # en la Q-table, tomamos el máximo entre los valores Q para el nuevo estado

    new_value = (1 - alpha) * old_value + alpha * (reward + gamma * next_max) # actualizamos el valor Q
    q_table[state, action] = new_value # actualizamos la Q-table

    state = next_state # actualizamos el estado actual

    timestep += 1  # Incrementar el contador de timestep

  if i % 100 == 0: # cada 100 episodios, mostramos el progreso
    clear_output(wait=True)
    print(f"Episodio: {i+1}")

clear_output(wait=True)
print(f"Episodio: {i+1}")
print("¡Entrenamiento finalizado!")
print(q_table)

Episodio: 25000
¡Entrenamiento finalizado!
[[0.117649   0.16807    0.0823543  0.117649  ]
 [0.117649   0.         0.05757126 0.08233719]
 [0.08235399 0.0627073  0.         0.03351501]
 [0.00908528 0.         0.         0.        ]
 [0.16807    0.2401     0.         0.117649  ]
 [0.         0.         0.         0.        ]
 [0.         0.48924176 0.         0.05701764]
 [0.         0.         0.         0.        ]
 [0.2401     0.         0.343      0.16807   ]
 [0.2401     0.49       0.49       0.        ]
 [0.343      0.7        0.         0.33925226]
 [0.         0.         0.         0.        ]
 [0.         0.         0.         0.        ]
 [0.         0.49       0.7        0.343     ]
 [0.49       0.7        1.         0.49      ]
 [0.         0.         0.         0.        ]]


## **Q-Learning evaluation**

Ya no necesitamos explorar.  

Cambiamos la greedy policy. La acción elegida será siempre la que tiene mayor Q-Value.

np.argmax(q_table[state])

In [19]:
# Opciones de colores para formatos de texto
class bcolors:
    RED = '\u001b[31m'
    GREEN = '\u001b[32m'
    RESET = '\u001b[0m'

# Reiniciamos el entorno para comenzar un nuevo episodio
state = env.reset()
print(f'Initial state: {state}')

# Inicializamos las variables
timestep = 0
victories = 0

while victories == 0:
    # Reiniciamos el entorno para comenzar un nuevo episodio
    state = env.reset()
    print(f'Initial state: {state}')

    while True:
        action = np.argmax(q_table[state])  # Elegimos una acción con el valor Q más alto en el estado actual
        state, reward, done, info = env.step(action)  # Realizamos la acción elegida

        timestep += 1  # Incrementamos el contador de pasos

        # Visualizamos el estado actual del entorno
        env.render()
        print(f'Step: {timestep}, Action: {action}, state: {state}, Reward: {reward}, Done: {done}')
        print('-' * 55)  # Línea de separación

        if done:
            if reward == 1:
                victories += 1  # Incrementamos el contador de victorias si se alcanza el objetivo
                print(f'{bcolors.GREEN}\033[1m¡VICTORIA!\033[0m{bcolors.RESET}')  # Texto verde y en negrita
                break
            else:
                print(f'{bcolors.RED}\033[1m¡Oh! Caíste en un agujero. Iniciando...\033[0m{bcolors.RESET}')  # Texto rojo y en negrita
            break

print('Pasos dados: {}'.format(timestep))
print('Victories: {}'.format(victories))
print('Estado final:', state)
env.render()  # Visualizamos el estado final


Initial state: 0
Initial state: 0
  (Down)
SFFF
[41mF[0mHFH
FFFH
HFFG
Step: 1, Action: 1, state: 4, Reward: 0.0, Done: False
-------------------------------------------------------
  (Down)
SFFF
FHFH
[41mF[0mFFH
HFFG
Step: 2, Action: 1, state: 8, Reward: 0.0, Done: False
-------------------------------------------------------
  (Right)
SFFF
FHFH
F[41mF[0mFH
HFFG
Step: 3, Action: 2, state: 9, Reward: 0.0, Done: False
-------------------------------------------------------
  (Down)
SFFF
FHFH
FFFH
H[41mF[0mFG
Step: 4, Action: 1, state: 13, Reward: 0.0, Done: False
-------------------------------------------------------
  (Right)
SFFF
FHFH
FFFH
HF[41mF[0mG
Step: 5, Action: 2, state: 14, Reward: 0.0, Done: False
-------------------------------------------------------
  (Right)
SFFF
FHFH
FFFH
HFF[41mG[0m
Step: 6, Action: 2, state: 15, Reward: 1.0, Done: True
-------------------------------------------------------
[32m[1m¡VICTORIA![0m[0m
Pasos dados: 6
Victories: 1
Estado fina