# Módulo Deep Learning
## Actividad 2: Reinforcement Learning: **Frozen lake problem**

GRUPO 7

Alina Oganesyan  
Celia Vincent  
Orlando Dotollo  

# Actividad Reinforcemente Learning

Resolver el problema del Frozen lake de OpenAI Gym. Documentación: https://www.gymlibrary.dev/environments/toy_text/frozen_lake/

## Objetivos
- Conseguir movermos aleatoriamente hasta cumplir el objetivo
- Conseguir que el agente aprenda con Q-learning
- (Opcional) Probar con otros hiperparámetros
- (Opcional) Modificar la recompensa

## Consideraciones
- No hay penalizaciones
- Si el agente cae en un "hole", entonces done = True y se queda atascado sin poder salir (al igual que ocurre cuando llega al "goal")

## Normas a seguir

- Se debe entregar un **ÚNICO GOOGLE COLAB notebook** (archivo .ipynb) que incluya las instrucciones presentes y su **EJECUCIÓN!!!**.
- Poner el nombre del grupo en el nombre del archivo y el nombre de todos los integrantes del grupo al inicio del notebook.

## Criterio de evaluación

- Seguimiento de las normas establecidas en la actividad.
- Corrección en el uso de algoritmos, modelos y formas idiomáticas en Python.
- El código debe poder ejecutarse sin modificación alguna en Google Colaboratory.

## **Instalamos librerías**

In [1]:
!pip install gym==0.17.3
!pip install numpy==1.23.5



In [2]:
import gym
import numpy as np
from time import sleep
from IPython.display import clear_output
import random as rd

##**Definición del entorno**

In [3]:
# Definimos el entorno
env = gym.make('FrozenLake-v0', desc=None, map_name="4x4", is_slippery=False)

In [4]:
# Fijamos una semilla
seed_value = 42
env.seed(seed_value)
np.random.seed(seed_value)

In [5]:
env.reset() # En este caso, empieza desde la misma posición inicial
print(env.render())


[41mS[0mFFF
FHFH
FFFH
HFFG
None


In [6]:
print("Action Space {}".format(env.action_space))
print("State Space {}".format(env.observation_space))

Action Space Discrete(4)
State Space Discrete(16)


Acciones posibles:
* 0: izquierda
* 1: abajo
* 2: derecha
* 3: arriba

In [7]:
# Identificador de estado
state = env.s
print("State:", state)

State: 0


In [14]:
action = env.action_space.sample()
action

3

## Prueba de CHATGPT

Inicializar la tabla Q con ceros.
Para cada episodio:
Inicializar el estado S.
Mientras el episodio no termine:
Elegir una acción A desde el estado S usando la política derivada de Q (por ejemplo, ε-greedy).
Tomar la acción A, observar el nuevo estado S' y la recompensa R.
Actualizar la tabla Q usando la ecuación de Bellman: Q(S,A) = Q(S,A) + α * (R + γ * max(Q(S',a)) - Q(S,A))
S = S'.
Repetir el proceso para el número deseado de episodios.
Código en Python:

In [76]:


# Inicializar la tabla Q
Q = np.zeros([env.observation_space.n, env.action_space.n])

# Parámetros del aprendizaje
alpha = 0.8  # Tasa de aprendizaje
gamma = 0.95  # Factor de descuento
num_episodes = 2000  # Número de episodios

# Proceso de aprendizaje
for i in range(num_episodes):
    # Resetear el entorno y obtener el primer estado
    state = env.reset()
    done = False

    while not done:
        # Elegir una acción por la política ε-greedy
        if np.random.rand() < (1 - (i / num_episodes)):
            action = env.action_space.sample()
        else:
            action = np.argmax(Q[state, :])

        # Tomar la acción y obtener el nuevo estado y recompensa
        new_state, reward, done, _ = env.step(action)

        # Actualizar Q
        Q[state, action] = Q[state, action] + alpha * (reward + gamma * np.max(Q[new_state, :]) - Q[state, action])

        # Actualizar el estado
        state = new_state

# Imprimir la tabla Q aprendida
print("Tabla Q aprendida:")
print(Q)


Tabla Q aprendida:
[[0.73509189 0.77378094 0.77378094 0.73509189]
 [0.73509189 0.         0.81450625 0.77378094]
 [0.77378094 0.857375   0.77378094 0.81450625]
 [0.81450625 0.         0.77378094 0.77378094]
 [0.77378094 0.81450625 0.         0.73509189]
 [0.         0.         0.         0.        ]
 [0.         0.9025     0.         0.81450625]
 [0.         0.         0.         0.        ]
 [0.81450625 0.         0.857375   0.77378094]
 [0.81450625 0.9025     0.9025     0.        ]
 [0.857375   0.95       0.         0.857375  ]
 [0.         0.         0.         0.        ]
 [0.         0.         0.         0.        ]
 [0.         0.9025     0.95       0.857375  ]
 [0.9025     0.95       1.         0.9025    ]
 [0.         0.         0.         0.        ]]


In [77]:
print(len(Q))

16


## **¡Nos movemos aleatoriamente!**

In [35]:
steps = 0
env.reset()
env.render()


[41mS[0mFFF
FHFH
FFFH
HFFG


In [68]:
# Acciones: 0=izquierda, 1=abajo, 2=derecha, 3=arriba
action = 1
state, reward, done, info = env.step(action)

print("State:", state)
print(state, reward, done, info)

env.s = state
env.render()

steps += 1

print(f"Step: {steps}")

State: 4
4 0.0 False {'prob': 1.0}
  (Down)
SFFF
[41mF[0mHFH
FFFH
HFFG
Step: 1


In [72]:
action = 2 # movernos al oeste
state, reward, done, info = env.step(action)

print("State:", state)
env.s = state
env.render()

State: 5
  (Right)
SFFF
F[41mH[0mFH
FFFH
HFFG


In [44]:
env.P[0]

{0: [(1.0, 0, 0.0, False)],
 1: [(1.0, 4, 0.0, False)],
 2: [(1.0, 1, 0.0, False)],
 3: [(1.0, 0, 0.0, False)]}

Le decimos que haga 10 acciones de forma aleatoria. Para ello le fijamos un estado 328 y le fijamos un contador de las iteraciones de tiempo, penalzaciónes y victorias. El contador estará para todo en cero.

Para movernos aleatoriamente usamos .env_action_space.sample() y esto se lo pasamos a env.step

Almacenamos los resultados generados en cada acción. si done =True, sumamos una victoria. Si reward es -10, sumamos la penalización.

In [None]:
env.s = 0

timestep, penalties, victories = 0, 0, 0

for num_paso in range(10):

  action = env.action_space.sample() # con "sample" elegimos una de las acciones del action_space al azar
  state, reward, done, info = env.step(action) # con "step" realizamos la acción elegida


  if is_slippery==False: # Si el muñeco cae al hole, reset y empeamos desde cero
    env.reset()
    env.s = 0
    env.render()

  timestep += 1

print("Pasos dados: {}".format(timestep))
print("Victories: {}".format(victories))
env.render() # visualizamos el estado final

In [50]:
env.s = 0

timestep, penalties, victories = 0, 0, 0

for num_paso in range(10):

  action = env.action_space.sample() # con "sample" elegimos una de las acciones del action_space al azar
  state, reward, done, info = env.step(action) # con "step" realizamos la acción elegida


  if done == True and reward !=1: # Si el muñeco cae al hole, reset y empeamos desde cero
    env.reset()
    env.s = 0
    env.render()

  timestep += 1

print("Pasos dados: {}".format(timestep))
print("Victories: {}".format(victories))
env.render() # visualizamos el estado final


[41mS[0mFFF
FHFH
FFFH
HFFG
Pasos dados: 10
Victories: 0
  (Right)
SF[41mF[0mF
FHFH
FFFH
HFFG


## Nos movemos aleatoriamente hasta el goal.


In [66]:
done = False

env.s = 0

timestep, penalties, victories = 0, 0, 0

while not done and reward !=1 :

  action = env.action_space.sample() # con "sample" elegimos una de las acciones del action_space
  state, reward, done, info = env.step(action) # con "step" realizamos la acción elegida

  if done and reward !=1: # Si el muñeco cae al hole, reset y empeamos desde cero
    env.reset()
    env.s = 0
    env.render()

  if reward == 1:
    victories +=1

  timestep += 1

print("Pasos dados: {}".format(timestep))
print("Victories: {}".format(victories))
env.render() # visualizamos el estado final


[41mS[0mFFF
FHFH
FFFH
HFFG
Pasos dados: 7
Victories: 0

[41mS[0mFFF
FHFH
FFFH
HFFG


In [51]:
done = False

env.s = 0

timestep, victories = 0, 0

while not env.render()=='H':

  action = env.action_space.sample() # con "sample" elegimos una de las acciones del action_space
  state, reward, done, info = env.step(action) # con "step" realizamos la acción elegida

  if env.render()=='H':
    env.reset()
    env.render()

  if done == True and reward !=1: # Si el muñeco cae al hole, reset y empeamos desde cero
    env.reset()
    env.s = 0
    env.render()

  timestep += 1

print("Pasos dados: {}".format(timestep))
print("Victories: {}".format(victories))
env.render() # visualizamos el estado final

[1;30;43mSe han truncado las últimas 5000 líneas del flujo de salida.[0m
  (Down)
SFFF
F[41mH[0mFH
FFFH
HFFG
  (Down)
SFFF
F[41mH[0mFH
FFFH
HFFG
  (Down)
SFFF
F[41mH[0mFH
FFFH
HFFG
  (Down)
SFFF
F[41mH[0mFH
FFFH
HFFG
  (Down)
SFFF
F[41mH[0mFH
FFFH
HFFG
  (Down)
SFFF
F[41mH[0mFH
FFFH
HFFG
  (Down)
SFFF
F[41mH[0mFH
FFFH
HFFG
  (Right)
SFFF
F[41mH[0mFH
FFFH
HFFG
  (Right)
SFFF
F[41mH[0mFH
FFFH
HFFG
  (Left)
SFFF
F[41mH[0mFH
FFFH
HFFG
  (Left)
SFFF
F[41mH[0mFH
FFFH
HFFG
  (Right)
SFFF
F[41mH[0mFH
FFFH
HFFG
  (Right)
SFFF
F[41mH[0mFH
FFFH
HFFG
  (Left)
SFFF
F[41mH[0mFH
FFFH
HFFG
  (Left)
SFFF
F[41mH[0mFH
FFFH
HFFG
  (Right)
SFFF
F[41mH[0mFH
FFFH
HFFG
  (Right)
SFFF
F[41mH[0mFH
FFFH
HFFG
  (Up)
SFFF
F[41mH[0mFH
FFFH
HFFG
  (Up)
SFFF
F[41mH[0mFH
FFFH
HFFG
  (Down)
SFFF
F[41mH[0mFH
FFFH
HFFG
  (Down)
SFFF
F[41mH[0mFH
FFFH
HFFG
  (Down)
SFFF
F[41mH[0mFH
FFFH
HFFG
  (Down)
SFFF
F[41mH[0mFH
FFFH
HFFG
  (Up)
SFFF
F[41mH[0mFH
FFFH
HFFG
  (Up)
SFFF
F

KeyboardInterrupt: 

In [45]:
class bcolors:
  RED= '\u001b[31m'
  GREEN= '\u001b[32m'
  RESET= '\u001b[0m'

env.s = 0
done = False

timestep, penalties, victories = 0, 0, 0
total_reward = 0

while env.render()!='H':

  action = env.action_space.sample() # con "sample" elegimos una de las acciones del action_space
  state, reward, done, info = env.step(action) # con "step" realizamos la acción elegida

  if env.render()=='H':
    break
    env.reset()
    env.render()

  if reward == 1:
    victories += 1

  if reward == 0:
    penalties += 1

  total_reward += reward
  timestep += 1

  # Print each step
  clear_output(wait=True)
  env.render()
  print("\nIteración: {}".format(timestep))

  if reward < 0:
    print(f"Recompensa actual: {bcolors.RED}{reward}{bcolors.RESET}")
  else:
    print(f"Recompensa actual: {bcolors.GREEN}{reward}{bcolors.RESET}")
  if total_reward < 0:
    print(f"Recompensa total: {bcolors.RED}{total_reward}{bcolors.RESET}")
  else:
    print(f"Recompensa total: {bcolors.GREEN}{total_reward}{bcolors.RESET}")
  print("")
  print('Estado actual', state)
  sleep(.5)


print("Pasos dados: {}".format(timestep))
print("Penalizaciones: {}".format(penalties))

  (Up)
SFFF
F[41mH[0mFH
FFFH
HFFG

Iteración: 13
Recompensa actual: [32m0[0m
Recompensa total: [32m0.0[0m

Estado actual 5


KeyboardInterrupt: 

## Q-learning: train

In [58]:
q_table = np.zeros([env.observation_space.n, env.action_space.n])

In [59]:
q_table[0]

array([0., 0., 0., 0.])

In [60]:
#trade-off entre explorar y explotar: epsilon
def greedy_trade_off(epsilon, q_table, state, env):
  if rd.random() < epsilon:
    action = env.action_space.sample() #explorar
  else:
    action = np.argmax(q_table[state]) #explotar
  return action

In [None]:
# Hyperparameters
alpha = 0.2 # tasa de aprendizaje
gamma = 0.7 # tasa de descuento
epsilon = 0.15 # greedy policy

# For plotting metrics
all_timestep = []
all_penalties = []

episodes = 100000

q_table = np.zeros([env.observation_space.n, env.action_space.n])

for i in range(episodes):
  state = env.reset()

  timestep, penalties = 0, 0
  done = False

  while not done and reward !=0:
    action = greedy_trade_off(epsilon, q_table, state, env) # aplicamos la greedy policy

    next_state, reward, done, info = env.step(action) # tomamos la acción elegida

    old_value = q_table[state, action] # en la Q-table, tomamos el valor Q de la acción elegida para el estado actual
    next_max = np.max(q_table[next_state]) # en la Q-table, tomamos el máximo entre los valores Q para el nuevo estado

    new_value = (1 - alpha) * old_value + alpha * (reward + gamma * next_max) # actualizamos el valor Q
    q_table[state, action] = new_value

    if reward == -10:
      penalties += 1

    state = next_state

  if i % 100 == 0:
    clear_output(wait=True)
    print(f"Episodio: {i+1}")

  timestep += 1

clear_output(wait=True)
print(f"Episodio: {i+1}")
print("¡Entrenamiento finalizado!")

In [67]:
q_table[0]

array([0., 0., 0., 0.])