## Problema de aprendizaje por refuerzo (RL) a resolver:

La **máquina/bot** necesita encontrar una forma de alcanzar el **objetivo** (sala número 5). La máquina empezará desde cualquier sala al azar.

<img src="https://drive.google.com/uc?id=1PBhfah4fz8CYulyn9BzwBcH91nGO6ouS" width= 400>

##Componentes de aprendizaje por refuerzo (RL):

* Entorno

<img src="https://s3-whjr-curriculum-uploads.whjr.online/af5a1d77-041a-4bba-be4e-ca26aea97771.png" width= 300>

* Agente

<img src="https://s3-whjr-curriculum-uploads.whjr.online/fda2e793-0302-420c-981b-dbf32ecb1d12.png" width= 200>

* Estados

> El agente/máquina puede estar en cualquiera de las 6 salas (5 salas + 1 sala objetivo) de la tienda. Por lo tanto, hay **6 estados posibles**.

> <img src="https://drive.google.com/uc?id=1OC4gRJfhrHkM5SyIVLQsgzI6HOTnDWzr" width= 50>


* Acciones

> El agente/máquina puede escoger moverse a cualquiera de las 6 salas 5 salas + 1 sala objetivo) de la tienda. Por lo tanto, también hay **6 acciones posibles**.


> <img src="https://drive.google.com/uc?id=1DTHWqcMgoNV6W4oJafXyZO7xAdidOXFZ" width= 300>


* Recompensas

> **Recompensas posibles: -1, 0, 100**


> <img src="https://drive.google.com/uc?id=1tme1-fI_IPemMNpIvcMoStNCu-nGGNSI" width= 300>

* **No se puede mover**: si no hay un camino directo de una habitación a otra, entonces la recompensa es -1.

* **Mover**: si la máquina puede moverse de la sala actual (estado) a la siguiente sala (acción), la recompensa es 0.

* **Meta**: si la máquina está o alcanzó el objetivo, la recompensa es 100.



## Importar módulos

In [None]:
import numpy as np
import random

## Matriz de recompensas

> Haz clic en el enlace [matriz de recompensas](https://drive.google.com/file/d/1T7LPuYN-_bebPDTx-htTvWMiNgHor_Jg/view?usp=sharing) para entender la asignación de recompensas.

> <img src="https://drive.google.com/uc?id=1xvsTacakR3UB1AK5Xnk8201Yr98ky6N4" width= 400>

* **No se puede mover**: si no hay un camino directo de una habitación a otra, entonces la recompensa es -1.

* **Mover**: si la máquina puede moverse de la sala actual (estado) a la siguiente sala (acción), la recompensa es 0.

* **Meta**: si la máquina está o alcanzó el objetivo, la recompensa es 100.

> <img src="https://drive.google.com/uc?id=1yMXYjRTFEbXDDFmolj4Qp2p63eWzKkiY" width= 400>

In [None]:
rewards = np.array([
    [-1, -1, -1, -1,  0,  -1],
    [-1, -1, -1,  0, -1, 100],
    [-1, -1, -1 , 0 ,-1 , -1],
    [-1,  0,  0 ,-1  ,-1 , -1],
    [0, -1, -1 , -1 ,-1 ,100],
    [-1, -1, -1, -1,  0, 100]
])

## Estado inicial

In [None]:
def set_initial_state():
    return np.random.randint(0, 6)

## Obtener acción

In [None]:
def get_action(current_state, reward_matrix):
    available_action = []
    print("Matriz de recompensas","\n",reward_matrix)
    for action in enumerate(reward_matrix[current_state]):

        if action[1]!= -1:
            available_action.append(action[0])

    choose_action = random.choice(available_action)

    print("Estado actual",current_state)
    print("La elección aleatoria de la acción en",available_action,"es", choose_action)

    return choose_action

## Matriz-Q
**Q-learning** es un algoritmo de aprendizaje por refuerzo (RL). Dado un estado actual, ayuda a encontrar la mejor acción que el agente puede tomar.

La 'Q' significa 'Quality', es decir, 'Calidad'. La calidad representa que tan útil es una acción para ganar una recompensa.

Para realizar la técnica Q-learning, usamos una **matriz-Q**. También se encuentra en forma de estados en las filas y acciones en las columnas. Inicialmente, todos los elementos de la matriz-Q son ceros.

In [None]:
q_matrix = np.zeros([6,6])
print(q_matrix)

[[0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]]


## Realizar una acción

[Matriz-Q](https://drive.google.com/file/d/1tBvfDI5L515E-t4KstcjNk1eIYJRx1w8/view?usp=sharing )

In [None]:
def take_action(current_state, reward_matrix, gamma):

    action = get_action(current_state, reward_matrix)

    # Estado, acción y recompensa actuales
    current_sa_reward = reward_matrix[current_state, action]

    # Estado, acción y recompensa nuevos
    q_sa_value = max(q_matrix[action,])

    # Estado Q actual
    q_current_state = current_sa_reward + (gamma * q_sa_value)

    # Actualizar la matriz-Q
    q_matrix[current_state,action] = q_current_state

    print("Matriz-Q","\n", q_matrix)

    new_state = action


    print("********************************************************************")

    ## AGREGAR CÓDIGO AQUÍ ##
    if new_state == 5 :
      print("¡Objetivo Alcanzado!")
    else:
      print(f"Estado anterior {current_state}  Nuevo estado:  {new_state}")

    return new_state

## Entrenar un modelo de aprendizaje por refuerzo (RL): Matriz-Q
Deseamos hacer que el agente explore diferentes estados y alcance el objetivo; las recompensas se actualizarán después de cada intento.

El agente completa un **episodio** cuando comienza del estado inicial y alcanza el objetivo.

Para cada acción, la matriz-Q se actualiza. Esto funcionará como el entorno de entrenamiento para el agente. Usando la matriz-Q actualizada, el agente puede buscar la recompensa máxima y encontrar la ruta óptima para cualquier estado.

Consulta el enlace a continuación para verificar cómo los episodios se ejecutan y la matriz-Q se actualiza.

[Ejecutar varios episodios](https://whitehatjrcontent.s3.ap-south-1.amazonaws.com/Teacher-Resources/COCOS_Applets/POC/Coding/SimpleQ-RL/final/index.html)

In [None]:
# Ejecuta un episodio hasta que alcances el objetivo
def run_episode(initial_state,reward_matrix, gamma):
    print("Ejecutando...")

    new_state = take_action(initial_state, reward_matrix, gamma)

    while True:
      if new_state == 5:
        break
      else:
        new_state = take_action(new_state, reward_matrix, gamma)


In [None]:
# Ejecuta varios episodios hasta que alcances el objetivo

def train(episodes, reward_matrix, gamma):
    print("Entrenando...")

    for episode in range(episodes) : # 12; for item in [0:12]
      print("Inicia el episodio: ", episode)

      #esteblecer estado inicial
      initial_state = set_initial_state()
      print("Estado inicial: ", initial_state)

      if initial_state != 5:
        # Iniciar el episodio (Obtener una acción, tomar una acción para obtener un nuevo estado)
        run_episode(initial_state, reward_matrix, gamma)

      print("Finaliza el episodio:", episode)
      print("*********************************")

    print("¡Entrenamiento completado!")

    return q_matrix


Salida del entrenamiento

In [None]:
gamma = 0.8
episodes = 500
#obtener la tabla-Q
q_table = train(episodes, rewards, gamma)

print("Tabla-Q final:", q_table)

[1;30;43mSe truncaron las últimas líneas 5000 del resultado de transmisión.[0m
Matriz-Q 
 [[  0.    0.    0.    0.   80.    0. ]
 [  0.    0.    0.   64.    0.  100. ]
 [  0.    0.    0.   64.    0.    0. ]
 [  0.   80.   51.2   0.    0.    0. ]
 [ 64.    0.    0.    0.    0.  100. ]
 [  0.    0.    0.    0.    0.    0. ]]
********************************************************************
Estado anterior 2  Nuevo estado:  3
Matriz de recompensas 
 [[ -1  -1  -1  -1   0  -1]
 [ -1  -1  -1   0  -1 100]
 [ -1  -1  -1   0  -1  -1]
 [ -1   0   0  -1  -1  -1]
 [  0  -1  -1  -1  -1 100]
 [ -1  -1  -1  -1   0 100]]
Estado actual 3
La elección aleatoria de la acción en [1, 2] es 2
Matriz-Q 
 [[  0.    0.    0.    0.   80.    0. ]
 [  0.    0.    0.   64.    0.  100. ]
 [  0.    0.    0.   64.    0.    0. ]
 [  0.   80.   51.2   0.    0.    0. ]
 [ 64.    0.    0.    0.    0.  100. ]
 [  0.    0.    0.    0.    0.    0. ]]
********************************************************************


In [None]:
def optimal_path(q_table) :
  path=[]
  reward = []
  total_reward = 0
  initial_state = set_initial_state()

  print("El estado inicial es: ", initial_state)

  max_value_index = np.argmax(q_table[initial_state])
  max_value = np.max(q_table[initial_state])

  path.append(max_value_index)
  reward.append(max_value)

  while max_value_index != 5 :
    max_value_index = np.argmax(q_table[max_value_index])
    max_value = np.max(q_table[max_value_index])

    path.append(max_value_index)
    reward.append(max_value)

  total_reward = sum(reward)

  return path, total_reward




Salida de la ruta óptima

In [None]:
Q_optimal_path, max_reward = optimal_path(q_table)

print(f"La ruta óptima es: {Q_optimal_path}")
print(f"El valor de la recompensa total es: {max_reward}")

El estado inicial es:  0
La ruta óptima es: [4, 5]
El valor de la recompensa total es: 80.0
