## RL Problema a resolver:

La **máquina/bot** necesita encontrar una forma de alcanzar el **objetivo** (sala número 5). La máquina empezará desde cualquier sala al azar.

<img src="https://drive.google.com/uc?id=1PBhfah4fz8CYulyn9BzwBcH91nGO6ouS" width= 400>

##Componentes de aprendizaje por refuerzo (RL):

* Entorno

<img src="https://s3-whjr-curriculum-uploads.whjr.online/af5a1d77-041a-4bba-be4e-ca26aea97771.png" width= 300>

* Agente

<img src="https://s3-whjr-curriculum-uploads.whjr.online/fda2e793-0302-420c-981b-dbf32ecb1d12.png" width= 200>

* Estados

> El agente/máquina puede estar en cualquiera de las 6 salas (5 salas + 1 sala objetivo) de la tienda. Por lo tanto, hay **6 estados posibles**.

> <img src="https://drive.google.com/uc?export=view&id=1OC4gRJfhrHkM5SyIVLQsgzI6HOTnDWzr" width= 50>


* Acciones

> El agente/máquina puede escoger moverse a cualquiera de las 6 salas (5 salas + 1 sala objetivo) de la tienda. Por lo tanto, también hay **6 acciones posibles**.


> <img src="https://drive.google.com/uc?export=view&id=1DTHWqcMgoNV6W4oJafXyZO7xAdidOXFZ" width= 300>


* Recompensas

> **Recompensas posibles: -1, 0, 100**


> <img src="https://drive.google.com/uc?export=view&id=19-PzHY_OLu6rFkFZwu37fD0g6eynaVfy" width= 300>

* **No se puede mover**: si no hay un camino directo de una habitación a otra, entonces la recompensa es -1.

* **Mover**: si la máquina puede moverse de la sala actual (estado) a la siguiente sala (acción), la recompensa es 0.

* **Meta**: si la máquina está o alcanzó el objetivo, la recompensa es 100.



## Importar módulos

In [1]:
import numpy as np
import random

## Matriz de recompensas

> Haz clic en el enlace [matriz de recompensas](https://drive.google.com/file/d/1T7LPuYN-_bebPDTx-htTvWMiNgHor_Jg/view?usp=sharing) para entender la asignación de recompensas.

> <img src="https://drive.google.com/uc?id=1xvsTacakR3UB1AK5Xnk8201Yr98ky6N4" width= 400>

* **No se puede mover**: si no hay un camino directo de una habitación a otra, entonces la recompensa es -1.

* **Mover**: si la máquina puede moverse de la sala actual (estado) a la siguiente sala (acción), la recompensa es 0.

* **Meta**: si la máquina está o alcanzó el objetivo, la recompensa es 100.

> <img src="https://drive.google.com/uc?id=1yMXYjRTFEbXDDFmolj4Qp2p63eWzKkiY" width= 400>

In [2]:
rewards = np.array([
    [-1, -1, -1, -1,  0,  -1],
    [-1, -1, -1,  0, -1, 100],
    [-1, -1, -1 , 0 ,-1 , -1],
    [-1,  0,  0 ,-1  ,-1 , -1],
    [0, -1, -1 , -1 ,-1 ,100],
    [-1, -1, -1, -1,  0, 100]
])

## Estado inicial

In [3]:
def set_initial_state():
    return np.random.randint(0, 6)

In [7]:
set_initial_state()

1

## Obtener acción

In [8]:
def get_action(current_state, reward_matrix):
    available_action = []
    print("Matriz de recompensas","\n",reward_matrix)
    for action in enumerate(reward_matrix[current_state]): # [[0,-1],[1,-1] [2,-1],  [3, 0], [4,-1], [5, 100]]
        if action[1]!= -1: # [indice, accion[1]]
            available_action.append(action[0]) # [accion[0], valor], se agrega el indice si la accion es diferente a -1
    choose_action = random.choice(available_action)
    print("Estado actual",current_state)
    print("La elección aleatoria de la acción en",available_action,"es", choose_action)
    return choose_action

In [104]:
current_state = 0

choosen_action = get_action(current_state, rewards)

Matriz de recompensas 
 [[ -1  -1  -1  -1   0  -1]
 [ -1  -1  -1   0  -1 100]
 [ -1  -1  -1   0  -1  -1]
 [ -1   0   0  -1  -1  -1]
 [  0  -1  -1  -1  -1 100]
 [ -1  -1  -1  -1   0 100]]
Estado actual 0
La elección aleatoria de la acción en [4] es 4


## Matriz-Q
**Q-learning** es un algoritmo de aprendizaje por refuerzo (RL). Dado un estado actual, ayuda a encontrar la mejor acción que el agente puede tomar.

La 'Q' significa 'Quality', es decir, 'Calidad'. La calidad representa que tan útil es una acción para ganar una recompensa.

Para realizar la técnica Q-learning, usamos una **matriz-Q**. También se encuentra en forma de estados en las filas y acciones en las columnas. Inicialmente, todos los elementos de la matriz-Q son ceros.

In [83]:
# Crear una matriz-Q aquí

q_matrix = np.zeros([6,6])
print(q_matrix)

[[0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]]


## Realizar una acción

[Matriz-Q](https://drive.google.com/file/d/1tBvfDI5L515E-t4KstcjNk1eIYJRx1w8/view?usp=sharing )

In [105]:
gamma = 0.8

def take_action(current_state, reward_matrix, gamma) :
  action = get_action(current_state, reward_matrix)

  # Estado, acción y recompensa actuales
  current_sa_reward = reward_matrix[current_state, action]
  print("Estado actual de la acción tomada: ", current_sa_reward)

  # Estado, acción y recompensa nuevos
  q_sa_value = max(q_matrix[action,])
  print("q_sa_value: ", q_sa_value)

  # Estado Q actual
  q_current_state = current_sa_reward + (gamma * q_sa_value)
  print("Estado actual de Q:", q_current_state)

  # Actualizar la matriz Q
  q_matrix[current_state, action] = q_current_state

  print("Matriz-Q", "\n", q_matrix)

In [141]:
current_state = 0
take_action(current_state, rewards, gamma)

Matriz de recompensas 
 [[ -1  -1  -1  -1   0  -1]
 [ -1  -1  -1   0  -1 100]
 [ -1  -1  -1   0  -1  -1]
 [ -1   0   0  -1  -1  -1]
 [  0  -1  -1  -1  -1 100]
 [ -1  -1  -1  -1   0 100]]
Estado actual 0
La elección aleatoria de la acción en [4] es 4
Estado actual de la acción tomada:  0
q_sa_value:  164.0
Estado actual de Q: 131.20000000000002
Matriz-Q 
 [[  0.    0.    0.    0.  131.2   0. ]
 [  0.    0.    0.   64.    0.  100. ]
 [  0.    0.    0.   64.    0.    0. ]
 [  0.   80.    0.    0.    0.    0. ]
 [ 64.    0.    0.    0.    0.  164. ]
 [  0.    0.    0.    0.   80.    0. ]]
