In [8]:
import numpy as np

# Creamos un laberinto representado por una matriz
# 0 representa un espacio vacío
# 1 representa una pared
# 2 representa el estado objetivo
# 3 representa el agente
maze = np.array([
    [1, 1, 1, 1, 1],
    [3, 0, 1, 0, 1],
    [1, 0, 1, 0, 1],
    [1, 0, 0, 0, 2],
    [1, 1, 1, 1, 1]
])

# Definimos la función de recompensa
def get_reward(state):
    if state == 2:  # Objetivo
        return 10
    elif state == 1:  # Pared
        return -1
    else:
        return -0.1  # Espacio vacío

# Función para tomar una acción y obtener el siguiente estado y la recompensa
def take_action(state, action):
    new_reward = 0  # Inicializamos la recompensa a 0
    if action == 0:  # Arriba
        next_state = (state[0] - 1, state[1])
    elif action == 1:  # Abajo
        next_state = (state[0] + 1, state[1])
    elif action == 2:  # Izquierda
        next_state = (state[0], state[1] - 1)
    elif action == 3:  # Derecha
        next_state = (state[0], state[1] + 1)

    # Comprobar si el siguiente estado está dentro del laberinto
    if next_state[0] < 0 or next_state[0] >= maze.shape[0] or next_state[1] < 0 or next_state[1] >= maze.shape[1] or maze[next_state] == 1:
        next_state = state  # Mantener el estado actual
        new_reward = -1  # Penalizar por chocar con una pared
    else:
        new_reward = get_reward(maze[next_state])  # Obtener la recompensa del nuevo estado

    return next_state, new_reward

# Inicializamos la función Q como una matriz de ceros
Q = np.zeros((maze.shape[0], maze.shape[1], 4))  # 4 acciones posibles (arriba, abajo, izquierda, derecha)

# Definimos parámetros del algoritmo
gamma = 0.9  # Factor de descuento
alpha = 0.1  # Tasa de aprendizaje

# Algoritmo de aprendizaje por refuerzo (Q-Learning)
num_episodes = 1000
for _ in range(num_episodes):
    state = (1, 0)  # Posición inicial del agente
    while True:
        # Elegir una acción epsilon-greedy
        if np.random.rand() < 0.1:
            action = np.random.randint(4)  # Exploración aleatoria
        else:
            action = np.argmax(Q[state])

        # Tomar la acción y obtener el siguiente estado y la recompensa
        next_state, reward = take_action(state, action)

        # Calcular el valor Q según la ecuación de Bellman
        Q[state][action] = Q[state][action] + alpha * (reward + gamma * np.max(Q[next_state]) - Q[state][action])

        # Actualizar el estado actual
        state = next_state

        # Si llegamos al estado objetivo, terminar el episodio
        if maze[state] == 2:
            break

print(Q)

[[[ 0.          0.          0.          0.        ]
  [ 0.          0.          0.          0.        ]
  [ 0.          0.          0.          0.        ]
  [ 0.          0.          0.          0.        ]
  [ 0.          0.          0.          0.        ]]

 [[ 3.74124712  3.51980981  3.822379    5.49539   ]
  [ 4.160187    6.2171      4.57466196  4.28559609]
  [ 0.          0.          0.          0.        ]
  [-0.1        -0.0199     -0.1        -0.1       ]
  [ 0.          0.          0.          0.        ]]

 [[ 0.          0.          0.          0.        ]
  [ 5.28424099  7.019       5.20798169  5.06847913]
  [ 0.          0.          0.          0.        ]
  [-0.019       8.18551063 -0.1145252   0.5529984 ]
  [ 0.          0.          0.          0.        ]]

 [[ 0.          0.          0.          0.        ]
  [ 5.77668984  5.75330094  5.78617313  7.91      ]
  [ 6.70847104  6.21966694  6.70303461  8.9       ]
  [ 5.56393417  7.47641467  7.51503791 10.        ]
  [ 0.