<a href="https://colab.research.google.com/github/YKochura/rl-kpi/blob/main/practice/practice1/Maze.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import numpy as np
import random

In [2]:
class MazeEnv:
  def __init__(self, size=5):
    # Ініціалізуємо лабіринт розміром size x size
    self.size = size
    self.maze = self._generate_maze()
    self.agent_pos = [0, 0]
    self.goal_pos = [size - 1, size - 1]
    self.done = False
    self.actions = ['up', 'down', 'left', 'right']
    self.state_space = size * size  # Кількість станів
    self.action_space = len(self.actions)  # Кількість дій

  def _generate_maze(self):
    # Створюємо лабіринт з перешкодами
    maze = np.zeros((self.size, self.size), dtype=int)
    num_obstacles = int(self.size * self.size * 0.2)
    obstacles = random.sample(range(1, self.size * self.size - 1), num_obstacles)
    for obs in obstacles:
        maze[obs // self.size][obs % self.size] = 1
    return maze

  def reset(self):
    # Повертаємо лабіринт до початкового стану
    self.agent_pos = [0, 0]
    self.done = False
    return self.agent_pos_to_state(self.agent_pos)

  def agent_pos_to_state(self, pos):
    return pos[0] * self.size + pos[1]

  def step(self, action):
    # Рухаємо агента залежно від вибраної дії
    x, y = self.agent_pos
    if action == 0 and x > 0:  # up
      x -= 1
    elif action == 1 and x < self.size - 1:  # down
      x += 1
    elif action == 2 and y > 0:  # left
      y -= 1
    elif action == 3 and y < self.size - 1:  # right
      y += 1

    if self.maze[x][y] == 1:
      # Якщо перешкода, повертаємо на попереднє місце
      return self.agent_pos_to_state(self.agent_pos), -1, False

    self.agent_pos = [x, y]
    if self.agent_pos == self.goal_pos:
      self.done = True
      return self.agent_pos_to_state(self.agent_pos), 10, True

    return self.agent_pos_to_state(self.agent_pos), -0.1, False

  def render(self):
    # Виводимо лабіринт і позицію агента
    maze_copy = np.copy(self.maze)
    x, y = self.agent_pos
    maze_copy[x][y] = 2
    maze_copy[self.goal_pos[0]][self.goal_pos[1]] = 3
    print(maze_copy)

In [3]:
class QLearningAgent:
  def __init__(self, env, alpha=0.1, gamma=0.99, epsilon=0.1):
    self.env = env
    self.q_table = np.zeros((env.state_space, env.action_space))
    self.alpha = alpha  # Швидкість навчання
    self.gamma = gamma  # Коефіцієнт знижки
    self.epsilon = epsilon  # Ймовірність дослідження

  # TODO
  def choose_action(self, state):
    """
    Ця функція реалізовує ε-жадiбну стратегiю для вибору дій агентом

    Параметри:
    state -- поточний стан в якому знаходиться агент (індекс або координата в таблиці станів)

    Повертає:
    Випадкову дію або найкращу дію на основі Q-таблиці
    """

    # BEGIN_YOUR_CODE
    raise Exception("Not implemented yet")
    # END_YOUR_CODE


  def update_q_value(self, state, action, reward, next_state):
    """
    Ця функція оновлює значення Q-функції для поточного стану та вибраної дії на основі отриманої винагороди і майбутніх дій.

    Параметри:
    state -- поточний стан в якому знаходиться агент (індекс або координата в таблиці станів)
    action -- дія, яку агент виконав у цьому стані (індекс дії в таблиці дій)
    reward -- винагорода, яку агент отримав після виконання дії у цьому стані
    next_state -- наступний стан в який перейшов агент після виконання дії

    Повертає:
    Функція нічого не повертає. Вона оновлює внутрішню таблицю self.q_table в рамках агента.
    """

    # BEGIN_YOUR_CODE
    raise Exception("Not implemented yet")
    # END_YOUR_CODE

  def train(self, episodes):
    for episode in range(episodes):
        state = self.env.reset()
        done = False
        while not done:
            action = self.choose_action(state)
            next_state, reward, done = self.env.step(action)
            self.update_q_value(state, action, reward, next_state)
            state = next_state
        if (episode + 1) % 100 == 0:
            print(f"Episode: {episode + 1}")
            print(f"Q-таблиця: {self.q_table}")

In [4]:
# Створення середовища лабіринту
env = MazeEnv(size=5)
agent = QLearningAgent(env)

In [5]:
# Тренуємо агента
agent.train(episodes=1000)

Episode: 100
Q-таблиця: [[ 0.51950098  6.60164955  0.42223737 -0.24346123]
 [-0.19756123 -0.13612201 -0.20153441 -0.29410417]
 [ 0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.        ]
 [-0.01       -0.01        0.          0.        ]
 [ 0.41207751  7.51022652  0.50563035  0.32414498]
 [-0.15537238  3.16483248 -0.14540223 -0.1999    ]
 [ 0.          0.          0.          0.        ]
 [-0.1        -0.01999    -0.1        -0.01      ]
 [-0.01       -0.1        -0.01        0.        ]
 [ 0.42063146 -0.0612678   1.14765893  8.35300866]
 [ 0.01091957  8.97754261  1.03387243  1.34990509]
 [ 0.          0.          0.          0.        ]
 [-0.019      -0.01999    -0.1        -0.1       ]
 [ 0.          0.          0.          0.        ]
 [-0.07714558 -0.0748898  -0.07972056  2.10910698]
 [ 2.72027217  9.31614165  0.0614627  -0.0536812 ]
 [-0.19       -0.028981   -0.03438138  0.23257645]
 [-0.019       2.69158083 -0.01        0.08      ]
 [-0.1 

In [6]:
# Тестуємо агента
state = env.reset()
env.render()

done = False
while not done:
    action = agent.choose_action(state)
    next_state, reward, done = env.step(action)
    state = next_state
    env.render()
    if done:
        print("Агент досяг мету!")

[[2 0 1 1 0]
 [0 0 1 0 0]
 [0 0 1 0 1]
 [0 0 0 0 0]
 [0 0 0 0 3]]
[[0 0 1 1 0]
 [2 0 1 0 0]
 [0 0 1 0 1]
 [0 0 0 0 0]
 [0 0 0 0 3]]
[[0 0 1 1 0]
 [0 0 1 0 0]
 [2 0 1 0 1]
 [0 0 0 0 0]
 [0 0 0 0 3]]
[[0 0 1 1 0]
 [0 0 1 0 0]
 [0 2 1 0 1]
 [0 0 0 0 0]
 [0 0 0 0 3]]
[[0 0 1 1 0]
 [0 0 1 0 0]
 [0 0 1 0 1]
 [0 2 0 0 0]
 [0 0 0 0 3]]
[[0 0 1 1 0]
 [0 0 1 0 0]
 [0 0 1 0 1]
 [0 0 0 0 0]
 [0 2 0 0 3]]
[[0 0 1 1 0]
 [0 0 1 0 0]
 [0 0 1 0 1]
 [0 0 0 0 0]
 [0 0 2 0 3]]
[[0 0 1 1 0]
 [0 0 1 0 0]
 [0 0 1 0 1]
 [0 0 0 0 0]
 [0 0 0 2 3]]
[[0 0 1 1 0]
 [0 0 1 0 0]
 [0 0 1 0 1]
 [0 0 0 0 0]
 [0 0 0 0 3]]
Агент досяг мету!
