In [1]:
import numpy as np

# Параметри середовища
grid_size = 5  # Розмір території (5x5)
num_actions = 4  # Дії: вгору, вниз, ліворуч, праворуч
gamma = 0.9  # Дисконтуючий фактор
alpha = 0.1  # Швидкість навчання
epsilon = 0.1  # Імовірність випадкового вибору дії (ε-жадібна стратегія)
num_episodes = 500  # Кількість епізодів навчання

# Створення таблиці Q
Q = np.zeros((grid_size, grid_size, num_actions))

# Функції для вибору дій і оновлення стану
def choose_action(state):
    if np.random.rand() < epsilon:
        return np.random.choice(num_actions)  # Випадкова дія
    return np.argmax(Q[state])  # Жадібна дія

def take_action(state, action):
    x, y = state
    if action == 0:  # Вгору
        x = max(0, x - 1)
    elif action == 1:  # Вниз
        x = min(grid_size - 1, x + 1)
    elif action == 2:  # Ліворуч
        y = max(0, y - 1)
    elif action == 3:  # Праворуч
        y = min(grid_size - 1, y + 1)
    return (x, y)

# Нагороди: -1 за кожен крок, +10 за досягнення цілі, -10 за "небезпечну" зону
rewards = np.zeros((grid_size, grid_size))
rewards[4, 4] = 10  # Ціль
rewards[2, 2] = -10  # Небезпечна зона

# Навчання агента
for episode in range(num_episodes):
    state = (0, 0)  # Початкове положення
    done = False
    while not done:
        action = choose_action(state)
        next_state = take_action(state, action)
        reward = rewards[next_state]
        done = next_state == (4, 4)  # Завершення, якщо досягнуто цілі
        
        # Оновлення Q-таблиці
        Q[state][action] += alpha * (reward + gamma * np.max(Q[next_state]) - Q[state][action])
        state = next_state

# Перевірка результатів
print("Q-таблиця після навчання:")
print(Q)

# Тестування оптимальної стратегії
state = (0, 0)
path = [state]
while state != (4, 4):
    action = np.argmax(Q[state])
    state = take_action(state, action)
    path.append(state)

print("Оптимальний шлях:")
print(path)


Q-таблиця після навчання:
[[[ 2.12533649e+00  2.38003364e+00  3.02347806e+00  4.78296900e+00]
  [ 3.67410947e+00  5.31441000e+00  2.19886201e+00  2.62129631e+00]
  [ 0.00000000e+00  1.41675512e-02  4.62199490e+00  9.67548693e-03]
  [ 0.00000000e+00  0.00000000e+00  1.52725632e+00  0.00000000e+00]
  [ 0.00000000e+00  0.00000000e+00  7.49604744e-02  0.00000000e+00]]

 [[ 4.27803080e+00  3.82136996e-01  3.09841743e-01  5.31440767e-01]
  [ 3.69446683e+00  5.90490000e+00  2.23710807e+00  8.54378866e-01]
  [ 2.58368073e+00 -4.13320961e+00  0.00000000e+00  6.92418015e-05]
  [ 2.99929402e-01  1.96143870e-03  0.00000000e+00  0.00000000e+00]
  [ 0.00000000e+00  0.00000000e+00  0.00000000e+00  0.00000000e+00]]

 [[ 3.42982133e+00  3.21019081e-02  4.61222696e-01  5.90490000e-01]
  [ 4.09480236e+00  6.56100000e+00  1.67969348e+00 -4.92758250e+00]
  [ 2.00394709e-01  7.25408790e+00  5.90427203e-01  1.09083979e-03]
  [ 4.58411960e-02  0.00000000e+00 -8.41102871e+00  0.00000000e+00]
  [ 0.00000000e+00