In [27]:
import gym
from gym import spaces
import numpy as np

class WarehouseOrientationEnv(gym.Env):
    """
    Magazyn NxN z orientacją robota:
      - Stan: [r_x, r_y, t_x, t_y, orientation_index]
      - Akcje: 0=obrót w lewo (alpha), 1=obrót w prawo (alpha), 2=ruch do przodu
    """
    def __init__(self, n=5, alpha=90, max_steps=100):
        super(WarehouseOrientationEnv, self).__init__()

        self.n = n
        self.alpha = alpha
        self.max_steps = max_steps

        # Ilu "kroków" orientacji mamy (alpha musi dzielić 360)
        assert 360 % alpha == 0, "Kąt alpha musi dzielić 360 (np. 90, 45, 60 itp.)"
        self.num_orientations = 360 // alpha

        # Przestrzeń akcji: 3 akcje
        #  0: obrót w lewo o alpha
        #  1: obrót w prawo o alpha
        #  2: ruch do przodu
        self.action_space = spaces.Discrete(3)

        # Przestrzeń stanów = Box, 5 wymiarów:
        #   r_x, r_y, t_x, t_y, orientation_index
        # r_x, r_y, t_x, t_y w [0, n-1]
        # orientation_index w [0, num_orientations - 1]
        low = np.array([0, 0, 0, 0, 0], dtype=np.float32)
        high = np.array([n-1, n-1, n-1, n-1, self.num_orientations - 1], dtype=np.float32)
        self.observation_space = spaces.Box(low, high, dtype=np.float32)

        # Pola do przechowywania stanu
        self.robot_x = 0
        self.robot_y = 0
        self.target_x = 0
        self.target_y = 0
        self.orientation = 0  # indeks 0..num_orientations-1
        self.current_step = 0

    def reset(self, seed=None, options=None):
        super().reset(seed=seed)
        self.current_step = 0

        # Losujemy pozycję robota
        self.robot_x = np.random.randint(self.n)
        self.robot_y = np.random.randint(self.n)

        # Losujemy pozycję celu (inną niż robota)
        while True:
            self.target_x = np.random.randint(self.n)
            self.target_y = np.random.randint(self.n)
            if (self.target_x != self.robot_x) or (self.target_y != self.robot_y):
                break

        # Losujemy orientację (0..num_orientations-1)
        self.orientation = np.random.randint(self.num_orientations)

        return self._get_obs()

    def step(self, action):
        old_distance = np.linalg.norm([
            self.robot_x - self.target_x,
            self.robot_y - self.target_y
        ])

        # Wykonujemy akcję
        if action == 0:
            # Obrót w lewo
            self.orientation = (self.orientation - 1) % self.num_orientations
        elif action == 1:
            # Obrót w prawo
            self.orientation = (self.orientation + 1) % self.num_orientations
        elif action == 2:
            # Ruch do przodu
            self._move_forward()
        else:
            raise ValueError(f"Nieznana akcja: {action}")

        # Domyślna niewielka kara za ruch
        reward = -0.01
        terminated = False

        # Sprawdzamy, czy się przybliżyliśmy do celu
        new_distance = np.linalg.norm([
            self.robot_x - self.target_x,
            self.robot_y - self.target_y
        ])
        if new_distance < old_distance:
            # dodatkowa nagroda za przybliżenie
            reward += 0.01

        # Sprawdzamy, czy dotarliśmy do celu
        if (self.robot_x == self.target_x) and (self.robot_y == self.target_y):
            reward = 1.0

            terminated = True

        # Sprawdzamy, czy przekroczyliśmy limit kroków
        obs = self._get_obs()
        self.current_step += 1
        truncated = (self.current_step >= self.max_steps) or (terminated)


        return obs, reward, terminated, truncated

    def render(self, mode='human'):
        """
        Prosta wizualizacja tekstowa w konsoli.
        'R' = robot
        'T' = cel
        '.' = puste
        """
        grid = [["." for _ in range(self.n)] for _ in range(self.n)]

        # robot
        grid[self.robot_y][self.robot_x] = "R"
        # cel
        grid[self.target_y][self.target_x] = "T"

        print("="*(2*self.n))
        for row in grid:
            print(" ".join(row))
        print("="*(2*self.n))
        print(f"Orientacja (indeks): {self.orientation} (kąt = {self.orientation * self.alpha} stopni)")

    def _get_obs(self):
        """
        Zwracamy krotkę (lub tablicę) [robot_x, robot_y, target_x, target_y, orientation].
        """
        return np.array([self.robot_x,
                         self.robot_y,
                         self.target_x,
                         self.target_y,
                         self.orientation])

    def _move_forward(self):
        """
        Ruch o 1 'kratkę' w kierunku orientation.
        orientation * alpha -> kąt w stopniach.
        """
        angle_deg = self.orientation * self.alpha
        # Konwersja na radians
        angle_rad = np.deg2rad(angle_deg)

        # Wektor ruchu
        dx = int(round(np.cos(angle_rad)))
        dy = int(round(np.sin(angle_rad)))

        # Sprawdzamy, czy wyjście w [0..n-1]
        new_x = self.robot_x + dx
        new_y = self.robot_y + dy

        if 0 <= new_x < self.n and 0 <= new_y < self.n:
            self.robot_x = new_x
            self.robot_y = new_y

  and should_run_async(code)


In [29]:
import numpy as np
import tensorflow as tf
from tensorflow.keras import models, layers, optimizers
from collections import deque
import random
GAMMA = 0.90        # współczynnik dyskontujący
EPSILON_START = 1.0 # początkowe epsilon
EPSILON_MIN = 0.01  # minimalne epsilon
EPSILON_DECAY = 0.995
BATCH_SIZE = 32
LEARNING_RATE = 0.001
MEMORY_SIZE = 10000
EPISODES = 2000
env = WarehouseOrientationEnv(n=2, max_steps=10)
def build_target_network(model):
    # tworzymy sieć o takiej samej architekturze i kopiujemy wagi
    target = models.clone_model(model)
    target.set_weights(model.get_weights())
    return target
# Rozmiar wejścia = rozmiar wektora obserwacji
state_size = env.observation_space.shape[0]  # np. 10
action_size = env.action_space.n            # 3

def build_q_network(state_size, action_size):
    model = models.Sequential()
    model.add(layers.Dense(32, input_shape=(state_size,), activation='relu'))
    model.add(layers.Dense(32, activation='relu'))
    model.add(layers.Dense(action_size, activation='linear'))
    model.compile(optimizer=optimizers.Adam(learning_rate=0.001), loss='mse')
    return model

q_network = build_q_network(state_size, action_size)
# ... dalej implementacja DQN analogicznie jak w przykładzie z FrozenLake,
#    tylko trzeba pamiętać, że stany i akcje są teraz inne.
target_network = build_target_network(q_network)

# 7. Bufor pamięci
memory = deque(maxlen=MEMORY_SIZE)

# 8. Parametry epsilon
epsilon = EPSILON_START

# 9. Główna pętla treningowa
all_rewards = []

for episode in range(EPISODES):
    obs = env.reset()
    next_obs=obs

    done = False
    total_reward = 0

    while not done:
        # Wybór akcji epsilon-greedy
        obs=next_obs
        if np.random.rand() < epsilon:
            action = np.random.randint(action_size)
        else:
            print(obs)
            q_values = q_network.predict(obs[np.newaxis, :], verbose=0)
            action = np.argmax(q_values[0])

        # Wykonanie akcji

        next_obs, reward, terminated, truncated = env.step(action)
        reward=reward*1

        print(next_obs)
        done = terminated or truncated
        #print(done)


        # Zapis do pamięci
        memory.append((obs, action, reward, next_obs, done))

        # Przechodzimy do kolejnego stanu
        total_reward += reward

        # Uczenie sieci – aktualizacja wag po każdej akcji, jeśli mamy wystarczająco dużo danych

        if len(memory) >= BATCH_SIZE:
            # losujemy mini-batch
            minibatch = random.sample(memory, BATCH_SIZE)

            # przygotowanie wektorów do trenowania
            print(minibatch[0])
            states_mb = np.array([m[0] for m in minibatch])  # [BATCH_SIZE, state_size]
            actions_mb = np.array([m[1] for m in minibatch]) # [BATCH_SIZE]
            rewards_mb = np.array([m[2] for m in minibatch]) # [BATCH_SIZE]
            next_states_mb = np.array([m[3] for m in minibatch])  # [BATCH_SIZE, state_size]
            dones_mb = np.array([m[4] for m in minibatch])   # [BATCH_SIZE]

            # Q-values z sieci głównej dla stanu kolejnego
            q_next = q_network.predict(next_states_mb, verbose=0)
            # Q-values z sieci docelowej (target) dla stanu kolejnego
            q_next_target = target_network.predict(next_states_mb, verbose=0)

            # Wyliczamy docelowe wartości Q (targety)
            q_targets = q_network.predict(states_mb, verbose=0)

            for i in range(BATCH_SIZE):
                if dones_mb[i]:
                    # epizod się zakończył
                    q_targets[i, actions_mb[i]] = rewards_mb[i]
                else:
                    # Double DQN (opcjonalnie) – wybieramy akcję z q_next, a wartości z q_next_target:
                    a_max = np.argmax(q_next[i])
                    q_targets[i, actions_mb[i]] = rewards_mb[i] + GAMMA * q_next_target[i, a_max]

            # Trenujemy sieć główną
            q_network.fit(states_mb, q_targets, epochs=1, verbose=0)

    # Eksploracja - zmniejszanie epsilon
    if epsilon > EPSILON_MIN:
        epsilon *= EPSILON_DECAY

    all_rewards.append(total_reward)

    # Co pewną liczbę epizodów (np. co 20) kopiujemy wagi do sieci target
    if episode % 20 == 0:
        target_network.set_weights(q_network.get_weights())

    # Monitoring
    if (episode+1) % 5== 0:
        avg_reward = np.mean(all_rewards[-100:])
        print(f"Epizod: {episode+1}/{EPISODES}, "
              f"średni reward z ostatnich 100 epizodów: {avg_reward:.3f}, "
              f"epsilon: {epsilon:.3f}")

# Po treningu możemy zaobserwować, jak agent sobie radzi
print("Trening zakończony!")

  and should_run_async(code)
  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


[1 1 0 1 1]
[1 1 0 1 0]
[1 1 0 1 1]
[1 1 0 1 2]
[1 1 0 1 3]
[1 1 0 1 2]
[1 1 0 1 1]
[1 1 0 1 2]
[1 1 0 1 1]
[1 1 0 1 0]
[1 0 1 1 0]
[1 0 1 1 3]
[1 0 1 1 2]
[0 0 1 1 2]
[0 0 1 1 2]
[0 0 1 1 2]
[0 0 1 1 1]
[0 1 1 1 1]
[0 1 1 1 2]
[0 1 1 1 1]
[0 0 1 1 3]
[0 0 1 1 2]
[0 0 1 1 1]
[0 0 1 1 0]
[0 0 1 1 1]
[0 0 1 1 0]
[1 0 1 1 0]
[1 0 1 1 1]
[1 1 1 1 1]
[0 0 1 0 3]
[0 0 1 0 3]
[0 0 1 0 3]
(array([0, 0, 1, 1, 2]), 2, -0.01, array([0, 0, 1, 1, 2]), False)
[0 0 1 0 0]
(array([1, 1, 0, 1, 1]), 1, -0.01, array([1, 1, 0, 1, 2]), False)
[1 0 1 0 0]
(array([0, 1, 1, 1, 2]), 0, -0.01, array([0, 1, 1, 1, 1]), True)
[1 1 0 1 1]
(array([1, 0, 1, 1, 1]), 2, 1.0, array([1, 1, 1, 1, 1]), True)
[1 1 0 1 2]
(array([0, 0, 1, 1, 1]), 2, 0.0, array([0, 1, 1, 1, 1]), False)
[1 1 0 1 3]
(array([0, 0, 1, 1, 2]), 2, -0.01, array([0, 0, 1, 1, 2]), False)
[1 1 0 1 0]
(array([1, 0, 1, 1, 0]), 0, -0.01, array([1, 0, 1, 1, 3]), False)
[1 1 0 1 1]
(array([0, 0, 1, 0, 3]), 2, -0.01, array([0, 0, 1, 0, 3]), False)
[1 1 0 1 0

KeyboardInterrupt: 