## **Zadanie 6 - Q-learning**
Cel zadania polega na implementacji algorytmu Q-learning oraz zastosowaniu go do rozwiązania problemu [Cliff Walking](https://gymnasium.farama.org/environments/toy_text/cliff_walking/). Środowisko to jest dostępne w pakiecie gymnasium `(gym.make('CliffWalking-v0')`.

**Kroki do wykonania:**
1. Implementacja algorytmu Q-learning.
2. Zbadanie skuteczności działania algorytmu dla problemu Cliff Walking dla różnych wartości współczynnika uczenia i różnej liczby epizodów (w procesie trenowania).

**Uwagi:**
- Implementacja algorytmu powinna być uniwersalna, tzn. możliwa do wykorzystania dla różnych środowisk o dyskretnej przestrzeni stanów i akcji.

In [5]:
import numpy as np
import gymnasium as gym

In [56]:
env = gym.make("CliffWalking-v0", render_mode="rgb_array")

In [86]:
# observation and action space
print("Observation space:", env.observation_space)
print("Action space:", env.action_space)

Observation space: Discrete(48)
Action space: Discrete(4)


In [81]:
def choose_action(Q, state, epsilon):
    if np.random.rand() < epsilon:
        return env.action_space.sample()
    else:
        return np.argmax(Q[state])

def train_q_learning(env, beta=0.1, gamma=0.99, max_episodes=5_000):
    # create Q table
    Q = np.zeros((env.observation_space.n, env.action_space.n))

    for step in range(max_episodes):
        state, _ = env.reset()

        while True:
            # choose an action
            action = choose_action(Q, state, epsilon=0.1)
            next_state, reward, done, _, _= env.step(action)

            # update Q table
            Q[state, action] += beta * (reward + gamma * np.max(Q[next_state]) - Q[state, action])

            state = next_state

            if done:
                break

    return Q

In [82]:
def test_q_learning(env, Q):
    print("Testing Q-learning")
    state, _ = env.reset()
    env.render()
    total_reward = 0
    while True:
        action = np.argmax(Q[state])
        state, reward, done, _, _ = env.step(action)
        env.render()
        total_reward += reward
        if done:
            break
    print("Total reward:", total_reward)

In [83]:
Q = train_q_learning(env)

In [84]:
test_q_learning(env, Q)

Testing Q-learning
Total reward: -13


In [94]:
# visualize 10 episodes
for _ in range(10):
    state, _ = env.reset()
    env.render()
    while True:
        action = np.argmax(Q[state])
        state, _, done, _, _ = env.step(action)
        env.render()
        if done:
            break