# WSI - Ćwiczenie 5

*Autor: Maksymilian Nowak*

### Cel ćwiczenia

Celem ćwiczenia jest zaimplementowanie algorytmu Q-learning z $\varepsilon$-zachłanną strategią losowania akcji. Algorytm należy zastosować do wytrenowania agenta rozwiązującego problemu *Cliff Walking* dostępnego w pakiecie `gymnasium`.

Należy zbadać wpływ współczynnika dyskontowania ($\lambda$) i szybkości uczenia ($\beta$) na działanie algorytmu.

## Implementacja algorytmu

In [11]:
import numpy as np

def q_learning(env, episodes, _lambda, beta, epsilon):
    '''
    :param env: środowisko
    :param episodes: liczba epizodów
    :param _lambda: współczynnik dyskontowania
    :param beta: współczynnik uczenia
    :param epsilon: współczynnik eksploracji
    '''
    Q = np.zeros((env.observation_space.n, env.action_space.n))
    rewards = []
    steps = []
    for _ in range(episodes):
        # Ocena strategii
        sum_reward = 0
        step = 0

        # Właściwy algorytm
        state = env.reset()[0]
        done = False
        while True:
            # Epsilon-zachłanna strategia
            if np.random.uniform() < epsilon:
                action = env.action_space.sample()
            else:
                action = np.argmax(Q[state])
            next, reward, done, _, _ = env.step(action)
            sum_reward += reward
            step += 1
            Q[state][action] += beta * (reward + _lambda * np.max(Q[next]) - Q[state][action])
            state = next

            if done:
                # Zapisanie wyników
                rewards.append(sum_reward)
                steps.append(step)
                break

    return Q, rewards, steps


#### Inicjalizacja środowiska

In [13]:
import gymnasium as gym

env = gym.make('CliffWalking-v0')
Q, rewards, steps = q_learning(env, 10000, 0.9, 0.1, 0.1)
print(Q)
print(rewards)
print(steps)

[[  -7.3599249    -7.35344399   -7.38332946   -7.35550075]
 [  -7.19566869   -7.18896712   -7.20342161   -7.25220852]
 [  -6.99172651   -6.97828069   -6.97846403   -6.9892505 ]
 [  -6.72250631   -6.7152559    -6.72096448   -6.75205828]
 [  -6.406253     -6.40437399   -6.40520952   -6.48379387]
 [  -6.06218937   -6.04247069   -6.05053151   -6.08115901]
 [  -5.66510014   -5.63988397   -5.64272965   -5.69429732]
 [  -5.1762551    -5.17759745   -5.17948995   -5.42377897]
 [  -4.66758614   -4.6594156    -4.65804497   -4.90919293]
 [  -4.22005409   -4.08166493   -4.08185656   -4.39302135]
 [  -3.48359782   -3.43322436   -3.43374174   -3.83965259]
 [  -2.81179215   -2.85901536   -2.70986065   -3.10623066]
 [  -7.49513281   -7.45813413   -7.45813413   -7.62895345]
 [  -7.35669948   -7.17570464   -7.17570464   -7.63001256]
 [  -7.14939715   -6.86189404   -6.86189404   -7.3452046 ]
 [  -6.92882867   -6.5132156    -6.5132156    -7.09265182]
 [  -6.63995025   -6.12579511   -6.12579511   -6.7622705