In [None]:
# Dinaminio programavimo taikymas: Vertės iteracija FrozenLake aplinkoje

# Reikalingos bibliotekos
import numpy as np
import gym
import matplotlib.pyplot as plt

# Aplinkos paruošimas
env = gym.make("FrozenLake-v1", is_slippery=False)  # Naudojame deterministinę versiją, STABILIAM ELGESIUI
env.reset()

# Vertės iteracijos algoritmas
def value_iteration(env, gamma=0.99, theta=1e-8):
    value_table = np.zeros(env.observation_space.n)  # Pradinės vertės
    policy = np.zeros(env.observation_space.n)

    while True:
        delta = 0
        for state in range(env.observation_space.n):
            action_values = []
            for action in range(env.action_space.n):
                q_value = 0
                for prob, next_state, reward, done in env.P[state][action]:
                    q_value += prob * (reward + gamma * value_table[next_state])
                action_values.append(q_value)

            max_value = max(action_values)
            delta = max(delta, abs(value_table[state] - max_value))
            value_table[state] = max_value

        if delta < theta:
            break

    # Optimalios politikos sudarymas
    for state in range(env.observation_space.n):
        action_values = []
        for action in range(env.action_space.n):
            q_value = 0
            for prob, next_state, reward, done in env.P[state][action]:
                q_value += prob * (reward + gamma * value_table[next_state])
            action_values.append(q_value)
        policy[state] = np.argmax(action_values)

    return value_table, policy

# Vertės iteracijos vykdymas
value_table, optimal_policy = value_iteration(env)

print("Vertės funkcija:")
print(value_table.reshape(4, 4))  # Atvaizduojame 4x4 tinklelyje

print("\nOptimali politika (veiksmų indeksai):")
print(optimal_policy.reshape(4, 4))

# Politikos simbolinė vizualizacija
action_symbols = ['←', '↓', '→', '↑']
policy_symbols = [action_symbols[int(a)] for a in optimal_policy]
policy_grid = np.array(policy_symbols).reshape(4, 4)
print("\nPolitika simboliais:")
for row in policy_grid:
    print(' '.join(row))


Vertės funkcija:
[[0.95099005 0.96059601 0.970299   0.96059601]
 [0.96059601 0.         0.9801     0.        ]
 [0.970299   0.9801     0.99       0.        ]
 [0.         0.99       1.         0.        ]]

Optimali politika (veiksmų indeksai):
[[1. 2. 1. 0.]
 [1. 0. 1. 0.]
 [2. 1. 1. 0.]
 [0. 2. 2. 0.]]

Politika simboliais:
↓ → ↓ ←
↓ ← ↓ ←
→ ↓ ↓ ←
← → → ←


  deprecation(
  deprecation(


Būsenos su aukštesnėmis vertėmis rodo optimalius veiksmus, kad pasiektume tikslą, ir tokiose vietose atlikti optimalūs veiksmai! (Išeiti iš labirinto, pasiekti pabaigą ir t.t.
)

Kuo arčiau būsenos su tikslo vieta, tuo didesnės vertės jos turi, nes tikslas yra pasiekiamas iš jų su didesne tikimybe.


SKIRTINGOS GAMMA

Gamma (γ) yra nuolaidos (angl. discount factor) parametras, kuris yra svarbus daugelyje reinforcement learning (RL) algoritmų, įskaitant vertės iteraciją ir politikos iteraciją.

Jis nusako, kaip agentas vertina ateities atlygius, palyginti su dabartiniais atlygiais.

Ką reiškia gamma?
𝛾
γ reikšmė yra intervale nuo 0 iki 1.

𝛾
=
0
γ=0 reiškia, kad agentas visiškai ignoruoja ateities atlygius ir labiausiai vertina tik dabartinius atlygius.

𝛾
=
1
γ=1 reiškia, kad agentas visiškai vertina tiek dabartinius, tiek ateities atlygius. Kiekvienas būsimos naudos gabalas yra vertinamas taip pat, kaip ir dabartinė nauda.

0 <
𝛾
γ < 1 reiškia, kad agentas vertina tiek dabartinius, tiek ateities atlygius, tačiau ateities atlygiai yra šiek tiek mažiau vertinami nei dabartiniai.

In [None]:
import numpy as np
import gym
import matplotlib.pyplot as plt

# Aplinkos paruošimas
env = gym.make("FrozenLake-v1", is_slippery=False)
env.reset()

# Vertės iteracijos algoritmas
def value_iteration(env, gamma=0.99, theta=1e-8):
    value_table = np.zeros(env.observation_space.n)
    policy = np.zeros(env.observation_space.n)

    while True:
        delta = 0
        for state in range(env.observation_space.n):
            action_values = []
            for action in range(env.action_space.n):
                q_value = 0
                for prob, next_state, reward, done in env.P[state][action]:
                    q_value += prob * (reward + gamma * value_table[next_state])
                action_values.append(q_value)

            max_value = max(action_values)
            delta = max(delta, abs(value_table[state] - max_value))
            value_table[state] = max_value

        if delta < theta:
            break

    # Optimalios politikos sudarymas
    for state in range(env.observation_space.n):
        action_values = []
        for action in range(env.action_space.n):
            q_value = 0
            for prob, next_state, reward, done in env.P[state][action]:
                q_value += prob * (reward + gamma * value_table[next_state])
            action_values.append(q_value)
        policy[state] = np.argmax(action_values)

    return value_table, policy

# Eksperimentavimas su skirtingais `gamma` reikšmėmis
gamma_values = [0.9, 0.95, 0.99]
for gamma in gamma_values:
    print(f"Gamma = {gamma}")
    value_table, optimal_policy = value_iteration(env, gamma=gamma)
    print("Vertės funkcija:")
    print(value_table.reshape(4, 4))  # Atvaizduojame 4x4 tinklelyje
    print("\nOptimali politika (veiksmų indeksai):")
    print(optimal_policy.reshape(4, 4))


Gamma = 0.9
Vertės funkcija:
[[0.59049 0.6561  0.729   0.6561 ]
 [0.6561  0.      0.81    0.     ]
 [0.729   0.81    0.9     0.     ]
 [0.      0.9     1.      0.     ]]

Optimali politika (veiksmų indeksai):
[[1. 2. 1. 0.]
 [1. 0. 1. 0.]
 [2. 1. 1. 0.]
 [0. 2. 2. 0.]]
Gamma = 0.95
Vertės funkcija:
[[0.77378094 0.81450625 0.857375   0.81450625]
 [0.81450625 0.         0.9025     0.        ]
 [0.857375   0.9025     0.95       0.        ]
 [0.         0.95       1.         0.        ]]

Optimali politika (veiksmų indeksai):
[[1. 2. 1. 0.]
 [1. 0. 1. 0.]
 [2. 1. 1. 0.]
 [0. 2. 2. 0.]]
Gamma = 0.99
Vertės funkcija:
[[0.95099005 0.96059601 0.970299   0.96059601]
 [0.96059601 0.         0.9801     0.        ]
 [0.970299   0.9801     0.99       0.        ]
 [0.         0.99       1.         0.        ]]

Optimali politika (veiksmų indeksai):
[[1. 2. 1. 0.]
 [1. 0. 1. 0.]
 [2. 1. 1. 0.]
 [0. 2. 2. 0.]]


Mažas
𝛾
γ gali priversti agentą priimti „trumpalaikius“ sprendimus, dažnai pasitenkinant mažais, tačiau greitais apdovanojimais.

Didelis
𝛾
γ skatina agentą priimti „ilgo laikotarpio“ sprendimus, kurie dažnai reikalauja „kantrybės“ ir veda į didesnius apdovanojimus ateityje.

In [None]:
import numpy as np
import gym
import random

# Aplinkos paruošimas
env = gym.make("FrozenLake-v1", is_slippery=False)

# Atsitiktinis pradinis taškas
def random_start_state():
    return random.randint(0, env.observation_space.n - 1)

# Vertės iteracijos algoritmas su atsitiktiniu pradžios tašku
def value_iteration_random_start(env, gamma=0.99, theta=1e-8):
    value_table = np.zeros(env.observation_space.n)
    policy = np.zeros(env.observation_space.n)

    # Nustatome atsitiktinį pradžios tašką
    start_state = random_start_state()
    print(f"Pradinis taškas: {start_state}")

    while True:
        delta = 0
        for state in range(env.observation_space.n):
            action_values = []
            for action in range(env.action_space.n):
                q_value = 0
                for prob, next_state, reward, done in env.P[state][action]:
                    q_value += prob * (reward + gamma * value_table[next_state])
                action_values.append(q_value)

            max_value = max(action_values)
            delta = max(delta, abs(value_table[state] - max_value))
            value_table[state] = max_value

        if delta < theta:
            break

    # Optimalios politikos sudarymas
    for state in range(env.observation_space.n):
        action_values = []
        for action in range(env.action_space.n):
            q_value = 0
            for prob, next_state, reward, done in env.P[state][action]:
                q_value += prob * (reward + gamma * value_table[next_state])
            action_values.append(q_value)
        policy[state] = np.argmax(action_values)

    return value_table, policy

# Vertės iteracijos vykdymas su atsitiktiniu pradžios tašku
value_table, optimal_policy = value_iteration_random_start(env)

print("Vertės funkcija:")
print(value_table.reshape(4, 4))
print("\nOptimali politika (veiksmų indeksai):")
print(optimal_policy.reshape(4, 4))


Pradinis taškas: 7
Vertės funkcija:
[[0.95099005 0.96059601 0.970299   0.96059601]
 [0.96059601 0.         0.9801     0.        ]
 [0.970299   0.9801     0.99       0.        ]
 [0.         0.99       1.         0.        ]]

Optimali politika (veiksmų indeksai):
[[1. 2. 1. 0.]
 [1. 0. 1. 0.]
 [2. 1. 1. 0.]
 [0. 2. 2. 0.]]
