In [9]:
import numpy as np
import matplotlib.pyplot as plt

In [10]:
class Environment():
    def __init__(self):
        self.p_s_a = [  # Állapotátmeneti valószínűségek (környezeti dinamika) [s, a, s']
            [[0.0, 0.6, 0.4, 0.0, 0.0],   # s0 --> a1 --> [s0, s1, s2, s3, s4]
             [0.0, 1.0, 0.0, 0.0, 0.0],   # s0 --> a2 --> [s0, s1, s2, s3, s4]
             [0.0, 0.0, 0.0, 0.0, 0.0]],  # s0 --> a3 --> [s0, s1, s2, s3, s4]
            [[0.0, 0.0, 0.0, 0.9, 0.1],   # s1 --> a1 --> [s0, s1, s2, s3, s4]
             [0.25, 0.0, 0.0, 0.0, 0.75],   # s1 --> a2 --> [s0, s1, s2, s3, s4]
             [0.0, 0.0, 0.0, 0.13, 0.86]],  # s1 --> a3 --> [s0, s1, s2, s3, s4]
            [[0.85, 0.0, 0.0, 0.0, 0.15],   # s2 --> a1 --> [s0, s1, s2, s3, s4]
             [0.0, 0.0, 0.0, 0.96, 0.04],   # s2 --> a2 --> [s0, s1, s2, s3, s4]
             [0.0, 0.0, 0.0, 0.0, 0.0]],  # s2 --> a3 --> [s0, s1, s2, s3, s4]
            [[0.0, 0.0, 0.0, 1.0, 0.0],   # s3 --> a1 --> [s0, s1, s2, s3, s4]
             [0.0, 0.0, 1.0, 0.0, 0.0],   # s3 --> a2 --> [s0, s1, s2, s3, s4]
             [0.0, 0.0, 0.0, 0.0, 1.0]],  # s3 --> a3 --> [s0, s1, s2, s3, s4]
            [[1.0, 0.0, 0.0, 0.0, 0.0],   # s4 --> a1 --> [s0, s1, s2, s3, s4]
             [0.0, 0.0, 0.0, 0.0, 0.0],   # s4 --> a2 --> [s0, s1, s2, s3, s4]
             [0.0, 0.0, 0.0, 0.0, 0.0]],  # s4 --> a3 --> [s0, s1, s2, s3, s4]
        ]

        self.R = [              # Jutalmak [s, a, s']
            [[0, 8, 10, 0, 0],       # s0 --> a1 --> [r0, r1, r2, r3, r4]
             [0, 0, 0, 0, 0],        # s0 --> a2 --> [r0, r1, r2, r3, r4]
             [0, 0, 0, 0, 0]],       # s0 --> a3 --> [r0, r1, r2, r3, r4]
            [[0, 0, 0, -1, 5],       # s1 --> a1 --> [r0, r1, r2, r3, r4]
             [3, 0, 0, 0, 0],        # s1 --> a2 --> [r0, r1, r2, r3, r4]
             [0, 0, 0, 9, -2]],       # s1 --> a3 --> [r0, r1, r2, r3, r4]
            [[-5, 0, 0, 0, 4],        # s2 --> a1 --> [r0, r1, r2, r3, r4]
             [0, 0, 0, -2, 12],        # s2 --> a2 --> [r0, r1, r2, r3, r4]
             [0, 0, 0, 0, 0]],       # s2 --> a3 --> [r0, r1, r2, r3, r4]
            [[0, 0, 0, -5, 0],        # s3 --> a1 --> [r0, r1, r2, r3, r4]
             [0, 0, 0, -3, 0],        # s3 --> a2 --> [r0, r1, r2, r3, r4]
             [0, 0, 0, 0, 4]],       # s3 --> a3 --> [r0, r1, r2, r3, r4]
            [[0, 0, 0, 0, 0],        # s4 --> a1 --> [r0, r1, r2, r3, r4]
             [0, 0, 0, 0, 0],        # s4 --> a2 --> [r0, r1, r2, r3, r4]
             [0, 0, 0, 0, 0]],       # s4 --> a3 --> [r0, r1, r2, r3, r4]
        ]

        self.A = [              # Lehetséges cselekvések halmaza
            [1, 2],             # s0 --> s1, s2
            [0, 3, 4],          # s1 --> s0, s3, s4
            [0, 3, 4],          # s2 --> s0, s3, s4
            [3, 4],             # s3 --> s3, s4
            [0],                # s4 --> s0
        ]

        self.s0 = 0
        self.s = self.s0
        self.n_s = len(self.p_s_a)  # Állapotok száma
        self.n_a = max([len(x) for x in self.A])  # Cselekvések száma

    def reset(self):
        self.s = self.s0

    def step(self, s, a):
        sp = np.random.choice(range(self.n_s), p=self.p_s_a[s][a])
        r = self.R[s][a][sp]
        return r, sp

In [11]:
# Paraméterek
gamma = 0.98  
tolerance = 1e-6  

# Inicializáljuk az V(s) és Q(s, a) értékeket
V = np.zeros(env.n_s)
Q = np.zeros((env.n_s, env.n_a))

# Értékiterálás
while True:
    delta = 0
    for s in range(env.n_s):
        v = V[s]
        for a in range(env.n_a):
            q = 0
            for sp in range(env.n_s):
                q += env.p_s_a[s][a][sp] * (env.R[s][a][sp] + gamma * V[sp])
            Q[s][a] = q
        V[s] = max(Q[s])
        delta = max(delta, abs(v - V[s]))
    if delta < tolerance:
        break

# Eredmények kiírása
print("V(s) értékek:")
for s in range(env.n_s):
    print(f"V({s}) = {V[s]}")

print("\nQ(s, a) értékek:")
for s in range(env.n_s):
    for a in range(env.n_a):
        print(f"Q({s}, {a}) = {Q[s][a]}")

V(s) értékek:
V(0) = 160.74210257072218
V(1) = 155.9143509117991
V(2) = 153.73588055617563
V(3) = 158.37671437596288
V(4) = 157.52726051930773

Q(s, a) értékek:
Q(0, 0) = 160.74210257072218
Q(0, 1) = 152.7960629542541
Q(0, 2) = 0.0
Q(1, 0) = 154.72593266991234
Q(1, 1) = 155.9143509117991
Q(1, 2) = 152.39116765244037
Q(2, 0) = 153.404678597806
Q(2, 1) = 153.73588055617563
Q(2, 2) = 0.0
Q(3, 0) = 150.20917914701784
Q(3, 1) = 150.66116294505213
Q(3, 2) = 158.37671437596288
Q(4, 0) = 157.52726051930773
Q(4, 1) = 0.0
Q(4, 2) = 0.0


In [15]:
Hát kicsit nehéz volt mire rájöttem a környezetet hogy kell felépíteni és mégis miként kell összerakni, így se biztos, hogy jó, de próbálkoztam. Ennyi sikerült remélem a követelmények szintjét elértem ezzel. Elméleti alapokat ha leírnám, akkor nagyon hasonló lenne az előadáshoz. A feladat megértésében sokat segített a videó, hogy fel volt véve az egész óra, mivel persze kódok alapján elvéreztem volna. Sokat segített a ChatGPT is abban, hogy a miérteket amik bennem voltak megírjam, illetve fejlesztette a türelmemet, lehet a végén elmegyek prompt engineer-nek, bár ahhoz több türelem kellene.