## MDP - Proces Decyzyjny Markowa

MDP jest procesem nagród Markowa (MRP) z dodanymi decyzjami, które mają wpływ na prawdopodobieństwa przejść. Charakteryzowany jest przez piątkę〈S, A, P, R, y〉, gdzie:
- S - zbiór stanów
- A - zbiór akcji
- P - macierz przejść
- R - funkcja nagrody
- współczynnik dyskontowania y

![](img/mdp.png)

Celem w MDP jest znalezienie strategii (policy), która maksymalizuje oczekiwaną sumę nagród.
Strategia mówi agentowi, jaką akcję (lub akcje) podjąć w danym stanie.
Bardziej formalnie, strategia jest rozkładem prawdopodobieństwa akcji dla danego stanu:
![](img/policy_1.png)

### Funkcja wartości Stanu (State-value function)
Funkcja ta jest zdefiniowana jako oczekiwana suma nagród, gdy rozpoczynamy w stanie S.
Wartość funkcji stanu jest zdefiniowana **dla konkretnej strategii**. Zmiana strategii spowoduje zmianę wartości funkcji.
![](img/sv_function.png)

Równanie Bellman'a dla v_π:
![](img/sv_function_bellman.png)


### Funkcja wartości Akcji (Action-value function)

Załóżmy, że posiadamy strategię (nie koniecznie optymalną) oraz kierujemy się jej decyzjami. Mówi ona, jakie akcje podjąć w każdym ze stanów wraz z ich prawdopodobieństwami.
Pytanie na jakie odpowiada funkcja wartości akcji to: **jaka będzie oczekiwana suma nagród jeżeli wybiorę akcję *a* w stanie *s* oraz będę dalej kierował się wybraną strategią?**

![](img/av_function.png)

## Zadanie
Dla wybranych trzech stanów ze środowiska z poprzednich zajęć ułóż przykładową (probabilistyczną) strategię.
Następnie wyznacz wartości funkcji v_π oraz q_π (na podstawie wcześniej wyznaczonej v_π) dla zdefiniowanej strategii.
Załóż, że wartości początkowe v_π mają wartości jak na poprzednich zajęciach (rysunek poniżej).
![](img/avg_returns.png)

In [2]:
# współczynnik dyskontowania
gamma = 0.7

# Wybrane stany [(2,0), (2,1), (2,2)]

# Dane do zadania
p_u = 0.15
p_d = 0.35
p_l = 0.20
p_r = 0.30

# Założenie, że agent zawsze idzie w tę stronę, w którą chce (100%)

In [7]:
# góra, prawo, dół, lewo
v_pi_2_0 = \
0.15 * (1 * (0 + gamma * 0) + 0 * (1 + gamma * 2.81) + 0 * (1 + gamma * 2.45) + 0 * (0 + gamma * 0)) + \
0.35 * (0 * (0 + gamma * 0) + 0 * (1 + gamma * 2.81) + 1 * (1 + gamma * 2.45) + 0 * (0 + gamma * 0)) + \
0.20 * (0 * (0 + gamma * 0) + 0 * (1 + gamma * 2.81) + 0 * (1 + gamma * 2.45) + 1 * (0 + gamma * 0)) + \
0.30 * (0 * (0 + gamma * 0) + 1 * (1 + gamma * 2.81) + 0 * (1 + gamma * 2.45) + 0 * (0 + gamma * 0))

q_pi_2_0_p_u = 1 * (0 + gamma * 0) + 0 * (1 + gamma * 2.81) + 0 * (1 + gamma * 2.45) + 0 * (0 + gamma * 0)
q_pi_2_0_p_d = 0 * (0 + gamma * 0) + 0 * (1 + gamma * 2.81) + 1 * (1 + gamma * 2.45) + 0 * (0 + gamma * 0)
q_pi_2_0_p_l = 0 * (0 + gamma * 0) + 0 * (1 + gamma * 2.81) + 0 * (1 + gamma * 2.45) + 1 * (0 + gamma * 0)
q_pi_2_0_p_r = 0 * (0 + gamma * 0) + 1 * (1 + gamma * 2.81) + 0 * (1 + gamma * 2.45) + 0 * (0 + gamma * 0)

In [8]:
print(v_pi_2_0)

1.84035


In [12]:
print("Q_PI UP: " + str(q_pi_2_0_p_u))
print("Q_PI DOWN: " + str(q_pi_2_0_p_d))
print("Q_PI LEFT: " + str(q_pi_2_0_p_l))
print("Q_PI RIGHT: " + str(q_pi_2_0_p_r))

Q_PI UP: 0.0
Q_PI DOWN: 2.715
Q_PI LEFT: 0.0
Q_PI RIGHT: 2.9669999999999996


In [13]:
# sprawdzenie, czy poprawnie
print(q_pi_2_0_p_u * 0.15 + q_pi_2_0_p_d * 0.35 + q_pi_2_0_p_l * 0.2 + q_pi_2_0_p_r * 0.3)

1.84035


In [14]:
v_pi_2_1 = \
0.15 * (1 * (0 + gamma * 0) + 0 * (1 + gamma * 1.99) + 0 * (1 + gamma * 3.41) + 0 * (1 + gamma * 2.00)) + \
0.35 * (0 * (0 + gamma * 0) + 0 * (1 + gamma * 1.99) + 1 * (1 + gamma * 3.41) + 0 * (1 + gamma * 2.00)) + \
0.20 * (0 * (0 + gamma * 0) + 0 * (1 + gamma * 1.99) + 0 * (1 + gamma * 3.41) + 1 * (1 + gamma * 2.00)) + \
0.30 * (0 * (0 + gamma * 0) + 1 * (1 + gamma * 1.99) + 0 * (1 + gamma * 3.41) + 0 * (1 + gamma * 2.00))

q_pi_2_1_p_u = 1 * (0 + gamma * 0) + 0 * (1 + gamma * 1.99) + 0 * (1 + gamma * 3.41) + 0 * (1 + gamma * 2.00)
q_pi_2_1_p_d = 0 * (0 + gamma * 0) + 0 * (1 + gamma * 1.99) + 1 * (1 + gamma * 3.41) + 0 * (1 + gamma * 2.00)
q_pi_2_1_p_l = 0 * (0 + gamma * 0) + 0 * (1 + gamma * 1.99) + 0 * (1 + gamma * 3.41) + 1 * (1 + gamma * 2.00)
q_pi_2_1_p_r = 0 * (0 + gamma * 0) + 1 * (1 + gamma * 1.99) + 0 * (1 + gamma * 3.41) + 0 * (1 + gamma * 2.00)

In [15]:
print(v_pi_2_1)

2.3833499999999996


In [16]:
print("Q_PI UP: " + str(q_pi_2_1_p_u))
print("Q_PI DOWN: " + str(q_pi_2_1_p_d))
print("Q_PI LEFT: " + str(q_pi_2_1_p_l))
print("Q_PI RIGHT: " + str(q_pi_2_1_p_r))

Q_PI UP: 0.0
Q_PI DOWN: 3.387
Q_PI LEFT: 2.4
Q_PI RIGHT: 2.393


In [17]:
# sprawdzenie, czy poprawnie
print(q_pi_2_1_p_u * 0.15 + q_pi_2_1_p_d * 0.35 + q_pi_2_1_p_l * 0.2 + q_pi_2_1_p_r * 0.3)

2.3833499999999996


In [19]:
v_pi_2_2 = \
0.15 * (1 * (0 + gamma * 0) + 0 * (0 + gamma * 0) + 0 * (1 + gamma * 2.44) + 0 * (1 + gamma * 2.81)) + \
0.35 * (0 * (0 + gamma * 0) + 0 * (0 + gamma * 0) + 1 * (1 + gamma * 2.44) + 0 * (1 + gamma * 2.81)) + \
0.20 * (0 * (0 + gamma * 0) + 0 * (0 + gamma * 0) + 0 * (1 + gamma * 2.44) + 1 * (1 + gamma * 2.81)) + \
0.30 * (0 * (0 + gamma * 0) + 1 * (0 + gamma * 0) + 0 * (1 + gamma * 2.44) + 0 * (1 + gamma * 2.81))

q_pi_2_2_p_u = 1 * (0 + gamma * 0) + 0 * (0 + gamma * 0) + 0 * (1 + gamma * 2.44) + 0 * (1 + gamma * 2.81)
q_pi_2_2_p_d = 0 * (0 + gamma * 0) + 0 * (0 + gamma * 0) + 1 * (1 + gamma * 2.44) + 0 * (1 + gamma * 2.81)
q_pi_2_2_p_l = 0 * (0 + gamma * 0) + 0 * (0 + gamma * 0) + 0 * (1 + gamma * 2.44) + 1 * (1 + gamma * 2.81)
q_pi_2_2_p_r = 0 * (0 + gamma * 0) + 1 * (0 + gamma * 0) + 0 * (1 + gamma * 2.44) + 0 * (1 + gamma * 2.81)

In [20]:
print(v_pi_2_2)

1.5412


In [21]:
print("Q_PI UP: " + str(q_pi_2_2_p_u))
print("Q_PI DOWN: " + str(q_pi_2_2_p_d))
print("Q_PI LEFT: " + str(q_pi_2_2_p_l))
print("Q_PI RIGHT: " + str(q_pi_2_2_p_r))

Q_PI UP: 0.0
Q_PI DOWN: 2.708
Q_PI LEFT: 2.9669999999999996
Q_PI RIGHT: 0.0


In [22]:
# sprawdzenie, czy poprawnie
print(q_pi_2_2_p_u * 0.15 + q_pi_2_2_p_d * 0.35 + q_pi_2_2_p_l * 0.2 + q_pi_2_2_p_r * 0.3)

1.5412


Komentarz do zadania: <br>
"Następnie wyznacz wartości funkcji v_π oraz q_π (na podstawie wcześniej wyznaczonej v_π) dla zdefiniowanej strategii." <br>
<br>
Nie jestem pewna tego zdania, ale jeżeli chodziło o to, żeby w kolejny v_pi wykorzystać wartość z poprzedniego stanu v_pi, to np. dla stanu (2,1) w ruchu lewo wykorzystałabym wartość 1.84 zamiast 2.00. 