### 2. Policy Improvement

#### Rappel

L'algorithme de Policy Improvement déduit de $v_\pi$ une policy $\pi'$ meilleure que $\pi$. Ainsi, il attribue à $\pi'$, pour chaque state, l'action qui maximize le return, $q_\pi(s,a)$. (on va prendre l'action $a = argmax_a \; q_\pi(s, a)$)

Ainsi, l'algorithme donne à la nouvelle policy une nouvelle action pour chaque state de la manière suivante :

\begin{align}
\pi'(s) \leftarrow argmax_a \; \Big[\sum_{s'} p(s'|s,a) \Big[r(s,a,s') + γ  V(s') \Big] \Big], \; \forall s
\end{align}

Qu'on peut aussi écrire :

\begin{align}
\pi'(s) \leftarrow argmax_a \; Q(s, a), \; \forall s
\end{align}

___

<img src="./PIM.png" width="550" height="200" align="center"/>

___

#### Environnement

In [1]:
class GridworldRow():
    def __init__(self, size=5):
        self.size = size

        self.nS = size
        self.nA = 2

        self.MAX_X = size-1

        P = {}
        
        for s in range(self.nS):                
            dynamics_s = {}
            
            for a in range(self.nA):
                s_prime_list = []

                p = 1 if s != 0 and s != self.nS-1 else 0

                if(a == 0):
                    s_prime = max(0, s-1)
                else:
                    s_prime = min(self.MAX_X, s+1)

                if (s_prime == 0):
                    reward = -100
                    done = True
                elif(s_prime == self.MAX_X):
                    reward = 10
                    done = True
                else:
                    reward = 0
                    done = False

                s_prime_list.append((p, s_prime, reward, done))
                dynamics_s.update({a:s_prime_list})

            P.update({s: dynamics_s})
            
        self.P = P 

#### Algorithme

In [2]:
import numpy as np

In [3]:
env = GridworldRow()

In [4]:
pi = np.ones([env.nS, env.nA]) * 0.50
gamma = 0.99 #facteur de remise du return

V = np.array([[0], [-71.6], [-43.6], [-16.6], [0]])

In [5]:
def compute_q_value_for_s_a(env, V, s, a, gamma):
    q = 0
    
    for (p_sPrime, sPrime, r_ss_a, done) in env.P[s][a]:
        q += p_sPrime * (r_ss_a + gamma * V[sPrime])
        
    return q

In [6]:
for s in range(env.nS):
    q_s = np.zeros([env.nA, 1])
    
    for a in range(env.nA):        
        q_s[a] = compute_q_value_for_s_a(env, V, s, a, gamma)
    
    best_a = np.argmax(q_s)
    pi[s] = np.eye(env.nA)[best_a]

In [7]:
pi

array([[1., 0.],
       [0., 1.],
       [0., 1.],
       [0., 1.],
       [1., 0.]])