### 2. Value Iteration

#### Rappel

L'algorithme de Value Iteration est un cas spécial de l'algorithme de MPI. En effet, il est exactement équivalent au MPI dont $k=1$. Cela a pour conséquence qu'on re écrire différement l'algo de VI, en s'aidant de la première équation d'optimalité de Bellman. Ainsi, on calcule directement $v_*$: (voir vidéo I.5 pour plus de détails)

\begin{align}
V(s) \leftarrow max_a \Big[ \sum_{s'} p(s'|s,a) \big[r(s,a,s') + \gamma V(s') \big] \Big], \; \forall s
\end{align}

#### Environnement

In [1]:
class GridworldRow():
    def __init__(self, size=5):
        self.size = size

        self.nS = size
        self.nA = 2

        self.MAX_X = size-1

        P = {}
        
        for s in range(self.nS):                
            dynamics_s = {}
            
            for a in range(self.nA):
                s_prime_list = []

                p = 1 if s != 0 and s != self.nS-1 else 0

                if(a == 0):
                    s_prime = max(0, s-1)
                else:
                    s_prime = min(self.MAX_X, s+1)

                if (s_prime == 0):
                    reward = -100
                    done = True
                elif(s_prime == self.MAX_X):
                    reward = 10
                    done = True
                else:
                    reward = 0
                    done = False

                s_prime_list.append((p, s_prime, reward, done))
                dynamics_s.update({a:s_prime_list})

            P.update({s: dynamics_s})
            
        self.P = P 

#### Algorithme

In [2]:
import numpy as np

In [3]:
env = GridworldRow()

In [4]:
def compute_q_value_for_s_a(env, V, s, a, gamma):
    q = 0
    
    for (p_sPrime, sPrime, r_ss_a, done) in env.P[s][a]:
        q += p_sPrime * (r_ss_a + gamma * V[sPrime])
        
    return q

In [5]:
V = np.zeros([env.nS, 1])

gamma = 0.99 #facteur de remise du return
theta = 0.00001 #seuil de similitude requis pour stopper les updates

In [6]:
i=0
while True:
    i+=1
    delta = 0
    
    for s in range(env.nS):
        q_s = np.zeros([env.nA, 1])
        
        for a in range(env.nA):
            q_s[a] = compute_q_value_for_s_a(env, V, s, a, gamma)

        newV = np.max(q_s)
        delta = max(delta, np.abs(newV - V[s]))
        V[s] = newV
        
    if(delta < theta):
        print("Terminé après " + str(i) + " itérations.")
        break

Terminé après 4 itérations.


In [7]:
V

array([[ 0.   ],
       [ 9.801],
       [ 9.9  ],
       [10.   ],
       [ 0.   ]])