---
# Programmation dynamique


Fabrice Mulotti<br>

v2 2023

---

In [None]:
import gymnasium as gym
import numpy as np
import matplotlib.pyplot as plt
import time

---
## Frozen Lake

Découvrons notre environnement <br>
<br>
![ForzenLake](images/frozen_lake.gif)

https://gymnasium.farama.org/environments/toy_text/frozen_lake/

In [None]:
# déclaration de l'environnement
env = env = gym.make('FrozenLake8x8-v1',is_slippery = False,map_name="4x4", render_mode="ansi") # ,render_mode="human")

In [None]:
# affichage
env.reset()
print(env.render())

In [None]:
# nombre d'états
env.observation_space.n

In [None]:
# nombre d'actions possibles
env.action_space.n

In [None]:
LEFT=0
DOWN=1
RIGHT=2
UP=3

In [None]:
# tirage aléatoire de fonction
env.action_space.sample()

In [None]:
print(env.reset())

---
## action

https://gymnasium.farama.org/api/env/#gymnasium.Env.step
<br>
env.step retourne les infos suivantes :<br>
- observation (s')<br>
- reward (r)<br>
- termination (bool)<br>
- truncated (bool)<br>
- info <br>

In [None]:
r=env.step(0)

In [None]:
print(r)

In [None]:
print(f"Récompense {r[1]}")

## Matrice de transition

__env.P[etat][action] retourne :__<br>
n fois :<br>
Probabilité<br>
s'<br>
r<br>
état final ? <br>


In [None]:
# Matrice de transition, exemple s=4
env.unwrapped.P[4]

Si le sol n'est pas glissant : <br>
1 action => 1 état suivant <br>

Si le sol est glissant : <br>
3 destinations possibles (33% de prob), dont une en terminaison <br>

In [None]:
# récompense
env.unwrapped.P[4][RIGHT][0][2]

In [None]:
# prochain état 
env.unwrapped.P[4][RIGHT][0][1]

---
## Test complet

In [None]:
# S: initial state
# F: frozen lake
# H: hole
# G: the goal

env.reset()
fin=False
print(env.render())
c=0
while not fin:
    action=env.action_space.sample()
    r=env.step(action)
    print(f"Action={action}, {r}")
    fin = r[2] or r[3]
    time.sleep(0.5)
    print(env.render())
    c+=1
    if c==10:
        fin=True

---
# Itération sur politique

![Politique](images/politique.png)

In [None]:
theta = 0.005 # Notre limite de convergence
gamma = 0.8 # dépréciation du futur

V = np.zeros((env.observation_space.n)) # initialisation fonction de valeur
Policy = np.zeros((env.observation_space.n)) # initialisation d'une politique

loopCounter=0
while True:
    # Policy evaluation -----------------------------------
    while True:
        delta = 0
        loopCounter+=1
        for s in range(env.observation_space.n):
            v = V[s]
            action = # votre code , choisir une action en fonction de la politique
            q=0
            for destination in env.P[s][action]:
                q+= # votre code, 
            V[s]=q
            delta = max(delta,np.abs(v-V[s]))

        if delta < theta:
            break;

    # Policy improvement --------------------------------
    policy_stable=True
    for s in range(env.observation_space.n):
        old_action=Policy[s]
        Q=[]
        for a in range(env.action_space.n):
            q=0
            for destination in env.P[s][a]:
                q+=#
                # votre code
                # evaluer q pour chaque action en fonction des destinations possibles
            Q.append(q)
 
        new_action=#votre choisir l action en fonction d'une politique gloutonne
        if new_action!=old_action:
            policy_stable=False
            Policy[s]=new_action
    if policy_stable==True:
        break

In [None]:
loopCounter

In [None]:
Policy.reshape(4,4)

![ForzenLake](images/frozen_lake.gif)

In [None]:
V.reshape(4,4)

# Conclusion
slippery = False , deterministe<br>
slippery = True , stocastique, choix des actions évitant le risque<br>

---
# Itération sur valeurs

![valeur](images/iteration_valeur.png)

In [None]:
theta = 0.005 # Notre limite de convergence
gamma = 0.8 # dépréciation du futur

V = np.zeros((env.observation_space.n)) # initialisation fonction de valeur
Policy = np.zeros((env.observation_space.n)) # initialisation d'une politique

# Update value function -----------------------------------
while True:
        delta = 0
        loopCounter+=1
        # pour chaque etat
            # pour chaque action possible
                # pour toutes les destinations possibles
                    # cumuler la recompense
            # mettre a jour V

            delta = max(delta,np.abs(v-V[s]))
        print(delta)
        if delta < theta:
            break;

            
# Policy  --------------------------------
for s in range(env.observation_space.n):
    Q=[]
    for a in range(env.action_space.n):
        q=0
        for destination in env.P[s][a]:
            probabilite=destination[0]
            s_prime=destination[1]
            recompense=destination[2]
            q+=probabilite*(recompense+gamma*V[s_prime])
        Q.append(q)
    Policy[s]=# votre code glouton 
