#**Application des équations de Bellman sur un projet réel**

##**1. Téléchargement du programme Python**

In [None]:
!git clone "https://github.com/AlexandreBourrieau/ApplicationRL.git"

In [None]:
import os
import sys

sys.path.insert(1, "/content/ApplicationRL")

In [None]:
!pip -q install meshio

##**2. Découverte de l'environnement de travail**

In [None]:
from magasin import Magasin
from utils import bgr8_to_jpeg
import ipywidgets
import numpy as np

from IPython.display import display

#####**2.1 Instanciation de la classe Magasin**

In [None]:
Magasin = Magasin("ApplicationRL/maillage_carte.msh","ApplicationRL/image_magasin.png")

In [None]:
Magasin.RECOMPENSE = 1
Magasin.RECOMPENSE_MUR = -10
Magasin.RECOMPENSE_NON_CIBLE = 0
Magasin.PROBA_MAX = 0.98

Magasin.RAZ()

#####**2.2 Saisie de l'objectif**

In [None]:
def AfficheSelectionImage(change):
    numero = change['new']
    Magasin.ETAT_CIBLE = numero
    widget_image.value = bgr8_to_jpeg(Magasin.AfficheObjectifSurImage())

In [None]:
# Création des widgets
widget_image = ipywidgets.Image(format='png',value=bgr8_to_jpeg(Magasin.image_magasin),width=640)
slider_numero = ipywidgets.IntSlider(value=80,min=0,max=Magasin.nombre_etats-1)

# Création du lien avec le slider
slider_numero.observe(AfficheSelectionImage, names='value')

# Création de l'interface d'acquisition
widget_presentation = ipywidgets.VBox([widget_image, slider_numero])

display(widget_presentation)

#####**2.3 Format de la table de transition**

In [None]:
Magasin.df_table_transition

Le format de la variable table_transitions est le suivant :

- (nbr_etats, nbr_actions, nbr_etat_suivant,['idex_etat_suivant','proba_transition','recompense'])
= (nbr_etats, 3, 3,[1,1,1])

Regardons maintenant vers quels états nous dirige une action particulière sur un état donné :

In [None]:
etat = 301
action = 2

Magasin.table_transitions[etat,action,:]['index_etat_suivant']

Regardons les probabilités associées à cette action :

In [None]:
Magasin.table_transitions[etat,action,:]['proba_transition']

Puis les récompenses obtenues :


In [None]:
Magasin.table_transitions[etat,action,:]['recompense']

#####**2.4 Format de la table des valeurs d'action**

In [None]:
Magasin.df_Qtable

Le format de la variable table_valeur est le suivant : (nbr_etats, nbr_actions)

In [None]:
Magasin.Q_table[etat,:]

#####**2.5 Format de la table des valeurs d'état**

In [None]:
Magasin.df_Vtable

Le format de la variable Vtable est le suivant : (nbr_etats,)

In [None]:
Magasin.V_table[etat]

##**3. Application des équations de Bellman**

On commence par initialiser l'environnement :

In [None]:
Magasin.RECOMPENSE = 1
Magasin.RECOMPENSE_MUR = -20
Magasin.RECOMPENSE_NON_CIBLE = -0.1
Magasin.PROBA_MAX = 0.9

Magasin.RAZ()

Applique les équations de Bellman:

- Valeur des états :

$\quad\quad\quad{V_\pi }\left( s \right)={E_\pi }\left[ {{G_t}|{S_t} = s} \right]$

$\quad\quad\quad\quad\quad\quad= \sum\limits_a {\pi \left( {a|s} \right)\sum\limits_{s'} {\sum\limits_r {p\left( {s',r|s,a} \right)} } } \left[ {r + \gamma {V_\pi }\left( {s'} \right)} \right]$
<br>
<br>
- Valeur des actions :

$\quad\quad\quad{Q_\pi }\left( {s,a} \right) = {E_\pi }\left[ {{G_t}|{S_t} = s,{A_t} = a} \right]$

$\quad\quad\quad\quad\quad\quad\quad=\sum\limits_{s',r} {p\left( {s',r|s,a} \right)} \left[ {r + \gamma {V_\pi }\left( {s'} \right)} \right]$$

In [None]:
import numpy as np

episodes = 5
gamma = 0.5

for i in range(episodes):
  # Équation de Bellman - Fonction valeur d'actions
  for etat in range(0,Magasin.nombre_etats):
      for action in range(0,3):
          for etat_suivant in range(0,3):
              # Récupère la probabilité et la récompense
              proba = Magasin.table_transitions[etat,action,etat_suivant]['proba_transition']
              recompense = Magasin.table_transitions[etat,action,etat_suivant]['recompense']

              # Fonction valeur d'actions
              Magasin.Q_table[etat,action] = Magasin.Q_table[etat,action] + proba*(recompense + gamma*Magasin.V_table[etat_suivant])

  # Mise à jour de la table des valeurs d'état
  # avec une politique Greedy (pi(a|s) = 1 avec a=action greedy)
  for etat in range(0,Magasin.nombre_etats):
      index_max = np.where(Magasin.Q_table[etat,:] == np.amax(Magasin.Q_table[etat,:]))[0]
      Magasin.V_table[etat] = Magasin.Q_table[etat,np.random.choice(index_max)]

In [None]:
Magasin.Getdf_Qtable()

In [None]:
Magasin.Getdf_Vtable()

#####**Affichage de la carte des valeurs d'états**

In [None]:
# Création de la colorMap
Magasin.CreationColorMap()

# Création des widgets
widget_image = ipywidgets.Image(format='png',value=bgr8_to_jpeg(Magasin.image_Vtable),width=640)

display(widget_image)

#####**Affichage du parcours**

In [None]:
# Création des widgets
widget_image = ipywidgets.Image(format='png',value=bgr8_to_jpeg(Magasin.image_magasin_objectif),width=640)
widget_iteration = ipywidgets.Text(value="0",description="Itération: ")
widget_etat = ipywidgets.Text(value="0",description="État: ")

widget_presentation = ipywidgets.VBox([widget_iteration,widget_etat,widget_image])

In [None]:
import time

objectif_atteint = False
max_iteration = 500
freq_mise_a_jour = 10

Magasin.InitImageTrajectoire()

iteration = 0
etat_courant = Magasin._ETAT_DEPART

display(widget_presentation)

time.sleep(1)

while objectif_atteint is False and iteration <= max_iteration:
    widget_etat.value = str(etat_courant)

    # Récupère la table des valeurs d'action de l'état en cours
    Q_ = Magasin.Q_table[etat_courant,:]

    # Récupère l'action optimale
    # si plusieurs actions sont optimales, alors tire une au hasard
    action = np.random.choice(np.where(Q_ == np.max(Q_))[0])

    # Simule l'action
    etat_courant, image_ = Magasin.SimuleAction(etat_courant,action)

    if etat_courant == Magasin.ETAT_CIBLE:
        objectif_atteint = True

    # Affiche la trajectoire
    if iteration%freq_mise_a_jour == 0:
      widget_image.value = bgr8_to_jpeg(image_)
      widget_iteration.value = str(iteration+1)

    iteration = iteration + 1
    time.sleep(0.1)


##**4. Politique Epsilon-Greedy**

In [None]:
Magasin.RECOMPENSE = 1
Magasin.RECOMPENSE_MUR = -20
Magasin.RECOMPENSE_NON_CIBLE = -0.1
Magasin.PROBA_MAX = 0.9

Magasin.RAZ()

Applique les équations de Bellman:

- Valeur des états :

$\quad\quad\quad{V_\pi }\left( s \right)={E_\pi }\left[ {{G_t}|{S_t} = s} \right]$

$\quad\quad\quad\quad\quad\quad= \sum\limits_a {\pi \left( {a|s} \right)\sum\limits_{s'} {\sum\limits_r {p\left( {s',r|s,a} \right)} } } \left[ {r + \gamma {V_\pi }\left( {s'} \right)} \right]$
<br>
<br>
- Valeur des actions :

$\quad\quad\quad{Q_\pi }\left( {s,a} \right) = {E_\pi }\left[ {{G_t}|{S_t} = s,{A_t} = a} \right]$

$\quad\quad\quad\quad\quad\quad\quad=\sum\limits_{s',r} {p\left( {s',r|s,a} \right)} \left[ {r + \gamma {V_\pi }\left( {s'} \right)} \right]$$

In [None]:
import numpy as np
import sys
from scipy.special import softmax

Epsilon = 0.5
gamma = 0.5
episodes = 5

for i in range(episodes):
  # Équation de Bellman - Fonction valeur d'actions
  for etat in range(0,Magasin.nombre_etats):
      for action in range(0,3):
          for etat_suivant in range(0,3):
              # Récupère la probabilité et la récompense
              proba = Magasin.table_transitions[etat,action,etat_suivant]['proba_transition']
              recompense = Magasin.table_transitions[etat,action,etat_suivant]['recompense']

              # Equation de Bellman
              Magasin.Q_table[etat,action] = Magasin.Q_table[etat,action] + proba*(recompense + gamma*Magasin.V_table[etat_suivant])

  # Mise à jour de la table des valeurs d'état
  # avec une politique Greedy
  for etat in range(0,Magasin.nombre_etats):
      # Calcul de pi(a|s) en suivant une stratégie Epsilon-Greedy
      rng = np.random.default_rng()
      val = rng.uniform()
      if val > Epsilon:
          pi_ = [1/3, 1/3, 1/3]
          for action in range(0, 3):
              # Equation de Bellman
              Magasin.V_table[etat] = Magasin.V_table[etat] + pi_[action] * Magasin.Q_table[etat, action]
      else:
          index_max = np.where(Magasin.Q_table[etat, :] == np.amax(Magasin.Q_table[etat, :]))[0]
          Magasin.V_table[etat] = Magasin.Q_table[etat, np.random.choice(index_max)]

In [None]:
# Création de la colorMap
Magasin.CreationColorMap()

# Création des widgets
widget_image_colorMap = ipywidgets.Image(format='png',value=bgr8_to_jpeg(Magasin.image_Vtable),width=640)

display(widget_image_colorMap)

In [None]:
# Création des widgets
widget_image = ipywidgets.Image(format='png',value=bgr8_to_jpeg(Magasin.image_magasin_objectif),width=640)
widget_iteration = ipywidgets.Text(value="0",description="Itération: ")
widget_etat = ipywidgets.Text(value="0",description="État: ")

widget_presentation = ipywidgets.VBox([widget_iteration,widget_etat,widget_image])

In [None]:
import time

objectif_atteint = False
max_iteration = 500
freq_mise_a_jour = 10

Magasin.InitImageTrajectoire()

iteration = 0
etat_courant = Magasin._ETAT_DEPART

display(widget_presentation)

time.sleep(1)

while objectif_atteint is False and iteration <= max_iteration:
    widget_etat.value = str(etat_courant)

    # Récupère la table des valeurs d'action de l'état en cours
    Q_ = Magasin.Q_table[etat_courant,:]

    # Récupère l'action optimale
    # si plusieurs actions sont optimales, alors tire une au hasard
    action = np.random.choice(np.where(Q_ == np.max(Q_))[0])

    # Simule l'action
    etat_courant, image_ = Magasin.SimuleAction(etat_courant,action)

    if etat_courant == Magasin.ETAT_CIBLE:
        objectif_atteint = True

    # Affiche la trajectoire
    if iteration%freq_mise_a_jour == 0:
      widget_image.value = bgr8_to_jpeg(image_)
      widget_iteration.value = str(iteration+1)

    iteration = iteration + 1
    time.sleep(0.1)