Maintenant expliquons l'implémentation complète de ce modèle Q-Learning, la solution de notre problème d'optimisation des flux de stockage.
Tout d'abord, nous commençons par importer les modules qui seront utilisées dans cette implémentation.
Seule NumPy offre des outils pratiques avec des tableaux et des opérations mathématiques

In [1]:
# Importation des bibliothèques
import numpy as np

Ensuite, nous défnissons les paramètres de notre modèle. Il s'agit du facteur de réduction γ gamma et du taux
d'apprentissage α alpha qui sont les seuls paramètres de l'algorithme du Q-Learning :

In [2]:
# Réglage des paramètres gamma et alpha pour le Q-Learning
gamma = 0.75
alpha = 0.9

Nous commençons par défnir les états avec un dictionnaire indiquant les noms des emplacements (lettres de A à L) dans les états (index de 0 à 11) :

In [3]:
# DÉFINIR L'ENVIRONNEMENT
# Définir les états
location_to_state = {   'A': 0,
                        'B': 1,
                        'C': 2,
                        'D': 3,
                        'E': 4,
                        'F': 5,
                        'G': 6,
                        'H': 7,
                        'I': 8,
                        'J': 9,
                        'K': 10,
                        'L':  11 }

Ensuite nous définissons les actions avec une simple liste d'index de 0 à 11. Rappelons-nous que chaque index
d'action correspond à l'état suivant (emplacement suivant) où cette action conduit à :

In [4]:
# Définir les actions
actions = [0,1,2,3,4,5,6,7,8,9,10,11]

Finalement, nous définissons les récompenses en créant une matrice dont les lignes correspondent aux états
actuels $s_t$, les colonnes aux actions $a_t$ menant à l'état suivant $s_{t+1}$ et les cellules contiennent les récompenses
$R(s_t, a_t)$. Si une cellule $(s_t, a_t)$ a 1, cela signifie que nous pouvons exécuter l'action $a_t$ depuis l'état actuel $s_t$ pour atteindre l'état suivant $s_{t+1}$. Si une cellule $(s_t, a_t)$ a 0, cela signifie que nous ne pouvons pas exécuter
l'action $a_t$ depuis l'état actuel $s_t$ pour atteindre l'état suivant $s_{t+1}$. Nous allons mettre manuellement
une récompense élevée (1000) dans la cellule correspondant à l'emplacement `G`, car c'est l'emplacement
prioritaire où le robot autonome doit récupérer les produits. Puisque l'emplacement `G` a encodé l'état avec
l'index 6, nous avons mis une récompense de 1000 dans la cellule de la ligne 6 et de la colonne 6. Ensuite,
nous développerons notre solution en implémentant un système automatique pour aller à l'emplacement
prioritaire sans avoir à mettre à jour manuellement la matrice de récompenses et en la laissant initialisée
avec 0 et 1 comme elle devrait l'être. Voici notre matrice de récompenses incluant la mise à jour manuelle :

In [5]:
# Définir les récompenses
R = np.array([  [0,1,0,0,0,0,0,0,0,0,0,0],
                [1,0,1,0,0,1,0,0,0,0,0,0],
                [0,1,0,0,0,0,1,0,0,0,0,0],
                [0,0,0,0,0,0,0,1,0,0,0,0],
                [0,0,0,0,0,0,0,0,1,0,0,0],
                [0,1,0,0,0,0,0,0,0,1,0,0],
                [0,0,1,0,0,0,1000,1,0,0,0,0],
                [0,0,0,1,0,0,1,0,0,0,0,1],
                [0,0,0,0,1,0,0,0,0,1,0,0],
                [0,0,0,0,0,1,0,0,1,0,1,0],
                [0,0,0,0,0,0,0,0,0,1,0,1],
                [0,0,0,0,0,0,0,1,0,0,1,0]])

Dans cette partie nous devons Développer la solution d'IA avec le Q-Learning. Pour ce faire, nous allons utiliser l'algorithme de Q-Learning exactement tel qu'il a été fourni dans notre support. Nous commençons donc par initialiser toutes les Q-Values en créant notre matrice de Q-Values contenant des zéros (dans laquelle les lignes correspondent aux états actuels $s_t$, les colonnes aux actions $a_t$ menant aux états suivants $s_{t+1}$ et les cellules contiennent les Q-Values $Q(s_t, a_t)$ :

In [6]:
# Initialisation des valeurs Q
Q = np.array(np.zeros([12,12]))

Ensuite, nous implémentons le processus de Q-Learning avec une boucle pour plus de 1000 itérations, répétant
1000 fois les étapes de notre processus de Q-Learning.

In [7]:
# Mise en œuvre du processus Q-Learning
for i in range(1000):
    current_state = np.random.randint(0,12)
    playable_actions = []
    for j in range(12):
        if R[current_state, j] > 0:
            playable_actions.append(j)
    next_state = np.random.choice(playable_actions)
    TD = R[current_state, next_state] + gamma*Q[next_state, np.argmax(Q[next_state,])] - Q[current_state, next_state]
    Q[current_state, next_state] = Q[current_state, next_state] + alpha*TD

Facultatif : à ce stade du code, notre matrice de Q-Values est prête. Nous pouvons y jeter un coup d'oeil en
exécutant le code que nous avons implémenté jusqu'à présent et en entrant le print suivant dans la console :

In [8]:
print("Q-Values:")
print(Q.astype(int))

Q-Values:
[[   0 1661    0    0    0    0    0    0    0    0    0    0]
 [1243    0 2213    0    0 1246    0    0    0    0    0    0]
 [   0 1661    0    0    0    0 2950    0    0    0    0    0]
 [   0    0    0    0    0    0    0 2213    0    0    0    0]
 [   0    0    0    0    0    0    0    0  697    0    0    0]
 [   0 1661    0    0    0    0    0    0    0  905    0    0]
 [   0    0 2212    0    0    0 3947 2212    0    0    0    0]
 [   0    0    0 1661    0    0 2950    0    0    0    0 1653]
 [   0    0    0    0  447    0    0    0    0  928    0    0]
 [   0    0    0    0    0 1238    0    0  679    0 1189    0]
 [   0    0    0    0    0    0    0    0    0  930    0 1660]
 [   0    0    0    0    0    0    0 2213    0    0 1246    0]]


Ensuite vient la mise en production, dans laquelle nous calculerons le chemin optimal de n'importe quel point de
départ à n'importe quel point final de priorité absolue. L'idée est de mettre en place une fonction "route"
qui prendra comme entrées le point de départ où se trouve notre robot autonome à un temps donné et
le point d'arrivée où il doit aller en priorité absolue, et qui donnera comme sortie le chemin le plus court
dans une liste. Cependant, puisque nous voulons entrer les emplacements avec leurs noms (en lettres), par
opposition à leurs états (en index), nous aurons besoin d'un dictionnaire qui associe les états (en index) aux
emplacements (en lettres). Et c'est la première chose que nous allons faire ici en utilisant une technique
pour inverser notre dictionnaire précédent "location_to_state", puisque nous voulons simplement obtenir
le mapping inverse exact à partir de ce dictionnaire :

In [9]:
# Faire une cartographie des états aux lieux.
state_to_location = {state: location for location, state in location_to_state.items()}

Ainsi intervient la section la plus importante du code. Nous sommes sur le point d'implémenter la fonction
finale **"route()"** qui aura comme entrées les emplacements de départ et d'arrivée, et qui donne l'itinéraire
optimal entre ces deux emplacements. Pour expliquer exactement ce que fera cette fonction route, nous
allons énumérer les différentes étapes du processus, en allant de l'emplacement E à l'emplacement G :

1. Nous commençons à notre emplacement de départ E.


2. Nous obtenons l'état de l'emplacement E (d'après notre mapping location_to_state) est $s_0$ = 4.


3. Sur la ligne d'index $s_0$ = 4 dans notre matrice de Q-Values, nous trouvons la colonne qui a la Q-Value maximale.


4. Cette colonne a l'index 8, donc nous exécutons l'action de l'index 8 qui mène à l'état suivant $s_{t+1}$ = 8.


5. Nous obtenons l'emplacement de l'état 8, qui selon notre mapping state_to_location est I. AInsi, notre prochain emplacement est I qui est annexé à notre liste contenant le chemin optimal.


6. Nous répétons les 5 étapes précédentes à partir de notre nouveau point de départ I jusqu'à ce que nous atteignions notre destination finale, le point G.


Par conséquent, comme nous ne savons pas combien d'emplacements nous devrons traverser entre le point
de départ et d'arrivée, nous devons faire une boucle while qui répétera le processus en 5 étapes décrites
ci-dessus, et qui s'arrêtera dès que nous atteindrons l'emplacement final de priorité supérieure :

`NB :` ce processus est très long

In [10]:
# Faire la fonction finale qui retournera la route optimale
def route(starting_location, ending_location):
    route = [starting_location]
    next_location = starting_location
    while (next_location != ending_location):
        starting_state = location_to_state[starting_location]
        next_state = np.argmax(Q[starting_state,])
        next_location = state_to_location[next_state]
        route.append(next_location)
        starting_location = next_location
    return route

L'outil est prêt ! Quand on le teste pour passer de E à G, on obtient les deux itinéraires optimaux
possibles après la définition de l'itinéraire final en exécutant le code complet plusieurs fois :

In [11]:
print('Route:')
route('E', 'G')

Route:


['E', 'I', 'J', 'F', 'B', 'C', 'G']

Bien, nous avons une première version du modèle pratique. Mais nous pouvons l'améliorer de deux façons.

1. Automatiser l'attribution de récompense à l'emplacement prioritaire afin que nous n'ayons pas à le faire manuellement. 

2. Deuxièmement, en ajoutant une fonction qui nous donne la possibilité de passer par un emplacement intermédiaire avant d'aller à l'emplacement prioritaire. 

Cet emplacement intermédiaire devrait bien sûr figurer parmi les 3 premiers emplacements prioritaires. Dans notre classement des emplacements prioritaires, le deuxième est K. Par conséquent, afin d'optimiser encore plus les flux de stockage, notre robot autonome doit passer par l'emplacement K pour récupérer les produits en route vers l'emplacement
prioritaire G. Pour ce faire, il est possible de passer par tout emplacement intermédiaire dans le cadre de notre
fonction **"route()"**. Et c'est exactement ce que nous allons mettre en oeuvre comme deuxième amélioration.







Mais d'abord, mettons en oeuvre la première amélioration qui automatise l'attribution des récompenses.
Il faut d'abord faire une copie de notre matrice de récompenses (appelée R_new) dans laquelle la fonction
route() mettra automatiquement à jour la récompense dans la cellule de l'emplacement final. En effet,
l'emplacement final est l'une des entrées de la fonction route(), donc en utilisant notre dictionnaire location_
to_state, nous pouvons très facilement trouver cette cellule et mettre à jour sa récompense à 1000.


Deuxièmement, nous devons inclure l'algorithme complet du Q-Learning (y compris l'étape d'initialisation)
dans la fonction route, juste après la mise à jour de la récompense dans notre copie. Dans notre implémentation
précédente, le processus de Q-Learning se déroule dans la version originale de la matrice de récompenses
qui est maintenant censée rester telle qu'elle, c.-à-d. initialisée à 1 et 0 seulement. Par conséquent, nous
devons inclure le processus de Q-Learning dans la fonction route et le reproduire dans notre copie R_new
de la matrice de récompenses au lieu de l'originale R. Ainsi, notre implémentation devient la suivante :

In [19]:
# Importer les bibliothèques
import numpy as np

# Réglage des paramètres gamma et alpha pour le Q-Learning
gamma = 0.75
alpha = 0.9

# DÉFINIR L'ENVIRONNEMENT
# Définir les états
location_to_state = {   'A': 0,
                        'B': 1,
                        'C': 2,
                        'D': 3,
                        'E': 4,
                        'F': 5,
                        'G': 6,
                        'H': 7,
                        'I': 8,
                        'J': 9,
                        'K': 10,
                        'L':  11 }

# Définir les actions
actions = [0,1,2,3,4,5,6,7,8,9,10,11]

# Définir les récompenses
R = np.array([  [0,1,0,0,0,0,0,0,0,0,0,0],
                [1,0,1,0,0,1,0,0,0,0,0,0],
                [0,1,0,0,0,0,1,0,0,0,0,0],
                [0,0,0,0,0,0,0,1,0,0,0,0],
                [0,0,0,0,0,0,0,0,1,0,0,0],
                [0,1,0,0,0,0,0,0,0,1,0,0],
                [0,0,1,0,0,0,1,1,0,0,0,0],
                [0,0,0,1,0,0,1,0,0,0,0,1],
                [0,0,0,0,1,0,0,0,0,1,0,0],
                [0,0,0,0,0,1,0,0,1,0,1,0],
                [0,0,0,0,0,0,0,0,0,1,0,1],
                [0,0,0,0,0,0,0,1,0,0,1,0]])

# Faire une cartographie des états aux lieux.
state_to_location = {state: location for location, state in location_to_state.items()}

# Faire la fonction finale qui retournera la route optimale
def route(starting_location, ending_location):
    R_new = np.copy(R)
    ending_state = location_to_state[ending_location]
    Q = np.array(np.zeros([12,12]))
    for i in range(2):
      current_state = np.random.randint(0,12)
    playable_actions = []
    for j in range(12):
        if R_new[current_state, j] > 0:
            playable_actions.append(j)
    next_state = np.random.choice(playable_actions)
    TD = R_new[current_state, next_state] + gamma*Q[next_state, np.argmax(Q[next_state,])] - Q[current_state, next_state]
    Q[current_state, next_state] = Q[current_state, next_state] + alpha*TD
    
    route = [starting_location]
    next_location = starting_location
    while (next_location != ending_location):
        starting_state = location_to_state[starting_location]
        next_state = np.argmax(Q[starting_state,])
        next_location = state_to_location[next_state]
        route.append(next_location)
        starting_location = next_location
    return route


In [None]:
print('Route:')
route('E', 'G')

Route:


Passons maintenant à la deuxième amélioration. Il y a trois façons d'ajouter l'option de passer par l'emplacement
intermédiaire K, le deuxième emplacement prioritaire :


1. Nous donnons une récompense élevée à l'action menant de l'emplacement J à K. Cette récompense élevée doit être supérieure à 1, et inférieure à 1000. En effet, elle doit être supérieure à 1 pour que le processus de Q-Learning favorise l'action menant de J à K, par opposition à l'action menant de J à F qui a la récompense 1. Et elle doit être inférieure à 1000, de sorte que nous devons conserver la récompense la plus élevée dans l'emplacement prioritaire. Ainsi, dans notre matrice, nous pouvons donner une récompense élevée de 500 à la cellule dans la ligne de l'index 9 et la colonne de l'index 10, puisque cette cellule correspond effectivement à l'action menant de l'emplacement J. Voici comment se présente la matrice de récompenses dans ce cas :

In [16]:
R = np.array([  [0,1,0,0,0,0,0,0,0,0,0,0],
                [1,0,1,0,0,1,0,0,0,0,0,0],
                [0,1,0,0,0,0,1,0,0,0,0,0],
                [0,0,0,0,0,0,0,1,0,0,0,0],
                [0,0,0,0,0,0,0,0,1,0,0,0],
                [0,1,0,0,0,0,0,0,0,1,0,0],
                [0,0,1,0,0,0,1,1,0,0,0,0],
                [0,0,0,1,0,0,1,0,0,0,0,1],
                [0,0,0,0,1,0,0,0,0,1,0,0],
                [0,0,0,0,0,1,0,0,1,0,500,0],
                [0,0,0,0,0,0,0,0,0,1,0,1],
                [0,0,0,0,0,0,0,1,0,0,1,0]])

2. Nous donnons une faible récompense à l'action menant de l'emplacement J à F. Elle doit juste être inférieure à 0. En effet, en sanctionnant cette action avec une faible récompense, le processus de Q-Learning ne favorisera jamais cette action menant de J à F. Dans notre matrice de récompenses nous pouvons donner une mauvaise récompense de -500 à la cellule de la ligne de l'index 9 et la colonne de l'index 5, car cette cellule correspond à l'action allant de l'emplacement J (index 9) vers F (index 5). De cette façon, notre robot autonome ne passera jamais par l'emplacement F pour se rendre à G. Voici comment se présente la matrice de récompenses dans ce cas :


In [17]:
R = np.array([  [0,1,0,0,0,0,0,0,0,0,0,0],
                [1,0,1,0,0,1,0,0,0,0,0,0],
                [0,1,0,0,0,0,1,0,0,0,0,0],
                [0,0,0,0,0,0,0,1,0,0,0,0],
                [0,0,0,0,0,0,0,0,1,0,0,0],
                [0,1,0,0,0,0,0,0,0,1,0,0],
                [0,0,1,0,0,0,1,1,0,0,0,0],
                [0,0,0,1,0,0,1,0,0,0,0,1],
                [0,0,0,0,1,0,0,0,0,1,0,0],
                [0,0,0,0,0,-500,0,0,1,0,1,0],
                [0,0,0,0,0,0,0,0,0,1,0,1],
                [0,0,0,0,0,0,0,1,0,0,1,0]])

Les deux premières idées sont faciles à implémenter manuellement, mais très délicates automatiquement. Il
est facile de trouver automatiquement l'index de l'emplacement intermédiaire, mais très difficile d'obtenir
l'index qui mène à cet emplacement, car cela dépend de l'emplacement initial et final. 

En conséquence, nous allons mettre en oeuvre la 3e idée qui peut être codée en seulement deux lignes supplémentaires de code :

In [18]:
# Faire la fonction finale qui retourne la route optimale
def best_route(starting_location, intermediary_location, ending_location):
    return route(starting_location, intermediary_location)
            + route(intermediary_location, ending_location)[1:]

IndentationError: ignored

Le code final incluant cette amélioration majeure pour l'optimisation des flux de notre entrepôts devient :

In [None]:
# Importer les bibliothèques
import numpy as np

# Réglage des paramètres gamma et alpha pour le Q-Learning
gamma = 0.75
alpha = 0.9

# PARTIE 1 - DÉFINIR L'ENVIRONNEMENT
# Définir les états
location_to_state = {   'A': 0,
                        'B': 1,
                        'C': 2,
                        'D': 3,
                        'E': 4,
                        'F': 5,
                        'G': 6,
                        'H': 7,
                        'I': 8,
                        'J': 9,
                        'K': 10,
                        'L':  11 }

# Définir les actions
actions = [0,1,2,3,4,5,6,7,8,9,10,11]

# Définir les récompenses
R = np.array([  [0,1,0,0,0,0,0,0,0,0,0,0],
                [1,0,1,0,0,1,0,0,0,0,0,0],
                [0,1,0,0,0,0,1,0,0,0,0,0],
                [0,0,0,0,0,0,0,1,0,0,0,0],
                [0,0,0,0,0,0,0,0,1,0,0,0],
                [0,1,0,0,0,0,0,0,0,1,0,0],
                [0,0,1,0,0,0,1,1,0,0,0,0],
                [0,0,0,1,0,0,1,0,0,0,0,1],
                [0,0,0,0,1,0,0,0,0,1,0,0],
                [0,0,0,0,0,1,0,0,1,0,1,0],
                [0,0,0,0,0,0,0,0,0,1,0,1],
                [0,0,0,0,0,0,0,1,0,0,1,0]])

# Faire une cartographie des états aux lieux.
state_to_location = {state: location for location, state in location_to_state.items()}

# Faire la fonction finale qui retournera la route optimale
def route(starting_location, ending_location):
    R_new = np.copy(R)
    ending_state = location_to_state[ending_location]
    Q = np.array(np.zeros([12,12]))
    for i in range(2):
    current_state = np.random.randint(0,12)
    playable_actions = []
    for j in range(12):
        if R_new[current_state, j] > 0:
            playable_actions.append(j)
    next_state = np.random.choice(playable_actions)
    TD = R_new[current_state, next_state] 
         + gamma*Q[next_state, np.argmax(Q[next_state,])] 
         - Q[current_state, next_state]
    Q[current_state, next_state] = Q[current_state, next_state] + alpha*TD

    route = [starting_location]
    next_location = starting_location
    while (next_location != ending_location):
        starting_state = location_to_state[starting_location]
        next_state = np.argmax(Q[starting_state,])
        next_location = state_to_location[next_state]
        route.append(next_location)
        starting_location = next_location
    return route

# Faire la fonction finale qui retourne la route optimale
def best_route(starting_location, intermediary_location, ending_location):
    return route(starting_location, intermediary_location)
            + route(intermediary_location, ending_location)[1:]

In [None]:
# Affichage de la route finale
print('Route:')
best_route('E', 'K', 'G')

Fin de notre programme !!!