# Devoir maison n° 2 Tech. Agents, résoudre le problème du Wumpus par QLearning.

Pour modéliser le problème du Wumpus, nous allons créer une grille de taille 4x4 représentant le labyrinthe. Chaque case peut être vide, contenir un mur, un piège, un trésor ou le Wumpus lui-même. L'agent peut se déplacer vers le haut, le bas, la gauche ou la droite, mais ne peut pas traverser les murs.

In [30]:
import numpy as np
import random

Les récompenses pour chaque action et chaque état sont les suivantes :

    -10 pour les actions qui conduisent à une case vide ou visitée
    -1 pour les actions qui conduisent à une case inconnue
    -100 pour l'action qui conduit au Wumpus 
    100 pour l'action qui conduit au trésor 

In [31]:
reward_matrix = np.array([[-10, -1, -1, -10],
                          [-1, -1, -1, -100],
                          [-1, -1, -1, -10],
                          [-10, -1, -1, 100]])


La Q-table sera une matrice 4x4x4, où 4 est la taille de la grille et 4 représente les 4 actions possibles (haut, bas, gauche, droite). Chaque entrée de la Q-table représentera la valeur Q de l'état correspondant et de l'action correspondante.

In [32]:
# Initialisation de la Q-table
q_table = np.zeros((4, 4, 4))


In [33]:
# Définition des paramètres de l'algorithme
alpha = 0.1 # taux d'apprentissage
gamma = 0.9  # facteur de réduction

In [34]:
def choix_action(state, q_table,epsilon):
    if random.uniform(0, 1) < epsilon:  # exploration
        action = random.randint(0, 3)
    else:  # exploitation
        action = np.argmax(q_table[state[0], state[1], :])
    return action

Une fonction qui met à jour la Q-table

In [35]:
def update_q_table(q_table, state, action, next_state, reward, alpha, gamma):
    q_table[state[0], state[1], action] = (1 - alpha) * q_table[state[0], state[1], action] + alpha * (reward + gamma * np.max(q_table[next_state[0], next_state[1], :]))
    return q_table

L'algorithme Q-learning

In [36]:
for i in range(10000):
    # Initialisation de l'état de départ
    state = [0, 0]
    
    # Boucle de simulation d'un épisode
    while True:
        # Choix de l'action
        epsilon = 0.1  # probabilité d'exploration
        action = choix_action(state, q_table, epsilon)
        
        # Application de l'action et observation du nouvel état et de la récompense
        if action == 0:  # haut
            next_state = [max(state[0] - 1, 0), state[1]]
        elif action == 1:  # bas
            next_state = [min(state[0] + 1, 3), state[1]]
        elif action == 2:  # gauche
            next_state = [state[0], max(state[1] - 1, 0)]
        else:  # droite
            next_state = [state[0], min(state[1] + 1, 3)]
        
        reward = reward_matrix[next_state[0], next_state[1]]
        
        # Mise à jour de la Q-table
        q_table = update_q_table(q_table, state, action, next_state, reward, alpha, gamma)
        
        # Passage à l'état suivant
        state = next_state
        
        # Vérification de l'état final
        if reward == 100 or reward == -100:
            break

L'affichage de la Q-table : 

In [38]:
print(q_table)

[[[  39.45851      54.9539       39.45851      54.9539    ]
  [  32.8352873    62.171        27.75974952   49.45128943]
  [  47.69167237   70.19         35.51191762    1.17492163]
  [  -0.38406768  -10.           29.12739281    0.        ]]

 [[  39.45851      62.171        54.9539       62.171     ]
  [  54.9539       70.19         54.9539       70.19      ]
  [  62.171        79.1          62.171      -100.        ]
  [   0.            0.            0.            0.        ]]

 [[  37.54078744   10.8660268    28.86698144   70.19      ]
  [  47.87865528   66.75717171   56.81320478   79.1       ]
  [  70.19         89.           70.19         79.99999999]
  [ -40.951       100.           41.26671521   31.84818797]]

 [[  -0.19          3.02130765    2.61435548   63.71983459]
  [  24.00689569   32.27472087   18.58928565   89.        ]
  [  79.1          89.           79.1         100.        ]
  [   0.            0.            0.            0.        ]]]


## Analyse des résultats :     
    
    Cette Q-table correspond aux valeurs de Q pour chaque état et action possible. Elle est organisée en quatre matrices de taille 4x4, chacune représentant une position possible de l'agent dans l'environnement. On peut observer que certaines valeurs sont plus élevées que d'autres, ce qui signifie que l'agent a appris que certaines actions sont plus bénéfiques que d'autres dans certaines situations. Par exemple, les valeurs les plus élevées dans la première matrice se trouvent dans la colonne correspondant à la position la plus à gauche de l'agent, ce qui indique que l'agent a appris que cette position est plus favorable pour prendre certaines actions. Les valeurs les plus élevées dans chaque état : ces valeurs représentent les meilleures actions à prendre dans chaque état. Par exemple, dans l'état (0,1), la valeur la plus élevée est 62.171, ce qui signifie que l'agent devrait choisir l'action qui mène à l'état (1,1) pour maximiser sa récompense à long terme.