<a href="https://colab.research.google.com/github/Sajeevan10/Sajeevan10/blob/main/modele_RL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [4]:
import numpy as np
import matplotlib.pyplot as plt
import random
import time
from IPython.display import clear_output

# Définition de l'environnement
grid_size = 5  # Environnement 5x5
num_states = grid_size * grid_size  # Nombre d'états possibles
num_actions = 4  # Actions possibles: haut, bas, gauche, droite

# Définition des actions
actions = {
    0: (-1, 0),  # Haut
    1: (1, 0),   # Bas
    2: (0, -1),  # Gauche
    3: (0, 1)    # Droite
}

# Position de départ et objectif
start_state = (0, 0)
goal_state = (4, 4)

# Initialisation de la table de Q-learning
Q_table = np.zeros((num_states, num_actions))

# Hyperparamètres
alpha = 0.1  # Taux d'apprentissage
gamma = 0.9  # Facteur de discount
epsilon = 0.1  # Probabilité d'exploration
num_episodes = 1000  # Nombre d'épisodes

# Fonction pour convertir une position en index de la table Q
def state_to_index(state):
    return state[0] * grid_size + state[1]

# Fonction pour obtenir l'action avec exploration/exploitation
def choose_action(state):
    if np.random.rand() < epsilon:
        return np.random.choice(num_actions)  # Exploration
    else:
        return np.argmax(Q_table[state_to_index(state)])  # Exploitation

# Fonction pour appliquer une action et obtenir le nouvel état et la récompense
def step(state, action):
    new_state = (state[0] + actions[action][0], state[1] + actions[action][1])

    # Vérification des limites de la grille
    new_state = (max(0, min(grid_size - 1, new_state[0])),
                 max(0, min(grid_size - 1, new_state[1])))

    # Récompense
    reward = 1 if new_state == goal_state else -0.1
    return new_state, reward

# Fonction pour afficher la grille
def render(state):
    grid = np.full((grid_size, grid_size), '-', dtype=str)
    grid[state] = 'A'  # Agent
    grid[goal_state] = 'G'  # Goal
    clear_output(wait=True)
    for row in grid:
        print(" ".join(row))
    time.sleep(0.1)

# Entraînement de l'agent
for episode in range(num_episodes):
    state = start_state

    while state != goal_state:
        action = choose_action(state)
        new_state, reward = step(state, action)

        # Mise à jour de la table Q
        q_index = state_to_index(state)
        next_q_index = state_to_index(new_state)
        Q_table[q_index, action] += alpha * (reward + gamma * np.max(Q_table[next_q_index]) - Q_table[q_index, action])

        state = new_state
        render(state)

# Affichage de la meilleure politique
policy = np.array([['⬆', '⬇', '⬅', '➡'][np.argmax(Q_table[state_to_index((i, j))])] for i in range(grid_size) for j in range(grid_size)])
policy = policy.reshape((grid_size, grid_size))

print("Politique optimale estimée:")
print(policy)

- - - - -
- A - - -
- - - - -
- - - - -
- - - - G


KeyboardInterrupt: 