# Exercise : Finite horizon MDP


In [None]:
import numpy as np
import random

# Paramètres du problème
nombre_de_places = 20
jours = 50
prix1, q1 = 5, 0.1
prix2, q2 = 1, 0.8

# Création d'une matrice pour stocker les valeurs optimales
V = np.zeros((nombre_de_places + 1, jours + 1))

# Matrices pour stocker la politique optimale (0 pour p1, 1 pour p2)
policy = np.zeros((nombre_de_places + 1, jours + 1), dtype=int)

# Remplissage de la matrice de valeur (programmation dynamique)
for t in range(jours, -1, -1):
    for s in range(nombre_de_places + 1):
        if t == jours:
            V[s, t] = 0
        else:
            R1 = prix1 * q1
            R2 = prix2 * q2

            V1 = R1 + (1 - q1) * V[s, t + 1] + q1 * V[s-1, t+1] if s > 0 else R1
            V2 = R2 + (1 - q2) * V[s, t + 1] + q2 * V[s-1, t+1] if s > 0 else R2

            V[s, t] = max(V1, V2)
            policy[s, t] = 0 if V1 > V2 else 1


for t in range(jours, -1, -1):
  print(policy[:,t])

# Extraction de la stratégie optimale
strategie_optimale = np.zeros(jours, dtype=int)
places_restantes = nombre_de_places
revenu_total = 0
place_vendu5 = 0
for t in range(jours):
    strategie_optimale[t] = policy[places_restantes, t]
    if places_restantes > 0:
      if strategie_optimale[t] == 0:
        if random.random() < q1:
          places_restantes -= 1
          revenu_total += 5
          place_vendu5 += 1
      if strategie_optimale[t] == 1:
        if random.random() < q2:
          places_restantes -= 1
          revenu_total += 1
print(places_restantes)
print(place_vendu5)
# Affichage de la stratégie optimale
print("Stratégie optimale (0 pour p1, 1 pour p2) :")
print(strategie_optimale)


print("Revenu total avec la stratégie optimale : $", revenu_total)


[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]
[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]
[1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]
[1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]
[1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]
[1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]
[1 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]
[1 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]
[1 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]
[1 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]
[1 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]
[1 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]
[1 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]
[1 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1]
[1 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1]
[1 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1]
[1 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1]
[1 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1]
[1 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1]
[1 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1]
[1 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1]
[1 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1

# Exercice Infinite Horizon MDP

In [None]:
import numpy as np

# Paramètres du modèle
S = [0, 1]  # ensemble des états
A = [0, 1]  # ensemble des actions
gamma = 0.1  # facteur de réduction

# Fonction de récompense r(s, a)
reward = np.array([[1, 10], [-15, 0]])

# Algorithme d'itération de la valeur
def value_iteration():
    V = np.zeros(len(S))
    epsilon = 1e-6

    while True:
        delta = 0

        for s in S:
            max_value = float('-inf')
            for a in A:
                new_value = reward[s, a] + gamma * sum([p * V[next_s] for p, next_s in zip([0.5, 0.5], S)])
                max_value = max(max_value, new_value)

            delta = max(delta, np.abs(V[s] - max_value))
            V[s] = max_value

        if delta < epsilon:
            break

    return V

optimal_values = value_iteration()
print("Valeurs optimales pour chaque état:", optimal_values)


Valeurs optimales pour chaque état: [10.55555553  0.55555555]


In [2]:
import numpy as np

# Paramètres du modèle
S = [0, 1]  # ensemble des états
A = [0, 1]  # ensemble des actions
gamma = 0.1  # facteur de réduction

# Fonction de récompense r(s, a)
reward = np.array([[1, 10], [-15, 0]])

policy = {0: 0, 1: 1}

# Algorithme d'itération de la politique
def policy_iteration(policy):
    epsilon = 1e-6

    while True:
        # Étape d'évaluation de la politique
        V = np.zeros(len(S))
        while True:
            delta = 0

            for s in S:
                a = policy[s]

                # Calcul de la nouvelle valeur pour l'état s et l'action a
                new_value = reward[s, a] + gamma * V[s]

                delta = max(delta, np.abs(V[s] - new_value))
                V[s] = new_value

            if delta < epsilon:
                break

        # Étape d'amélioration de la politique
        policy_stable = True
        for s in S:
            old_action = policy[s]
            policy[s] = np.argmax([reward[s, a] + gamma * sum([p * V[next_s] for p, next_s in zip([0.5, 0.5], S)]) for a in A])

            if old_action != policy[s]:
                policy_stable = False

        if policy_stable:
            return policy

optimal_policy = policy_iteration(policy)
print("Politique optimale:", optimal_policy)


Politique optimale: {0: 1, 1: 1}
