In [None]:
import numpy as np

# Paramètres de l'algorithme
T = 1000  # Nombre d'épisodes
N = 4  # Nombre de classes de job
r = np.array([100, 50, 10, 1])  # Récompenses des jobs de chaque classe
p = np.array([1/3, 1/12, 1/4, 1/3])  # Probabilités des classes
c = 0.5 * 105  # Capacité du canal

# Paramètres pour les pas décroissants
epsilon_0 = 1.0
gamma = 0.6
m = 0

# Initialisation
d_m = 0.0  # Valeur initiale de d

# Fonction pour générer les arrivées de jobs selon les classes et leurs récompenses
def generate_job():
    class_index = np.random.choice(N, p=p)
    reward = r[class_index]
    return reward

# Fonction pour estimer Z(d_m) pour l'épisode m
def estimate_Z(d_m, num_packets=100):
    admitted_packets = 0
    total_reward = 0
    for _ in range(num_packets):
        reward = generate_job()
        # Adopter la politique de seuil
        if reward >= d_m:
            admitted_packets += 1
            total_reward += reward
    # Calcul de Z(d_m)
    if admitted_packets > 0:
        return total_reward / admitted_packets
    else:
        return 0  # Aucun paquet admis dans cet épisode

# Boucle principale de l'algorithme
for t in range(T):
    # Pas décroissant pour l'épisode m
    epsilon_m = epsilon_0 / ((m + 1) ** gamma)
    
    # Exécuter la politique pour l'épisode et estimer Z(d_m)
    Z_dm = estimate_Z(d_m)
    
    # Mise à jour de d_m pour l'épisode suivant
    d_m = d_m + epsilon_m * (c - Z_dm)
    
    # Incrémenter le compteur d'épisodes
    m += 1
    
    # Affichage périodique pour suivre la convergence
    if t % 100 == 0:
        print(f"Episode {t}, d_m: {d_m:.4f}, Z(d_m): {Z_dm:.4f}, epsilon_m: {epsilon_m:.4f}")

# Résultat final
print(f"Valeur estimée de d*: {d_m:.4f}")
