# La procrastination est-elle optimale ?

Ce sujet est proposé par Pierre Matalon. Vous pouvez adresser vos questions ou remarques à pierre.matalon@polytechnique.edu.

> "Several studies have linked procrastination to individual performance, with the procrastinator performing more poorly overall, and to individual well-being, with the procrastinator being more miserable in the long term. For example, a survey indicated that procrastinating on taxes costs people on average $400 because of rushing and consequent errors, resulting in over $473 million in overpayments in 2002."

*The Nature of Procrastination: A Meta-Analytic and Theoretical Review of Quintessential Self-Regulatory Failure*, P. Steel, Psychological Bulletin, 2007.

L'idée de ce projet est de considérer les stratégies de répartition de la quantitié de travail dans le temps comme un problème de décision dynamique. 
A chaque instant, on choisit quelle quantité de travail fournir en essayant d'optimiser la conjonction d'effets opposés : la charge de travail restante diminue avec l'effort, mais la fatigue (et autres désagréments...) augmente.
On parle de procrastination lorsque l'essentiel du travail à faire est repoussé à la fin de l'horizon temporel admissible. 
L'objectif est de faire apparaître la procrastination comme stratégie *optimale* dans un tel problème, et ainsi montrer qu'il s'agit en fait d'un comportement rationnel qui émerge spontanément de l'optimisation d'une fonction de coût.

## Modélisation

Un devoir, correspondant à une charge de travail fixée $x_0>0$, doit être rendu à la date $T>0$. (Notez que ce n'est pas un devoir de mathématiques, sinon nous ne saurions envisager la procrastination.)
A chaque instant, l'étudiant choisit quelle quantité d'effort $u(t)$ fournir en fonction de la charge de travail restante $x(t)$ et de son état de fatigue $y(t)$.
Par simplicité, la variable $y(t)$ modélise sous une variable unique tous les effets négatifs liés à l'effort de travail (fatigue cognitive, aversion, etc.).

Nous avons donc deux variables d'état ($x$ et $y$) et une variable de contrôle ($u$).
Le travail $x$ est une fonction décroissante du temps: $x\in L^1([0,T])$ avec pour tout $t$, $x(t) \leq x_0$.
La fatigue $y\in L^1([0,T])$ démarre avec une fatigue initiale $y_0\geq 0$. 
En considérant que les capacités cérébrales sont bornées, l'effort $u\in L^\infty([0,T])$ prend ses valeurs dans l'intervalle admissible $[0,M]$, avec $M>0$.

Nous considérons que le système dynamique est gouverné par les équations différentielles suivantes :

$$
\begin{cases}
\dot{x}(t) = -u(t),                                      \\
\dot{y}(t) = \beta u(t) - \delta (1-\frac{u(t)}{M}) y(t),
\end{cases}
$$
avec les conditions initiales
$$
x(0) = x_0, \qquad y(0) = y_0.
$$

La première équation indique que le travail restant diminue proportionnellement à l'effort.
On notera donc que la tâche n'est faisable dans le temps imparti que si $x_0 \leq MT$.
Dans la seconde équation, le terme $\beta u(t)$ indique que fournir un effort augmente la fatigue, dont la quantité est convertie via un facteur constant $\beta \geq 0$.
Le second terme modélise un phénomène de récupération naturelle.
Plus l'effort est faible, plus on récupère, jusqu'à un maximum de $\delta y(t)$ en l'absence d'effort. $\delta \geq 0$ est le coefficient d'efficacité de la récupération. Notons que plus la fatigue est élevée, plus la récupération naturelle est efficace, et que la récupération est nulle lorsque l'effort est maximal.

La fonction de coût à minimiser est la suivante :

$$
J(u) = \int_0^T e^{-\rho t}\big(D(u(t)) + E(y(t))\big)\,dt + \Phi(x(T)),
$$
où
- $D(u(t))$ mesure le désagrément immédiat de l'effort.
- $E(y(t))$ mesure le coût de la fatigue.
- Le terme d'actualisation $e^{-\rho t}$, avec $\rho\geq 0$, reflète la préférence pour le présent, en faisant en sorte que les coûts immédiats comptent plus que les coûts futurs.
- $\Phi(x(T))$ pénalise le travail non terminé à la date limite.

$D$, $E$ et $\Phi$ sont des fonctions positives et croissantes.


## Travail à réaliser

### Question 1 : analyse
Appliquez le principe du minimum de Pontryagin (PMP) à ce problème pour exhiber l'EDO à quatre inconnues à résoudre et le Hamiltonien à minimiser.
Montrez que si $D$ est strictement convexe, alors le contrôle optimal est unique.

### Question 2 : résolution numérique

On pose 
$$
D(u) = \frac{\kappa}{2} u^2, \qquad E(y) = \frac{\gamma}{2} y^2, \qquad \Phi(x) = \frac{\mu}{2} x^2.
$$
où $\kappa$, $\gamma$, $\mu$ sont des paramètres constants et positifs.

Implémentez la résolution numérique du problème.
Seules les librairies `numpy` et `scipy` sont autorisées pour les calculs.

Dans un premier temps, on considérera abstraites les fonctions $D$, $E$ et $\Phi$ dans le code de résolution. 
On utilisera donc un algorithme numérique pour minimiser le Hamiltonien (la fonction `minimize_scalar` de `scipy` par exemple).
On pourra ensuite spécialiser le code pour le choix quadratique de la fonction $D$ afin d'accélérer les calculs.

Pour la résolution de l'équation différentielle ordinaire (EDO) à quatre inconnues issue du (PMP), 
on utilisera la fonction `solve_ivp` de `scipy`.

Comme les états adjoints se résolvent en condition finale, implémenter une méthode de tir sera nécessaire pour déterminer leurs valeurs initiales.
La méthode fonctionne de la façon suivante : on considère l'équation générale
$$
    \dot{z}(t) = f(t,z)
$$

avec condition finale 
$$
z(T) = \alpha,
$$
où $\alpha$ est donné.
Pour tout $\theta$, on note $z_\theta$ la solution du problème de Cauchy composé de l'équation $\dot{z}(t) = f(t,z)$ et de la condition initiale $z(0) = \theta$.
Soit la fonction $R$ définie par $R(\theta) = z_\theta(T)-\alpha$ (c'est-à-dire le résidu sur la condition finale). 
On cherche donc $\theta^*$ telle que $R(\theta^*) = 0$.
Un algorithme "de type" Newton pour la recherche de racine sera utilisé.
On pourra notamment appeler la fonction `root` de `scipy`.
L'appellation "méthode de tir" vient du caractère itératif de ces algorithmes : 
à partir d'une première valeur arbitraire $\theta_0$ de la condition initiale, le résidu $z_{\theta_0}(T)-\alpha$ sur la condition finale est calculé, puis le "tir" est réajusté avec une nouvelle valeur $\theta_1$, et ce jusqu'à convergence.

Une fois les conditions initiales des états adjoints calculées, l'EDO est intégrée. 
Pour finir, le contrôle optimal est recalculé en post-processing, à partir des états optimaux.

Affichez les graphes des variables d'état, de contrôle, et des états adjoints en fonction du temps, pour la solution optimale.
Vérifiez que la procrastination apparaît comme stratégie optimale avec la configuration suivante :
le problème est défini par les valeurs $T=3, x_0=100, y_0=0, M=70$, 
les équations d'évolution par $\beta = 0.8, \delta = 0.2$,
 et la fonction de coût par $\rho = 1, \kappa=1, \gamma=1, \mu=50$.

### Résolution numérique

In [None]:
import numpy as np
from scipy.optimize import minimize_scalar, least_squares, root
from scipy.integrate import solve_ivp
import matplotlib.pyplot as plt

In [None]:
# --- Parameters ---
T     = 3   # final time
x0    = 100 # total workload
y0    = 0   # initial fatigue
M     = 70  # maximum effort

beta  = 0.8 # fatigue factor (how much fatigue increases with effort)
delta = 0.2 # recovery factor (how much fatigue diminishes with time in the absence of effort)

rho   =  1  # actualization factor (preference for the present over the future)
kappa =  1  # weight of the control cost
gamma =  1  # weight of the fatigue cost
mu    = 50 # weight of the final workload cost

# --- D ---
def D(u):
    raise RuntimeError("Unimplemented")

# --- E and E' ---
def E(y):
    raise RuntimeError("Unimplemented")

def diffE(y):
    raise RuntimeError("Unimplemented")

# --- Phi and Phi' ---
def Phi(x):
    raise RuntimeError("Unimplemented")

def diffPhi(x):
    raise RuntimeError("Unimplemented")


Implémentez dans la cellule ci-dessous l'EDO à quatre inconnues issue du (PMP) en utilisant le contrôle optimal :



In [None]:
def minimize_H(t, x, y, px, py):
    # Implement the minimization of H the Hamiltonian with respect to u at time t, given (x, y, px, py).
    raise RuntimeError("Unimplemented")

def EDO(t, z):
    x  = z[0]
    y  = z[1]
    px = z[2]
    py = z[3]

    # Implement the EDO using the optimal control
    raise RuntimeError("Unimplemented")

In [None]:
n_time_steps = 100
def integrate_ODE(px0, py0):
    """ Integrate the ODE system forward in time. """
    sol = solve_ivp(EDO, [0, T], [x0, y0, px0, py0], t_eval=np.linspace(0, T, n_time_steps), rtol=1e-9, atol=1e-10)
    return sol.t, sol.y[0], sol.y[1], sol.y[2], sol.y[3]

### Méthode de tir

In [None]:
def shooting_residual(p0):
    """ Compute the residual for the shooting method. """
    [t, x, y, px, py] = integrate_ODE(p0[0], p0[1])

    res_px = # implement the residual for px
    res_py = # implement the residual for py
    raise RuntimeError("Unimplemented")

    return np.array([res_px, res_py])

In [None]:
theta0 = np.array([0, 0])
result = root(shooting_residual, theta0, method='broyden1', options={'disp': True, 'maxiter':1000})

px0, py0 = result.x[0], result.x[1]

if not result.success:
    raise RuntimeError("The shooting method failed: " + result.message)

print("Final residual norm: ", np.linalg.norm(shooting_residual([px0, py0])))
print("Optimal initial adjoints: px0 = ", px0, ", py0 = ", py0)

### Intégration du système

Une fois les conditions initiales des états adjoints déterminées, réintégréz le système, recalculez le contrôle optimal à chaque instant, puis calculez le coût instantané de la solution.

In [None]:
t, x, y, px, py = ... # integrate the ODE to get the optimal trajectory

u = ... # compute the optimal control u over time

# Compute instantaneous cost function over time
effort_cost = ...
fatigue_cost = ...
unfinished_workload_cost = ...
total_cost = ...

### Affichage des résultats

In [None]:
# Plot the results
plt.figure(figsize=(18, 6))
plt.subplot(1, 3, 1)
plt.plot(t, x, label='$x(t)$', linewidth=2)
plt.plot(t, y, label='$y(t)$', linewidth=2)
plt.plot(t, u, label='$u(t)$', linewidth=2)
plt.xlabel('t')
plt.title('Variables d\'état et contrôle')
plt.grid()
plt.legend()

plt.subplot(1, 3, 2)
plt.plot(t, px, label='$p_x(t)$', linewidth=2)
plt.plot(t, py, label='$p_y(t)$', linewidth=2)
plt.xlabel('t')
plt.title('Etats adjoints')
plt.grid()
plt.legend()

plt.subplot(1, 3, 3)
plt.plot(t, effort_cost, label='coût d\'effort', linewidth=2, color='red')
plt.plot(t, fatigue_cost, label='coût de fatigue', linewidth=2, color='orange')
plt.plot(t, total_cost, label='coût total', linewidth=2, color='blue')
plt.xlabel('t')
plt.title('Coût instantané')
plt.grid()
plt.legend()

plt.tight_layout()
plt.show()

### Question 3
Que mesurent les états adjoints dans ce problème ? Interpréter leurs courbes d'évolution dans la solution optimale.

### Question 4
Le paramètre $\rho$ simule l'aspect psychologique lié à la préférence naturelle pour le présent. 
Passez-le à 0, et constatez que la stratégie optimale est toujours de travailler au maximum à la fin, même si dans une moindre mesure. 
En déduire que $\rho$ n'est pas le seul facteur poussant à la procrastination.
Quels sont alors les paramètres sur lesquels vous pouvez jouer pour obtenir une répartition plus équilibrée de l'effort ?

### Question 5
Reprenez le paramétrage de la question 2 et remplacez $D$ par la fonction $D(u) = \kappa u$. Que pouvez-vous dire sur le contrôle optimal ? Que constatez-vous concernant l'efficacité de la méthode de tir ? Expliquez.

### Question 6 (bonus)

Afin de parvenir à résoudre le problème dans ce cas difficile, implémentez la méthode d'homotopie suivante.
Pour $\epsilon \in [0,1]$, on pose 
$$
D_\varepsilon(u) = \kappa \left( (1-\varepsilon) u + \varepsilon \frac{1}{2}u^2 \right) .
$$
L'idée est de résoudre le problème pour $\varepsilon = 1$ (cas quadratique), puis de diminuer progressivement $\varepsilon$, en utilisant à chaque étape la solution précédente comme condition initiale pour la méthode de tir.
Lorsque la fonction `root` ne parvient pas à converger, diminuez la taille du pas sur $\varepsilon$ et recommencez.
Notez qu'il sera difficile d'atteindre un $\varepsilon$ très bas, donc arrêtez lorsque `root` ne converge plus même pour des pas très petits.