## Question 0 (M, to avoid making a mistake later)
Propose a function from $\mathbb{R}$ to $\mathbb{R}$ that has a zero derivative a some real value $x_0$, but $f(x_0)$ is not a local extremum of the function.

---

Considérons la fonction $f : x \rightarrow x^3$ donc $\forall x \in \mathbb{R}, f'(x) = 3x^2$

Prenons $x_0 = 0$ alors $f'(x_0) = 0$

Or $\forall x \neq 0, f'(x) = 3x^2 > 0$ donc f est strictement croissant sur tout voisinage de 0

Ainsi $f(x_0)$ n'est un extremum local de la fonction

## Question 1 (M + C)
Propose a setting where $f_{l_{absolute}}^* \neq f_{l_{squared}}^*$. To show this, several options are possbile. For instance you might find an estimator h such that $R_{l_{absolute}}(f_{l_{squared}}^*)$, or the opposite.

Run simulations that verify your result by computing empirical test errors, as in exercice 1. 

---


On prend :

$X \sim Uniform(0, 1)$

$Y | X = x \sim Exp(\lambda = 1 + x)$


#### Perte quadratique

Elle est définie par :

$$
l_{squared}(y, z) = (y - z)^2
$$

L’estimateur de Bayes pour cette perte est :

$$
f^*_{l_{squared}}(x) = \arg\min_z \mathbb{E}[(Y - z)^2 \mid X = x]
$$

Ce minimum est atteint lorsque $z = \mathbb{E}[Y \mid X = x]$. Or, pour une loi exponentielle $Exp(\lambda)$, l'espérance est :

$$
\mathbb{E}[Y \mid X = x] = \frac{1}{1 + x}
$$

Donc :

$$
f^*_{l_{squared}}(x) = \mathbb{E}[Y | X = x] = \frac{1}{1 + x}
$$


#### Perte absolue
Elle est définie par :

$$
l_{absolute}(y, z) = |y - z|
$$

L’estimateur de Bayes est :

$$
f^*_{l_{absolute}}(x) = \arg\min_z \mathbb{E}[|Y - z| \mid X = x]
$$

Ce minimum est atteint (d'après la question suivante) pour :

$$
z = Med(Y \mid X)
$$

Pour obtenir la médiane d’une loi exponentielle $Exp(\lambda)$, on a:

$$
\mathbb{P}(Y \leq z \mid X) = 0.5
$$

Or :

$$
\mathbb{P}(Y \leq z \mid X = x) = \int_0^z (1 + x)e^{-(1 + x)y} dy = 1 - e^{-(1 + x)z}
$$

Donc :

$$
1 - e^{-(1 + x)z} = 0.5 \Rightarrow e^{-(1 + x)z} = 0.5 \Rightarrow -(1 + x)z = \ln(0.5)
\Rightarrow z = \frac{\ln(2)}{1 + x}
$$

Donc :

$$
f^*_{l_{absolute}}(x) = \frac{\ln(2)}{1 + x}
$$



In [6]:
import numpy as np

def empirical_risk_absolute(y_true, y_pred):
    return np.mean(np.abs(y_true - y_pred))

def empirical_risk_squared(y_true, y_pred):
    return np.mean((y_true - y_pred) ** 2)

def simulation():
    np.random.seed(42)
    n_samples = int(1e6)

    # X ~ U(0, 1)
    X = np.random.uniform(0, 1, size=n_samples)

    # Y | X ~ Exp(1 / (1 + X))
    lambdas = 1 + X
    Y = np.random.exponential(scale=1 / lambdas)

    f_squared = 1 / (1 + X) 
    f_absolute = np.log(2) / (1 + X)

    R_abs_sq = empirical_risk_absolute(Y, f_squared)
    R_abs_med = empirical_risk_absolute(Y, f_absolute)

    R_sq_sq = empirical_risk_squared(Y, f_squared)
    R_sq_med = empirical_risk_squared(Y, f_absolute)

    print("f_squared = 1 / (1 + X)")
    print(f"    - Perte absolue  : {R_abs_sq:.5f}")
    print(f"    - Perte quadratique : {R_sq_sq:.5f}")

    print("\nf_absolute = ln(2) / (1 + X)")
    print(f"    - Perte absolue  : {R_abs_med:.5f}")
    print(f"    - Perte quadratique : {R_sq_med:.5f}")

simulation()

f_squared = 1 / (1 + X)
    - Perte absolue  : 0.50973
    - Perte quadratique : 0.49931

f_absolute = ln(2) / (1 + X)
    - Perte absolue  : 0.47971
    - Perte quadratique : 0.54590




- L’estimateur $f_{\ell_{\text{squared}}}(x) = \frac{1}{1 + x} $, qui minimise la **perte quadratique**, obtient bien une erreur quadratique plus faible que $ f_{\ell_{\text{absolute}}} $, mais une erreur absolue plus élevée.

- L’estimateur $ f_{\ell_{\text{absolute}}}(x) = \frac{\ln 2}{1 + x} $, qui minimise la **perte absolue**, donne une meilleure erreur absolue mais une erreur quadratique plus grande.

- Cela confirme que :
  - Chaque estimateur est adapté à sa fonction de perte.
  - On a bien $ f^*_{\ell_{\text{squared}}} \neq f^*_{\ell_{\text{absolute}}} $.




## Question 2 (M) 
General case : we consider a setting where for each value $x \in \mathcal{X}$,
the conditional probability P(Y|X = x) has a continuous density, noted $p_{Y|X=x}$, and that the conditional variable Y|X = x has a moment of order 1. We note that for all $z \in \mathbb{R}$, this implies that Y − z|X = x also has a moment of order 1.
Determine the Bayes predictor for the absolute loss, which means for a fixed x,
determine

\begin{align*}
f_{l_{absolute}}^*(x) &= \arg\min_{z \in \mathbb{R}} E[ y - z | X = x ]
\\
&= \arg\min_{z \in \mathbb{R}}(g(z))
\end{align*}

with 

$$ g(z)= \int_{y\in \mathbb{R}} |y-z|p_{Y|X=x}(y)dy $$

where g(z) is correctly defined, according to the previous assumptions.

---

$$
g(z) = \int_{-\infty}^z (z - y) p_{Y|X=x} dy + \int_z^{+\infty} (y - z) p_{Y|X=x} dy
$$

On cherche $z \in \mathbb{R}$ qui minimise g

\begin{align*}
g(z) &= \int_{-\infty}^z (z - y)\, p_{Y|X=x}(y) \, dy + \int_z^{+\infty} (y - z)\, p_{Y|X=x}(y) \, dy \\
&= z \int_{-\infty}^z p_{Y|X=x}(y) \, dy - \int_{-\infty}^z y\, p_{Y|X=x}(y) \, dy \\
&\quad + \int_z^{+\infty} y\, p_{Y|X=x}(y) \, dy - z \int_z^{+\infty} p_{Y|X=x}(y) \, dy \\
&= z \left[ \int_{-\infty}^z p_{Y|X=x}(y) \, dy - \int_z^{+\infty} p_{Y|X=x}(y) \, dy \right] \\
&\quad + \left[ \int_z^{+\infty} y\, p_{Y|X=x}(y) \, dy - \int_{-\infty}^z y\, p_{Y|X=x}(y) \, dy \right]
\end{align*}

On note $ F(z) = P(Y \le z \mid X = x) = \int_{-\infty}^z p_{Y|X=x}(y)\, dy $.
\begin{align*}
g'(z) &= \frac{d}{dz} \left[ z(2F(z) - 1) + \int_z^{+\infty} y\, p_{Y|X=x}(y)\, dy - \int_{-\infty}^z y\, p_{Y|X=x}(y)\, dy \right] \\
&= (2F(z) - 1) + 2z\, p_{Y|X=x}(z) - 2z\, p_{Y|X=x}(z) \\
&= 2F(z) - 1
\end{align*}


Notons $F(z) = P(Y \le z \mid X = x)$
$$
g'(z) = 2F(z) - 1
$$

$$
g'(z) = 0 \quad \Leftrightarrow \quad F(z) = \frac{1}{2}
$$


- Si $z < Med(Y \mid X = x), g'(z) < 0 \Rightarrow$ g est décroissante.
- Si $z > Med(Y \mid X = x), g'(z) > 0 \Rightarrow$ g est croissante.


Donc le minimum de g est la médiane de $Y \mid X$:

$$
f_{l_{absolute}}^*(x) = Med(Y \mid X = x)
$$
