# Quantile universal threshold
---
**Aymen.B**

Je me repose sur l'article *"Quantile universal threshold: model selection at the detection edge for high-dimensional linear regression"* de **Jairo Diaz Rodriguez** et **Sylvain Sardy**

Ainsi que sur celui-ci *"Quantile universal threshold for model selection"* de **Caroline Giacobino**, **Sylvain Sardy**, **Jairo Diaz Rodriguez** et **Nick Hengartner**

et enfin ce dernier *"Training a neural network for data interpretation and better generalization: towards intelligent artificial intelligence"* de **Sylvain Sardy**, **Maxime van Custsem** et **Xiaoyu Ma**

## Théorie

### La fonction zero-thresholding

>**Définition 1.** 
>
>Supposons que $Y \sim f_{\xi_0}$. Un estimateur $\hat{\xi}_\lambda(Y)$ indexé par $\lambda \geq 0$ est appelé un estimateur thresholding si
>
>$$
>\mathbb{P}(\hat{\xi}_\lambda(Y) = 0) > 0 \quad \text{pour un certain } \lambda \text{ fini}.
>$$

Notez que la régression ridge n'est pas un estimateur thresholding car $\hat{\xi}_\lambda(y) \neq 0$ pour tout $\lambda$ fini et tout $\mathbf{y} \in \mathbb{R}^n$. C’est dû au fait que la pénalité $\ell_2$ ne force pas de composantes à zéro.

>**Définition 2.** 
>
>Un estimateur thresholding $\hat{\xi}_\lambda(Y)$ admet une fonction zero-thresholding $\lambda_0(Y)$ si
>
>$$
>\hat{\xi}_\lambda(Y) = 0 \quad \Leftrightarrow \quad \lambda \geq \lambda_0(Y) \quad \text{presque partout}.
>$$


>**Définition 3.**  
>
>On définit la **fonction de zero-thresholding locale** $\lambda_0^{\text{local}}(Y)$ étant le plus petit $\lambda$ tel que la solution nulle soit **un minimum local** du critère régularisé (et non forcément global $\lambda_0(Y)$).

Dans le cas convexe, on a $\boxed{\lambda_0^{\text{local}}(Y) = \lambda_0(Y)}$

#### Trouver $\lambda_0(\cdot)$

Donc $\lambda_0(Y)$ est le plus petit $\lambda$ pour lequel la solution $\hat{\xi}_\lambda(Y) = 0$

Il s'agit donc d'identifier la plus petite valeur $\lambda$ telle que l’estimateur annule tous les paramètres, c’est-à-dire que la solution $\hat{\xi}_\lambda(Y) = 0$.

##### **Exemple LASSO :** ($\xi = \beta$)

On cherche pour quel $\lambda$ la solution du problème  
$$
\hat{\beta}_\lambda(y) = \arg\min_{\beta}\frac{1}{2n}\|y-X\beta\|_2^2+\lambda\|\beta\|_1
$$
devient nulle.

Calcul du gradient au point $\beta=0$ :

(ici la sous-différentielle car pas possible d'avoir le gradient partout)
$$
-\frac{1}{n} X^\top y + \lambda \cdot \partial \|\beta\|_1
$$

Pour que $\hat{\beta}_\lambda(y) = 0$ soit minimum, il faut que :

(Quand la fonction n’est pas différentiable partout, on remplace la condition
“le gradient est nul” par la condition “0 est dans la sous-différentielle”)
$$
0 \in -\frac{1}{n} X^\top y + \lambda \cdot \partial \|\beta\|_1 \quad \text{en} \quad \beta=0
$$
Soit
$$
\frac{1}{n}X^\top y \in \lambda \cdot \partial \|\beta\|_1
$$
Or,
$$\|\beta\|_1=\sum_{j=1}^p|\beta_j|$$
et
$$\partial|x|= \text{Cste} \in [-1,1] \quad \text{avec la sous-différentiel au point} \quad \beta=0$$
Donc :
$$\partial\|\beta\|_1=\{v\in\mathbb{R}^p:v_j\in[-1,1]\text{ pour tout }j\} \quad \text{au point} \quad \beta = 0$$

Ainsi :
$$
\frac{1}{n}X^\top y\in\lambda\cdot\partial\|\beta\|_1 \quad\Longleftrightarrow\quad  \text{chaque composante de }\frac{1}{n}X^\top y\text{ est dans }[-\lambda,\lambda] 
$$
$$\quad\Longleftrightarrow\quad \left\|\frac{1}{n}X^\top y\right\|_\infty\leq\lambda$$
    
Donc :
$$
\lambda_0(y) = \left\| \frac{1}{n} X^\top y \right\|_\infty
$$

[C'est quoi la sous-différentiel ?](https://fr.wikipedia.org/wiki/Sous-diff%C3%A9rentiel)

### Le "Quantile Universal Threshold"

>**Définition 4.**
>
>Toutes les pénalités ne permettent pas d’appliquer la méthode du QUT. 
>
>On dit qu’une pénalité est **QUT-compatible** si la fonction $\lambda_0(Y)$ (ou $\lambda_0^{\text{local}}(Y)$) n’est pas constante. (ni toujours nulle ou infinie)

>**Définition 5.** 
>
>Supposons que $Y \sim f_{\xi_0}$ et soit $\hat{\xi}_\lambda(Y)$ un estimateur avec une fonction zero-thresholding associée $\lambda_0(\cdot)$. 
>
>Posons $\Lambda := \lambda_0(\mathbf{Y}_0)$, où $\mathbf{Y}_0 \sim f_{\xi_0}$ sous le modèle nul avec le paramètre $\xi_0 = 0$. 
>
>Le quantile universal threshold $\lambda^{\mathrm{QUT}}$ est le quantile supérieur $(1-\alpha)$ de la statistique de thresholding $\Lambda$, à savoir
>
>$$
>\lambda^{\mathrm{QUT}} := F^{-1}_\Lambda(1-\alpha).
>$$

>Dans le cas non convexe, on utilise la fonction $\lambda_0^{\text{local}}(Y)$ à la place, ce qui donne :
>$$
>\lambda^{\mathrm{QUT}} := F^{-1}_{\Lambda^{\text{local}}}(1 - \alpha)
>$$
>avec $\Lambda^{\text{local}} = \lambda_0^{\text{local}}(Y_0)$.


On recommande de choisir $\alpha=O(1/\sqrt{\log P})$

### Statistique pivotal

>**Définition 6.**
>
>Une statistique $\Lambda(Y)$ est dite pivotal si sa loi ne dépend d’aucun paramètre inconnu du modèle. (comme $\sigma^2$ ou $\beta$ par exemple)

Le QUT repose sur le fait qu’on peut simuler la loi de $\lambda_0(Y)$ sous le modèle nul $Y \sim f_{\xi_0}$ avec $\xi_0 = 0$, pour en extraire un quantile seuil.

Mais pour que cette simulation soit possible, il faut que la distribution de $\Lambda$ soit connue ou du moins indépendante des paramètres inconnus.

Sinon on se retrouve obligé d'estimer ces paramètres inconnus et on perd le caractère vraiment universel de la méthode.

## Algorithmes

### Cas du LASSO

$$
\boxed{
\begin{array}{ll}
\textbf{QUT Simulation Algorithm (LASSO, oracle)} \\
\\
\textbf{Step 0.} & \text{Fixer } M \in \mathbb{N} \text{ (nombre de simulations), } \alpha \in (0, 1), \text{ et connaître } \sigma^2. \\
& \text{Initialiser un vecteur } \Lambda \leftarrow \emptyset. \\
\\
\textbf{Step m.} & \text{Pour } m = 1 \text{ à } M : \\
& \quad \text{Simuler } Y_{\text{Sim}}^{(m)} \sim \mathcal{N}(0, \sigma^2 I_n). \\
& \quad \text{Calculer } \lambda_0^{(m)} \leftarrow \left\| \frac{1}{n} X^\top Y_{\text{Sim}}^{(m)} \right\|_\infty. \\
& \quad \text{Ajouter } \lambda_0^{(m)} \text{ à } \Lambda. \\
\\
\textbf{Final Step.} & \text{Définir le seuil } \lambda^{\text{QUT}} \leftarrow \text{quantile}_{1 - \alpha}(\Lambda).
\end{array}
}
$$

In [1]:
from linear_tools import qut_lasso_oracle

Cette fonction sera tester dans le cas linéaire de LASSO

## Test

Pour savoir si notre $\lambda_{\text{QUT}}$ est bien estimé. On peut s'interesser aux taux de sélection sous le modèle nul.

Autrement dit, on estime :
$$
\hat{\alpha} = \mathbb{P}_{H_0} \left( \hat{\xi}_{\lambda_{\mathrm{QUT}}}(Y) \neq 0 \right)
$$
Ce taux doit être proche de $\alpha$ en théorie !