# Maths du projet
---

### Définitions argmax softmax
$$
argmax:
\begin{align}
\mathbb{R}^n & \to \{ 0,1 \} ^n \\
 V = [v_i] & \mapsto W = [w_i]\ avec\ 
\begin{cases}
w_i =& 1\ si\ v_i=\underset{i}{max}(V)\\
& 0\ sinon
\end{cases}
\end{align}
$$

$$
softmax:
\begin{align}
\mathbb{R}^n & \to [0,1]^n \\
 V = [v_i] & \mapsto W = [w_i]\ avec\ w_i = \frac{\exp(v_{i})} {\sum_{k=1}^{n} \exp(v_{k})}
\end{align}
$$

### Définition Classifieur
Si l'on note $\mathcal{D}$ un classifieur, $X$ une donnée (aussi appelée observation) et $Y_k, k\in [1, K]$ les $K$ différentes classes, une classification se représente donc ainsi:

$$
\mathcal{D}(X) = Y_i
$$

$$
D^* = \underset{\mathcal{D} \in \mathbf{D}}{argmin} \; R(\mathcal{D})
$$

$$
\hat{y} = \underset{k \in \{1, \ldots, K\}}{argmax} \ p(Y = k) \prod_{i=1}^n p(X_i \mid Y = k)
$$

### Définition Risque
Le risque dépend du classifieur utilisé (argmax ou softmax) et de la répartition des données dans les classes. Le classifieur bayésien (avec argmax) reste noté $\mathcal{D}^*$, et on note le classifieur softmax $\mathcal{\tilde{D}}$. 

On note $\pi$ le vecteur contenant les probabilités a priori: $\pi_i = P(Y=i)$

L'expression du risque est alors:
$$
R(\mathcal{D}, \pi) = \sum_{i \in \{1, \ldots, K\}} \pi_i R_i(\mathcal{D})
$$
avec $R_i$ les risques d'erreur conditionnels.

### Définition Matrices Probas et Décision

Notons $N$ le nombre d'observations (i.e. de données), $K$ restant le nombre de classes. Notre matrice de probabilités $A'$ est alors de dimension $(K, N)$:

$$
A' = 
\begin{pmatrix}
P(Y=1 \mid X_1) & \dots & P(Y=1 \mid X_N) \\
\vdots & \ddots & \vdots \\
P(Y=K \mid X_1) & \dots & P(Y=K \mid X_N)
\end{pmatrix}
$$

On applique le théorème de Bayes, et on obtient la matrice $A$ des probabilités postérieures, où apparaît la première dépendance en $\pi$.
$$
A = 
\begin{pmatrix}
P(X_1 \mid Y=1)\pi_1 & \dots & P(X_N \mid Y=1)\pi_1 \\
\vdots & \ddots & \vdots \\
P(X_1 \mid Y=K)\pi_k & \dots & P(X_N \mid Y=K)\pi_k
\end{pmatrix}
$$

Ainsi,
$$
a_{ij} = \pi_i P(X_j \mid Y=i)  \\
i \in \{1 \ldots K \}, j\in \{1 \ldots N\}
$$

### D star
L'application d'argmax se fait selon les colonnes:
$$
D^*_j = \underset{i}{argmax}[A_j]
$$
Ce qui donne donc:
$$
d_{ij}^* = \left( \underset{k}{argmax} P(X_j \mid Y=k)\pi_k \right) _i
$$

### D tilde

$$
\tilde{D}_j = softmax[A_j]
$$
Ce qui donne donc:
$$
\tilde{d}_{ij} = \frac{\exp(\pi_i P(X_j \mid Y=i))} {\sum_{k=1}^{K} \exp(\pi_k P(X_j \mid Y=k))}
$$

$$
\begin{align}
R_i (D) &= \sum_{j} \sum_{k\ne i} P(Y = k|X_j)\\
&=  \sum_{j} C^i D
\end{align}
$$
Avec $C^i$ un vecteur $(1, K)$ tel que :
$$
C^i_j = 
\begin{cases}
1\ si\ j \ne i\\
0\ sinon
\end{cases}
$$


### Risque Argmax
$$
\begin{align}
R(D^*, \pi) &= \sum_{i \in \{1, \ldots, K\}} \pi_i R_i(D^*)\\
&= \sum_{i} \sum_{j} \pi_i C^i D^* 
\end{align}
$$

### Risque Softmax
$$
\begin{align}
R(\tilde{D}, \pi) &= \sum_{i \in \{1, \ldots, K\}} \pi_i R_i(\tilde{D})\\
&= \sum_{i} \sum_{j} \pi_i C^i \tilde{D}\\
&= \sum_{i} \sum_{j} \pi_i C^i_j \tilde{d}_{ij}\\
R(\tilde{D}, \pi) &= \sum_{i=1}^K \sum_{j=1}^N \pi_i (1 - \delta_{ij}) \frac{\exp(\pi_i P(X_j \mid Y=i))} {\sum_{k=1}^{K} \exp(\pi_k P(X_j \mid Y=k))}
\end{align}
$$

### Dérivées de softmax
Si l'on note :
$$
S_i = \frac{\exp(a_i)} {\sum_{k=1}^{K} \exp(a_k)}
$$
Alors on a:
$$
\frac{\partial S_i}{\partial a_j} = 
\begin{cases}
S_i (1 - S_j)\ si\ i=j\\
-S_j S_i \ si\ i\ne j
\end{cases}
$$

### Gradient du risque softmax
$$
\begin{align}
\frac{\partial R(\tilde{D}, \pi)}{\partial \pi_i} &= \frac{\partial}{\partial \pi_i} \sum_{i=1}^K \pi_i \sum_{j=1}^N  (1 - \delta_{ij}) \frac{\exp(\pi_i P(X_j \mid Y=i))} {\sum_{k=1}^{K} \exp(\pi_k P(X_j \mid Y=k))}\\
&= \frac{\partial}{\partial \pi_i} \sum_{i=1}^K \pi_i \sum_{j=1}^N  (1 - \delta_{ij}) S_i\\
&= \sum_{j=1}^{N} (1 - \delta_{ij}) S_i 
+ \pi_i \sum_{j=1}^{N} (1 - \delta_{ij}) \frac{\partial S_i}{\partial \pi_i} 
+ \sum_{k \ne i}^{K} \sum_{j=1}^{N} (1 - \delta_{kj}) \frac{\partial S_k}{\partial \pi_i} \\
&= \sum_{j=1}^{N} (1 - \delta_{ij}) S_i
+ \pi_i \sum_{j=1}^{N} (1 - \delta_{ij}) S_i (1 - S_i)
+ \sum_{k \ne i}^{K} \sum_{j=1}^{N} (1 - \delta_{kj}) (-S_k S_i)\\
&= \sum_{j=1}^{N} \left[ (1 - \delta_{ij}) S_i
+ \pi_i (1 - \delta_{ij}) S_i (1 - S_i)
+ \sum_{k \ne i}^{K} (1 - \delta_{kj}) (-S_k S_i) \right]\\
\frac{\partial R(\tilde{D}, \pi)}{\partial \pi_i} &= \sum_{j=1}^{N} \left[ (1 - \delta_{ij}) \left( S_i
+ \pi_i S_i (1 - S_i) \right)
+ \sum_{k \ne i}^{K} (1 - \delta_{kj}) (-S_k S_i) \right]
\end{align}
$$

### Démo concavité risque argmax
Posons $V(\pi) = R(D^*, \pi)$ le risque d'erreur global pour des probabilités a priori $\pi$.

Soit $\alpha \in [0, 1]$, soient $\pi$ et $\pi'$ deux probabilités à priori, et $\pi''$ une troisième telle que
$\pi'' = \alpha \pi + (1-\alpha) \pi'$

On a alors, en vertu de la minimisation du risque par le classifieur de Bayes argmax:
$$
\begin{align}
V(\pi'') &= \alpha \pi^T R(D^*, \pi'') + (1 - \alpha) \pi'^T R(D^*, \pi'')\\
&\geq \alpha V(\pi) + (1 - \alpha) V(\pi')
\end{align}
$$

### Projection simplex
Le point du K-simplex le plus proche de $\pi_i$ est:
$$
t_i = \underset{i}{max} \{\pi_i - \Delta_i, 0 \}
$$
Avec :
$$
\begin{align}
\Delta_i &= \frac{\left( \sum_{j=i+1}^{K} \pi_j \right) - 1}{K - i}
\end{align}
$$
Avec les $\pi_i$ triés par ordre croissant.