# Notas sobre Proyecciones Oblicuas

## Proyectores

### Definición:
Sea $\mathcal{V}\subset\mathbb{R}^{N}$, tal que $\mathcal{V}=\mathcal{X}\oplus\mathcal{Y}$ i.e. para cada $\mathbf{v}\in\mathcal{V}$, existen $\mathbf{x}\in\mathcal{X}$, $\mathbf{y}\in\mathcal{Y}$ donde $\mathbf{v} = \mathbf{x} + \mathbf{y}$. El operador lineal

$$
\mathbf{P}:\mathcal{V}\rightarrow\mathcal{V},\\
\mathbf{Pv}=\mathbf{x}
$$

es el **proyector sobre $\mathcal{X}$ a lo largo de $\mathcal{Y}$**

### Propiedades

* **Idempotencia:** $\mathbf{P}^2=\mathbf{P}$. (*una vez aplicada la proyección, ya estoy viviendo en donde quería proyectar. Cualquier otra aplicación de la proyección me lleva a lo mismo*)

* **Proyector complementario:** $\mathbf{I}-\mathbf{P}$ es el proyector sobre $\mathcal{Y}$ a lo largo de $\mathcal{X}$. (*basta cambiar la dirección para cambiar entre subespacio objetivo y subespacio referente*)

* **Rango-Nulidad:** $R(\mathbf{P}) = N(\mathbf{I}-\mathbf{P}) = \mathcal{X}$ (*El rango de mi subespacio objetivo corresponde a la nulidad de mi proyección complementaria*)

* **Clasificación:** Si $\mathcal{X}\perp\mathcal{Y}$ se dice que $\mathbf{P}$ es un ***proyector ortogonal***, en caso contrario ***proyector oblicuo***. Si bien la ortogonalidad facilita la construcción de un proyector en un espacio de Hilbert *(espacio vectorial con producto interior que induce una norma y es completo)* esto no siempre se tiene ni se puede garantizar.

### Construcción de Proyectores Oblicuos:
Inicialmente desde [libro] se tiene que:
$$
\mathbf{P} = [\mathbf{X}|\mathbf{0}][\mathbf{X}|\mathbf{Y}]^{-1}= [\mathbf{X}|\mathbf{Y}]\begin{pmatrix}
\mathbf{I} & \mathbf{0}\\
\mathbf{0} & \mathbf{0}
\end{pmatrix}[\mathbf{X}|\mathbf{Y}]^{-1}
$$
donde $C(\mathbf{X})=\mathcal{X}$ y $C(\mathbf{Y})=\mathcal{Y}$.

Ahora, en los desarrollos del profe Alexander:
$$
\mathbf{P} = \mathbf{X}^{T}\left(\mathbf{X}^{T}\mathbf{Q}_{Y}\mathbf{X}\right)^{\dagger}\mathbf{X}^{T}\mathbf{Q}_{Y}
$$
donde:
$$
\mathbf{Q}_{Y} = \mathbf{I} - \mathbf{P}_{Y}\\
\mathbf{P}_{Y} = \mathbf{Y}^{T}\left(\mathbf{Y}^{T}\mathbf{Y}\right)^{\dagger}\mathbf{Y}^{T}: \text{Proyector Ortogonal sobre Y}\\
\dagger:=\text{Pseudoinversa de Moore-Penrose}
$$
<span style="color:green">REVISAR ALGORITMO</span>

### Uso en interpretabilidad de NN: Desde un enfoque de post-hoc XAI
Los proyectores oblicuos permiten descomponer un output en las contribuciones parciales no lineales de algunos inputs. En este caso particular de redes neuronales, en el caso de feed forward, se tiene:

#### Notación matricial:
Considere una red neuronal de $l$ capas, ya entrenada, cuyo conjunto de observación es $\{\mathbf{x}^{(i)}, y^{(i)}\}^{N}_{i=1}$. Para cada $j\in \{1, \dots, l\}$, la capa $j$ viene definida por $\{\mathbf{W}_{j}, \mathbf{b}_{j}, f_{j}(\cdot)\}$ donde $\mathbf{W}_{j}$ es la matriz de pesos de la capa, $\mathbf{b}_{j}$, el vector de bias y $f_{j}(\cdot)$ la función de activación. En ese sentido, el output de la última capa de la red se puede definir como:

$$
\hat{y}^{(i)} = f_{l}\left(\mathbf{W}_{l}\mathbf{z}^{(i)}+b_{l}\right)
$$

donde $\mathbf{z}\in\mathbb{R}^{p}$ es el output de la penúltima capa. Desde el punto de vista del espacio latente, (espacio de representación de la red neuronal):

$$
\hat{y}_{\text{latent}} = \mathbf{W}_{l}\mathbf{z}^{(i)}+b_{l}
$$
y sin pérdida de generalidad:

$$
\hat{\mathbf{y}}_{\text{latent}}-b_{l} = \mathbf{Z}\mathbf{W}_{l}^{T}
$$
con $\mathbf{Z}\in\mathbb{R}^{N\times p}$ y $\mathbf{Z} = \left[\left(\mathbf{z}^{(1)}\right)^{T};\cdots;\left(\mathbf{z}^{(N)}\right)^{T}\right]$

<span style="color:green">1. ¿Z es el generado por los outputs de la penúltima capa de todas las observaciones?</span>. Sí

#### En términos de las contribuciones:
$$
\hat{y}_{\text{latent}} = \sum_{k=1}^{d}g_{k}(x_{k}) + \sum_{k=1}^{d}\sum_{m>k}^{d}g_{k,m}(x_{k}, x_{m}) + \mathbf{G} + b_{l}
$$
donde:

* $g_{k}(\cdot)$: contribuciones no lineales en la salida de la $k$-ésima variable de entrada.

* $g_{k, m}(\cdot)$: efecto de interacción entre las $k$-ésima y $m$-ésima variables de entrada.

* $\mathbf{G}$: efectos de interacción de ordenes superiores


#### Relación con el desarrollo previo:
* $\mathcal{V}:=C(\mathbf{Z})$ (*en Z están embedidas las transformaciones no lineales que realiza la red neuronal sobre cada input*)

* $\hat{\mathbf{y}}_{k} = g_{k}(\mathbf{x}_{k})$: transformación no lineal del vector $\mathbf{x}_{k}$ en el output, donde
$$
\mathbf{x}_{k} = \left[x_{k}^{(1)}, \dots, x_{k}^{(N)}\right]^{T}
$$
<span style="color:green">2. ¿este vector x_k, es el vector con las k-ésimas entradas de todos los inputs?</span> Sí

* $\mathbf{Z} = f_{NN}(\mathbf{X})$ donde $f_{NN}:\mathbb{R}^{N\times d}\rightarrow \mathbb{R}^{N\times p}$ es la función que representa el mapeo desde el espacio de entrada hacia la penúltima capa de la red (*es lo que queremos desarmar*). En este caso:
$$
\mathbf{X} = \left[\left(\mathbf{x}^{(1)}\right);\dots;\left(\mathbf{x}^{(N)}\right)\right]^{T}
$$
<span style="color:green">3. ¿X es entonces la matriz de todas las observaciones, de todas las variables de entrada?</span> Sí, son mis datos

* $\mathcal{V} = \mathcal{V}_{k}\oplus\mathcal{V}_{(k)}$, donde:

    * $\mathcal{V}_{k} = C\left(\mathbf{Z}_{k}\right)$
    
        * $\mathbf{Z}_{k} = f_{NN}(\mathbf{X}_{k})$
    
        * $\mathbf{X}_{k} = \left[\left(\mathbf{0}_{N}\right)_{1}, \dots ,\left(\mathbf{0}_{N}\right)_{k-1}, \mathbf{x}_{k}, \left(\mathbf{0}_{N}\right)_{k+1}, \dots, \left(\mathbf{0}_{N}\right)_{d}\right]$
        
        <span style="color:green">4. ¿el subespacio objetivo, es el subespacio de las contribuciones del k-esimo input?</span>
    
    * $\mathcal{V}_{(k)} = C\left(\mathbf{Z}_{(k)}\right)$
    
        * $\mathbf{Z}_{(k)} = f_{NN}(\mathbf{X}_{(k)})$
    
        * $\mathbf{X}_{(k)} = \left[\mathbf{x}_{1}, \dots, \mathbf{x}_{k-1}, \left(\mathbf{0}_{N}\right)_{k}, \mathbf{x}_{k+1}, \dots, \mathbf{x}_{d}\right]$
        
        <span style="color:green">5. ¿el subespacio referente, es el subespacio de las contribuciones de todos los demás inputs?</span>
        
<span style="color:green">6. ¿Cómo se computa la función $f_{NN}$?</span> ES LA RED YA ENTRENADA
        
* Finalmente $\hat{\mathbf{y}} = \mathbf{P}_{k/(k)}\left(\hat{\mathbf{y}}_{\text{latent}}-b_{l}\right)$, donde:

    * $\mathbf{P}_{k/(k)} = \mathbf{Z}_{k}\left(\mathbf{Z}_{k}^{T}\mathbf{Q}_{(k)}\mathbf{Z}_{k}\right)^{\dagger}\mathbf{Z}_{k}^{T}\mathbf{Q}_{(k)}$
    
        * $\mathbf{Q}_{(k)} = \mathbf{I}_{N}-\mathbf{P}_{(k)}$ (ver definición)
    

---

### Opciones para *desarmar* las interacciones de segundo orden:

#### 1. Epsilon
Para el caso en que las interacciones individuales pueden verse contaminadas por las interacciones de segundo orden por la ejecución del algoritmo, se plantea el siguiente desarrollo:

$$
y_{i}(x_{i}, 0) = g_{i}(x_{i}) + \sum_{m\neq i}^{d}g_{i,m}(x_{i},0)\\
y_{i}(x_{i}, \epsilon) = g_{i}(x_{i}) + \sum_{m\neq i}^{d}g_{i,m}(x_{i},\epsilon)
$$
Asumamos (1) *para $\epsilon <<$*
$$
\sum_{m\neq i}^{d}g_{i,m}(x_{i},\epsilon) = \epsilon\cdot\sum_{m\neq i}^{d}g_{i,m}(x_{i},0)
$$
Entonces:
$$
\epsilon\cdot y_{i}(x_{i}, 0) - y_{i}(x_{i}, \epsilon) = \epsilon\cdot g_{i}(x_{i}) + \epsilon\cdot\sum_{m\neq i}^{d}g_{i,m}(x_{i},0) - g_{i}(x_{i}) -  \sum_{m\neq i}^{d}g_{i,m}(x_{i},\epsilon)
$$
Luego, usando (1)
$$
\epsilon\cdot y_{i}(x_{i}, 0) - y_{i}(x_{i}, \epsilon) = \epsilon\cdot g_{i}(x_{i}) + \epsilon\cdot\sum_{m\neq i}^{d}g_{i,m}(x_{i},0) - g_{i}(x_{i}) - \epsilon\cdot\sum_{m\neq i}^{d}g_{i,m}(x_{i},0)\\
\epsilon\cdot y_{i}(x_{i}, 0) - y_{i}(x_{i}, \epsilon) = (\epsilon - 1) g_{i}(x_{i})
$$
Finalmente
$$
g_{i}(x_{i}) = \dfrac{y_{i}(x_{i}, \epsilon) - \epsilon\cdot y_{i}(x_{i}, 0)}{1-\epsilon}
$$
Donde $y = P y_{est}$

**Nota: Este desarrollo se implementa en `NObSP_Decomposition_eps.py` y se explora en el NB de NN**

### 2. Series de Taylor
#### 2.1 Desde 0s:
Volvamos a la definición por contribuciones:
$$
\hat{y}_{\text{latent}} = \sum_{k=1}^{d}g_{k}(x_{k}) + \sum_{k=1}^{d}\sum_{m>k}^{d}g_{k,m}(x_{k}, x_{m}) + \mathbf{G} + b_{l}
$$
Queremos descomponer
$$
g_{k,m}(x_{k}, x_{m})
$$
Usando series de Taylor, tenemos que:
$$
g_{k,m}(x_{k}, x_{m}) \approx g_{k,m}(0, 0) + \dfrac{\partial g_{k,m}(0, 0)}{\partial x_{k}}x_{k} + \dfrac{\partial g_{k,m}(0, 0)}{\partial x_{m}}x_{m} + \dfrac{\partial^{2} g_{k,m}(0, 0)}{2\partial x_{k}^{2}}x_{k}^{2} + \dfrac{\partial^{2} g_{k,m}(0, 0)}{2\partial x_{m}^{2}}x_{m}^{2} + \dfrac{\partial^{2} g_{k,m}(0, 0)}{\partial x_{k}\partial x_{m}}x_{k}x_{m}
$$
<span style="color:green">En caso de pensarlo de esta forma, ¿hay alguna idea para computar esas derivadas parciales?</span>

#### 2.2 Usando lo anterior:
Podemos corregir la suposición que sea hace en (1):


---

## Material consultado:

1. Meyer, C. D., & Stewart, I. (2023). Matrix analysis and applied linear algebra. Society for Industrial and Applied Mathematics.
2. Caicedo, A., Varon, C., Van Huffel, S., & Suykens, J. A. (2019). Functional form estimation using oblique projection matrices for LS-SVM regression models. Plos one, 14(6), e0217967.
3. R. T. Behrens and L. L. Scharf, "Signal processing applications of oblique projection operators," in IEEE Transactions on Signal Processing, vol. 42, no. 6, pp. 1413-1424, June 1994, doi: 10.1109/78.286957.
4. Caicedo, A., Varon, C., Hunyadi, B., Papademetriou, M., Tachtsidis, I., & Van Huffel, S. (2016). Decomposition of near-infrared spectroscopy signals using oblique subspace projections: applications in brain hemodynamic monitoring. Frontiers in physiology, 7, 515.
5. MIT Open Course: https://www.youtube.com/watch?v=Y_Ac6KiQ1t0 y https://www.youtube.com/watch?v=osh80YCg_GM