## Backpropagation

Una red neuronal es una función $fw(x)$ de $x$ que depende de unos parámetros $\omega$. $x$ serán los datos que queramos predecir y $\omega$ son unos parámetros que nos permiten ajustar la red a los datos. Para poder encontrar una red neuronal que se ajuste bien a los datos, necesitamos calcular $\partial w f_w(x)$ (observad que la derivada parcial es respecto a $w$ y no respecto a $x$). El algoritmo que se nutre de las derivadas parciales para ajustar los pesos se denomina backpropagation.

La red de la Figura 2 es una versi ́on simplificada de lo que se llama red neuronal recurrente.


<p align="center">
  <img src="./img/graph_propagation.png" alt="Figura 2">
</p>

## Analogía de Backpropagation: El Viaje del Tren

Imagina que tienes un tren de juguete que pasa por varias estaciones antes de llegar a su destino. Cada estación afecta de alguna manera al tren, y quieres saber cómo una estación específica impacta en el tren al llegar a su destino.

En nuestro caso, el tren es \(y\), y las estaciones son \(s_2\), \(z_2\), \(s_1\), y \(z_1\). Queremos saber cómo una pequeña variación en \(x_1\) (una de las estaciones) afecta al destino final, \(y\).

Para ello, utilizamos algo llamado "regla de la cadena", que es como si tomáramos una lupa y observáramos cómo cada estación afecta al tren, una por una, hasta llegar a su destino.

**Construcción de la Cadena**

¿Cómo construimos la "cadena"?

1. \( \frac{\partial y}{\partial s_2} \): Miramos cómo afecta la estación \(s_2\) al destino final \(y\).
2. \( \frac{\partial s_2}{\partial z_2} \): Después, miramos cómo la estación \(z_2\) afecta a la siguiente estación, \(s_2\).
3. \( \frac{\partial z_2}{\partial s_1} \): Continuamos observando. Ahora, cómo la estación \(s_1\) afecta a \(z_2\).
4. \( \frac{\partial s_1}{\partial z_1} \): Luego, cómo \(z_1\) afecta a \(s_1\).
5. \( \frac{\partial z_1}{\partial x_1} \): Finalmente, esta es la estación que realmente nos interesa. Miramos cómo una pequeña variación en \(x_1\) afecta a \(z_1\).

Multiplicando todos estos efectos juntos, obtienes cómo \(x_1\) afecta finalmente a \(y\), pasando por todas las estaciones intermedias.

La segunda parte de la cadena, es un camino más corto, es como si el tren tuviera una ruta alternativa para llegar a su destino. Es solo mirar cómo afecta la estación \(s_1\) a \(y\), y luego cómo \(z_1\) afecta a \(s_1\), y finalmente cómo \(x_1\) afecta a \(z_1\).

Al sumar los efectos de ambas rutas, obtienes la influencia total de \(x_1\) en \(y\).



La razón por la que tenemos dos conjuntos en la cadena se debe a cómo está estructurada la función final $y$.  Si observas la definición: $y=s_1+s_2$ , Así que, volviendo a nuestra analogía del tren, es como si tuviéramos dos caminos para llegar a $y$.


## ejemplo del problema teórico


Dada la función de activación $h(t)=1 / {1+e^{-t'}}$ y las funciones 

* $z_1 = \omega x_1 + r x_2$   ;   
* $s_1 = h(z_1)$     ;     
* $z_2 = s_1 + \theta x_2 + \omega x_3 + \delta x_4$   ;   
* $s_2 = h(z_2)$    ;    
* $y = s_2. + s_1$    ;  


calcula las derivadas parciales  $\frac{\partial y}{\partial x_1}$ y $\frac{\partial y}{\partial x_2}$

**interpretación de los que vamos hacer:**

Dado que vamos a calcular las derivadas parciales $\frac{\partial y}{\partial x_1}$ y $\frac{\partial y}{\partial x_2}$, procedamos a interpretar los resultados en el contexto de la red neuronal.

La derivada $\frac{\partial y}{\partial x_2}$ representa cuánto cambia la salida $y$ de la red con respecto a un pequeño cambio en $x_1$. Esto es crucial para ajustar los pesos $w$ en la red neuronal durante el entrenamiento porque nos indica la dirección y la magnitud en la que **se deben ajustar** los parámetros para minimizar el error de predicción.

La misma interpretaciçon para $\frac{\partial y}{\partial x_2}$

En el contexto de backpropagation, estas derivadas parciales nos permiten calcular los gradientes para cada parámetro de la red, lo cual guía el ajuste de dichos parámetros. Estos gradientes, cuando son multiplicados por la tasa de aprendizaje, indican cuánto y en qué dirección ajustar cada parámetro para mejorar el rendimiento de la red.

<p align="center">
  <img src="./img/graph_propagation.png" alt="Figura 2">
</p>

Resumen de los resultados:

Para $x_1$: 

$\frac{\partial y}{\partial x_1} = \omega s_1 (1 - s_1)$ 

Para $x_2$:

$\frac{\partial y}{\partial x_2} = \theta s_2 (1 - s_2) + rs_1 (1 - s_1)$

Si en la etapa de entrenamiento observamos que, por ejemplo, el error de predicción es positivo, querríamos ajustar los parámetros de la red en la dirección negativa del gradiente para minimizar ese error. Estos cálculos son esenciales en cada paso del entrenamiento para ajustar la red y lograr que las predicciones sean lo más precisas posible.

### Desarrollo de \(\frac{\partial y}{\partial x_1}\)

Dada la función \(y = s_2 + s_1\),  
usamos la regla de la cadena para descomponer la derivada:

\[
\frac{\partial y}{\partial x_1} = 
\frac{\partial y}{\partial s_1} 
\frac{\partial s_1}{\partial z_1} 
\frac{\partial z_1}{\partial x_1}
\]

**a) Derivada de \(y\) respecto a \(s_1\)**

En \(y = s_2 + s_1\) el cambio que puede tener $y$ cuando se cambia $s_1$ (mantiendo $s_1$ constante), es exactamanete el mismo valor que el cambio de $s_1$. Esto es equivalente a decir que la derivada de $y$ respecto $s_1$ es 1. El término $S_2$ se convierte en cero porque estamos tomando la dereivada respecto a $s_1$ entonces  $S_2$ se trata como una constante y la derivada de una constante es cero.


\[
\frac{\partial y}{\partial s_1} = 1
\]


**b) Derivada de \(s_1\) respecto a \(z_1\)**

según enunciado  $s_1 = h(z_1)$

Usando la función de activación \(h(t) = \frac{1}{{1+e^{-t}}}\):

$s_1 = h(z_1) = \frac{1}{{1+e^{-z_1}}}$

Para calcular la derivada de $h(t)$ respecto a t, que es $h´(t)$ tenemos una propiedad común de la función sigmoide. 

$h'(t) = h(t) \cdot (1 - h(t))$.  

$h'(z_1) = h(z_1) \cdot (1 - h(z_1))$.   

$h'(z_1) = s_1 \cdot (1 - s_1)$.   

Entonces

$$\frac{\partial s_1}{\partial z_1} = s_1 \cdot (1 - s_1)$$ 

Esta derivada de \(s_1\) respecto a \(z_1\) representa como un cambio en $z_1$ afecta a $s_1$ teniendo en cuenta la función de activación sigmoide.


**c) Derivada de \(z_1\) respecto a \(x_1\)**

Dado que derivamos en funciín de $x_1$ entonces tratamos $r x_2$ como constante y la derivada de una constante es cero. 

$z_1 = \omega x_1 + r x_2$

Entonces la derivada de $z_1$ respecto $x_1$ es

\[\frac{\partial z_1}{\partial x_1} = \omega\]




**Juntando todas las derivadas parciales, obtenemos:**

$$\frac{\partial y}{\partial x_1} = 1 \cdot (s_1 (1-s_1) \cdot \omega = $$

$$= \omega s_1 \cdot (1-s_1)$$

  
$$\text{Esa es la derivada de $y$ con respecto a $x_1$}$$


---


### Desarrollo de \(\frac{\partial y}{\partial x_2}\)

Dada la función \(y = s_2 + s_1\), descomponemos la derivada usando la regla de la cadena:

\[
\frac{\partial y}{\partial x_2} = 
\frac{\partial y}{\partial s_2} 
\frac{\partial s_2}{\partial z_2} 
\frac{\partial z_2}{\partial x_2} + 
\frac{\partial y}{\partial s_1} 
\frac{\partial s_1}{\partial z_1} 
\frac{\partial z_1}{\partial x_2}
\]

**a) Derivada de \(y\) respecto a \(s_2\) y derivada de \(y\) respecto a \(s_1\)**

$\frac{\partial y}{\partial s_2} = 1$ (porque $y = s_2 + s_1$)

$\frac{\partial y}{\partial s_1} = 1$ (porque $y = s_2 + s_1$)

**b) Derivada de \(s_2\) respecto a \(z_2\)**

Usando la función de activación \(h(t) = \frac{1}{{1+e^{-t}}}\), tenemos:


$\frac{\partial s_2}{\partial z_2} = \frac{\partial h(z_2)}{\partial z_2} = h(z_2) \cdot (1 - h(z_2)) = s_2 \cdot (1 - s_2)$


**c) Derivada de \(z_2\) respecto a \(x_2\)**

$z_2 = s_1 + \theta x_2 + \omega x_3 + \delta x_4$

$\frac{\partial z_2}{\partial x_2} = \theta$

**d) Derivada de \(s_1\) respecto a \(z_1\)**

$\frac{\partial s_1}{\partial z_1} = h(z_1) \cdot (1 - h(z_1)) = s_1 \cdot (1 - s_1)$

**f) Derivada de \(z_1\) respecto a \(x_2\)**

$\frac{\partial z_1}{\partial x_2} = r$

Uniendo todas las derivadas parciales, obtenemos:

$$\frac{\partial y}{\partial x_2} = 1 \times s_2 \cdot (1 - s_2) \times \theta + 1 \times s_1 \cdot (1 - s_1) \times r =$$

$$= \theta s_2 \cdot (1 - s_2) + r s_1 \cdot (1 - s_1)$$

$$\text{Esa es la derivada de $y$ con respecto a $x_2$}$$

## Analogía de Backpropagation: La Cotización de una Compañía

Imagina que estás tratando de determinar la cotización de una compañía en el mercado de valores. Esta cotización, que llamaremos **Precio Final de Cotización (PFC)**, no se basa simplemente en un solo factor, sino en múltiples factores y atributos financieros que determinan la salud y la proyección de una compañía.

**¿Cómo se relaciona esto con backpropagation?**

Al igual que una red neuronal tiene diferentes capas y nodos que influyen en el resultado final, el PFC de una compañía es influenciado por una serie de factores financieros, desde los más obvios hasta los más ocultos.

**Las "Capas" del PFC**

1. **Datos Financieros**: Son los estados financieros básicos de la compañía. Incluyen la Cuenta de Resultados, el Balance y el Flujo de Caja. Estos son como la "primera capa" en una red neuronal.

2. **Multiplicadores y Factores**: A partir de los datos financieros, podemos derivar una serie de multiplicadores y factores, como los múltiplos y factores que mencionaste (Forward Multiples, Trailing Multiples, etc.). Estos actúan como la "capa intermedia" en nuestra red.

3. **Estimaciones**: Finalmente, basándonos en todo lo anterior, podemos hacer ciertas estimaciones, como los ingresos futuros o márgenes de EBITDA. Esta es la "última capa" antes de llegar a nuestro PFC.

**Aplicando Backpropagation**

Imagina que observas una discrepancia en el PFC actual de la compañía en comparación con lo que crees que debería ser. Quieres ajustar tus modelos y factores para que se alinee mejor con la realidad. Pero, ¿cómo sabes qué atributos financieros debes ajustar? Aquí es donde entra el algoritmo de backpropagation.

Al igual que backpropagation en redes neuronales ajusta los pesos para minimizar el error, en este contexto, ajustaríamos y recalibraríamos los distintos factores y multiplicadores financieros, "retrocediendo" desde el PFC hasta llegar a los datos financieros brutos.

**¿Por qué es útil?**

Backpropagation, en este contexto, nos permite entender cuánto impacto tiene un cambio en, por ejemplo, un elemento del Balance o de la Cuenta de Resultados en el PFC. Así, si hay un cambio significativo en un informe trimestral, puedes estimar cómo esto podría afectar el PFC. Es una herramienta valiosa para ajustar y refinar nuestros modelos financieros, asegurando que estén lo más alineados posible con la realidad del mercado.

---

En el mundo financiero, nos permite ajustar y refinar nuestras evaluaciones y modelos, asegurando que reflejen de la mejor manera posible la realidad compleja y multifacética del mundo financiero.


