# Componentes de una Red Neuronal Artificial

En el contexto de las redes neuronales artificiales (RNA), cada red está compuesta por varias capas y elementos fundamentales que permiten el procesamiento de información y el aprendizaje automático. A continuación se describen los principales componentes:

## Neurona Artificial

Una **neurona artificial** es la unidad básica de procesamiento en una red neuronal. Inspirada en la neurona biológica, recibe entradas (inputs), las pondera mediante pesos, suma un sesgo (bias), y aplica una función de activación para producir una salida. Matemáticamente, el funcionamiento de una neurona se expresa como:

$$
y = f\left(\sum_{i=1}^{n} w_i x_i + b\right)
$$

donde:

- $x_i$: entradas,
- $w_i$: pesos,
- $b$: sesgo,
- $f$: función de activación,
- $y$: salida.

## Capas de una Red Neuronal

Las redes neuronales están organizadas en **capas**, cada una compuesta por varias neuronas:

### 1. Capa de Entrada (Input Layer)
Es la primera capa de la red. Recibe los datos de entrada y los distribuye a la siguiente capa. No realiza procesamiento, solo transmite la información.

### 2. Capas Ocultas (Hidden Layers)
Son las capas intermedias entre la entrada y la salida. Cada neurona en estas capas procesa la información recibida, permitiendo que la red aprenda representaciones complejas y no lineales. El número y tamaño de las capas ocultas determinan la capacidad de la red para modelar patrones.

### 3. Capa de Salida (Output Layer)
Es la última capa de la red. Produce la predicción o resultado final del modelo, dependiendo del tipo de problema (clasificación, regresión, etc.).

## Otros Componentes Clave

- **Pesos (\(w\))**: Parámetros que determinan la importancia de cada entrada para una neurona.
- **Sesgo (bias, \(b\))**: Parámetro adicional que permite ajustar la salida de la neurona independientemente de las entradas.
- **Función de Activación (\(f\))**: Función matemática que introduce no linealidad, permitiendo que la red aprenda relaciones complejas. Ejemplos: sigmoide, ReLU, tanh.
- **Red Neuronal**: Conjunto de neuronas organizadas en capas, conectadas entre sí, que pueden aprender a resolver tareas específicas mediante entrenamiento.

---

**Referencias:**  
- Goodfellow, Bengio, Courville: Deep Learning (MIT Press, 2016)  
- Bishop: Pattern Recognition and Machine Learning (Springer, 2006)  
- Haykin: Neural Networks and Learning Machines (Pearson, 2009)


## Cálculo Matemático de los $z$ en Cada Capa de una Red Neuronal

En una red neuronal multicapa, el cálculo de las activaciones lineales ($z$) para cada neurona de la capa $l$ se realiza mediante la multiplicación de la matriz de pesos de esa capa por el vector de activaciones de la capa anterior, sumando el sesgo correspondiente. Matemáticamente, para la capa $l$:

$$
\mathbf{z}^{[l]} = \mathbf{W}^{[l]} \mathbf{a}^{[l-1]} + \mathbf{b}^{[l]}
$$

donde:

- $\mathbf{z}^{[l]}$: vector de activaciones lineales (pre-activaciones) de la capa $l$.
- $\mathbf{W}^{[l]}$: matriz de pesos de la capa $l$, de dimensión $(n_l, n_{l-1})$.
- $\mathbf{a}^{[l-1]}$: vector de activaciones de la capa anterior ($l-1$), de dimensión $(n_{l-1}, 1)$.
- $\mathbf{b}^{[l]}$: vector de sesgos de la capa $l$, de dimensión $(n_l, 1)$.

### Ejemplo de Matriz de Pesos

Si la matriz de pesos $\mathbf{W}^{[l]}$ tiene elementos $w_{ij}^{[l]}$, donde $i$ indica la neurona de la capa actual y $j$ la neurona de la capa anterior, el cálculo para la neurona $i$ de la capa $l$ es:
$$
\begin{pmatrix}
z_1^{[l]} \\
z_2^{[l]} \\
\vdots \\
z_{n_l}^{[l]}
\end{pmatrix}
=
\begin{pmatrix}
w_{11}^{[l]} & w_{12}^{[l]} & \cdots & w_{1 n_{l-1}}^{[l]} \\
w_{21}^{[l]} & w_{22}^{[l]} & \cdots & w_{2 n_{l-1}}^{[l]} \\
\vdots & \vdots & \ddots & \vdots \\
w_{n_l 1}^{[l]} & w_{n_l 2}^{[l]} & \cdots & w_{n_l n_{l-1}}^{[l]}
\end{pmatrix}
\begin{pmatrix}
a_1^{[l-1]} \\
a_2^{[l-1]} \\
\vdots \\
a_{n_{l-1}}^{[l-1]}
\end{pmatrix}
+
\begin{pmatrix}
b_1^{[l]} \\
b_2^{[l]} \\
\vdots \\
b_{n_l}^{[l]}
\end{pmatrix}
$$

$$
z_i^{[l]} = \sum_{j=1}^{n_{l-1}} w_{ij}^{[l]} a_j^{[l-1]} + b_i^{[l]}
$$
## Cálculo de la Activación $a$ dada una Función de Activación y una Pre-activación $z$

Una vez calculado el vector de pre-activaciones $\mathbf{z}^{[l]}$ en la capa $l$, se obtiene el vector de activaciones $\mathbf{a}^{[l]}$ aplicando una función de activación $f$ elemento a elemento:

$$
\mathbf{a}^{[l]} = f\left(\mathbf{z}^{[l]}\right)
$$

Esto significa que para cada neurona $i$ de la capa $l$:

$$
a_i^{[l]} = f\left(z_i^{[l]}\right)
$$

Las funciones de activación más comunes son:

- **Sigmoide:** 
    $$
    f(z) = \sigma(z) = \frac{1}{1 + e^{-z}}
    $$
- **Tangente hiperbólica (tanh):**
    $$
    f(z) = \tanh(z)
    $$
- **ReLU (Rectified Linear Unit):**
    $$
    f(z) = \max(0, z)
    $$

La elección de la función de activación depende del problema y de la arquitectura de la red.

---

**Referencia:**  
Goodfellow, Bengio, Courville: Deep Learning (MIT Press, 2016)

---

**Referencia:**  
Goodfellow, Bengio, Courville: Deep Learning (MIT Press, 2016)


En general, para una red neuronal con $L$ capas, el número total de parámetros (pesos y sesgos) se calcula como:

$$
\begin{align*}
&\text{Total de parámetros} = \sum_{l=1}^{L} \left( n_l \cdot n_{l-1} + n_l \right) \\
&= \left( n_1 \cdot n_0 + n_1 \right) + \left( n_2 \cdot n_1 + n_2 \right) + \cdots + \left( n_L \cdot n_{L-1} + n_L \right) \\
&= \left( n_1 \cdot n_0 + n_2 \cdot n_1 + \cdots + n_L \cdot n_{L-1} \right) + \left( n_1 + n_2 + \cdots + n_L \right) \\
&= \sum_{l=1}^{L} n_l \cdot n_{l-1} + \sum_{l=1}^{L} n_l
\end{align*}
$$

donde:
- $n_0$ es el número de neuronas en la capa de entrada,
- $n_l$ es el número de neuronas en la capa $l$,
- $L$ es el número total de capas (sin contar la de entrada).

Cada término $n_l \cdot n_{l-1}$ corresponde a los pesos entre la capa $l-1$ y la capa $l$, y cada $n_l$ corresponde a los sesgos de la capa $l$.

# Forward Pass Matemático en una Red Neuronal Feedforward

## Notación y Definiciones
- $L$: número total de capas (sin contar la de entrada)
- $n_0, n_1, \ldots, n_L$: número de neuronas en cada capa
- $\mathbf{a}^{(l)}$: vector de activaciones de la capa $l$, dimensión $(n_l, 1)$
- $\mathbf{z}^{(l)}$: vector de pre-activaciones de la capa $l$, dimensión $(n_l, 1)$
- $\mathbf{W}^{(l)} \in \mathbb{R}^{n_l \times n_{l-1}}$: matriz de pesos de la capa $l$
- $\mathbf{b}^{(l)} \in \mathbb{R}^{n_l}$: vector de sesgos de la capa $l$

## Ecuaciones Vectorizadas del Forward Pass
Para una entrada $\mathbf{a}^{(0)}$:

$$
\mathbf{z}^{(l)} = \mathbf{W}^{(l)} \mathbf{a}^{(l-1)} + \mathbf{b}^{(l)} \qquad (n_l \times 1)
$$
$$
\mathbf{a}^{(l)} = f^{(l)}\left(\mathbf{z}^{(l)}\right) \qquad (n_l \times 1)
$$

Para un batch de $m$ ejemplos ($\mathbf{A}^{(l-1)}$ de tamaño $n_{l-1} \times m$):

$$
\mathbf{Z}^{(l)} = \mathbf{W}^{(l)} \mathbf{A}^{(l-1)} + \mathbf{b}^{(l)} \mathbf{1}_m^T \qquad (n_l \times m)
$$
$$
\mathbf{A}^{(l)} = f^{(l)}\left(\mathbf{Z}^{(l)}\right) \qquad (n_l \times m)
$$

## Ejemplo Numérico Paso a Paso
Supongamos una red con:
- Entrada: $n_0 = 2$
- Capa oculta: $n_1 = 3$
- Salida: $n_2 = 2$

### Parámetros
$$
\mathbf{a}^{(0)} = \begin{pmatrix} 1 \\ 2 \end{pmatrix}
$$
$$
\mathbf{W}^{(1)} = \begin{pmatrix} 1 & -1 \\ 0 & 2 \\ -2 & 1 \end{pmatrix}, \quad \mathbf{b}^{(1)} = \begin{pmatrix} 0 \\ 1 \\ -1 \end{pmatrix}
$$
$$
\mathbf{W}^{(2)} = \begin{pmatrix} 1 & 0 & -1 \\ 2 & -2 & 1 \end{pmatrix}, \quad \mathbf{b}^{(2)} = \begin{pmatrix} 0 \\ 1 \end{pmatrix}
$$

### Capa 1 (oculta)
$$
\mathbf{z}^{(1)} = \mathbf{W}^{(1)} \mathbf{a}^{(0)} + \mathbf{b}^{(1)} =
\begin{pmatrix} 1 & -1 \\ 0 & 2 \\ -2 & 1 \end{pmatrix}
\begin{pmatrix} 1 \\ 2 \end{pmatrix} + \begin{pmatrix} 0 \\ 1 \\ -1 \end{pmatrix}
$$
Calculamos:
- Fila 1: $1*1 + (-1)*2 + 0 = 1 - 2 = -1$
- Fila 2: $0*1 + 2*2 + 1 = 0 + 4 + 1 = 5$
- Fila 3: $-2*1 + 1*2 - 1 = -2 + 2 - 1 = -1$

$$
\mathbf{z}^{(1)} = \begin{pmatrix} -1 \\ 5 \\ -1 \end{pmatrix}
$$

#### Activación ReLU
$$
\mathbf{a}^{(1)} = \text{ReLU}(\mathbf{z}^{(1)}) = \max(0, \mathbf{z}^{(1)}) = \begin{pmatrix} 0 \\ 5 \\ 0 \end{pmatrix}
$$

### Capa 2 (salida)
$$
\mathbf{z}^{(2)} = \mathbf{W}^{(2)} \mathbf{a}^{(1)} + \mathbf{b}^{(2)} =
\begin{pmatrix} 1 & 0 & -1 \\ 2 & -2 & 1 \end{pmatrix}
\begin{pmatrix} 0 \\ 5 \\ 0 \end{pmatrix} + \begin{pmatrix} 0 \\ 1 \end{pmatrix}
$$
Calculamos:
- Fila 1: $1*0 + 0*5 + (-1)*0 + 0 = 0$
- Fila 2: $2*0 + (-2)*5 + 1*0 + 1 = 0 - 10 + 1 = -9$

$$
\mathbf{z}^{(2)} = \begin{pmatrix} 0 \\ -9 \end{pmatrix}
$$

#### Activación Softmax
$$
\mathbf{a}^{(2)} = \text{softmax}(\mathbf{z}^{(2)}) = \frac{e^{\mathbf{z}^{(2)}}}{\sum_j e^{z_j^{(2)}}}
$$
Calculamos:
- $e^{0} = 1$
- $e^{-9} \approx 0.000123$
- Suma: $1 + 0.000123 \approx 1.000123$

$$
\mathbf{a}^{(2)} = \begin{pmatrix} \frac{1}{1.000123} \\ \frac{0.000123}{1.000123} \end{pmatrix} \approx \begin{pmatrix} 0.99988 \\ 0.00012 \end{pmatrix}
$$

## Fórmulas de Activación
- **ReLU:** $f(z) = \max(0, z)$
- **Softmax:** $f(z_i) = \frac{e^{z_i}}{\sum_j e^{z_j}}$

## Complejidad Computacional por Capa
- Multiplicación de matrices: $O(n_l n_{l-1})$ por ejemplo
- Suma de sesgos: $O(n_l)$
- Aplicación de activación: $O(n_l)$

## Pitfalls Comunes
- **Broadcasting:** Asegúrate que $\mathbf{b}^{(l)}$ se suma correctamente a cada columna del batch.
- **Off-by-one shapes:** Verifica dimensiones de $\mathbf{W}^{(l)}$ y $\mathbf{a}^{(l-1)}$.
- **Softmax numérica:** Para estabilidad, usa $\text{softmax}(\mathbf{z}) = \frac{e^{\mathbf{z} - \max(\mathbf{z})}}{\sum_j e^{z_j - \max(\mathbf{z})}}$

---
Este ejemplo puede copiarse directamente en un reporte o notebook y se adapta fácilmente a cualquier arquitectura de red neuronal feedforward.

# Backpropagation en Redes Neuronales Feedforward: Exposición Matemática Avanzada
 
## 1. Estructura de la Red
- $L$: número total de capas (sin contar la de entrada)
- $n_0, n_1, \ldots, n_L$: número de neuronas en cada capa
- $\mathbf{a}^{(0)}$: entrada, dimensión $(n_0, 1)$
- Para $l = 1, \ldots, L$:
  - $\mathbf{W}^{(l)} \in \mathbb{R}^{n_l \times n_{l-1}}$: matriz de pesos
  - $\mathbf{b}^{(l)} \in \mathbb{R}^{n_l}$: vector de sesgos
  - $\mathbf{z}^{(l)} = \mathbf{W}^{(l)} \mathbf{a}^{(l-1)} + \mathbf{b}^{(l)}$
  - $\mathbf{a}^{(l)} = \phi^{(l)}(\mathbf{z}^{(l)})$
 
---
 
## 2. Función de Pérdida Escalar y Gradientes
Sea $\mathcal{L}(\hat{\mathbf{y}}, \mathbf{y})$ una función de pérdida escalar (ejemplo: cross-entropy para clasificación).
 
El objetivo es calcular los gradientes:
- $\frac{\partial \mathcal{L}}{\partial \mathbf{W}^{(l)}}$
- $\frac{\partial \mathcal{L}}{\partial \mathbf{b}^{(l)}}$
 
Usando la regla de la cadena, para cada capa $l$:
 
---
 
## 3. Fórmulas Recursivas para el Backward Pass
### Error local (delta) en la capa $l$:
$$
\delta^{(l)} = \frac{\partial \mathcal{L}}{\partial \mathbf{z}^{(l)}} \in \mathbb{R}^{n_l}
$$
 
#### Para la capa de salida ($l = L$):
- Si $\phi^{(L)}$ es softmax y $\mathcal{L}$ es cross-entropy:
  $$
  \delta^{(L)} = \mathbf{a}^{(L)} - \mathbf{y}
  $$
 
#### Para capas ocultas ($l < L$):
$$
\delta^{(l)} = \left( \mathbf{W}^{(l+1)T} \delta^{(l+1)} \right) \odot \phi'^{(l)}(\mathbf{z}^{(l)})
$$
donde $\odot$ es el producto elemento a elemento.
 
### Gradientes de pesos y sesgos:
$$
\frac{\partial \mathcal{L}}{\partial \mathbf{W}^{(l)}} = \delta^{(l)} \cdot \mathbf{a}^{(l-1)T}
$$
$$
\frac{\partial \mathcal{L}}{\partial \mathbf{b}^{(l)}} = \delta^{(l)}
$$
 
---
 
## 4. Ejemplo Numérico Paso a Paso (2 capas: ReLU + Softmax)
### Estructura:
- Entrada: $n_0 = 2$
- Oculta: $n_1 = 3$ (ReLU)
- Salida: $n_2 = 2$ (Softmax)
- Un solo ejemplo: $\mathbf{a}^{(0)} = \begin{pmatrix} 1 \\ 2 \end{pmatrix}$
 
#### Parámetros:
$$
\mathbf{W}^{(1)} = \begin{pmatrix} 1 & -1 \\ 0 & 2 \\ -2 & 1 \end{pmatrix}, \quad \mathbf{b}^{(1)} = \begin{pmatrix} 0 \\ 1 \\ -1 \end{pmatrix}
$$
$$
\mathbf{W}^{(2)} = \begin{pmatrix} 1 & 0 & -1 \\ 2 & -2 & 1 \end{pmatrix}, \quad \mathbf{b}^{(2)} = \begin{pmatrix} 0 \\ 1 \end{pmatrix}
$$
 
#### Forward Pass:
1. Capa oculta:
   $$
   \mathbf{z}^{(1)} = \mathbf{W}^{(1)} \mathbf{a}^{(0)} + \mathbf{b}^{(1)} = \begin{pmatrix} -1 \\ 5 \\ -1 \end{pmatrix}
   $$
   $$
   \mathbf{a}^{(1)} = \text{ReLU}(\mathbf{z}^{(1)}) = \begin{pmatrix} 0 \\ 5 \\ 0 \end{pmatrix}
   $$
 
2. Capa salida:
   $$
   \mathbf{z}^{(2)} = \mathbf{W}^{(2)} \mathbf{a}^{(1)} + \mathbf{b}^{(2)} = \begin{pmatrix} 0 \\ -9 \end{pmatrix}
   $$
   $$
   \mathbf{a}^{(2)} = \text{softmax}(\mathbf{z}^{(2)}) \approx \begin{pmatrix} 0.99988 \\ 0.00012 \end{pmatrix}
   $$
 
3. Supón $\mathbf{y} = \begin{pmatrix} 1 \\ 0 \end{pmatrix}$ (clase 1).
 
#### Backward Pass:
1. Capa salida:
   $$
   \delta^{(2)} = \mathbf{a}^{(2)} - \mathbf{y} = \begin{pmatrix} -0.00012 \\ 0.00012 \end{pmatrix}
   $$
   $$
   \frac{\partial \mathcal{L}}{\partial \mathbf{W}^{(2)}} = \delta^{(2)} \cdot \mathbf{a}^{(1)T}
   $$
   $$
   \frac{\partial \mathcal{L}}{\partial \mathbf{b}^{(2)}} = \delta^{(2)}
   $$
 
2. Capa oculta:
   - Derivada de ReLU: $\phi'^{(1)}(\mathbf{z}^{(1)}) = \begin{pmatrix} 0 \\ 1 \\ 0 \end{pmatrix}$
   $$
   \delta^{(1)} = \left( \mathbf{W}^{(2)T} \delta^{(2)} \right) \odot \phi'^{(1)}(\mathbf{z}^{(1)})
   $$
   Calcula:
   $$
   \mathbf{W}^{(2)T} \delta^{(2)} = 
   \begin{pmatrix}
   1 & 2 \\
   0 & -2 \\
   -1 & 1
   \end{pmatrix}
   \begin{pmatrix}
   -0.00012 \\ 0.00012
   \end{pmatrix}
   =
   \begin{pmatrix}
   1*(-0.00012) + 2*0.00012 \\
   0*(-0.00012) + (-2)*0.00012 \\
   -1*(-0.00012) + 1*0.00012
   \end{pmatrix}
   =
   \begin{pmatrix}
   0.00012 \\
   -0.00024 \\
   0.00024
   \end{pmatrix}
   $$
   $$
   \delta^{(1)} = \begin{pmatrix} 0.00012 \\ -0.00024 \\ 0.00024 \end{pmatrix} \odot \begin{pmatrix} 0 \\ 1 \\ 0 \end{pmatrix} = \begin{pmatrix} 0 \\ -0.00024 \\ 0 \end{pmatrix}
   $$
   $$
   \frac{\partial \mathcal{L}}{\partial \mathbf{W}^{(1)}} = \delta^{(1)} \cdot \mathbf{a}^{(0)T}
   $$
   $$
   \frac{\partial \mathcal{L}}{\partial \mathbf{b}^{(1)}} = \delta^{(1)}
   $$
 
---
 
## 5. Procesamiento por Batch (Forma Matricial)
Para un batch de $m$ ejemplos:
- $\mathbf{A}^{(l-1)} \in \mathbb{R}^{n_{l-1} \times m}$
- $\mathbf{Z}^{(l)} = \mathbf{W}^{(l)} \mathbf{A}^{(l-1)} + \mathbf{b}^{(l)} \mathbf{1}_m^T$
- $\mathbf{A}^{(l)} = \phi^{(l)}(\mathbf{Z}^{(l)})$
 
En backpropagation:
- $\Delta^{(l)} \in \mathbb{R}^{n_l \times m}$: matriz de errores para el batch
- Gradientes:
  $$
  \frac{\partial \mathcal{L}}{\partial \mathbf{W}^{(l)}} = \Delta^{(l)} \cdot \mathbf{A}^{(l-1)T}
  $$
  $$
  \frac{\partial \mathcal{L}}{\partial \mathbf{b}^{(l)}} = \Delta^{(l)} \cdot \mathbf{1}_m
  $$
 
---
 
## 6. Complejidad Computacional y Problemas de Gradiente
- **Multiplicación de matrices:** $O(n_l n_{l-1} m)$ por capa y batch
- **Suma de sesgos:** $O(n_l m)$
- **Aplicación de activación:** $O(n_l m)$
 
**Problemas:**
- **Gradiente que desaparece:** En redes profundas, derivadas pequeñas pueden hacer que los gradientes se vuelvan insignificantes, dificultando el aprendizaje.
- **Gradiente que explota:** Derivadas grandes pueden hacer que los gradientes crezcan exponencialmente, causando inestabilidad numérica.
- **Soluciones:** Inicialización adecuada, normalización, funciones de activación como ReLU, regularización.
 
---
 
**Este desarrollo es adecuado para reportes académicos y tesis, y puede copiarse directamente en un notebook Jupyter con formato LaTeX.**

# Funciones de Activación Populares en Redes Neuronales
 
A continuación se describen las funciones de activación más utilizadas, sus fórmulas matemáticas, ventajas y desventajas.
 
## 1. Sigmoide ($\sigma$)
**Fórmula:**
$$
\sigma(z) = \frac{1}{1 + e^{-z}}
$$
**Pros:**
- Salida en rango $(0, 1)$, útil para probabilidades.
- Suave y diferenciable.
**Contras:**
- Gradiente se desvanece para valores extremos (problema de vanishing gradient).
- Salidas no centradas en cero.
- Saturación para $|z|$ grande.
 
## 2. Tangente Hiperbólica (tanh)
**Fórmula:**
$$
\tanh(z) = \frac{e^{z} - e^{-z}}{e^{z} + e^{-z}}
$$
**Pros:**
- Salida en rango $(-1, 1)$, centrada en cero.
- Suave y diferenciable.
**Contras:**
- Gradiente se desvanece para valores extremos.
- Saturación para $|z|$ grande.
 
## 3. ReLU (Rectified Linear Unit)
**Fórmula:**
$$
\text{ReLU}(z) = \max(0, z)
$$
**Pros:**
- Computacionalmente eficiente.
- Mitiga el problema de vanishing gradient para $z > 0$.
- Favorece la esparsidad.
**Contras:**
- "Neuronas muertas": gradiente cero para $z < 0$.
- No acotada superiormente.
 
## 4. Leaky ReLU
**Fórmula:**
$$
\text{Leaky ReLU}(z) = \begin{cases} z & \text{si } z > 0 \\ \alpha z & \text{si } z \leq 0 \end{cases}
$$
donde $\alpha$ es pequeño (ej. $0.01$).
**Pros:**
- Evita neuronas muertas.
- Mantiene eficiencia de ReLU.
**Contras:**
- Introduce un pequeño sesgo negativo.
 
## 5. Softmax
**Fórmula:**
$$
\text{softmax}(z_i) = \frac{e^{z_i}}{\sum_j e^{z_j}}
$$
**Pros:**
- Convierte vectores en distribuciones de probabilidad.
- Útil para clasificación multiclase.
**Contras:**
- No se usa en capas ocultas.
- Sensible a valores extremos (puede causar saturación numérica).
 
## 6. ELU (Exponential Linear Unit)
**Fórmula:**
$$
\text{ELU}(z) = \begin{cases} z & \text{si } z > 0 \\ \alpha (e^{z} - 1) & \text{si } z \leq 0 \end{cases}
$$
**Pros:**
- Salidas negativas ayudan a centrar activaciones.
- Mitiga el problema de neuronas muertas.
**Contras:**
- Más costosa computacionalmente que ReLU.
 
## 7. Swish
**Fórmula:**
$$
\text{Swish}(z) = z \cdot \sigma(z)
$$
**Pros:**
- Suave, no monótona.
- Mejora el rendimiento en redes profundas.
**Contras:**
- Más costosa computacionalmente.
 
---
**Resumen:** La elección de la función de activación depende del problema, arquitectura y profundidad de la red. ReLU y variantes dominan en redes profundas, mientras que sigmoide y softmax se usan en salidas para tareas de clasificación.