# Componentes de una Red Neuronal Artificial

En el contexto de las redes neuronales artificiales (RNA), cada red está compuesta por varias capas y elementos fundamentales que permiten el procesamiento de información y el aprendizaje automático. A continuación se describen los principales componentes:

## Neurona Artificial

Una **neurona artificial** es la unidad básica de procesamiento en una red neuronal. Inspirada en la neurona biológica, recibe entradas (inputs), las pondera mediante pesos, suma un sesgo (bias), y aplica una función de activación para producir una salida. Matemáticamente, el funcionamiento de una neurona se expresa como:

$$
y = f\left(\sum_{i=1}^{n} w_i x_i + b\right)
$$

donde:

- $x_i$: entradas,
- $w_i$: pesos,
- $b$: sesgo,
- $f$: función de activación,
- $y$: salida.

## Capas de una Red Neuronal

Las redes neuronales están organizadas en **capas**, cada una compuesta por varias neuronas:

### 1. Capa de Entrada (Input Layer)
Es la primera capa de la red. Recibe los datos de entrada y los distribuye a la siguiente capa. No realiza procesamiento, solo transmite la información.

### 2. Capas Ocultas (Hidden Layers)
Son las capas intermedias entre la entrada y la salida. Cada neurona en estas capas procesa la información recibida, permitiendo que la red aprenda representaciones complejas y no lineales. El número y tamaño de las capas ocultas determinan la capacidad de la red para modelar patrones.

### 3. Capa de Salida (Output Layer)
Es la última capa de la red. Produce la predicción o resultado final del modelo, dependiendo del tipo de problema (clasificación, regresión, etc.).

## Otros Componentes Clave

- **Pesos (\(w\))**: Parámetros que determinan la importancia de cada entrada para una neurona.
- **Sesgo (bias, \(b\))**: Parámetro adicional que permite ajustar la salida de la neurona independientemente de las entradas.
- **Función de Activación (\(f\))**: Función matemática que introduce no linealidad, permitiendo que la red aprenda relaciones complejas. Ejemplos: sigmoide, ReLU, tanh.
- **Red Neuronal**: Conjunto de neuronas organizadas en capas, conectadas entre sí, que pueden aprender a resolver tareas específicas mediante entrenamiento.

---

**Referencias:**  
- Goodfellow, Bengio, Courville: Deep Learning (MIT Press, 2016)  
- Bishop: Pattern Recognition and Machine Learning (Springer, 2006)  
- Haykin: Neural Networks and Learning Machines (Pearson, 2009)


## Cálculo Matemático de los $z$ en Cada Capa de una Red Neuronal

En una red neuronal multicapa, el cálculo de las activaciones lineales ($z$) para cada neurona de la capa $l$ se realiza mediante la multiplicación de la matriz de pesos de esa capa por el vector de activaciones de la capa anterior, sumando el sesgo correspondiente. Matemáticamente, para la capa $l$:

$$
\mathbf{z}^{[l]} = \mathbf{W}^{[l]} \mathbf{a}^{[l-1]} + \mathbf{b}^{[l]}
$$

donde:

- $\mathbf{z}^{[l]}$: vector de activaciones lineales (pre-activaciones) de la capa $l$.
- $\mathbf{W}^{[l]}$: matriz de pesos de la capa $l$, de dimensión $(n_l, n_{l-1})$.
- $\mathbf{a}^{[l-1]}$: vector de activaciones de la capa anterior ($l-1$), de dimensión $(n_{l-1}, 1)$.
- $\mathbf{b}^{[l]}$: vector de sesgos de la capa $l$, de dimensión $(n_l, 1)$.

### Ejemplo de Matriz de Pesos

Si la matriz de pesos $\mathbf{W}^{[l]}$ tiene elementos $w_{ij}^{[l]}$, donde $i$ indica la neurona de la capa actual y $j$ la neurona de la capa anterior, el cálculo para la neurona $i$ de la capa $l$ es:
$$
\begin{pmatrix}
z_1^{[l]} \\
z_2^{[l]} \\
\vdots \\
z_{n_l}^{[l]}
\end{pmatrix}
=
\begin{pmatrix}
w_{11}^{[l]} & w_{12}^{[l]} & \cdots & w_{1 n_{l-1}}^{[l]} \\
w_{21}^{[l]} & w_{22}^{[l]} & \cdots & w_{2 n_{l-1}}^{[l]} \\
\vdots & \vdots & \ddots & \vdots \\
w_{n_l 1}^{[l]} & w_{n_l 2}^{[l]} & \cdots & w_{n_l n_{l-1}}^{[l]}
\end{pmatrix}
\begin{pmatrix}
a_1^{[l-1]} \\
a_2^{[l-1]} \\
\vdots \\
a_{n_{l-1}}^{[l-1]}
\end{pmatrix}
+
\begin{pmatrix}
b_1^{[l]} \\
b_2^{[l]} \\
\vdots \\
b_{n_l}^{[l]}
\end{pmatrix}
$$

$$
z_i^{[l]} = \sum_{j=1}^{n_{l-1}} w_{ij}^{[l]} a_j^{[l-1]} + b_i^{[l]}
$$
## Cálculo de la Activación $a$ dada una Función de Activación y una Pre-activación $z$

Una vez calculado el vector de pre-activaciones $\mathbf{z}^{[l]}$ en la capa $l$, se obtiene el vector de activaciones $\mathbf{a}^{[l]}$ aplicando una función de activación $f$ elemento a elemento:

$$
\mathbf{a}^{[l]} = f\left(\mathbf{z}^{[l]}\right)
$$

Esto significa que para cada neurona $i$ de la capa $l$:

$$
a_i^{[l]} = f\left(z_i^{[l]}\right)
$$

Las funciones de activación más comunes son:

- **Sigmoide:** 
    $$
    f(z) = \sigma(z) = \frac{1}{1 + e^{-z}}
    $$
- **Tangente hiperbólica (tanh):**
    $$
    f(z) = \tanh(z)
    $$
- **ReLU (Rectified Linear Unit):**
    $$
    f(z) = \max(0, z)
    $$

La elección de la función de activación depende del problema y de la arquitectura de la red.

---

**Referencia:**  
Goodfellow, Bengio, Courville: Deep Learning (MIT Press, 2016)

---

**Referencia:**  
Goodfellow, Bengio, Courville: Deep Learning (MIT Press, 2016)


En general, para una red neuronal con $L$ capas, el número total de parámetros (pesos y sesgos) se calcula como:

$$
\begin{align*}
&\text{Total de parámetros} = \sum_{l=1}^{L} \left( n_l \cdot n_{l-1} + n_l \right) \\
&= \left( n_1 \cdot n_0 + n_1 \right) + \left( n_2 \cdot n_1 + n_2 \right) + \cdots + \left( n_L \cdot n_{L-1} + n_L \right) \\
&= \left( n_1 \cdot n_0 + n_2 \cdot n_1 + \cdots + n_L \cdot n_{L-1} \right) + \left( n_1 + n_2 + \cdots + n_L \right) \\
&= \sum_{l=1}^{L} n_l \cdot n_{l-1} + \sum_{l=1}^{L} n_l
\end{align*}
$$

donde:
- $n_0$ es el número de neuronas en la capa de entrada,
- $n_l$ es el número de neuronas en la capa $l$,
- $L$ es el número total de capas (sin contar la de entrada).

Cada término $n_l \cdot n_{l-1}$ corresponde a los pesos entre la capa $l-1$ y la capa $l$, y cada $n_l$ corresponde a los sesgos de la capa $l$.