# Introducción a la red neuronal convolucional(CNNs)

<hr style="border: 10px solid black;">

## Conceptos generales

### ¿Que significa convolucional en términos matemáticos?

<div style="
    display: flex;
    justify-content: center;
    align-items: center;
    padding: 20px;
    margin: 20px auto;
    max-width: 320px;
    background-color: #ffffff;
    border-radius: 15px;
    box-shadow: 0 4px 8px rgba(0, 0, 0, 0.2);
    border: 1px solid #e0e0e0;">
    <img src="attachment:cd98ea79-7260-40ca-b737-353ddfca95df.png" alt="Descripción de la imagen" width="300"/>
</div>

En su forma matemática general, la **convolución** es una operación que combina dos **funciones continuas** para producir una tercera función. Se define como:

$$
(f * g)(t) = \int_{-\infty}^{\infty} f$tau) g(t - \tau) \, d\tau
$$

#### **Significado:**
- $f$tau)$: Es la primera función, que podría representar una señal o un dato continuo.
- $g(t - \tau)$: Es la segunda función, desplazada por $t$ y reflejada (también llamada "función núcleo" o kernel en este caso).
- La integral calcula el área bajo la curva resultante de la multiplicación de $f$ y $g$ en un intervalo determinado.

---

### ¿Que significa convolucional en términos de CNNs?

<div style="
    display: flex;
    justify-content: center;
    align-items: center;
    padding: 20px;
    margin: 20px auto;
    max-width: 320px;
    background-color: #ffffff;
    border-radius: 15px;
    box-shadow: 0 4px 8px rgba(0, 0, 0, 0.2);
    border: 1px solid #e0e0e0;">
    <img src="attachment:a8814af8-9a8e-4849-b475-da6713ba2c95.png" alt="Descripción de la imagen" width="300"/>
</div>

En aplicaciones digitales, como en **redes neuronales convolucionales**, los datos no son funciones continuas, sino **discretos**. Por eso, la integral se reemplaza por una **suma discreta**, y las funciones se representan como **matrices** (o tensores en el caso de datos multidimensionales).

La convolución discreta se define como:
$$
(f * g)[n] = \sum_{m} f[m] g[n - m]
$$

#### **Matrices en CNNs:**
- En CNNs, las imágenes (o datos) se representan como **matrices de píxeles**.
- El **filtro (kernel)** también se representa como una pequeña matriz (por ejemplo, $3 \times 3$).
- La operación de convolución combina estas dos matrices para generar una nueva matriz (mapa de características).



---

### ¿Que son los Tensores?

<div style="
    display: flex;
    justify-content: center;
    align-items: center;
    padding: 5px;
    margin: 5px auto;
    max-width: 500px;
    background-color: #ffffff;
    border-radius: 15px;
    box-shadow: 0 4px 8px rgba(0, 0, 0, 0.2);
    border: 1px solid #e0e0e0;">
    <img src="attachment:ad318868-f79b-4c76-aaa4-cdc08f949bd1.png" alt="Descripción de la imagen" width="500"/>
</div>


Los **tensores** son estructuras matemáticas utilizadas para representar datos en múltiples dimensiones. Son una generalización de escalares, vectores y matrices, y son fundamentales en el aprendizaje profundo y el procesamiento de datos.

- **Escalar (0D)**: Un único número. Ejemplo: `5`.
- **Vector (1D)**: Una lista de números. Ejemplo: `[5, 10, 15]`.
- **Matriz (2D)**: Una tabla de números. Ejemplo:
  ```
  [[5, 10],
   [15, 20]]
  ```
- **Tensor (3D o superior)**: Estructuras que pueden contener múltiples matrices, útiles para datos más complejos como imágenes, videos o secuencias.

En contextos de aprendizaje profundo, los tensores son fundamentales porque permiten manejar grandes cantidades de datos estructurados en diferentes dimensiones, que las redes neuronales pueden procesar de manera eficiente.

---

#### Tensores para Representar Imágenes a Color

Las imágenes digitales pueden representarse como **tensores 3D**, ya que contienen información en 3 dimensiones:
1. **Altura (filas)**: Número de píxeles verticales.
2. **Anchura (columnas)**: Número de píxeles horizontales.
3. **Canales de color (profundidad)**: Los colores primarios de una imagen, normalmente **RGB** (Rojo, Verde, Azul).

**Ejemplo:**
Una imagen a color de **32 × 32 píxeles** puede representarse como un tensor con forma **(32, 32, 3)**:
- **32 filas** (altura).
- **32 columnas** (anchura).
- **3 canales de color** (R, G, B).

---

#### Representación de una Imagen en un Tensor

**Imagen Ejemplo: 3 × 3 × 3 (simplificada)**
Una imagen pequeña de **3 × 3 píxeles** con 3 canales RGB se puede representar así:

<div style="
    display: flex;
    justify-content: center;
    align-items: center;
    padding: 5px;
    margin: 5px auto;
    max-width: 300px;
    background-color: #ffffff;
    border-radius: 15px;
    box-shadow: 0 4px 8px rgba(0, 0, 0, 0.2);
    border: 1px solid #e0e0e0;">
    <img src="attachment:cb821b03-bb43-4b4f-a6fa-94f849c34105.png" alt="Descripción de la imagen" width="300"/>
</div>


<div style="
    display: flex;
    justify-content: center;
    align-items: center;
    padding: 5px;
    margin: 5px auto;
    max-width: 300px;
    background-color: #ffffff;
    border-radius: 15px;
    box-shadow: 0 4px 8px rgba(0, 0, 0, 0.2);
    border: 1px solid #e0e0e0;">
    <img src="attachment:180710b2-80ec-492e-9093-00d827ff7d66.png" alt="Descripción de la imagen" width="300"/>
</div>


Cada celda (píxel) tiene valores RGB, representados como enteros entre 0 (mínimo) y 255 (máximo).


**Explicación:**
- **Primera dimensión (filas)**: Representa la altura de la imagen.
- **Segunda dimensión (columnas)**: Representa la anchura.
- **Tercera dimensión (canales)**: Contiene valores RGB de cada píxel.

---

### Código para Representar y Procesar una Imagen con Tensores

Usando Python y NumPy, podemos construir y visualizar una imagen como tensor:

```python
import numpy as np

# Crear un tensor para una imagen de 3x3 con valores RGB
image_tensor = np.array([
    [[255, 128, 0], [64, 32, 16], [255, 0, 128]],  # Fila 1
    [[128, 64, 32], [255, 128, 64], [0, 32, 255]], # Fila 2
    [[255, 255, 255], [128, 128, 128], [0, 0, 0]]  # Fila 3
])

# Dimensiones del tensor
print("Forma del tensor:", image_tensor.shape)  # (3, 3, 3)

# Acceder al valor RGB del píxel en la fila 2, columna 1
pixel = image_tensor[1, 0]
print("Píxel en fila 2, columna 1:", pixel)  # [128, 64, 32]
```

---

### ¿Sabías que ...?

El cerebro humano tiene una red llamada **Default Mode Network (DMN)** o **Red por defecto** que permanece activa incluso cuando no estamos haciendo nada en particular. Se cree que esta red está involucrada en:

- Soñar despierto.
- Pensar en el pasado o planificar el futuro.
- Reflexionar sobre nosotros mismos y los demás.
  
Esto sugiere que la "inactividad" del cerebro es en realidad un momento de alto procesamiento interno, lo que añade otra capa a su complejidad.



<hr style="border: 10px solid black;">

## Funcionamiento de una CNN

### Introducción al procesamiento de datos de entrada

<div style="
    display: flex;
    justify-content: center;
    align-items: center;
    padding: 20px;
    margin: 20px auto;
    max-width: 320px;
    background-color: #ffffff;
    border-radius: 15px;
    box-shadow: 0 4px 8px rgba(0, 0, 0, 0.2);
    border: 1px solid #e0e0e0;">
    <img src="attachment:1e5c8810-2612-4ab7-8d84-c58ced5909ee.png" alt="Descripción de la imagen" width="300"/>
</div>

Las **Redes Neuronales Convolucionales (CNNs)** trabajan procesando los datos de entrada (como imágenes) para **extraer características** relevantes mediante la aplicación de **filtros (kernels)** y otras operaciones. Vamos a explicar brevemente cómo trabajan usando la imagen como referencia.

A continuación se muestra un ejemplo explicando el procesamiento inicial de la primera capa de la CNN.

$$
\text{Entrada:}
\begin{bmatrix}
1 & 1 & 0 & 0 & 0 \\
0 & 1 & 1 & 0 & 0 \\
0 & 0 & 1 & 1 & 0 \\
0 & 0 & 0 & 1 & 1 \\
0 & 0 & 0 & 0 & 1 \\
\end{bmatrix}
*
\text{Filtro:}
\begin{bmatrix}
1 & 0 & 1 \\
0 & 1 & 0 \\
1 & 0 & 1 \\
\end{bmatrix}
=
\text{Salida (Mapa de características):}
\begin{bmatrix}
4 & 3 & 4 \\
2 & 3 & 3 \\
2 & 2 & 3 \\
\end{bmatrix}
$$

---

#### 1. Dato de entrada (Matriz de entrada)

- La **matriz de entrada** en este caso es de tamaño $5 \times 5$. Representa la imagen o dato que será procesado.
- Cada número en la matriz representa un valor discreto (por ejemplo, la intensidad de un píxel en escala de grises).

$$
\text{Dato de entrada:}
\begin{bmatrix}
1 & 1 & 0 & 0 & 0 \\
0 & 1 & 1 & 0 & 0 \\
0 & 0 & 1 & 1 & 0 \\
0 & 0 & 0 & 1 & 1 \\
0 & 0 & 0 & 0 & 1 \\
\end{bmatrix}
$$

---

#### 2. Filtro (Kernel)

- El **filtro** (también llamado kernel) es una matriz de $3 \times 3$ que se utiliza para detectar características específicas en la matriz de entrada.
- Cada número en el filtro es un peso que se multiplicará con los valores correspondientes en la matriz de entrada.

$$
\text{Filtro:}
\begin{bmatrix}
1 & 0 & 1 \\
0 & 1 & 0 \\
1 & 0 & 1 \\
\end{bmatrix}
$$

---

#### 3. Operación de convolución

La operación de convolución consiste en:
1. Desplazar el filtro sobre la matriz de entrada (zancada de 1 en este caso, es decir, el filtro se mueve un píxel a la vez).
2. En cada posición del filtro:
   - Multiplicar **elemento a elemento** el filtro con la submatriz correspondiente de la entrada.
   - Sumar los resultados de estas multiplicaciones para obtener un único valor.
3. Colocar este valor en la posición correspondiente del **mapa de características**.

---

**Ejemplo: Primer cálculo (esquina superior izquierda)**

- La submatriz en la posición inicial es:
$$
\begin{bmatrix}
1 & 1 & 0 \\
0 & 1 & 1 \\
0 & 0 & 1 \\
\end{bmatrix}
$$

- Multiplicamos elemento a elemento con el filtro:
$$
\begin{aligned}
(1 \times 1) + (1 \times 0) + (0 \times 1) &+ (0 \times 0) + (1 \times 1) + (1 \times 0) \\
&+ (0 \times 1) + (0 \times 0) + (1 \times 1)
\end{aligned}
$$
$$
= 1 + 0 + 0 + 0 + 1 + 0 + 0 + 0 + 1 = 4
$$

- Colocamos este valor ($4$) en la primera posición del **mapa de características**.

---

**Siguientes pasos (segunda posición)**

- El filtro se desplaza un píxel hacia la derecha y cubre la submatriz:
$$
\begin{bmatrix}
1 & 0 & 0 \\
1 & 1 & 0 \\
0 & 1 & 1 \\
\end{bmatrix}
$$

- Multiplicamos elemento a elemento con el filtro:
$$
(1 \times 1) + (0 \times 0) + (0 \times 1) + 
(1 \times 0) + (1 \times 1) + (0 \times 0) + 
(0 \times 1) + (1 \times 0) + (1 \times 1)
$$
$$
= 1 + 0 + 0 + 0 + 1 + 0 + 0 + 0 + 1 = 3
$$

- Colocamos este valor ($3$) en la segunda posición del **mapa de características**.

---

#### 4. Mapa de características

Tras aplicar el filtro a todas las posiciones válidas de la matriz de entrada, obtenemos el **mapa de características**. En este caso, el resultado será una matriz de salida más pequeña, ya que el filtro no puede procesar bordes sin padding.

$$
\text{Mapa de características:}
\begin{bmatrix}
4 & 3 & 4 \\
2 & 3 & 3 \\
2 & 2 & 3 \\
\end{bmatrix}
$$

---

#### 5. Interpretación del mapa de características

- Cada valor en el mapa de características representa la "respuesta" del filtro para una región específica de la matriz de entrada.
- Los valores altos (como $4$) indican que el filtro detectó con más intensidad el patrón que estaba diseñado para buscar (en este caso, posiblemente bordes o transiciones).
- El mapa de características es la **representación reducida y procesada** de la entrada, y se utilizará como entrada para las siguientes capas de la CNN.

---




<hr style="border: 10px solid black;">

### ¿Que son las zancadas o stride en una CNN?


<div style="
    display: flex;
    justify-content: center;
    align-items: center;
    padding: 20px;
    margin: 20px auto;
    max-width: 320px;
    background-color: #ffffff;
    border-radius: 15px;
    box-shadow: 0 4px 8px rgba(0, 0, 0, 0.2);
    border: 1px solid #e0e0e0;">
    <img src="attachment:5a9e4b49-f385-4cb6-b68d-21403851b118.png" alt="Descripción de la imagen" width="300"/>
</div>

El **stride** o zancada se refiere al número de posiciones (píxeles) que el filtro se desplaza a lo largo de la matriz de entrada en cada paso de la operación de convolución.

- Si el **stride** es $1$: El filtro se mueve un píxel a la vez. (como en la imagen)
- Si el **stride** es $2$: El filtro salta dos píxeles en cada movimiento, cubriendo menos posiciones y generando una salida más pequeña.

El **stride** afecta directamente:
1. **El tamaño de la salida (mapa de características):** Con un stride mayor, la salida será más pequeña porque el filtro cubre menos posiciones.
2. **La cantidad de información capturada:** Un stride mayor podría perder información porque el filtro no examina cada píxel de la entrada.

---

#### Explicación del proceso según la imagen

**Posición 1:**
- El filtro se coloca en la **esquina superior izquierda** de la matriz de entrada.
- Cubre una submatriz de tamaño igual al filtro (por ejemplo, $3 \times 3$).
- La operación de convolución (multiplicación y suma) se realiza entre el filtro y esta submatriz.
- El resultado se coloca en la primera posición del mapa de características (salida).

**Posición 2:**
- El filtro se mueve **una posición hacia la derecha** (zancada = 1).
- Ahora cubre una nueva submatriz adyacente de tamaño $3 \times 3$.
- Se realiza la misma operación de convolución (multiplicación y suma), y el resultado se coloca en la segunda posición de la salida.

**Posición 3:**
- El filtro se mueve nuevamente **una posición hacia la derecha** (zancada = 1).
- Este proceso continúa hasta que el filtro ya no puede moverse horizontalmente sin salirse de la matriz de entrada.
- Cuando termina la fila, el filtro **baja una posición verticalmente** y se repite el proceso en la siguiente fila.

---

#### Relación con el tamaño de la salida

El tamaño del mapa de características (salida) depende del tamaño de la entrada, el tamaño del filtro, el **stride** y si se utiliza o no **padding**.

**Ejemplo:**
- **Matriz de entrada:** $5 \times 5$
- **Filtro:** $3 \times 3$
- **Stride:** $1$
- **Sin padding**

$$
O = \frac{(5 - 3)}{1} + 1 = 3
$$

El mapa de características tendrá tamaño $3 \times 3$.

---

#### Beneficios del uso de zancadas

- **Control del tamaño de la salida:**
   - Un **stride mayor** reduce el tamaño de la salida, lo que puede ser útil para disminuir la dimensionalidad y reducir el costo computacional.
   - Por ejemplo, si la entrada es muy grande, usar un stride de $2$ en lugar de $1$ reducirá el tamaño del mapa de características a la mitad.
   
- **Velocidad de procesamiento:**
   - Usar zancadas más grandes acelera el cálculo, ya que el filtro realiza menos operaciones.

- **Control sobre la pérdida de información:**
   - Strides más pequeños ($1$) capturan más información, pero producen mapas de características más grandes.

---




<hr style="border: 10px solid black;">

### ¿Que son los Padding o relleno en una CNN?

<div style="
    display: flex;
    justify-content: center;
    align-items: center;
    padding: 20px;
    margin: 20px auto;
    max-width: 320px;
    background-color: #ffffff;
    border-radius: 15px;
    box-shadow: 0 4px 8px rgba(0, 0, 0, 0.2);
    border: 1px solid #e0e0e0;">
    <img src="attachment:2fdc3353-9cf4-48fc-ab83-d1a3b009e6e1.png" alt="Descripción de la imagen" width="300"/>
</div>

En esta imagen se ilustra claramente el uso del **padding** en el proceso de convolución dentro de una CNN. Vamos a analizar y explicar el **proceso del padding** y su propósito:

---

#### ¿Qué es el padding?

El **padding** consiste en agregar bordes adicionales alrededor de la matriz de entrada, generalmente rellenados con ceros (zero padding), antes de aplicar el filtro (kernel). Este proceso permite que el filtro pueda operar incluso en los bordes de la entrada.

En la imagen, los bordes verdes alrededor de la matriz inicial representan el **padding**.

---

#### ¿Por qué se utiliza el padding?

El propósito principal del padding es garantizar que la salida (mapa de características) conserve cierta información o propiedades específicas:

1. **Preservar las dimensiones de la entrada:**
   - Sin padding, la matriz de salida es más pequeña que la matriz de entrada porque el filtro no puede operar en los bordes. Esto sucede porque el filtro necesita un tamaño mínimo ($3 \times 3$ en este caso) para realizar la convolución.
   - Con padding, podemos mantener el tamaño de la matriz de entrada en la salida (en este caso, pasa de una entrada de $5 \times 5$ a una salida de también $5 \times 5$).

2. **Evitar pérdida de información:**
   - Los bordes de una imagen pueden contener información importante (por ejemplo, los contornos de un objeto). Sin padding, los bordes no son procesados completamente por el filtro, lo que puede llevar a pérdida de información.

3. **Controlar el tamaño de la salida:**
   - El padding permite ajustar las dimensiones de la salida según sea necesario:
     - **Sin padding:** La salida es más pequeña que la entrada.
     - **Con padding:** Podemos mantener las mismas dimensiones entre entrada y salida.
     - **Con mayor padding:** Podemos incluso aumentar las dimensiones de la salida, si es necesario.

---

#### Tipos de padding

1. **Zero padding (más común):**
   - Se rellenan los bordes con ceros, como se muestra en la imagen.

2. **Reflect padding:**
   - Se rellenan los bordes reflejando los valores de la matriz original. Por ejemplo:
     - Si la entrada es $[1, 2, 3]$, el padding reflejado sería $[2, 1, 2, 3, 2]$.

3. **Constant padding:**
   - Los bordes se rellenan con un valor constante especificado (por ejemplo, todos 1s o cualquier número).

---

#### Proceso del padding en la imagen

**Sin padding (antes de agregar ceros):**
- La matriz de entrada inicial es una matriz $3 \times 3$:
$$
\begin{bmatrix}
x_{00} & x_{01} & x_{02} \\
x_{10} & x_{11} & x_{12} \\
x_{20} & x_{21} & x_{22} \\
\end{bmatrix}
$$

- Sin padding, el filtro $3 \times 3$ puede operar solo en las posiciones internas de la matriz, generando una salida más pequeña.

---

**Con padding (agregando ceros):**
- Se añaden bordes de ceros alrededor de la matriz de entrada para expandirla a $5 \times 5$:
$$
\begin{bmatrix}
0 & 0 & 0 & 0 & 0 \\
0 & x_{00} & x_{01} & x_{02} & 0 \\
0 & x_{10} & x_{11} & x_{12} & 0 \\
0 & x_{20} & x_{21} & x_{22} & 0 \\
0 & 0 & 0 & 0 & 0 \\
\end{bmatrix}
$$

- Ahora, el filtro puede operar sobre toda la matriz (incluidos los bordes), preservando más información de la entrada.

---

#### Operación de convolución con padding

En la imagen, se muestra cómo el filtro $3 \times 3$ opera sobre la matriz con padding:

1. **Primera posición del filtro:**
   - El filtro se aplica sobre la submatriz:
   $$
   \begin{bmatrix}
   0 & 0 & 0 \\
   0 & x_{00} & x_{01} \\
   0 & x_{10} & x_{11} \\
   \end{bmatrix}
   $$
   - Realizamos la multiplicación elemento a elemento entre el filtro y esta submatriz, y sumamos los resultados para obtener el primer valor de la salida ($a_{00}$).

2. **Siguiente posición del filtro:**
   - El filtro se mueve un píxel a la derecha (zancada = 1) y opera sobre la siguiente submatriz:
   $$
   \begin{bmatrix}
   0 & 0 & 0 \\
   x_{00} & x_{01} & x_{02} \\
   x_{10} & x_{11} & x_{12} \\
   \end{bmatrix}
   $$
   - Calculamos el siguiente valor de la salida ($a_{01}$).

3. **El proceso continúa:**
   - El filtro recorre toda la matriz con padding, generando una salida que preserva más información y posiblemente tiene las mismas dimensiones que la matriz de entrada original.

---

#### Salida (Mapa de características)

- El resultado de la convolución con padding es un mapa de características de tamaño mayor o igual al que obtendríamos sin padding.
- En este caso, la salida es una matriz $3 \times 3$, con valores calculados a partir de las submatrices de la entrada.

---




<hr style="border: 10px solid black;">

### ¿Que son las Caracterìsticas en una CNN?

<div style="
    display: flex;
    justify-content: center;
    align-items: center;
    padding: 20px;
    margin: 20px auto;
    max-width: 320px;
    background-color: #ffffff;
    border-radius: 15px;
    box-shadow: 0 4px 8px rgba(0, 0, 0, 0.2);
    border: 1px solid #e0e0e0;">
    <img src="attachment:856729b4-163c-4cf2-a677-a7b9c779d2f8.png" alt="Descripción de la imagen" width="300"/>
</div>

En esta imagen se ilustra claramente el uso del **padding** en el proceso de convolución dentro de una CNN. Vamos a analizar y explicar el **proceso del padding** y su propósito:

---

#### ¿Qué son las características?

Las **características en una CNN (Red Neuronal Convolucional)** son las **representaciones aprendidas de los patrones en los datos de entrada** (como una imagen) que se extraen progresivamente en cada capa convolucional. Estas características son fundamentales para que la red entienda y procese las imágenes, y evolucionan desde patrones simples hasta representaciones complejas. A continuación, detallo cómo se manejan las características en una CNN:

---

**1 - Características de bajo nivel**
- Estas características se extraen en las **primeras capas convolucionales**.
- Son patrones básicos que describen elementos fundamentales de una imagen, como:
  - Bordes (líneas horizontales, verticales, diagonales).
  - Contornos simples.
  - Texturas básicas.
- Los filtros (kernels) en estas capas se enfocan en identificar cambios de intensidad de píxeles (como los bordes entre zonas claras y oscuras).

**Ejemplo:** 
En una imagen de un rostro, las primeras capas podrían detectar los bordes de los ojos, las gafas o el contorno del rostro.

---

**2. Características de nivel medio**
- Estas características se extraen en las **capas intermedias** de la CNN.
- Los filtros comienzan a combinar las características de bajo nivel para formar patrones más complejos y estructurados.
- Representan **partes de objetos** o **componentes significativos**, como:
  - Ojos, nariz, boca en un rostro.
  - Ruedas o faros en una imagen de un automóvil.
  - Hojas o ramas en una imagen de un árbol.
- Estas características capturan relaciones espaciales entre las características de bajo nivel detectadas previamente.

**Ejemplo:** 
Las capas intermedias en una CNN podrían detectar un ojo completo o la forma básica de una nariz al combinar bordes y texturas.

---

**3. Características de alto nivel**
- Estas características se extraen en las **últimas capas convolucionales**.
- Representan combinaciones de características de nivel medio para formar **objetos completos** o estructuras completas de la imagen.
- Son **representaciones altamente abstractas** y específicas de la tarea que está resolviendo la red (como clasificación, detección de objetos, etc.).
- Estas características son las que finalmente se utilizan para tomar decisiones (por ejemplo, asignar una etiqueta a la imagen).

**Ejemplo:** 
En una CNN diseñada para reconocer rostros, las capas finales podrían detectar un rostro completo al combinar ojos, nariz y boca.

---

#### Progresión jerárquica de las características
- Las características en una CNN progresan de **locales y simples** a **globales y abstractas**:
  - Las capas iniciales se enfocan en patrones locales de una región pequeña de la imagen.
  - Las capas intermedias integran información de regiones más amplias.
  - Las capas finales representan patrones globales que abarcan toda la imagen.

---

#### Propiedades importantes de las características
- **Invariancia a traslaciones:** Las características detectadas (por ejemplo, un borde o un ojo) son robustas a pequeños cambios en la posición dentro de la imagen.
- **Especificidad:** Los filtros se especializan en detectar patrones específicos en los datos.
- **Generalización:** Las características aprendidas en las capas iniciales (como bordes) son universales y aplicables a muchas tareas, mientras que las características de alto nivel son específicas para el problema (como reconocer un rostro frente a un automóvil).

---

#### ¿Por qué son importantes las características?**
- Las características son el núcleo del aprendizaje en una CNN. Permiten que la red:
  1. **Entienda la estructura de los datos de entrada.**
  2. **Generalice para clasificar o identificar patrones en nuevas imágenes.**
  3. **Reduzca la complejidad del problema** al enfocarse en patrones clave en lugar de procesar directamente todos los píxeles de la imagen.

---




<hr style="border: 10px solid black;">

### ¿Que es la agrupación o pooling en una CNN?

<div style="
    display: flex;
    justify-content: center;
    align-items: center;
    padding: 10px;
    margin: 10px auto;
    max-width: 800px;
    background-color: #ffffff;
    border-radius: 15px;
    box-shadow: 0 4px 8px rgba(0, 0, 0, 0.2);
    border: 1px solid #e0e0e0;">
    <img src="attachment:17d9eb9e-83be-428b-bd02-354ce2133697.png" alt="Descripción de la imagen" width="1000"/>
</div>

En esta imagen se ilustra claramente el uso de la **agrupación** que emplea una ventana de tamaño **2x2** y selecciona el valor **máximo** dentro de esa ventana.

---

#### ¿Qué es el agrupamiento (Pooling) en una CNN?

El **agrupamiento** (o **pooling**) es una operación fundamental en las Redes Neuronales Convolucionales (**CNN**, por sus siglas en inglés), diseñada para **reducir las dimensiones espaciales** de los mapas de características generados por las capas convolucionales. Su propósito principal es simplificar las representaciones manteniendo las características más importantes de la entrada.

---

#### Objetivos principales del agrupamiento

1. **Reducción de dimensionalidad:**
   - Disminuir el tamaño (alto y ancho) de los mapas de características.
   - Esto reduce la cantidad de parámetros y el costo computacional, lo que hace el modelo más eficiente.

2. **Evitar el sobreajuste:**
   - Al eliminar información redundante, se reducen las probabilidades de que el modelo memorice detalles específicos (sobreajuste) en lugar de generalizar patrones útiles.

3. **Invarianza espacial:**
   - Hace que el modelo sea más robusto a pequeñas **traslaciones** (desplazamientos) o distorsiones en la entrada, ya que no se enfoca en la posición exacta de una característica, sino en su presencia.

---

#### ¿Cómo funciona?

El agrupamiento trabaja dividiendo cada mapa de características en regiones (o ventanas) de tamaño definido, aplicando una operación a cada región, y reduciendo la región a un solo valor. Este proceso se repite hasta cubrir todo el mapa.

**Operaciones comunes en el agrupamiento:**

1. **MaxPooling (agrupamiento máximo):**
   - Selecciona el valor **máximo** dentro de cada ventana. Es el método más común porque resalta la característica más importante en cada región.
   
2. **AveragePooling (agrupamiento promedio):**
   - Calcula el valor **promedio** de cada ventana. Aunque es menos utilizado, puede ser útil cuando no se desea dar prioridad a valores extremos.

3. **GlobalPooling:**
   - Reduce cada mapa de características a un solo valor (por ejemplo, el máximo o promedio de todo el mapa). Este método es más extremo y se usa en arquitecturas específicas.

---

##### **Hiperparámetros clave en el agrupamiento**

1. **Tamaño de la ventana (`pool_size`):**
   - Es el tamaño de la región cuadrada o rectangular sobre la que se aplicará el pooling. Por ejemplo, una ventana de $2 \times 2$ agrupa 4 valores en uno.

2. **Stride (paso):**
   - Es el número de posiciones que la ventana se desplaza horizontal y verticalmente. Un stride de 2 significa que la ventana se moverá 2 posiciones a la derecha o hacia abajo en cada paso.

3. **Padding:**
   - Controla si se agregan bordes alrededor del mapa de características antes del pooling:
     - **Valid (sin padding):** Solo se procesan las regiones que se ajustan completamente dentro del mapa.
     - **Same (con padding):** Se agregan ceros alrededor del mapa para que todas las regiones sean consideradas.

---

#### **Ejemplo práctico de MaxPooling**

Para una matriz de entrada $4 \times 4$ y una ventana de pooling $2 \times 2$ con stride de 2:

**Entrada:**
$$
\begin{bmatrix}
1 & 3 & 2 & 4 \\
5 & 6 & 7 & 8 \\
9 & 10 & 11 & 12 \\
13 & 14 & 15 & 16
\end{bmatrix}
$$

**Agrupamiento máximo (MaxPooling):**
- Para cada ventana $2 \times 2$, tomamos el máximo:

$$
\begin{bmatrix}
6 & 8 \\
14 & 16
\end{bmatrix}
$$

La salida es más compacta ($2 \times 2$), pero conserva los valores más relevantes.

---

#### **Beneficios del agrupamiento en CNNs**

1. **Menor carga computacional:**
   - Al reducir el tamaño de las matrices, las siguientes capas procesan menos datos.

2. **Más robustez:**
   - Reducción de sensibilidad a pequeñas modificaciones en la entrada (invarianza a traslaciones, ruido, etc.).

3. **Menor riesgo de sobreajuste:**
   - El agrupamiento actúa como una forma de regularización al resumir características importantes.

---

#### **Cuándo usar pooling**

- Es esencial en arquitecturas de CNNs para tareas como clasificación, detección de objetos y segmentación de imágenes.
- Por lo general, se aplica después de una capa convolucional para procesar los mapas de características antes de enviarlos a capas más profundas.

---

#### **Limitaciones del pooling**

1. **Pérdida de información:**
   - En el proceso de reducción, se eliminan datos que podrían ser relevantes.

2. **No siempre necesario:**
   - En arquitecturas modernas como **ResNet**, el pooling se usa con menos frecuencia, y las convoluciones con stride son preferidas para reducir dimensiones.

---



<hr style="border: 10px solid black;">

## Funciones de utilidad para el análisis de una arquitectura CNN

### Análisis del número de parámetros de una CNN

Ejemplo de un **modelo CNN** :

- 1er módulo: (CONV+CONV+MaxPool+Dropout)

- 2do módulo: (CONV+CONV+MaxPool+Dropout)

- 3er módulo: (CONV+CONV+MaxPool+Dropout)

```
Model: "sequential_4"
┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━━━━┓
┃ Layer (type)                    ┃ Output Shape           ┃       Param # ┃
┡━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━━━━┩
│ conv2d_7 (Conv2D)               │ (None, 32, 32, 32)     │           896 │
├─────────────────────────────────┼────────────────────────┼───────────────┤
│ batch_normalization             │ (None, 32, 32, 32)     │           128 │
│ (BatchNormalization)            │                        │               │
├─────────────────────────────────┼────────────────────────┼───────────────┤
│ conv2d_8 (Conv2D)               │ (None, 32, 32, 32)     │         9,248 │
├─────────────────────────────────┼────────────────────────┼───────────────┤
│ batch_normalization_1           │ (None, 32, 32, 32)     │           128 │
│ (BatchNormalization)            │                        │               │
├─────────────────────────────────┼────────────────────────┼───────────────┤
│ max_pooling2d_7 (MaxPooling2D)  │ (None, 16, 16, 32)     │             0 │
├─────────────────────────────────┼────────────────────────┼───────────────┤
│ dropout_2 (Dropout)             │ (None, 16, 16, 32)     │             0 │
├─────────────────────────────────┼────────────────────────┼───────────────┤
│ conv2d_9 (Conv2D)               │ (None, 16, 16, 64)     │        18,496 │
├─────────────────────────────────┼────────────────────────┼───────────────┤
│ batch_normalization_2           │ (None, 16, 16, 64)     │           256 │
│ (BatchNormalization)            │                        │               │
├─────────────────────────────────┼────────────────────────┼───────────────┤
│ conv2d_10 (Conv2D)              │ (None, 16, 16, 64)     │        36,928 │
├─────────────────────────────────┼────────────────────────┼───────────────┤
│ batch_normalization_3           │ (None, 16, 16, 64)     │           256 │
│ (BatchNormalization)            │                        │               │
├─────────────────────────────────┼────────────────────────┼───────────────┤
│ max_pooling2d_8 (MaxPooling2D)  │ (None, 8, 8, 64)       │             0 │
├─────────────────────────────────┼────────────────────────┼───────────────┤
│ dropout_3 (Dropout)             │ (None, 8, 8, 64)       │             0 │
├─────────────────────────────────┼────────────────────────┼───────────────┤
│ conv2d_11 (Conv2D)              │ (None, 8, 8, 128)      │        73,856 │
├─────────────────────────────────┼────────────────────────┼───────────────┤
│ batch_normalization_4           │ (None, 8, 8, 128)      │           512 │
│ (BatchNormalization)            │                        │               │
├─────────────────────────────────┼────────────────────────┼───────────────┤
│ conv2d_12 (Conv2D)              │ (None, 8, 8, 128)      │       147,584 │
├─────────────────────────────────┼────────────────────────┼───────────────┤
│ batch_normalization_5           │ (None, 8, 8, 128)      │           512 │
│ (BatchNormalization)            │                        │               │
├─────────────────────────────────┼────────────────────────┼───────────────┤
│ max_pooling2d_9 (MaxPooling2D)  │ (None, 4, 4, 128)      │             0 │
├─────────────────────────────────┼────────────────────────┼───────────────┤
│ dropout_4 (Dropout)             │ (None, 4, 4, 128)      │             0 │
├─────────────────────────────────┼────────────────────────┼───────────────┤
│ flatten_4 (Flatten)             │ (None, 2048)           │             0 │
├─────────────────────────────────┼────────────────────────┼───────────────┤
│ dense_8 (Dense)                 │ (None, 10)             │        20,490 │
└─────────────────────────────────┴────────────────────────┴───────────────┘
 Total params: 309,290 (1.18 MB)
 Trainable params: 308,394 (1.18 MB)
 Non-trainable params: 896 (3.50 KB)
```
---
#### ¿Qué son los parámetros en una red neuronal?

Los **parámetros** de una red neuronal son los valores que la red **aprende** durante el proceso de entrenamiento. Estos parámetros determinan cómo se combinan las entradas para producir las salidas y se ajustan a lo largo del tiempo para minimizar el error en las predicciones del modelo.

Los dos tipos principales de parámetros son:

1. **Pesos (Weights)**: 
   - Son los valores que multiplican las entradas en cada conexión entre neuronas.
   - Se actualizan durante el entrenamiento a través del **algoritmo de optimización** (por ejemplo, **gradiente descendente**).

2. **Sesgos (Biases)**:
   - Son valores adicionales sumados a las activaciones de las neuronas, que permiten ajustar la salida sin depender solo de las entradas.
   - También se ajustan durante el entrenamiento.

3. **Parámetros en BatchNormalization**:
   - **Gamma** (escala) y **Beta** (desplazamiento) son parámetros que ajustan la amplitud y el desplazamiento de las activaciones normalizadas.
   - **Moving_mean** y **moving_variance** son parámetros no entrenables que se calculan durante el entrenamiento y se utilizan en la fase de inferencia.
---
#### ¿Por qué es importante conocer el número de parámetros por capa?

Conocer el número de parámetros por capa es útil por varias razones:

1. **Controlar la capacidad del modelo**:
   - El número de parámetros determina la **capacidad de aprendizaje** de la red. Cuantos más parámetros tiene el modelo, más complejo puede ser el patrón que puede aprender. Sin embargo, esto también aumenta el riesgo de **sobreajuste** si no se tiene suficiente cantidad de datos.
   - Conocer el número de parámetros ayuda a evitar que el modelo sea demasiado grande y propenso al sobreajuste, especialmente en conjuntos de datos pequeños.

2. **Optimización de recursos**:
   - Los modelos con muchos parámetros requieren más **memoria** y **potencia computacional**. Conocer cuántos parámetros tiene el modelo te ayuda a entender sus requisitos en cuanto a recursos para entrenamiento y predicción.
   - Esto es clave si estás trabajando con hardware limitado (por ejemplo, GPUs o dispositivos móviles), ya que necesitas equilibrar el tamaño del modelo con el rendimiento.

3. **Mejorar la eficiencia del modelo**:
   - Al conocer los parámetros de cada capa, puedes aplicar técnicas de **regularización** como **Dropout**, **L2 regularization**, o **BatchNormalization** para optimizar el rendimiento y evitar el sobreajuste.
   - Además, puedes decidir si es necesario **reducir el tamaño del modelo** o **añadir más capas** para mejorar su capacidad de generalización.

4. **Evaluar la complejidad del modelo**:
   - Un **modelo más grande** (con más parámetros) generalmente tiene más capacidad para aprender de los datos, pero también puede ser más difícil de entrenar y puede requerir más tiempo de **entrenamiento** y más **épocas** para converger.
   - Saber cuántos parámetros tiene el modelo te ayuda a evaluar si es **demasiado grande o pequeño** para el problema en cuestión.

5. **Compatibilidad entre capas**:
   - Al conocer el número de parámetros, puedes verificar si las capas del modelo están correctamente configuradas para trabajar juntas (por ejemplo, asegurarte de que las dimensiones de las salidas de una capa sean compatibles con las entradas de la siguiente capa).

