**Ejercicio 1**

En este ejercicio se trabajará con **convoluciones**, operaciones fundamentales en procesamiento de imágenes y visión por computadora. Aunque nunca se haya trabajado con imágenes, los conceptos son accesibles para alguien con conocimientos de programación.

---

*¿Qué es una convolución?*


La **convolución** es una operación matemática que permite transformar una imagen para **resaltar ciertas características**, como bordes, esquinas o texturas.  

- Una **imagen** puede considerarse como una **matriz de números**, donde cada número representa la intensidad de un píxel (en blanco y negro) o un color (en imágenes a color). En este caso, vamos a trabajar solo con imágenes en escala de grises, por lo que la imágen es una matriz 2D donde cada pixel es una celda, con un valor entre 0 y 255 que representa su color. 
- Un **kernel** (o filtro) es otra matriz de números, de menor tamaño, que se utiliza para "transformar" la imagen original.  

El procedimiento de la convolución consiste en:

1. Colocar el kernel sobre una sección de la imagen.  
2. Multiplicar cada número del kernel por el número correspondiente de la imagen.  
3. Sumar todos los resultados.  
4. Colocar ese número en la posición central de la imagen de salida.  
5. Repetir el proceso desplazando el kernel sobre toda la imagen.  

En otras palabras, el kernel “desliza” sobre la imagen y calcula **una combinación ponderada de los píxeles vecinos**.  

Puede ver este video corto para entender mejor la operación: [Video de convolución](https://www.youtube.com/shorts/-D5yuIHciO0).

Esta página interactiva muestra cómo moviendo su cursor sobre la imágen, se ve el resultado de aplicar una convolución con cierto kernel a una zona de la imágen: [Setosa](https://setosa.io/ev/image-kernels/)

---

*Matemáticamente*


Sea $I$ la imagen original, con píxeles $p_{fila,columna}$, y $K$ el kernel, con valores $k_{fila,columna}$:

$$
I =
\begin{bmatrix}
p_{0,0} & p_{0,1} & \cdots & p_{0,m} \\
p_{1,0} & p_{1,1} & \cdots & p_{1,m} \\
\vdots & \vdots & \ddots & \vdots \\
p_{n,0} & p_{n,1} & \cdots & p_{n,m}
\end{bmatrix}, \quad
K =
\begin{bmatrix}
k_{0,0} & k_{0,1} & k_{0,2} \\
k_{1,0} & k_{1,1} & k_{1,2} \\
k_{2,0} & k_{2,1} & k_{2,2}
\end{bmatrix}
$$

Se inicia recorriendo cada pixel $p$ de la imagen original, que es equivalente a recorrer una matriz. Para cada pixel primero se verifica si es un borde. Si es un borde, simplemente se ignora la iteración actual. Si no es un borde, se hace la convolución con el kernel para la región con centro en el píxel $p$ en la posición (i,j), es decir $p_{i,j}$. Para ello, se obtiene la submatriz $V$ 3x3, que representa el vecindario de pixeles de  $p_{i,j}$ en la imagen:

$$
V \text{(submatriz 3x3 centrada en } p_{i,j}):
\quad
\begin{bmatrix}
p_{i-1,j-1} & p_{i-1,j} & p_{i-1,j+1} \\
p_{i,j-1} & p_{i,j} & p_{i,j+1} \\
p_{i+1,j-1} & p_{i+1,j} & p_{i+1,j+1}
\end{bmatrix}
$$

La convolución resultante para la posición para esa posición de pixel consiste en: multiplicar cada elemento del vecindario por el elemento correspondiente del kernel, y luego sumar todos los resultados:


\begin{align*}
V * K = \;&
\underbrace{p_{i-1,j-1} k_{0,0}}_{\text{arriba izquierda}} +
\underbrace{p_{i-1,j} k_{0,1}}_{\text{arriba centro}} +
\underbrace{p_{i-1,j+1} k_{0,2}}_{\text{arriba derecha}} \\
& + \underbrace{p_{i,j-1} k_{1,0}}_{\text{medio izquierda}} +
\underbrace{p_{i,j} k_{1,1}}_{\text{centro}} +
\underbrace{p_{i,j+1} k_{1,2}}_{\text{medio derecha}} \\
& + \underbrace{p_{i+1,j-1} k_{2,0}}_{\text{abajo izquierda}} +
\underbrace{p_{i+1,j} k_{2,1}}_{\text{abajo centro}} +
\underbrace{p_{i+1,j+1} k_{2,2}}_{\text{abajo derecha}}
\end{align*}

De manera más compacta, podemos escribir $V * K \text{ como } sum(V \odot K)$ donde $\odot$ indica multiplicación elemento a elemento seguida de la suma de todos los elementos.

Note que:

$$
V \odot K =
\begin{bmatrix}
p_{i-1,j-1} & p_{i-1,j} & p_{i-1,j+1} \\
p_{i,j-1} & p_{i,j} & p_{i,j+1} \\
p_{i+1,j-1} & p_{i+1,j} & p_{i+1,j+1}
\end{bmatrix}
\odot
\begin{bmatrix}
k_{0,0} & k_{0,1} & k_{0,2} \\
k_{1,0} & k_{1,1} & k_{1,2} \\
k_{2,0} & k_{2,1} & k_{2,2}
\end{bmatrix}
$$

$$
= \begin{bmatrix}
p_{i-1,j-1} k_{0,0} & p_{i-1,j} k_{0,1} & p_{i-1,j+1} k_{0,2} \\
p_{i,j-1} k_{1,0} & p_{i,j} k_{1,1} & p_{i,j+1} k_{1,2} \\
p_{i+1,j-1} k_{2,0} & p_{i+1,j} k_{2,1} & p_{i+1,j+1} k_{2,2}
\end{bmatrix}
$$

Finalmente, sumando todos los elementos obtenemos $sum(V \odot K)$:

\begin{align*}
V * K = \;&
\underbrace{p_{i-1,j-1} k_{0,0}}_{\text{arriba izquierda}} +
\underbrace{p_{i-1,j} k_{0,1}}_{\text{arriba centro}} +
\underbrace{p_{i-1,j+1} k_{0,2}}_{\text{arriba derecha}} \\
& + \underbrace{p_{i,j-1} k_{1,0}}_{\text{medio izquierda}} +
\underbrace{p_{i,j} k_{1,1}}_{\text{centro}} +
\underbrace{p_{i,j+1} k_{1,2}}_{\text{medio derecha}} \\
& + \underbrace{p_{i+1,j-1} k_{2,0}}_{\text{abajo izquierda}} +
\underbrace{p_{i+1,j} k_{2,1}}_{\text{abajo centro}} +
\underbrace{p_{i+1,j+1} k_{2,2}}_{\text{abajo derecha}}
\end{align*}


---

*Ejemplo de aplicación*

En los **vehículos autónomos**, las convoluciones se utilizan para detectar objetos, como peatones, automóviles o semáforos.  
- Cada filtro resalta diferentes características (bordes, texturas, colores).  
- Las redes neuronales utilizan estos patrones para interpretar la escena y tomar decisiones.

Puede ver el siguiente video para ver cómo las convoluciones ayudan en la conducción autónoma. Note que cada color separa a una entidad de cierto tipo, como personas, carros, semáforos, vegetación, etc: [Video de conducción autónoma](https://www.youtube.com/shorts/11SVfSAsaHo).


---

*Kernel Sobel vertical*

En este ejercicio se utilizará el **kernel de Sobel vertical**, que permite **detectar bordes verticales**. Su matriz es:

```python
[[-1, 0, 1],
[-2, 0, 2],
[-1, 0, 1]]
```

- Al aplicarlo, las zonas de la imagen con bordes verticales aparecerán más intensas en la imagen resultante.

Este es un ejemplo de aplicar una convolución sobre una imagen, usando el kernel de sobel vertical:


| Imagen original | Después de aplicar convolución con Sobel vertical |
|-----------------|----------------|
| <img src="https://raw.githubusercontent.com/EnriqueVilchezL/principios_de_info/main/10_computacion_numerica/imgs/capybara.png" height="350px"> | <img src="https://raw.githubusercontent.com/EnriqueVilchezL/principios_de_info/main/10_computacion_numerica/imgs/capybara-sobel.png" height="350px"> |

*Pasos del ejercicio*

Abajo se le proporcionan varias funciones ya hechas para:
1. Leer una imagen desde su computadora y cargarla en colab. Puede utilizar esta imagen para probar si su algoritmo está correcto: [Imagen de capybara](https://raw.githubusercontent.com/EnriqueVilchezL/principios_de_info/main/10_computacion_numerica/imgs/capybara.png).
2. Mostrar una imágen.
3. Normalizar una imágen (hay que hacer que los valores de los pixeles resultantes de la convolución estén entre 0 y 255).

Ya hay una celda de código que llama a todas estas funciones en orden para dejarla lista para ser procesada por un algoritmo de convolución.

Existe una función de convolución que debería realizar la convolución entre una imágen y un kernel. Su trabajo es hacer el código que implementa el algoritmo de convolución dentro de esta función.

---

In [None]:
import numpy as np
from PIL import Image
import matplotlib.pyplot as plt
from google.colab import files
import io


def main():
    # Leer la imagen como un np.ndarray
    img = leer_imagen()
    # Mostrar la imagen original
    mostrar_imagen(img, titulo="Imagen original")

    # Aplicar el filtro de Sobel vertical
    kernel_sobel_v = np.array(
        [[-1, 0, 1],
        [-2, 0, 2],
        [-1, 0, 1]]
    )
    # Aplicar la convolución. Esta es la función que debe implementar.
    img_sobel = convolucion2d(img, kernel_sobel_v)
    # Normalizar la imagen resultante
    img_sobel = normalizar(img_sobel)

    # Mostrar la imagen con el filtro aplicado
    mostrar_imagen(img_sobel, "Sobel vertical")
    
def leer_imagen() -> np.ndarray:
    """
    Permite al usuario subir una imagen desde su computadora en Colab y la retorna como un arreglo numpy en escala de grises.

    Returns:
        np.ndarray: Arreglo numpy que representa la imagen en escala de grises.
    """
    uploaded = files.upload()
    if not uploaded:
        print("No se subió ninguna imagen.")
        return None
    file_name = next(iter(uploaded))
    img = Image.open(io.BytesIO(uploaded[file_name])).convert('L')  # Escala de grises
    return np.array(img)

def mostrar_imagen(img: np.ndarray, titulo="Imagen") -> None:
    """
    Muestra una imagen en formato numpy usando matplotlib.

    Args:
        img (np.ndarray): Arreglo numpy que representa la imagen.
        titulo (str): Título de la imagen.

    Returns:
        None
    """
    plt.imshow(img, cmap='gray')
    plt.title(titulo)
    plt.axis('off')
    plt.show()

def normalizar(img: np.ndarray) -> np.ndarray:
    """
    Normaliza los valores de una imagen para que estén en el rango [0, 255].

    Args:
        img (np.ndarray): Arreglo numpy que representa la imagen.

    Returns:
        np.ndarray: Imagen normalizada con valores en el rango [0, 255].
    """
    img_abs = np.abs(img)
    img_norm = (img_abs / img_abs.max()) * 255
    img_norm = img_norm.astype(np.uint8)
    return img_norm

def convolucion2d(imagen: np.ndarray, kernel: np.ndarray) -> np.ndarray:
    """
    Aplica la convolución 2D entre una imagen y un kernel.
    El algoritmo básico es el siguiente:
    1. Crear un arreglo de ceros con las mismas dimensiones que la imagen para almacenar el resultado
    2. Recorrer cada pixel de la imagen (recorrer una matriz 2D) con dos ciclos for. Para cada pixel en la posición (i, j):
        a. Verificar si el pixel es un borde o no
            - Si es un borde, se ignora la iteración
            - Si no es un borde:
                - Obtener y almacenar en una variable una submatriz 3x3, que sea la region de pixeles vecinos del pixel actual, con el pixel actual siendo el centro de la matriz. Para ello, utilice operaciones de slicing en numpy.
                - Multiplicar la region por el kernel (3x3), lo que resulta en una matriz 3x3.
                - Sumar todos los elementos de la matriz 3x3 resultante y asignar el valor de la suma al pixel en la posición (i, j) del arreglo de ceros creado en el paso 2.
    
    Args:
        imagen (np.ndarray): numpy array 2D (imagen en escala de grises)
        kernel (np.ndarray): numpy array 2D (kernel de convolución)
    Returns:
        np.ndarray: Imagen resultante de la convolución.
    """
    # Acá su código

main()