# 2. Fundamentos de imágenes digitales

## 2.1. Elementos de la percepción visual

Aunque el campo de procesamiento de imágenes está construido en fundamentos matemáticos, el análisis y la intuición humana muchas veces juegan un papel en la selección de una técnica contra otra.

Por ello, entender las características básicas de la percepción humana es un primer paso en nuestra jornada hacia el procesamiento de imágenes.


### Estructura del ojo humano

La retina cuenta con dos tipos de receptores: conos y bastones

Hay entre 6 y 7 millones de conos en cada ojo. Se encuentran localizados principalmente en la porción central de la retina, llamada fovea, y que es altamente sensible al color

Los humanos podemos resolver detalles finos debido a que cada cono está conectado a su propia terminal nerviosa

La visión proporcionada por los conos es llamada fotópica o visión de luz brillante

Contamos con un número mucho más grande de bastones, entre 75 y 150 millones se encuentran distribuidos en la retina


![Estructura del ojo humano](figs/ojo.png)

![Conos y bastones](figs/conos_bastones.png)

### Formación de la imagen en el ojo humano

![Visión humana](figs/formacion.png)

## 2.2. La luz y el espectro electromagnético

En 1666, Sir Isaac Newton descubrió que cuando un rayo de luz solar pasa a través de un prisma de vidrio, el rayo de luz que emerge no es blanco sino que consiste en un espectro continuo de colores que van desde el violeta en un extremo hasta el rojo en el otro.

La gama de colores que percibimos en la luz visible es una pequeña porción del espectro electromagnético. 

En un extremo del espectro están las ondas de radio con longitudes de onda miles de millones de veces más largas que las de la luz visible. En el otro extremo del espectro se encuentran los rayos gamma con longitudes de onda millones de veces más pequeñas que las de la luz visible.

![Expectro](figs/espectro.png)

$$ \lambda = \frac{c}{f}$$

- $\lambda$ es la longitud de onda (m)
- $c$ es la velocidad de la luz ($2.998×10^8$ m/s)
- $f$ es la frecuencia (Hz)


$$ E = hf $$

- $E$ es la energía (eV)
- $h$ es la constante de Planck ($6.626174×10^{−27}$)


## 2.3. Adquisición y sensado de imagen

### Sensores

Sensor simple y sensor lineal

![Sensores 1](figs/sensores_1.png)



Matriz de sensores

![Sensores 2](figs/sensores_2.png)

Sensor rotativo

![Sensores 3](figs/sensores_3.png)

### Arreglos de sensores

![Arreglos de sensores](figs/arreglos.png)

### Modelo simple para la formación de imágenes

$$ f(x,y) = i(x,y) r(x,y)$$

- $ 0 \leq f(x,y) < \infty$
- $ x,y $ son coordenadas en el espacio de la imagen
- $ 0 \leq i(x,y) < \infty$ es la función de iluminación, determinada por la fuente de iluminación
- $ 0 \leq r(x,y) \leq 1 $ es la función de reflectancia, determinada por las características del objeto

$$ \ell = f(x,y) $$

- $ L_{min} \leq \ell \leq L_{max} $
    * $ L_{min} = i_{min} r_{min} $ es NO negativa
    * $ L_{max} = i_{max} r_{max} $ es finita

## 2.4. Cuantización y muestreo de imágenes

* La salida de la mayoría de los sensores es un voltaje contino cuya amplitud y comportamiento espacial están relacionados con el fenómeno físico que está sensando.

* Para crear una imagen digital, necesitamos convertir los datos continuos en un formato digital. 

* Esto requiere dos procesos: muestreo y cuantización.


![Aspectos básicos](figs/aspectos_basicos.png)

### Resolución espacial

* Depende de la frecuencia de muestreo. 

* Es el número de elementos por unidad de longitud.


### Resolución espectral

* Depende de la cantidad de niveles de cuantización. 

* Es el número máximo de niveles posible que puede tener cada elemento en una imagen una vez digitalizada.


Resolución espacial y espectral

![Resolución espacial y espectral](figs/resoluciones.png)

### Representación de imágenes digitales

* El resultado del muestreo y la cuantización es una matriz de números reales. 

* Los valores de las coordenadas de origen son (𝑥,𝑦)=(0,0). 

* Los siguientes valores a lo largo de la primera fila son: (𝑥,𝑦)=(0,1);(0,2);(0,3);…

* Éstos no son valores reales de las coordenadas físicas cuando la imagen fue muestreada, sino los de la segunda (tercera, cuarta) muestra a lo largo de la primera fila. 


* De acuerdo a esta mutación, en el caso de una imagen de M filas y columnas, la imagen digital se puede representar como sigue:

\begin{equation}
f(x,y) = 
\begin{bmatrix}
f(0,0) & f(0,1) & \cdots & f(0,N-1)\\
f(1,0) & f(1,1) & \cdots & f(1,N-1)\\
\vdots & \vdots &        & \vdots \\
f(M-1,0) & f(M-1,1) & \cdots & f(M,N-1)
\end{bmatrix}
\end{equation}

* Otra forma de representar el modelo es a través de una matriz

\begin{equation}
A = 
\begin{bmatrix}
a_{0,0} & a_{0,1} & \cdots & a_{0,N-1}\\
a_{1,0} & a_{1,1} & \cdots & a_{1,N-1}\\
\vdots & \vdots &        & \vdots \\
a_{M-1,0} & a_{M-1,1} & \cdots & a_{M,N-1}
\end{bmatrix}
\end{equation}

![Representación de imágenes digitales](figs/representacion.png)

![Elementos de representación](figs/representaciones_2.png)

* Los niveles de quantización permitidos para cada pixel se representan por el número entero 𝐿. 

* Normalmente, con fines de facilitar el procesamiento, el almacenamiento y el muestreo, este número es, típicamente, una potencia de 2, es decir: 
    * $𝐿=2^k$


* 𝑘 es el número de bits que se emplearán en la representación de los niveles
* que representa valores igualmente espaciados y enteros en el intervalo $[0,𝐿−1]$


* Sea $I_(M \times N)$ una imagen de $M$ filas y $N$ columnas
* Entonces, el número de bits necesarios para almacenar dicha imagen es

    * $ b = MNk $
    * $ b = kN^2 $ si $ M=N$



<img src='figs/grafica_bytes.png' width=800>

### Indexado lineal contra coordenadas

La convención en la que la ubicación de un píxel está dada por sus coordenadas bidimensionales, se conoce como indexación de coordenadas o indexación de subíndices. 

Otro tipo de indexación que se utiliza ampliamente en la programación de algoritmos de procesamiento de imágenes es la indexación lineal, que consiste en una cadena unidimensional de números enteros no negativos basada en el cálculo de compensaciones de las coordenadas (0, 0). 

Hay dos tipos principales de indexación lineal, uno se basa en un escaneo de filas de una imagen y el otro en un escaneo de columnas.

La idea es escanear una imagen columna por columna, comenzando en el origen y avanzando hacia abajo y luego hacia la derecha. El índice lineal se basa en contar píxeles a medida que escaneamos la imagen como se muestra en la figura

<img src='figs/linear_index.png' width=800>

La fórmula para generar índices lineales basados en un escaneo de columnas es sencilla y puede determinarse mediante inspección. Para cualquier par de coordenadas (x, y), el valor del índice lineal correspondiente es:

\begin{equation}
    \begin{matrix}
        \alpha = My+x \\
        x = \alpha \mod M \\
        y = \frac{( \alpha - x )}{M}
    \end{matrix}

\end{equation}

### Resolución espacial e intensidad

Intuitivamente, la resolución espacial es la medida de lo más pequeño que se puede describir en una imagen. Cuantitativamente, la resolución espacial puede ser definida de varias formas: con *pares de líneas por unidad de distancia*, y *puntos por unidad de distancia* son los más comunes.

<img src='figs/spatial_res.png' width=800>

La resolución de intensidad se refiere de manera similar al cambio más pequeño discernible en el nivel de intensidad. 

Según consideraciones de hardware, el número de niveles de intensidad suele ser una potencia entera de dos. El número más común es de 8 bits, aunque se utilizan 16 bits en algunas aplicaciones en las que es necesario mejorar rangos de intensidad específicos. La cuantificación de intensidad utilizando 32 bits es poco común.

<img width=800 src='figs/intensity_res2.png'>

A diferencia de la resolución espacial, que debe basarse en una base por unidad de distancia para que sea significativa, es una práctica común referirse al número de bits utilizados para cuantificar la intensidad como “resolución de intensidad”. 

Por ejemplo, es común decir que una imagen cuya intensidad está cuantificada en 256 niveles tiene 8 bits de resolución de intensidad. Sin embargo, tenga en cuenta que los cambios discernibles de intensidad también están influenciados por los valores de ruido y saturación, y por las capacidades de la percepción humana para analizar e interpretar detalles en el contexto de una escena completa. 

### Interpolación de imágenes

La interpolación se utiliza en tareas como hacer zoom, reducir, rotar y corregir geométricamente imágenes digitales. Por ahora la aplicaremos al cambio de tamaño de imágenes (reducción y zoom), que son básicamente métodos de remuestreo de imágenes. 

La interpolación es el proceso de utilizar datos conocidos para estimar valores en ubicaciones desconocidas. 

* Supongamos que una imagen de tamaño 500 * 500 píxeles debe ampliarse 1,5 veces a 750 * 750 píxeles. 

    * Una forma sencilla de visualizar el zoom es crear una cuadrícula imaginaria de 750 * 750 con el mismo espaciado de píxeles que la imagen original y luego reducirla para que se superponga exactamente a la imagen original. 
    * Obviamente, el espacio entre píxeles en la cuadrícula reducida de 750 * 750 será menor que el espacio entre píxeles en la imagen original. 
    * Para asignar un valor de intensidad a cualquier punto de la superposición, buscamos su píxel más cercano en la imagen original subyacente y asignamos la intensidad de ese píxel al nuevo píxel en la cuadrícula de 750 * 750. 
    * Cuando se han asignado intensidades a todos los puntos en la cuadrícula superpuesta, la expandimos nuevamente al tamaño especificado para obtener la imagen redimensionada.



Este método se llama interpolación del vecino más cercano, porque asigna a cada nueva ubicación la intensidad de su vecino más cercano en la imagen original. Este enfoque es simple pero tiende a producir artefactos indeseables, como una distorsión severa de los bordes rectos. 

Un enfoque más adecuado es la interpolación bilineal, en la que utilizamos los cuatro vecinos más cercanos para estimar la intensidad en una ubicación determinada. 

El siguiente nivel de complejidad es la interpolación bicúbica, que involucra a los dieciséis vecinos más cercanos de un punto.

<img width=800 src='figs/interpolation1.png'>

## 2.5. Relaciones básicas entre pixeles

### Vecinos de un pixel

Un pixel $p$ en las coordenadas $(x,y)$ tiene dos vecinos horizontales y dos vecinos verticales con coordenadas:

$$
N_4(p) = \{(x+1,y),(x-1,y),(x,y+1),(x,y-1)\}
$$

A este conjunto de pixeles se le llama el conjunto de 4-vecinos de $p$, y se denota por $N_4(p)$

Pero tiene otros cuatro vecinos diagonales, denotado $N_D(p)$:

$$
N_D(p) = {(x+1,y+1),(x-1,y-1),(x-1,y+1),(x+1,y-1)}
$$

Estos vecinos, junto con los otros cuatro, se llaman los 8-vecinos de $p$, denotado por:

$$
N_8(p) = N_4(p) \cup N_D(p)
$$

El conjunto de ubicaciones de imágenes de los vecinos de un punto $p$ se llama vecindad de $p$. Se dice que el vecindario está cerrado si contiene a $p$. De lo contrario, se dice que el vecindario está abierto.

### Adyacencia, conectividad, regiones y límites

#### Adyacencia

Sea $V$ El conjunto de valores de intensidad utilizados para definir la adyacencia. Por ejemplo, en una imagen binaria $V=\{ 1 \}$

* 4-adyacencia: $p$ y $q$ son 4-adyacentes si $q \in N_4(p)$ 
* 8-adyacencia: $p$ y $q$ son 4-adyacentes si $q \in N_8(p)$ 
* m-adyacencia (también llamada adyacencia mixta): $p$ y $q$ son m-adyacentes si:
    * $ q \in N_4(p) $ o
    * $ q \in N_D(p) $ y $ N_4(p) \cap N_4(q) $ no tienen pixeles con valores en $V$

#### Conectividad

Un camino (o curva) del pixel $p$ con coordenadas $(x_0, y_0)$, al pixel $q$ con coordenadas $(x_n, y_n)$, es una secuencia de pixeles distintos con coordenadas

$$
(x_0,y_0),(x_1,y_1),\dots,(x_n,y_n)
$$

dónde los puntos $(x_i, y_i)$ y $(x_{i-1}, y_{i-1})$ son adyacentes para $ 1\leq i \leq n$. Donde $n$ es la longitud de el camino.

Si $(x_0, y_0)=(x_n, y_n)$ el camino es un *camino cerrado*.

Se pueden definir $4$, $8$ o $m$-caminos, dependiendo del tipo de adyacencia que se utilice.

Sea $S$ un subconjunto de píxeles de una imagen. Se dice que dos píxeles $p,q \in S$ están conectados en $S$ si existe un camino entre ellos que consta enteramente de píxeles en $S$. 

Para cualquier píxel $p \in S$, el conjunto de píxeles que están conectados a él en $S$ se denomina componente conectado de $S$. Si solo tiene un componente y ese componente es conexo, entonces $S$ se llama conjunto conexo.

#### Regiones

Sea $R$ un subconjunto de píxeles de una imagen. Llamamos a $R$ una región de la imagen si $R$ es un conjunto conexo. 

* Dos regiones $R_i$ y $R_j$ son adyacentes si su unión forma un conjunto conexo. 
* Las regiones que no son adyacentes son disjuntas. 
* Consideramos las 4 y 8 adyacencias cuando nos referimos a regiones. 

Supongamos que una imagen contiene $K$ regiones disjuntas, $R_k,k =1,2,...,K$, ninguna de las cuales toca el borde de la imagen. Sea $R_u$ la unión de todas las $K$ regiones, y sea $(R_u )^c$ su complemento. 

* Llamamos a todos los puntos en $R_u$ primer plano (*foreground*) y 
* a todos los puntos en $(R_u)^c$ el fondo de la imagen (*background*).

#### Límites

El límite (también llamado borde o contorno) de una región $R$ es el conjunto de píxeles en $R$ que son adyacentes a píxeles en el complemento de $R$. 

Dicho de otra manera, el borde de una región es el conjunto de píxeles en la región que debe tener al menos un vecino del fondo. 

La definición anterior define el borde interior de la región para distinguirla de su borde exterior, que es el borde correspondiente en el fondo. 


Si $R$ resulta ser la imagen completa, entonces su límite (o borde) se define como el conjunto de píxeles en la primera y última fila y columna de la imagen. 

Esta definición adicional es necesaria porque una imagen no tiene vecinos más allá de su borde. 

Normalmente, cuando nos referimos a una región, nos referimos a un subconjunto de una imagen, y cualquier píxel en el límite de la región que coincida con el borde de la imagen se incluye implícitamente como parte del límite de la región.

### Medidas de distancia

Para los pixeles $p$, $q$ y $S$, con coordenadas $(x,y)$, $(u,v)$ y $(w,z)$ respectivamente; $D$ es una *función de distancia* o *métrica* si 

* $D(p,q) \geq 0 $ - *no negatividad*
* $D(p,q) = D(q,p) $ - *simetria*
* $ D(p,s) \leq D(p,q) + D(q,s) $ - *inequidad del triángulo*

#### Distancia euclidiana

$$
D_e(p,q) = \sqrt{ (x-u)^2 + (y-v)^2}
$$

Para esta medida de distancia, los píxeles que tienen una distancia menor o igual a algún valor $r$ desde $(x, y)$ son los puntos contenidos en un disco de radio $r$ centrado en $(x, y)$.

#### Distancia $D_4$

También llamada distancia *city-block*, está definida como:

$$
D_4(p,q) = |x-u| + |y-v|
$$

En este caso, los píxeles que tienen una distancia $D_4$ desde $(x, y)$ que es menor o igual a algún forma de diamante valorada centrada en $(x,y)$. Por ejemplo, los píxeles con una distancia $D_4 \leq 2$ desde $(x, y)$ (el punto central) forman lo siguiente contornos de distancia constante:

$$
\begin{matrix}
  &   & 2 &   &   \\
  & 2 & 1 & 2 &   \\
2 & 1 & 0 & 1 & 2 \\  
  & 2 & 1 & 2 &   \\
  &   & 2 &   &   
\end{matrix}
$$

#### Distancia $D_8$

También llamada distancia *chessboard*, esta definida como:

$$
D_8(p,q) = \max (|x-u|,|y-v|)
$$

En este caso, los píxeles con una distancia $D_8$ desde $(x, y)$ menor o igual a algún valor $d$ forman un cuadrado centrado en $(x, y)$. Por ejemplo, los píxeles con distancia $D_8 \leq 2$ forman los siguientes contornos de distancia constante:

$$
\begin{matrix}
2 & 2 & 2 & 2 & 2 \\
2 & 1 & 1 & 1 & 2 \\ 
2 & 1 & 0 & 1 & 2 \\  
2 & 1 & 1 & 1 & 2 \\ 
2 & 2 & 2 & 2 & 2 \\ 
\end{matrix}
$$

Tenga en cuenta que las distancias $D_4$ y $D_8$ entre $p$ y $q$ son independientes de cualquier camino que pueda existir entre estos puntos porque estas distancias involucran solo las coordenadas de los puntos.

## 2.6. Introducción a las herramientas matemáticas básicas utilizadas en el procesamiento de imágenes

### Operaciones por elemento y matriciales

Las operaciones por elementos que involucra una o más imágenes se lleva a cabo píxel por píxel. 

Anteriormente mencionamos que las imágenes pueden verse de manera equivalente como matrices. De hecho, como verá más adelante en esta sección, hay muchas situaciones en las que las operaciones entre imágenes se llevan a cabo utilizando la teoría de matrices. 

Es por esta razón que se debe hacer una clara distinción entre operaciones por elementos y matriciales. Por ejemplo, considere las siguientes imágenes (matrices) de $2 \times 2$:

$$
\begin{matrix}
    \begin{bmatrix}
    a_{11} & a_{12} \\
    a_{21} & a_{22}
    \end{bmatrix} 
    & y &
    \begin{bmatrix}
    b_{11} & b_{12} \\
    b_{21} & b_{22}
    \end{bmatrix}
\end{matrix}
$$

El producto por elemento (denotado por $\odot$ o por $\otimes$) será

$$
\begin{bmatrix}
    a_{11} & a_{12} \\
    a_{21} & a_{22}
\end{bmatrix} \odot
\begin{bmatrix}
    b_{11} & b_{12} \\
    b_{21} & b_{22}
\end{bmatrix} = 
\begin{bmatrix}
    a_{11}b_{11} & a_{12}b_{12} \\
    a_{21}b_{21} & a_{22}b_{22}
\end{bmatrix}
$$

Por otro lado el *producto matriz* de las imágenes se obtiene utilizando las reglas de la multiplicación de matrices

$$
\begin{bmatrix}
    a_{11} & a_{12} \\
    a_{21} & a_{22}
\end{bmatrix} 
\begin{bmatrix}
    b_{11} & b_{12} \\
    b_{21} & b_{22}
\end{bmatrix} = 
\begin{bmatrix}
    a_{11}b_{11} + a_{12}b_{21} & a_{11}b_{12} + a_{12}b_{22} \\
    a_{21}b_{11} + a_{22}b_{21} & a_{21}b_{12} + a_{22}b_{22}
\end{bmatrix}
$$

### Operaciones lineales vs no lineales

Una de las clasificaciones más importantes de un método de procesamiento de imágenes es si es lineal o no lineal. Considere un operador general, $\mathcal{H}$, que produce una imagen de salida, $g(x, y)$, a partir de una imagen de entrada dada, $f (x, y)$:

$$
\mathcal{H}[f(x,y)] = g(x,y)
$$

Dadas dos constantes arbitrarias, $a$ y $b$, y dos imágenes arbitrarias $f_1 (x, y)$ y $f_2 (x, y)$, Se dice que $\mathcal{H}$ es un operador lineal si

$$
\mathcal{H}[ af_1(x,y) + bf_2(x,y)] = a\mathcal{H}[f_1(x,y)] + b\mathcal{H}[f_2(x,y)] = ag_1(x,y) + bg_2(x,y) 
$$


Esta ecuación indica que el resultado de una operación lineal aplicada a la suma de dos entradas es lo mismo que realizar la operación individualmente en las entradas y luego sumar los resultados. 

Además, el resultado de una operación lineal sobre una constante multiplicada por una entrada es el mismo que el resultado de la operación debido a la entrada original multiplicada por esa constante. 

La primera propiedad se llama propiedad de aditividad y la segunda se llama propiedad de homogeneidad.

Por definición, si un operador falla en satisfacer la ecuación anterior, se dice que es *no lineal*.

Como ejemplo, supongamos que $\mathcal{H}$ es el operador sumatorio $\sum$.

Para probar su linealidad comenzamos describiendo el lado izquierdo de la ecuación anterior, para tratar de demostrar que es igual a la parte de la derecha.

$$
\sum {[af_1(x,y) + bf_2(x,y)]} = \sum{af_1(x,y)} + \sum{bf_2(x,y)} \\
= a\sum{f_1(x,y)} + b\sum{f_2(x,y)} = ag_1(x,y) + bg_2(x,y)
$$

Ahora probemos cuando $\mathcal{H}$ es la operación $\max$. Para ello lo haremos con un pequeño ejemplo. Considere las dos imagenes

$$
\begin{matrix}
    f_1 = 
    \begin{bmatrix}
    0 & 2 \\
    2 & 3
    \end{bmatrix} 
    & y &
    f_2 =
    \begin{bmatrix}
    6 & 5 \\
    4 & 7
    \end{bmatrix}
\end{matrix}
$$



y supongamos que $a = 1$ y $b = -1$. Para verificar la linealidad, calculamos el lado izquierdo de la ecuación

$$
\max \left\{
    (1)
    \begin{bmatrix}
        0 & 2 \\
        2 & 3
    \end{bmatrix} + (-1)
    \begin{bmatrix}
        6 & 5 \\
        4 & 7
    \end{bmatrix} 
\right\} = 
\max \left\{
\begin{bmatrix}
    -6 & -3 \\
    -2 & -4
\end{bmatrix}
\right\} = -2
$$