# Minitutorial para inicar a usar OpenCV con la interfaz de Python

*© 2023- F.J. Madrid Cuevas (fjmadrid@uco.es). Universidad de Córdoba. España.*

Versiones:
* 1.0 25/9/2023
    - versión inicial.
* 1.1 26/9/2023
    - Añadida relación de versiones.
    - Mejorado ejemplo de captura de vídeo para salir pulsando 'ESC'.
    - Añadidas enlaces a la documentación de funciones.

## Cargar el módulo OpenCV

Lo primero que tienes que hacer antes que nada es cargar el módulo OpenCV.

In [48]:
import cv2 as cv

Puede ocurrir que de un error del tipo "módulo no encontrado". Para solucionar esto, primero deberemos instalar el módulo en nuestro sistema de la forma siguiente (se supone que tienes ubuntu, si tienes otra distribución o Windows adaptalo a tu sistema): 

`apt install python3-opencv`

Vuelve a ejecutar el cuaderno desde el principio.

Es interesante saber la versión de opencv instalada para consultar la documentación. Podemos visualizar la versión de la forma siguiente:

In [49]:
print(cv.__version__)

4.5.1


## Visualizar una imagen

### Cargar la imagen desde un fichero

Para visualizar una imagen, primero tendremos que obtenerla, por ejemplo cargándola desde un fichero gráfico. Para ello utilizamos la función [`cv.imread()`](https://docs.opencv.org/4.5.5/d4/da8/group__imgcodecs.html#ga288b8b3da0892bd651fce07b3bbd3a56). Lee su documentación para ver qué parámetros tiene. Nosotros vamos a cargar la imagen tal y como está en el archivo gráfico.

In [50]:
img = cv.imread('avion.png', cv.IMREAD_ANYCOLOR)

Puedes comprobar si la imagen no pudo ser cargada por algún error de la forma siguiente:

In [51]:
if img is None:
    print('Error: la imagen no pudo ser carga')

### Obtener información de la representación de la imagen

Recuerda que la interfaz para C++, la función `cv::imread` devuelve un objeto de la clase [`cv::Mat`](https://docs.opencv.org/4.5.5/d3/d63/classcv_1_1Mat.html), mientras que la interfaz de python devuelve un objeto de la clase [`np.ndarray`](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.html) del módulo python Numpy.

Esta representa una de las pocas (aunque esta es importante) diferencias entre la interfaz C++ y Python y tendremos que aprender a adaptar las operaciones que usen métodos y atributos de la clase c++ `cv::Mat` a la clase Python `ndarray`.

Por ejemplo, la clase cv::Mat tienes dos atributos `rows` y `cols` y el método `type` para saber cómo está codificada la imagen mientras que la clase numpy.ndarray usaremos los atributos `shape` y `dtype`.

In [52]:
print("Tamaño y canales de la imagen: ", img.shape)
print("Tipo de los valores: ", img.dtype)

Tamaño y canales de la imagen:  (321, 481)
Tipo de los valores:  uint8


Vemos que la imagen tiene 321 filas y 481 valores con un canal (si no se indica canales se asume 1.) mientras que el tipo de los valores es entero sin signo de 8 bits (byte).

Vamos a cargar ahora una imagen en color.

In [53]:
img = cv.imread('ciclista_original.jpg', cv.IMREAD_ANYCOLOR)

Veamos información sobre su representación:

In [54]:
print("Tamaño y canales de la imagen: ", img.shape)
print("Tipo de los valores: ", img.dtype)

Tamaño y canales de la imagen:  (418, 556, 3)
Tipo de los valores:  uint8


Observa ahora como la imagen tiene 3 canales (RGB).

### Visualizar la imagen

Podemos usar la interfaz gráfica proporcionada por opencv para visualizar la imagen.

El primer paso será crear una ventana. Para ello usaremos la interfaz [`cv.namedWindow`](https://docs.opencv.org/4.5.5/d7/dfc/group__highgui.html#ga5afdf8410934fd099df85c75b2e0888b). Lee su documentación para ver qué parámetros puedes usar.

In [55]:
cv.namedWindow('IMG')

Lo siguiente será usar la función [`cv.imshow`](https://docs.opencv.org/4.5.5/d7/dfc/group__highgui.html#ga453d42fe4cb60e5723281a89973ee563) para visualizar la imagen en la ventana

In [56]:
cv.imshow('IMG', img)

Ya sabes que la información gráfica sólo se actualiza cuando se llama a la función [`cv.waitKey`](https://docs.opencv.org/4.5.5/d7/dfc/group__highgui.html#ga5628525ad33f52eab17feebcfba38bd7) que espera hasta que pulsemos una tecla.

In [57]:
key = cv.waitKey(0) & 0xff
print('Pulsada la tecla', key)

Pulsada la tecla 27


Ahora podemos cerrar la ventana con la función [`cv::destroyWindow`](https://docs.opencv.org/4.5.5/d7/dfc/group__highgui.html#ga851ccdd6961022d1d5b4c4f255dbab34)

In [58]:
cv.destroyWindow('IMG')

## Visualizar una fuente de vídeo

### Cargar un video desde un fichero

Al igual que la interfaz C++, la interfaz Python de opencv también ofrece la clase [`cv.VideoCapture`](https://docs.opencv.org/4.5.5/d8/dfe/classcv_1_1VideoCapture.html). Vamos cargar una fuente de vídeo desde un fichero.

In [59]:
cap = cv.VideoCapture('./campus_000_002.avi')
if not cap.isOpened():
    print('Error: no puede abrir el fichero de vídeo.')

En ese caso utilizamos un fichero, pero podemos indicar usando un número entero una cámara conectada a nuestro equipo.

### Capturar una imagen desde la fuente de vídeo

Para capturar una imagen desde la fuente de video usaremos el método [`VideoCapture.read`](https://docs.opencv.org/4.5.5/d8/dfe/classcv_1_1VideoCapture.html#a473055e77dd7faa4d26d686226b292c1). Este método devuelve dos valores: un valor lógico indicándo si se pudo capturar y la imagen capturada.

In [60]:
was_ok, img = cap.read()
if not was_ok:
    print("Error: no puede leer imágenes del fichero.")

Vamos a visualizar la imagen capturada:

In [61]:
cv.namedWindow('VIDEO')
cv.imshow('VIDEO', img)
cv.waitKey(0)

27

Vamos a visualizar el resto de imágenes del vídeo. Para ello usaremos un bucle `while` hasta que no se capturen más imágenes (el video terminó) o se pulse la tecla 'ESC'. Recuerda que `cv.waitKey` retorna el código ascci en los 8 bits menos significativos y por eso se enmascaran con `0xff`.

In [62]:
key = 0
while was_ok and key != 27:
    cv.imshow('VIDEO', img)
    key = cv.waitKey(33) & 0xff #33 miliseconds approx 30 FPS
    was_ok, img = cap.read()
cv.destroyWindow('VIDEO')
cv.waitKey(10)

-1

## Obtener estadísticos de la image

### Acceder a los pixeles de la imagen

Podemos acceder a los valores (de los píxeles) de imagen. Recuerda que en python usamos objetos de la clase `numpy.ndarray` y por tanto debemos utilizar sus métodos para acceder a los valores.

 Por ejemplo vamos a leer el valor del pixel central de una imagen. Para ello cargamos la imagen y con el atributo `shape` del objeto `ndarray` que obtenemos al cargar la imagen podemos calcular las coordenadas $(x,y)$ del pixel central.

In [63]:
img = cv.imread('./ciclista_original.jpg')
y_center = img.shape[0] // 2
x_center = img.shape[1] // 2
print("El pixel central tiene los valores: ", img[y_center,x_center])

El pixel central tiene los valores:  [145 127   0]


Observa que obtenemos tres valores lo que indica que la imagen está en color.

Podemos obtener todos los píxeles de la fila `y_central`

In [64]:
print('Fila central', img[y_center])

Fila central [[103 173 233]
 [102 171 228]
 [104 170 221]
 ...
 [ 11  26  29]
 [ 23  35  41]
 [ 31  41  48]]


o todos los píxeles de la columna central:

In [65]:
print('Columna central: ', img[:, x_center])

Columna central:  [[232 202 167]
 [233 203 168]
 [232 204 170]
 ...
 [158 213 234]
 [166 217 237]
 [167 217 237]]


o los valores de una región 3x3 centrada en el pixel central

In [66]:
print('Valores 3x3 centrales: ', img[y_center-1:y_center+2, x_center-1:x_center+2])

Valores 3x3 centrales:  [[[149 128  19]
  [148 132   0]
  [148 134   0]]

 [[138 117   2]
  [145 127   0]
  [149 135   0]]

 [[137 119   0]
  [152 132   7]
  [148 132   2]]]


o los valores del canal 0:

In [67]:
print('Canal 0', img[:,:,0])

Canal 0 [[241 241 243 ... 229 229 229]
 [241 241 243 ... 229 229 229]
 [239 239 241 ... 229 229 229]
 ...
 [ 19  51  31 ... 122 131 143]
 [ 73  23   1 ... 111 139 159]
 [ 22   0   2 ... 111 137 160]]


### Recorrer una imagen

Podemos recorrer una imagen por filas y por columnas para procesarla. En nuestro caso vamos a calcular la media y la varianza del canal 0.

In [68]:
m = 0.0
import numpy as np
dev = 0.0
for y in range(img.shape[0]):
    for x in range(img.shape[1]):
        v = float(img[y, x, 0]) #Observa que solo queremos el canal 0.
        m += v
        dev += v*v
m = m / (img.shape[0]*img.shape[1])
dev = np.sqrt(dev / (img.shape[0]*img.shape[1]) - m*m)
print('La media es: ', m)
print('La desviación es: ', dev)

La media es:  96.62623059447179
La desviación es:  80.94120284086333


### Código vectorizado

Al igual que ocurre con C++, si es posible vamos a no utilizar recorridos de la imagen y utilizar funciones de opencv aplicadas sobre las imágenes. También podemos utilizar las funciones que la librería `numpy` proporciona para procesar un `ndarray`.

Vamos a calcular la media y desviación con opencv. Para ello vamos a utilizar la función [`cv.sumElems`](https://docs.opencv.org/4.5.5/d2/de8/group__core__array.html#ga716e10a2dd9e228e4d3c95818f106722) que devuelve la suma de todos los valores por canal. Para sumar los valores al cuadrado, multiplicamos la imagen por sí misma con la función [`cv.multiply`](https://docs.opencv.org/4.5.5/d2/de8/group__core__array.html#ga979d898a58d7f61c53003e162e7ad89f), pero en convirtiéndola a flotante para impedir la saturación de valores bytes. Para esto usamos el método [`ndarray.astype()`](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.astype.html).

In [69]:
m = cv.sumElems(img)[0]
dev = cv.sumElems(cv.multiply(img.astype(np.float32), img.astype(np.float32)))[0]
# Observa que convertimos a formato float para evitar overflow al multiplicar
# byte * byte
m = m / (img.shape[0]*img.shape[1])
dev = np.sqrt(dev / (img.shape[0]*img.shape[1]) - m*m)
print('La media es: ', m)
print('La desviación es: ', dev)

La media es:  96.62623059447179
La desviación es:  80.94120284086333


o mejor aún, utilizar la función opencv [`meanStDev`](https://docs.opencv.org/4.5.5/d2/de8/group__core__array.html#ga846c858f4004d59493d7c6a4354b301d) que calcula la media y la desviación por canal (nostros queremos los valores del canal 0).

In [70]:
m, dev = cv.meanStdDev(img)
print('La media es: ', m[0])
print('La desviación es: ', dev[0])

La media es:  [96.62623059]
La desviación es:  [80.94120284]


## Buscar los valores máximo y mínimo y su localización en una imagen

Te dejo como ejercicio implementar dos formas de obtener de buscar la primera ocurrencia de los valores máximos y mínimos en una imagen. Para simplificar asume que la imagen solo tiene un canal.

### Versión 1. Recorriendo la imagen por filas y columnas

In [71]:
min_v = 0
min_loc =  (0, 0) #esto es una tupla con dos valores x,y
max_v = 0
max_loc = (0, 0) #esto es una tupla con dos valores x,y

img = cv.imread('avion.png', cv.IMREAD_ANYCOLOR)

# Pon aquí tu código.
#


#

print(f'Valor mínimo {min_v} localizado en {min_loc}')
print(f'Valor máximo {max_v} localizado en {max_loc}')


Valor mínimo 0 localizado en (0, 0)
Valor máximo 0 localizado en (0, 0)


### Versión 2. Usando código vectorizado

In [72]:
min_v = 0
min_loc =  (0, 0) #esto es una tupla con dos valores x,y
max_v = 0
max_loc = (0, 0) #esto es una tupla con dos valores x,y

img = cv.imread('avion.png', cv.IMREAD_ANYCOLOR)

# Pon aquí tu código.
# Sugerencia: utiliza la función cv.minMaxLoc de opencv.


#

print(f'Valor mínimo {min_v} localizado en {min_loc}')
print(f'Valor máximo {max_v} localizado en {max_loc}')


Valor mínimo 0 localizado en (0, 0)
Valor máximo 0 localizado en (0, 0)
