# CURSO DE INTRODUCCIÓN A OPENCV Y PYTHON

¿Quién soy?

**Rubén Crespo Cano**

Estudios:
* Ingeniería en Informática [Universidad de Alicante] (2006 - 2012)
* Máster en Ingeniería de Telecomunicación [Universidad de Alicante] (2012 - 2015)
* Doctorado en Informática [Universidad de Alicante] (2016 - Presente)

Trabajo:
* Ingeniero de software en Everilion (http://www.everilion.com)

# 0. Introducción


## OpenCV
OpenCV es una biblioteca de visión artificial de código libre, escrita en C++, originalmente desarrollada por Gary Bradsky en Intel. Fue construida para proporcionar una infrastructura común para aplicaciones de visión por computador. 

La librería contiene más de 2500 algoritmos optimizados, entre los que se incluyen algoritmos clásicos y algoritmos del estado del arte de los campos de visión por computador y aprendizaje automático.

Características principales:
* Licencia BSD.
* Interfaces: C++, C, Python, Java y MATLAB.
* Sistemas Operativos: Windows, GNU/Linux, Android y Mac OS.
* Soporte CUDA y OpenCL.

URL: http://www.opencv.org


## Python
Python es un lenguaje de programación creado por Guido van Rossum a principios de los años 90 cuyo nombre está inspirado en el grupo de cómicos ingleses *Monty Python*. Es un lenguaje similar a Perl, pero con una sintaxis muy limpia y que favorece un código legible. Python es un lenguaje de propósito general que ha llegado a ser muy popular en muy poco tiempo debido a su simplicidad y legibilidad, ya que permite a el/la programador/a expresar ideas en muy pocas líneas de código sin reducir la legibilidad.

Se trata de un lenguaje interpretado o de script, con tipado dinámico, fuertemente tipado, multiplataforma y orientado a objetos.

Si se compara con lenguajes como C/C++, Python es generalmente más lento. Dicho esto, Python puede ser fácimente extendido mediante código C/C++, lo que permite escribir código fuente computacionalmente intensivo en C/C++ y crear envolturas en Python que puedan ser usadas por módulos de Python. Esto proporciona dos ventajas: primero, el código es tan rápido como el código original C/C++ y segundo, es más fácil desarrollar en Python que en C/C++.

URL: https://www.python.org/


## OpenCV-Python

OpenCV-Python es el API de OpenCV para Python, donde se combinan las mejores cualidades del API C++ de OpenCV con el lenguaje de programación Python, diseñada para resolver problemas de visión por computador. 

OpenCV-Python hace uso de Numpy, que es una librería altamente optimizada para operaciones de cálculo numérico con una sintaxis similar a la de MATLAB. Todas las estructuras array son convertidas a Numpy arrays. Esto permite la integración con otras librerías que también hacen uso de Numpy, tales como SciPy o Matplotlib.

# 1. Instalación

## Instalación en Windows
* http://docs.opencv.org/3.1.0/d5/de5/tutorial_py_setup_in_windows.html


## Instalación en GNU/Linux
* http://docs.opencv.org/3.1.0/dd/dd5/tutorial_py_setup_in_fedora.html

# 2. Manejo de ficheros, cámaras e interfaces gráficas de usuario

La gran mayoría de aplicaciones que se desarrollan con OpenCV necesitan como entrada una o varias imágenes, pero también puede ser que esas imágenes se presenten en forma de vídeo. Además, también es bastante probable que las aplicaciones necesiten generar como salida del programa una nueva imágen. 


## Lectura y escritura de imágenes
Hay que utilizar la función **cv2.imread()** para leer una imágen. La imágen debe estar en el directorio de trabajo o debe proporcionarse la ruta absoluta de la imagen.

El segundo argumento es un *flag* que especifica la forma en la que la imagen debe ser leída.
* cv2.IMREAD_COLOR: Carga la imagen a color. Si la imagen posee transparencias serán desechadas. Es el *flag* por defecto.
* cv2.IMREAD_GRAYSCALE: Carga la imagen en modo escala de grises.
* cv2.IMREAD_UNCHANGED: Carla la imagen incluyendo el canal *alpha*.

Para poder escribir/guardar una nueva imagen, hay que utilizar la función **cv2.imwrite()**.


**Ejemplo 1**. Cargar una imagen y guardarla con otro nombre.

In [None]:
import cv2

# Load
image_path = 'images/rabbit.jpg'
image = cv2.imread(image_path)

# Save copy as png
image_copy_path = 'images/rabbit-copy.png'
cv2.imwrite(image_copy_path, image)

# Load copy
image_copy = cv2.imread(image_copy_path)
# Show
cv2.imshow('Original', image)
cv2.imshow('Copy', image)
cv2.waitKey(0)
cv2.destroyAllWindows()



**Ejercicio 1**. Cargar una imagen y guardar una copia en blanco y negro.

In [None]:
# Ejercicio 1

## Conversión entre imágenes y *raw bytes*
Conceptualmente, un byte es un entero que se encuentra en el rango [0, 255]. En las aplicaciones actuales, un píxel es representado normalmente por un byte por canal, aunque también pueden haber otras representaciones.

Una imagen OpenCV es un array 2D o 3D de tipo **numpy.array**. Una imagen en escala de grises de 8 bits es un array 2D que contiene valores para cada byte. Una imagen a color RGB es un array 3D, que también contiene valores para cada byte. Es posible acceder a esos valores utilizando una expresión como la siguiente:
* image[0, 0] o image[0, 0, 0]

El primer índice representa la coordenada *y* (fila), siendo el 0 el valor que está más arriba. El segundo índice representa la coordenada *x* (columna), siendo el valor 0 el que está más a la izquierda. El tercer índice (en imágenes RGB) representa el canal de color.

Por ejemplo, una imagen en escala de grises con un píxel blanco en la esquina superior izquierda, image[0, 0] sería 255. Para una imagen RGB con un píxel de color azul en la esquina superior izquierda, image[0, 0] sería [255, 0, 0].

TODO


## Introducción al manejo de vídeos

Para capturar un vídeo, es necesario crear un objeto de tipo **VideoCapture**. Su argumento puede ser tanto el índice del dispositivo o el nombre del fichero.

El índice del dispositivo es el número que identifica qué camara capturar. Como normalmente sólo suele haber una cámara conectada, se suele utilizar el identificador 0 para capturar de ella.

El método **cap.read()** devuelve un valor booleano (True/False). Si el *frame* se leyó correctamente, devolverá True. De esta forma, se puede comprobar cuándo se ha llegado al final de la lectura del vídeo comprobando este parámetro. 

A veces, el objeto **VideoCapture** puede no haber logrado la inicialización de la captura correctamente. Por ello, es mejor comprobar si se ha inicializado o no a través del método **cap.isOpened()**. Si el resultado es True es que sí se ha podido abrir la captura.


**Ejemplo 2**. Cargar y reproducir un vídeo en escala de grises.

In [None]:
import numpy as np
import cv2

video_file = 'videos/roller-coaster.mp4'
cap = cv2.VideoCapture(video_file)

while (cap.isOpened()):
    # Capture frame-by-frame
    ret, frame = cap.read()

    if ret == True:
        # Operations on the frame
        gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)

        # Display the resulting frame
        cv2.imshow('frame', gray)
    
        # Exit?
        if cv2.waitKey(1) & 0xFF == ord('q'):
            break
    else:
        break

cap.release()
cv2.destroyAllWindows()


Además, también es posible acceder a algunas de las propiedades del vídeo utilizando el método **cap.get(prop_id)** donde **prop_id** es un número [0, 18] que denota una propiedad del vídeo. Por último, hay que destacar que algunos de esos valores pueden ser modificados mediante el método **cap.set(prop_id, value)**. En el siguiente enlace están descritas todas las propiedades:
* http://docs.opencv.org/2.4/modules/highgui/doc/reading_and_writing_images_and_video.html#videocapture-get


**Ejemplo 3**. Mostrar los FPS del vídeo

In [None]:
import numpy as np
import cv2

video_file = 'videos/roller-coaster.mp4'
cap = cv2.VideoCapture(video_file)

font = cv2.FONT_HERSHEY_SIMPLEX
font_scale = 1
color = (255,255,255)
thickness = 1

while(cap.isOpened()):
    ret, frame = cap.read()
    if ret == True:
        # Text position
        height = int(cap.get(cv2.cv.CV_CAP_PROP_FRAME_HEIGHT))
        position = (50, height - 50)
        
        # Frames per second
        fps = "{0:.2f}".format(cap.get(cv2.cv.CV_CAP_PROP_FPS))
        text = "FPS: " + fps
        
        # Put text
        cv2.putText(frame, text, position, font, font_scale, color, thickness)

        # Display
        cv2.imshow("Video", frame)
        
        # Exit?
        if cv2.waitKey(1) & 0xFF == ord('q'):
            break
    else:
        break

# Release everything if job is finished
cap.release()
cv2.destroyAllWindows()



**Ejercicio 2**. Descargar un vídeo de https://videos.pexels.com/video-license y mostrar las propiedades más relevantes sobre el propio vídeo mientras se reproduce.

In [None]:
# Ejercicio 2

## Captura de vídeo desde la *webcam* 

El índice del dispositivo es el número que identifica qué camara capturar. Como normalmente sólo suele haber una cámara conectada, se suele utilizar el identificador 0 para capturar de ella.

**Ejemplo 4**. Captura de vídeo desde la *webcam* y operaciones de inversión de la imagen.

In [None]:
import numpy as np
import cv2

webcam_id = 0
cap = cv2.VideoCapture(webcam_id)

while(cap.isOpened()):
    # Capture frame-by-frame
    ret, frame = cap.read()
    if ret == True:
        # Operations on the frame
        v_frame = cv2.flip(frame, 1)
        h_frame = cv2.flip(frame, 0)
        
        # Display
        cv2.imshow("Original", frame)
        cv2.imshow("Vertical flip", v_frame)
        cv2.imshow("Horizontal flip", h_frame)

        # Exit?
        if cv2.waitKey(1) & 0xFF == ord('q'):
            break
    else:
        break

# Release everything if job is finished
cap.release()
cv2.destroyAllWindows()


# 3. Filtrado y suavizado de imágenes

## 3.1. Filtrado de imágenes. Convolución 2D

Las imágenes pueden ser filtradas por varios tipos de filtros, tales como filtros *paso-bajo*, filtros *paso-alto*, etc.

* Un filtro *paso-bajo* atenúa las frecuencias altas y mantiene sin variaciones las frecuencias bajas. El resultado en el dominio espacial es equivalente al de un filtro de suavizado, donde las altas frecuencias que son filtradas se corresponden con los cambios fuertes de intensidad. Consigue reducir el ruido suavizando las transiciones existentes.

* Un filtro *paso-alto* atenúa las frecuencias bajas manteniendo invariables las frecuencias altas. Puesto que las altas frecuencias corresponden en las imágenes a cambios bruscos de densidad, este tipo de filtros es usado en la detección de bordes en el dominio espacial, ya que estos contienen gran cantidad de dichas frecuencias. Refuerza los contrastes que se encuentran en la imagen.

OpenCV proporciona la función **cv2.filter2D()** para realizar la convolución de una imagen con un *kernel* determinado. Por ejemplo, un *kernel* de tamaño 3x3 para un filtro de promedio se puede definir de la siguiente forma:

$K = \frac{1}{9} \left[ \begin{array}{ccc}
1 & 1 & 1 \\
1 & 1 & 1 \\
1 & 1 & 1 \\ \end{array} \right]$

El procedimiento de filtrado es el siguiente: para cada píxel de la imagen, una ventana de tamaño 3x3 es centrada en él, sumándose los valores y dividiéndose entre 9. Esto equivale a realizar la media de los valores de los píxeles de dentro de la ventana. Esta operación se realiza para cada uno de los píxeles de la imagen.

En cuanto a la función **cv2.filter2D()** los parámetros obligatorios son los siguientes:
* src – input image.
* dst – output image of the same size and the same number of channels as src.
* ddepth – desired depth of the destination image; if it is negative, it will be the same as src.depth().



**Ejemplo 5**. Filtrado de imagen con un kernel 3x3.

In [None]:
import cv2
import numpy as np

image_file = 'images/rabbit.jpg'
img = cv2.imread(image_file)

kernel = np.ones((3, 3), np.float32) / 9
dst = cv2.filter2D(src=img, ddepth=-1, kernel=kernel)

# Show
cv2.imshow('Original', img)
cv2.imshow('Filtered', dst)
cv2.waitKey(0)
cv2.destroyAllWindows()


**Ejercicio 3**. Descargar una imagen y aplicar un filtrado 2D con un *kernel* de tamaño 5x5 ponderado. Probar a cambiar los distintos valores del *kernel*.

In [None]:
# Ejercicio 3

## 3.2. Suavizado de imágenes

El suavizado de imágenes se logra realizando la convolución de la imagen con un filtro *paso-bajo* y suele utilizarse para la reducción y/o eliminación del ruido, ya que se elimina el contenido de altas frecuencias. OpenCV proporciona varias técnicas para el suavizado de imágenes. A continuación veremos varias de ellas.

### 3.2.1. Promedio
Esta operación se realiza mediante la convolución de la imagen con un filtro normalizado. Simplemente calcula la media de los píxeles que están bajo el área del *kernel* y reemplaza el valor del elemento central. Esta operación se realiza mediante la función **cv2.blur()**. En la llamada, debe especificarse el tamaño del *kernel*, tanto el ancho como el alto.

**Ejemplo 6**. Filtrado de imagen: promedio.

In [None]:
import cv2

# Load image
image_path = 'images/sunset.jpg'
image = cv2.imread(image_path)

# Blur
k = 5
blur = cv2.blur(image, (k, k))

# Show
cv2.imshow('Original', image)
cv2.imshow('Filtered', blur)
cv2.waitKey(0)
cv2.destroyAllWindows()


**Ejercicio 4**. Descargar una imagen con muchos colores. Cambiar el tamaño del *kernel* y comprobar qué ocurre.

In [None]:
# Ejercicio 4

### 3.2.2. Filtro Gaussiano
Si queremos utilizar un kernel Gaussiano, deberemos utilizar la función **cv2.GaussianBlur()**. Al igual que en el caso anterior, debemos especificar el ancho y alto del kernel, que debe ser un número impar positivo. Además, también debe especificarse la desviación estándar en las direcciones *X* e *Y*, a través de los parámetros *sigmaX* y *sigmaY* respectivamente. Si sólo se especifica el valor para el parámetro *sigmaX*, la función asigna el mismo valor para el parámetro *sigmaY*.

**Ejemplo 7**. Filtrado de imagen: filtro Gaussiano.

In [None]:
import cv2

# Load image
image_path = 'images/sunset.jpg'
image = cv2.imread(image_path)

# Gaussian blur
k = 5
sigma = 0
blur = cv2.GaussianBlur(image, (k, k), sigma)

# Show
cv2.imshow('Original', image)
cv2.imshow('Filtered', blur)
cv2.waitKey(0)
cv2.destroyAllWindows()


**Ejercicio 5**. Cambiar el tamaño del *kernel* y el valor del parámetro *sigma* y comprobar qué ocurre.

In [None]:
# Ejercicio 5

Una de las razones por las que los filtros de tipo Gaussiano son tan importantes es que son muy efectivos para eliminar ruido Gaussiano de la imagen.

**Ejemplo 8**. Filtrado de imagen: filtro Gaussiano sobre imagen con mucho ruido.

In [None]:
import cv2

# Load image
image_path = 'images/lena_noise.jpg'
image = cv2.imread(image_path)

# Gaussian blur
k = 5
sigma = 0
blur = cv2.GaussianBlur(image, (k, k), sigma)

# Show
cv2.imshow('Original Lena with noise', image)
cv2.imshow('Filtered Lena', blur)
cv2.waitKey(0)
cv2.destroyAllWindows()


**Ejercicio 6**. Buscar una imagen con ruido y aplicar filtro Gaussiano para reducir el nivel de ruido.

In [None]:
# Ejercicio 6

### 3.2.3. Mediana
El filtro mediana se aplica mediante la función **cv2.medianBlur()**. En él, se calcula la mediana de todos los píxeles que están bajo el área del *kernel* y el elemento central se sustituye con el valor de la mediana. El valor para el tamaño del *kernel* debe ser un número impar positivo.

Este filtro es muy efectivo para eliminar el ruido impulsional, llamado "sal y pimienta". 
* https://en.wikipedia.org/wiki/Salt-and-pepper_noise


**Ejemplo 9**. Filtrado de imagen: filtro mediana sobre imagen con ruido de tipo "sal y pimienta".

In [None]:
import cv2

# Load image
image_path = 'images/salt_pepper_noise.png'
image = cv2.imread(image_path)

# Gaussian blur
k = 5
blur = cv2.medianBlur(image, k)

# Show
cv2.imshow('Original', image)
cv2.imshow('Filtered', blur)
cv2.waitKey(0)
cv2.destroyAllWindows()


**Ejercicio 7**. Buscar una imagen con ruido impulsional ("sal y pimienta") y aplicar el filtro mediana para reducir el nivel de ruido.

In [None]:
# Ejercicio 7

# 4. Gradientes

En este apartado vamos a enseñar varios filtros *paso-alto* que nos permitirán filtrar las imágenes para extraer bordes y gradientes.

## 4.1. Sobel
El operador Sobel, también conocido como el operador Sobel–Feldman, realiza un gradiente espacial 2-D sobre una imagen y de esta forma enfatiza las regiones con altras frecuencias espaciales, que se corresponden con bordes. 

El operador utiliza dos *kernels* de tamaño 3x3 los cuales son convolucionados con la imagen original para calcular aproximaciones de las derivativas, una para cambios en el eje horizontal y otra para cambios en el eje vertical.

*Kernels* de convolución Sobel:

$Gx = \left[ \begin{array}{ccc}
-1 & 0 & +1 \\
-2 & 0 & +2 \\
-1 & 0 & +1 \\ \end{array} \right]$

$Gy = \left[ \begin{array}{ccc}
+1 & +2 & +1 \\
0 & 0 & 0 \\
-1 & -2 & -1 \\ \end{array} \right]$

Estos *kernels* están diseñados para responder ante ejes verticales y horizontales. Pueden ser aplicados de forma separada a la imagen de entrada para producir mediciones separadas, o por el contrario, pueden ser combinados para encontrar y delimitar ejes en ambas direcciones.

La función que realiza este filtrado es **cv2.Sobel()**. Se puede especificar la dirección de los gradientes, vertical u horizontal, mediante los argumentos *xorder* e *yorder* respectivamente. Además, también se puede especificar el tamaño del *kernel* meidnte el argumento *ksize*.

**Ejemplo 10**. Filtros de Sobel.

In [None]:
import cv2
import numpy as np

# Load image
image = cv2.imread('images/sudoku.jpg', cv2.IMREAD_GRAYSCALE)

# Sobel
k = 3
sobelx = cv2.Sobel(image, ddepth=cv2.CV_64F, dx=1, dy=0, ksize=k)
sobely = cv2.Sobel(image, ddepth=cv2.CV_64F, dx=0, dy=1, ksize=k)

# Show
cv2.imshow('Original', image)
cv2.imshow('Sobel X', sobelx)
cv2.imshow('Sobel Y', sobely)
cv2.waitKey(0)
cv2.destroyAllWindows()


## 4.2. Laplacian

El operador Laplacian es una medida isotrópica 2-D de la segunda derivada espacial de una imagen. Aplicar un filtro Laplacian sobre una imagen consigue resaltar las regiones en las que se producen cambios bruscos de intensidad, y es por tanto utilizada para detección de bordes. Normalmente, el filtro Laplacian es aplicado sobre una imagen que ha sido previamente filtrada con un filtro Gaussiano para poder reducir la sensibilidad ante ruido.

La función que proporciona OpenCV para aplicar un filtro Laplacian es **cv2.Laplacian()**. Los argumentos obligatorios son la imagen de entrada y la profundidad de la imagen de salida.

**Ejercicio 8**. Buscar una imagen (con ruido) de edificios y aplicar el filtro Laplacian sobre la imagen sin filtrar y sobre la imagen filtrada.

In [None]:
# Ejercicio 8

# 5. Canny edge detector

El algoritmo de Canny es un operador desarrollado por John F. Canny en 1986 que utiliza un algoritmo de múltiples etapas para detectar una amplia gama de bordes en imágenes.

Las etapas del algoritmo son las siguientes:

1. **Reducción de ruido**. Debido a que la detección de bordes puede verse afectada por el ruido que contenga la imagen, el primer paso es la eliminación del ruido en la imagen mediante un filtro Gaussiano con un *kernel* 5x5.

2. **Búsqueda de gradientes de intensidad**. El borde de una imagen puede apuntar a diferentes direcciones, por lo que el algoritmo de Canny utiliza cuatro filtros para detectar los bordes en las direcciones horizontal, vertical y diagonales.

3. **Supresión de no máximos**. Después de obtener las magnitudes de gradiente y dirección, se realiza un análisis de toda la imagen para eliminar los píxeles no deseados que no constituyan ningún eje. Para ello, cada píxel es examinado comprobando si es un máximo local en su vecindario en la dirección del gradiente. Si el píxel no es un máximo local, se establece a cero. En resumen, el resultado que se obtiene es una imagen binaria con "ejes estrechos".
<img src="images/nms.jpg">

4. **Umbrales**. En esta última etapa del algoritmo, se decide sobre todos los ejes obtenidos cuáles de ellos son realmente ejes y cuáles de ellos no. Para ello, se establecen dos valores umbral, *minVal* y *maxVal*. Todos los ejes con una intensidad de gradiente mayor que el valor umbral *maxVal* se consideran de forma segura como ejes. Todos los ejes con una intensidad de gradiente menor que el valor umbral *minVal* se consideran de forma segura como no ejes, y por tanto, son descartados. Aquellos que se encuentran entre los valores *minVal* y *maxVal* son clasificados dependiendo de su conexión. Si están conetados a los píxeles con valor mayor a *maxVal* son considerados parte de los ejes. En cualquier otro caso son descartados.
<img src="images/hysteresis.jpg">


OpenCV proporciona la implementación del detector de bordes Canny mediante la función **cv2.Canny()**. El primer argumento de la función es la imagen. El segudo y el tercer argumento son los valores de los parámetros *minVal* y *maxVal* respectivamente. El cuarto argumento es el valor para establecer el tamaño del *kernel* del fintro Sobel (por defecto tiene el valor 3).

**Ejemplo 11**. Detector de bordes Canny a través de la *webcam*.

In [None]:
import cv2
import numpy as np

webcam_id = 0
cap = cv2.VideoCapture(webcam_id)

# Cany edge detector thresholds
threshold_one = 50
threshold_two = 150
aperture_size = 3

while(cap.isOpened()):
    # Capture frame-by-frame
    ret, frame = cap.read()
    if ret == True:
        # Operations on the frame
        edges = cv2.Canny(frame, threshold_one, threshold_two, aperture_size)
        
        # Display
        cv2.imshow("Original", frame)
        cv2.imshow("Canny edge detection", edges)

        # Exit?
        if cv2.waitKey(1) & 0xFF == ord('q'):
            break
    else:
        break

# Release everything if job is finished
cap.release()
cv2.destroyAllWindows()


**Ejercicio 9**. Buscar una imagen y aplicar el filtro Canny.

In [None]:
# Ejercicio 9

# Referencias
* http://www.wikipedia.com
* https://commons.wikimedia.org
* http://www.opencv.org
* http://www.python.org
* https://realpython.com
* http://homepages.inf.ed.ac.uk/rbf/HIPR2/hipr_top.htm
* Python para todos. Raúl González Duque.
