<img src="https://raw.githubusercontent.com/albertoruiz/umucv/master/images/demos/FIUM.png" width="350px" class="pull-right" style="display: inline-block">

# Visión Artificial

### 4º de Grado en Ingeniería Informática

Curso 2022-2023<br>
Prof. [*Alberto Ruiz*](http://dis.um.es/profesores/alberto)

![concept map](https://raw.githubusercontent.com/albertoruiz/umucv/master/images/demos/concept_map.svg)

## Recursos

- [Szeliski: Computer Vision: Algorithms and Applications, 2nd ed.](https://szeliski.org/Book/)
- [OpenCV](https://opencv.org/): [tutoriales en Python](https://docs.opencv.org/4.7.0/d6/d00/tutorial_py_root.html), [documentación](https://docs.opencv.org/4.7.0/), [libro1](https://books.google.es/books?id=seAgiOfu2EIC&printsec=frontcover), [libro2](https://books.google.es/books?id=9uVOCwAAQBAJ&printsec=frontcover), [libro3](https://books.google.es/books?id=iNlOCwAAQBAJ&printsec=frontcover)
- [Bishop: Pattern Recognition and Machine Learning](https://www.microsoft.com/en-us/research/uploads/prod/2006/01/Bishop-Pattern-Recognition-and-Machine-Learning-2006.pdf)
- [Python](https://docs.python.org/3.10/), [numpy](http://www.numpy.org/), [matplotlib](http://matplotlib.org/index.html)
- [scikit-image](http://scikit-image.org/), [scikit-learn](http://scikit-learn.org), [scipy](http://docs.scipy.org/doc/scipy/reference/)
- [datasets](https://en.wikipedia.org/wiki/List_of_datasets_for_machine_learning_research#Image_data)


## Prácticas

- [Guión de las sesiones](guionpracticas.ipynb)
- [Preguntas frecuentes](FAQ.ipynb)

## Clases

El símbolo "→" indica enlace a los notebooks utilizados en cada capítulo.

### 0. Presentación (23/1/23)

[→ introducción](intro.ipynb), [→ instalación](install.ipynb), [→ Python](python.ipynb)

- Introducción a la asignatura
- Repaso de Python, numpy y matplotib

### 1. Introducción a la imagen digital (30/1/23)

[→ imagen](imagen.ipynb), [→ gráficas](graphs.ipynb), [→ indexado/stacks](stacks.ipynb), [→ dispositivos de captura](captura.ipynb)

- Modelo pinhole. Campo de visión (FOV, *field of view*, parámetro $f$)
- Imagen digital: rows, cols, depth, step. Planar or pixel order. Tipo de pixel: byte vs float
- Color encoding: RGB vs YUV vs HSV
- Coordendas de pixel, coordenadas normalizadas (indep de resolución), coordenadas calibradas (independiente del FOV).
- Aspect ratio. Resize.
- Manipulación: slice regions, "stack" de imágenes
- primitivas gráficas
- captura: webcams, cameras ip, archivos de vídeo, v4l2-ctl, etc. Load / save.
- entornos de conda, pyqtgraph, pycharm, spyder
- Herramientas: formatos de imagen, imagemagick, gimp, mplayer/mencoder/ffmpeg, mpv, gstreamer, etc.

### 2. Segmentación por color (6/2/23)

[→ canales de color](color.ipynb), [→ histograma](histogram.ipynb), [→ efecto chroma](chroma.ipynb), [→ segmentación por color](colorseg.ipynb), [→ cuantización de color](codebook.ipynb)

- Teoría del color
- ROIs, masks, probability map, label map
- Componentes conexas vs contornos.
- inRange
- Chroma key
- Histograma, transformaciones de valor (brillo, contraste), ecualización
- Histograma nD
- Distancia entre histogramas. Reproyección de histograma
- background subtraction
- activity detection

### 3. Filtros digitales (13/2/23)

[→ filtros de imagen](filtros.ipynb)

- lineal

    - convolution
    - máscaras para paso alto, bajo, etc.
    - separabilidad
    - integral image, box filter
    - dominio frecuencial
    - filtrado inverso


- no lineal

    - mediana
    - min, max
    - algoritmos generales


- Gaussian filter

    - separabilidad
    - cascading
    - Fourier
    - scale space



- [morphological operations](http://docs.opencv.org/master/d9/d61/tutorial_py_morphological_ops.html#gsc.tab=0)

    - structuring element
    - dilate, erode
    - open, close
    - gradient
    - fill holes


### 4. Análisis frecuencial (20/2/23)

[→ análisis frecuencial](fourier.ipynb), [→ filtrado inverso](inversefilt.ipynb)

### 5. Reconocimiento de formas (27/2/23)

[→ shapes](shapes.ipynb)

- umbralización
- análisis de regiones (componentes conexas, transformada de distancia)
- manipulación de contornos
- invariantes frecuenciales de forma

###  6. Detección de bordes (6/3/23)

[→ detección de bordes](bordes.ipynb), [→ Canny nms en C](cannyC.ipynb)

- gradiente: visualización como *vector field*
- operador de Canny
- transformada de Hough
- Histograma de orientaciones del gradiente (HOG)
- implementación simple de HOG
- detección de *pedestrians*
- face landmarks (dlib)

### 7. Flujo óptico (13/3/23)

[→ elipse de incertidumbre](covarianza.ipynb), [→ optical flow](harris.ipynb)

- elipse de incertidumbre
- cross-correlation
- corners (Harris)
- Lucas-Kanade

### 8. *Keypoints* (20/3/23)

[→ keypoints](keypoints.ipynb), [→ bag of visual words](bag-of-words.ipynb)

- modelo cuadrático
- blobs / saddle points (Hessian)
- SIFT

### 9a. Coordenadas homogéneas (27/3/23)

Comenzamos el estudio de la geometría visual.

[→ perspectiva](geovis.ipynb), [→ coordenadas homogéneas](coordhomog.ipynb)

Transformaciones lineales

- espacios lineales, vectores
- transformaciones lineales, matrices
- producto escalar (**dot** product)
- producto vectorial (**cross** product)
- puntos, rectas, planos, meet & join

Geometría del plano

- coordenadas homogéneas
- interpretación como rayos
- puntos y rectas del plano
- incidencia e intersección, dualidad
- puntos del infinito, recta del infinito
- manejo natural de puntos del infinito
- horizonte de un plano

### 9b. Transformaciones del plano

[→ transformaciones de dominio](lookup.ipynb), [→ transformaciones del plano](transf2D.ipynb), [→ sistemas de ecuaciones](sistecs.ipynb), [→ DLT](DLT.ipynb)

- Desplazamientos, rotaciones, escalado uniforme, escalado general, proyectividad.
- Grupos euclídeo, similar, afín, proyectivo.
- Propiedades invariantes de cada grupo.
- Representación como matriz homogénea $3\times 3$ y tipos de matriz de cada grupo.
- *Cross ratio* de 4 puntos en una recta. De 5 rectas.
- Estimación de transformaciones a partir de correspondencias.
- Aplicaciones: rectificación de planos, mosaico de imágenes.
- Transformaciones de dominio (deformaciones), lookup table.

Avanzado

- Transformación de rectas. Covarianza y contravarianza.
- Cónicas: incidencia, tangencia, (pole-polar), cónica dual, transformación.
- Objetos invariantes en cada grupo de transformaciones.

### 10a. Modelo de cámara

[→ modelo de la cámara](camera.ipynb)

- Espacio proyectivo: puntos y líneas 3D, planos, grados de libertad, plano del infinito, analogía con 2D.
- Grupos de transformaciones 3D: y sus invariantes.
- Modelo pinhole (proyección), cámara oscura, lente.
- Transformación de perspectiva: proyección $\mathcal P^3 \rightarrow\mathcal P ^2$.
- cámara calibrada C=PRT, 6 dof, parámetros extrínsecos o pose.
- calibración, distorsión radial.
- Matriz de cámara estándar $M=K[R|t]$.
- Matriz de calibración $K$ y campo visual.
- PnP (*pose from n points*).
- Realidad aumentada.
- Anatomía de la cámara
- Rotaciones sintéticas

### 10b. Visión estéreo

[→ stereo](stereo.ipynb), [→ stereo-challenge](stereo-challenge.ipynb)

- Triangulación
- Geometría epipolar
- Extracción de cámaras
- Rectificación estéreo
- Mapas de profundidad


Experimentos

- Reproduce los experimentos con un par estéreo tomado con tu propia cámara usando el *tracker* de puntos estudiado en una clase anterior.
- Intenta poner en marcha el sistema [VisualSFM](http://ccwu.me/vsfm/).

### 11. Otras técnicas

[→ textura](textura.ipynb), [→ varios](varios.ipynb), [→ inpainting](ipmisc.ipynb), [→ transformada de distancia](transf-dist.ipynb)

- Clasificación de texturas mediante *LBP* (Wang and He, 1990, [wiki](https://en.wikipedia.org/wiki/Local_binary_patterns))
- Detección de caras mediante *adaboost* ([Viola & Jones, 2001](http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.10.6807), [wiki](https://en.wikipedia.org/wiki/Viola%E2%80%93Jones_object_detection_framework))
- Herramientas para OCR (*[tesseract](https://github.com/tesseract-ocr)*)
- Herramientas para códigos de barras y QR (*[zbar](http://zbar.sourceforge.net/)*)
- Segmentación de objetos mediante *GrabCut* ([Rother et al. 2004](https://cvg.ethz.ch/teaching/cvl/2012/grabcut-siggraph04.pdf), [tutorial](http://docs.opencv.org/3.2.0/d8/d83/tutorial_py_grabcut.html))
- Transformada de distancia
- Detección de elipses
- Inpainting

### 12. *Machine learning*

[→ machine learning](machine-learning.ipynb) 

- Repaso de *Machine Learning* y *Pattern Recognition*
- Repaso de computación neuronal
- Introducción a la redes convolucionales

(Puedes ejecutar [este notebook en COLAB](https://colab.research.google.com/github/AlbertoRuiz/umucv/blob/master/notebooks/machine-learning.ipynb))

### 13a. *Deep learning* en visión artificial

[→ modelos avanzados](deep.ipynb)

- Modelos preentrenados
- YOLO
- face recognition
- openpose (body landmarks)
- Transfer learning
- Data augmentation
- UNET
- Visual transformer
- MLP mixer

### 13b. Síntesis de imágenes

[→ bottleneck](bottleneck.ipynb)

- Autoencoder
- VAE
- GAN
- Diffusion

## Ejemplos de código

Comprobación inicial

1. [`hello.py`](../code/hello.py): lee imagen de archivo, la reescala, muestra y sobreescribe un texto.

1. [`webcam.py`](../code/webcam.py): muestra la secuencia de imágenes capturadas por una webcam.

1. [`2cams.py`](../code/2cams.py): combina las imágenes tomadas por dos cámaras.

1. [`stream.py`](../code/stream.py): ejemplo de uso de la fuente genérica de imágenes.

1. [`surface.py`](../code/surface.py): superficie 3D de niveles de gris en vivo usando pyqtgraph.

1. [`facemesh.py`](../code/facemesh.py): malla de una cara usando mediapipe.

Utilidades

1. [`save_video.py`](../code/save_video.py): ejemplo de uso de la utilidad de grabación de vídeo.

1. [`mouse.py`](../code/mouse.py), [`medidor.py`](../code/medidor.py): ejemplo de captura de eventos de ratón.

1. [`roi.py`](../code/roi.py): ejemplo de selección de región rectangular.

1. [`trackbar.py`](../code/trackbar.py): ejemplo de parámetro interactivo.

1. [`help_window.py`](../code/help_window.py): ejemplo de ventana de ayuda.

1. [`wzoom.py`](../code/wzoom.py): ejemplo de ventana con zoom.

Actividad

1. [`deque.py`](../code/deque.py): procesamiento de las $n$ imágenes más recientes.

1. [`backsub0.py`](../code/backsub0.py), [`backsub.py`](../code/backsub.py): eliminación de fondo mediante MOG2.

Color

1. [`histogram.py`](../code/histogram.py): histograma en vivo con opencv.

1. [`histogram2.py`](../code/histogram2.py): histograma en vivo con matplotlib.

1. [`inrange0.py`](../code/inrange0.py), [`inrange.py`](../code/inrange.py): umbralización de color, máscaras, componentes conexas y contornos.

1. [`reprohist.py`](../code/reprohist.py),  [`mean-shift.py`](../code/mean-shift.py), [`camshift.py`](../code/camshift.py): reproyección de histograma y tracking.

1. [`surface2.py`](../code/surface2.py): superficie 3D de niveles de gris  suavizada y manejo de teclado con pyqtgraph y opengl.

1. [`server.py`](../code/server.py): ejemplo de servidor web de imágenes capturadas con la webcam.

1. [`mjpegserver.py`](../code/mjpegserver.py): servidor de secuencias de video en formato mjpeg.

1. [`bot`](../code/bot): bots de [Telegram](https://python-telegram-bot.org/).

1. [`grabcut.py`](../code/grabcut.py): segmentación de objetos interactiva mediante GrabCut.

1. [`spectral.py`](../code/spectral.py): FFT en vivo.

1. [`thread`](../code/thread): captura y procesamiento concurrente.

1. [`testC.py`](../code/testC.py), [`inC`](../code/inC): Interfaz C-numpy.

1. [`hog/pedestrian.py`](../code/hog/pedestrian.py): detector de peatones de opencv.

1. [`hog/facelandmarks.py`](../code/hog/facelandmarks.py): detector de caras y landmarks de dlib.

1. [`hog/hog0.py`](../code/hog/hog0.py): experimentos con hog.

1. [`regressor.py`](../code/regressor.py): predictor directo de la posición de una región.

1. [`crosscorr.py`](../code/crosscorr.py): ejemplo de match template.

1. [`kcf.py`](../code/crosscorr.py): ejemplo de discriminative correlation filter.

1. [`LK/*.py`](../code/LK): seguimiento de puntos con el método de Lucas-Kanade.

1. [`SIFT/*.py`](../code/sift.py): demostración de la detección de keypoints y búsqueda de coincidencias en imágenes en vivo.

1. [`shape/*.py`](../code/shape): reconocimiento de formas mediante descriptores frecuenciales.

1. [`ocr.py`](../code/ocr.py): reconocimiento de caracteres impresos con tesseract/tesserocr sobre imagen en vivo.

1. [`zbardemo.py`](../code/zbardemo.py): detección de códigos de barras y QR sobre imagen en vivo.

1. [`code/DL`](../code/DL): Modelos avanzados de deep learning para visión artificial (inception, YOLO, FaceDeep, openpose).

1. [`code/polygons`](../code/polygons) y [`code/elipses`](../code/elipses): Rectificación de planos en base a marcadores artificiales.

1. [`stitcher.py`](../code/stitcher.py): construcción automática de panoramas.

1. [`code/pose`](../code/pose): estimación de la matriz de cámara y realidad aumentada.

## Ejercicios

La entrega de los ejercicios se hará en una tarea del aula virtual dentro de un archivo comprimido.

Debe incluir el **código** completo .py de todos los ejercicios, los ficheros auxiliares (siempre que no sean muy pesados), y una **memoria** con una **explicación** detallada de las soluciones propuestas, las funciones o trozos de código más importantes, y **resultados** de funcionamiento con imágenes de evaluación **originales** en forma de pantallazos o videos de demostración. También es conveniente incluir información sobre tiempos de cómputo, limitaciones de las soluciones propuestas y casos de fallo.

La memoria se presentará en un formato **pdf** o **jupyter** (en este caso se debe adjuntar también una versión **html** del notebook completamente evaluado).

Lo importante, además de la evaluación de la asignatura, es que os quede un buen documento de referencia para el futuro.


Los ejercicios propuestos se irán incluyendo aquí a lo largo del curso. (Como orientación, aquí están los [ejercicios del curso anterior](ejercicios-curso-anterior.ipynb).)!puthon

#### Obligatorios

**CALIBRACIÓN**. a) Realiza una calibración precisa de tu cámara mediante múltiples imágenes de un *chessboard*. b) Haz una calibración aproximada con un objeto de tamaño conocido y compara con el resultado anterior. c) Determina a qué altura hay que poner la cámara para obtener una vista cenital completa de un campo de baloncesto. d) Haz una aplicación para medir el ángulo que definen dos puntos marcados con el ratón en la imagen. e) Opcional: determina la posición aproximada desde la que se ha tomado una foto a partir ángulos observados respecto a puntos de referencia conocidos. [Más informacion](imagen.ipynb#Calibración).

**ACTIVIDAD**. Construye un detector de movimiento en una región de interés de la imagen marcada manualmente. Guarda 2 ó 3 segundos de la secuencia detectada en un archivo de vídeo. Muestra el objeto seleccionado anulando el fondo. Impleméntalo de dos maneras: a) Utilizando un substractor de fondo de opencv como en los ejemplos backsub0.py y backsub.py. b) Mediante un procedimiento sencillo que construya un modelo de fondo con frames anteriores y compare con el actual.

**COLOR**. Construye un contador de objetos que tengan un color característico en la escena, simplemente pinchando con el ratón en dos o tres de ellos.

**FILTROS**. Amplía el código de la práctica 4 para mostrar en vivo el efecto de diferentes filtros, seleccionando con el teclado el filtro deseado y modificando sus parámetros (p.ej. el nivel de suavizado) con trackbars. Aplica el filtro en un ROI para comparar el resultado con el resto de la imagen ([ejemplo](../images/demos/ej-c4.png)). Opcional: **a)** Comprueba la propiedad de "cascading" del filtro gaussiano. **b)** Comprueba la propiedad de "separabilidad" del filtro gaussiano. **c)** Implementa en Python dede cero (usando bucles) el algoritmo de convolución con una máscara general y compara su eficiencia con la versión de OpenCV. **c)** Impleméntalo en C y haz un "wrapper" para utilizarlo desde Python (consulta al profesor). **d)** Implementa el box filter con la imagen integral. **e)** Añade la posibilidad de seleccionar varios filtros para aplicarlos sucesivamente.

**SIFT**. Escribe una aplicación de reconocimiento de objetos (p. ej. carátulas de CD, portadas de libros, cuadros de pintores, etc.) con la webcam basada en el número de coincidencias de *keypoints*. [Más información](FAQ.ipynb#Ejercicio-SIFT).

**RECTIF**. Rectifica la imagen de un plano para medir distancias (tomando manualmente referencias conocidas). Por ejemplo, mide la distancia entre las monedas en coins.png o la distancia a la que se realiza el disparo en gol-eder.png. Las coordenadas reales de los puntos de referencia y sus posiciones en la imagen deben pasarse como parámetro en un archivo de texto. Aunque puedes mostrar la imagen rectificada para comprobar las operaciones, debes marcar los puntos y mostrar el resultado sobre la imagen original. Verifica los resultados con imágenes originales tomadas por ti.

RA. Crea un efecto de realidad aumentada en el que el usuario interactúe con los objetos virtuales. Por ejemplo, haciendo que un objeto se desplace hacia un punto señalado con el ratón.