<img src="https://raw.githubusercontent.com/albertoruiz/umucv/master/images/demos/FIUM.png" width="350px" class="pull-right" style="display: inline-block">

# Visión Artificial

### 4º de Grado en Ingeniería Informática

Curso 2023-2024<br>
Prof. [*Alberto Ruiz*](http://dis.um.es/profesores/alberto)

![concept map](https://raw.githubusercontent.com/albertoruiz/umucv/master/images/demos/concept_map.svg)

## Recursos

- [Szeliski: Computer Vision: Algorithms and Applications, 2nd ed.](https://szeliski.org/Book/)
- [OpenCV](https://opencv.org/): [tutoriales en Python](https://docs.opencv.org/4.7.0/d6/d00/tutorial_py_root.html), [documentación](https://docs.opencv.org/4.7.0/), [libro1](https://books.google.es/books?id=seAgiOfu2EIC&printsec=frontcover), [libro2](https://books.google.es/books?id=9uVOCwAAQBAJ&printsec=frontcover), [libro3](https://books.google.es/books?id=iNlOCwAAQBAJ&printsec=frontcover)
- [Bishop: Pattern Recognition and Machine Learning](https://www.microsoft.com/en-us/research/uploads/prod/2006/01/Bishop-Pattern-Recognition-and-Machine-Learning-2006.pdf)
- [Bishop: Deep Learning](https://www.bishopbook.com/)
- [Python](https://docs.python.org/3.10/), [numpy](http://www.numpy.org/), [matplotlib](http://matplotlib.org/index.html)
- [scikit-image](http://scikit-image.org/), [scikit-learn](http://scikit-learn.org), [scipy](http://docs.scipy.org/doc/scipy/reference/)
- [datasets](https://en.wikipedia.org/wiki/List_of_datasets_for_machine_learning_research#Image_data)


## Clases

El símbolo "→" indica enlace a los notebooks utilizados en cada capítulo.

### 0. Presentación (22/1/24)

[→ introducción](intro.ipynb), [→ instalación](install.ipynb), [→ Python](python.ipynb)

- Introducción a la asignatura
- Repaso de Python, numpy y matplotib

### 1. Introducción a la imagen digital (29/1/24)

[→ imagen](imagen.ipynb), [→ gráficas](graphs.ipynb), [→ indexado/stacks](stacks.ipynb), [→ dispositivos de captura](captura.ipynb)

- Modelo pinhole. Campo de visión (FOV, *field of view*, parámetro $f$)
- Imagen digital: rows, cols, depth, step. Planar or pixel order. Tipo de pixel: byte vs float
- Color encoding: RGB vs YUV vs HSV
- Coordendas de pixel, coordenadas normalizadas (indep de resolución), coordenadas calibradas (independiente del FOV).
- Aspect ratio. Resize.
- Manipulación: slice regions, "stack" de imágenes
- primitivas gráficas
- captura: webcams, cameras ip, archivos de vídeo, v4l2-ctl, etc. Load / save.
- entornos de conda, pyqtgraph, pycharm, spyder
- Herramientas: formatos de imagen, imagemagick, gimp, mplayer/mencoder/ffmpeg, mpv, gstreamer, etc.

### 2. Segmentación por color (5/2/24)

[→ canales de color](color.ipynb), [→ histograma](histogram.ipynb), [→ efecto chroma](chroma.ipynb), [→ segmentación por color](colorseg.ipynb), [→ cuantización de color](codebook.ipynb)

- Teoría del color
- ROIs, masks, probability map, label map
- Componentes conexas vs contornos.
- inRange
- Chroma key
- Histograma, transformaciones de valor (brillo, contraste), ecualización
- Histograma nD
- Distancia entre histogramas. Reproyección de histograma
- background subtraction
- activity detection

### 3. Filtros digitales (12/2/24)

[→ filtros de imagen](filtros.ipynb)

- lineal

    - convolution
    - máscaras para paso alto, bajo, etc.
    - separabilidad
    - integral image, box filter
    - dominio frecuencial
    - filtrado inverso


- no lineal

    - mediana
    - min, max
    - algoritmos generales


- Gaussian filter

    - separabilidad
    - cascading
    - Fourier
    - scale space



- [morphological operations](http://docs.opencv.org/master/d9/d61/tutorial_py_morphological_ops.html#gsc.tab=0)

    - structuring element
    - dilate, erode
    - open, close
    - gradient
    - fill holes


### 4. Análisis frecuencial (19/2/2024)

[→ análisis frecuencial](fourier.ipynb), [→ filtrado inverso](inversefilt.ipynb)

### 5. Reconocimiento de formas (26/2/2024)

[→ shapes](shapes.ipynb)

- umbralización
- análisis de regiones (componentes conexas, transformada de distancia)
- manipulación de contornos
- invariantes frecuenciales de forma

###  6. Detección de bordes (4/3/2024)

[→ detección de bordes](bordes.ipynb), [→ Canny nms en C](cannyC.ipynb)

- gradiente: visualización como *vector field*
- operador de Canny
- transformada de Hough
- Histograma de orientaciones del gradiente (HOG)
- implementación simple de HOG
- detección de *pedestrians*
- face landmarks (dlib)

### 7. Flujo óptico (11/3/24)

[→ elipse de incertidumbre](covarianza.ipynb), [→ optical flow](harris.ipynb)

- elipse de incertidumbre
- cross-correlation
- corners (Harris)
- Lucas-Kanade

### 8. *Keypoints* (18/3/24)

[→ keypoints](keypoints.ipynb), [→ bag of visual words](bag-of-words.ipynb)

- modelo cuadrático
- blobs / saddle points (Hessian)
- SIFT

### 9. *Machine learning* (8/4/24)

[→ machine learning](machine-learning.ipynb) 

- Repaso de *Machine Learning* y *Pattern Recognition*
- Repaso de computación neuronal
- Introducción a la redes convolucionales

### 10. *Deep learning* en visión artificial (15/4/24)

[→ modelos avanzados](deep.ipynb)

### 11a. Coordenadas homogéneas (22/4/24)

Comenzamos el estudio de la geometría visual.

[→ perspectiva](geovis.ipynb), [→ coordenadas homogéneas](coordhomog.ipynb)

Transformaciones lineales

- espacios lineales, vectores
- transformaciones lineales, matrices
- producto escalar (**dot** product)
- producto vectorial (**cross** product)
- puntos, rectas, planos, meet & join

Geometría del plano

- coordenadas homogéneas
- interpretación como rayos
- puntos y rectas del plano
- incidencia e intersección, dualidad
- puntos del infinito, recta del infinito
- manejo natural de puntos del infinito
- horizonte de un plano

### 11b. Transformaciones del plano

[→ transformaciones de dominio](lookup.ipynb), [→ transformaciones del plano](transf2D.ipynb), [→ sistemas de ecuaciones](sistecs.ipynb), [→ DLT](DLT.ipynb)

- Desplazamientos, rotaciones, escalado uniforme, escalado general, proyectividad.
- Grupos euclídeo, similar, afín, proyectivo.
- Propiedades invariantes de cada grupo.
- Representación como matriz homogénea $3\times 3$ y tipos de matriz de cada grupo.
- *Cross ratio* de 4 puntos en una recta. De 5 rectas.
- Estimación de transformaciones a partir de correspondencias.
- Aplicaciones: rectificación de planos, mosaico de imágenes.
- Transformaciones de dominio (deformaciones), lookup table.

Avanzado

- Transformación de rectas. Covarianza y contravarianza.
- Cónicas: incidencia, tangencia, (pole-polar), cónica dual, transformación.
- Objetos invariantes en cada grupo de transformaciones.

### 12a. Modelo de cámara

[→ modelo de la cámara](camera.ipynb)

- Espacio proyectivo: puntos y líneas 3D, planos, grados de libertad, plano del infinito, analogía con 2D.
- Grupos de transformaciones 3D: y sus invariantes.
- Modelo pinhole (proyección), cámara oscura, lente.
- Transformación de perspectiva: proyección $\mathcal P^3 \rightarrow\mathcal P ^2$.
- cámara calibrada C=PRT, 6 dof, parámetros extrínsecos o pose.
- calibración, distorsión radial.
- Matriz de cámara estándar $M=K[R|t]$.
- Matriz de calibración $K$ y campo visual.
- PnP (*pose from n points*).
- Realidad aumentada.
- Anatomía de la cámara
- Rotaciones sintéticas

### 12b. Visión estéreo

[→ stereo](stereo.ipynb), [→ stereo-challenge](stereo-challenge.ipynb)

- Triangulación
- Geometría epipolar
- Extracción de cámaras
- Rectificación estéreo
- Mapas de profundidad


Experimentos

- Reproduce los experimentos con un par estéreo tomado con tu propia cámara usando el *tracker* de puntos estudiado en una clase anterior.
- Intenta poner en marcha el sistema [VisualSFM](http://ccwu.me/vsfm/).

### 13. Otras técnicas

[→ textura](textura.ipynb), [→ varios](varios.ipynb), [→ inpainting](ipmisc.ipynb), [→ transformada de distancia](transf-dist.ipynb)

- Clasificación de texturas mediante *LBP* (Wang and He, 1990, [wiki](https://en.wikipedia.org/wiki/Local_binary_patterns))
- Detección de caras mediante *adaboost* ([Viola & Jones, 2001](http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.10.6807), [wiki](https://en.wikipedia.org/wiki/Viola%E2%80%93Jones_object_detection_framework))
- Herramientas para OCR (*[tesseract](https://github.com/tesseract-ocr)*)
- Herramientas para códigos de barras y QR (*[zbar](http://zbar.sourceforge.net/)*)
- Segmentación de objetos mediante *GrabCut* ([Rother et al. 2004](https://cvg.ethz.ch/teaching/cvl/2012/grabcut-siggraph04.pdf), [tutorial](http://docs.opencv.org/3.2.0/d8/d83/tutorial_py_grabcut.html))
- Transformada de distancia
- Detección de elipses
- Inpainting

## Prácticas

### [Guion de las sesiones](guionpracticas.ipynb)

### Ejemplos de código

Comprobación inicial

1. [`hello.py`](../code/hello.py): lee imagen de archivo, la reescala, muestra y sobreescribe un texto.

1. [`webcam.py`](../code/webcam.py): muestra la secuencia de imágenes capturadas por una webcam.

1. [`2cams.py`](../code/2cams.py): combina las imágenes tomadas por dos cámaras.

1. [`stream.py`](../code/stream.py): ejemplo de uso de la fuente genérica de imágenes.

1. [`surface.py`](../code/surface.py): superficie 3D de niveles de gris en vivo usando pyqtgraph.

1. [`facemesh.py`](../code/facemesh.py): malla de una cara usando mediapipe.

Utilidades

1. [`save_video.py`](../code/save_video.py): ejemplo de uso de la utilidad de grabación de vídeo.

1. [`mouse.py`](../code/mouse.py), [`medidor.py`](../code/medidor.py): ejemplo de captura de eventos de ratón.

1. [`roi.py`](../code/roi.py): ejemplo de selección de región rectangular.

1. [`trackbar.py`](../code/trackbar.py): ejemplo de parámetro interactivo.

1. [`help_window.py`](../code/help_window.py): ejemplo de ventana de ayuda.

1. [`wzoom.py`](../code/wzoom.py): ejemplo de ventana con zoom.

1. [`args.py`](../code/args.py):  ejemplo de argumentos en la línea de órdenes.

Actividad

1. [`deque.py`](../code/deque.py): procesamiento de las $n$ imágenes más recientes.

1. [`backsub0.py`](../code/backsub0.py), [`backsub.py`](../code/backsub.py): eliminación de fondo mediante MOG2.

Color

1. [`histogram.py`](../code/histogram.py): histograma en vivo con opencv.

1. [`histogram2.py`](../code/histogram2.py): histograma en vivo con matplotlib.

1. [`inrange0.py`](../code/inrange0.py), [`inrange.py`](../code/inrange.py): umbralización de color, máscaras, componentes conexas y contornos.

1. [`reprohist.py`](../code/reprohist.py),  [`mean-shift.py`](../code/mean-shift.py), [`camshift.py`](../code/camshift.py): reproyección de histograma y tracking.

Filtros

1. boxy.py: combinación simple de filtros para detección de zonas "interesantes".

1. box_vs_gaussian.py: comparación de calidad y eficiencia.

HOG

1. [`hog/pedestrian.py`](../code/hog/pedestrian.py): detector de peatones de opencv.

1. [`hog/facelandmarks.py`](../code/hog/facelandmarks.py): detector de caras y landmarks de dlib.

1. [`hog/hog0.py`](../code/hog/hog0.py): experimentos con hog.

1. [`regressor.py`](../code/regressor.py): predictor directo de la posición de una región.

Key points

1. [`crosscorr.py`](../code/crosscorr.py): ejemplo de match template.

1. [`kcf.py`](../code/crosscorr.py): ejemplo de discriminative correlation filter.

1. [`LK/*.py`](../code/LK): seguimiento de puntos con el método de Lucas-Kanade.

1. [`SIFT/*.py`](../code/sift.py): demostración de la detección de keypoints y búsqueda de coincidencias en imágenes en vivo.

Shapes

1. [`shape/*.py`](../code/shape): reconocimiento de formas mediante descriptores frecuenciales.

Deep Learning

1. [`code/DL`](../code/DL): Modelos avanzados de deep learning para visión artificial (mediapipe, inception, YOLO, FaceDeep, openpose).

Geometry

1. [`code/polygons`](../code/polygons) y [`code/elipses`](../code/elipses): Rectificación de planos en base a marcadores artificiales.

1. [`stitcher.py`](../code/stitcher.py): construcción automática de panoramas.

1. [`code/pose`](../code/pose): estimación de la matriz de cámara y realidad aumentada.

Varios

1. [`surface2.py`](../code/surface2.py): superficie 3D de niveles de gris  suavizada y manejo de teclado con pyqtgraph y opengl.

1. [`server.py`](../code/server.py): ejemplo de servidor web de imágenes capturadas con la webcam.

1. [`mjpegserver.py`](../code/mjpegserver.py): servidor de secuencias de video en formato mjpeg.

1. [`bot`](../code/bot): bots de [Telegram](https://python-telegram-bot.org/).

1. [`grabcut.py`](../code/grabcut.py): segmentación de objetos interactiva mediante GrabCut.

1. [`spectral.py`](../code/spectral.py): FFT en vivo.

1. [`thread`](../code/thread): captura y procesamiento concurrente.

1. [`testC.py`](../code/testC.py), [`inC`](../code/inC): Interfaz C-numpy.

1. [`ocr.py`](../code/ocr.py): reconocimiento de caracteres impresos con tesseract/tesserocr sobre imagen en vivo.

1. [`zbardemo.py`](../code/zbardemo.py): detección de códigos de barras y QR sobre imagen en vivo.

## Ejercicios

La entrega de los ejercicios se hará en una tarea del aula virtual dentro de un archivo comprimido.

Debe incluir el **código** completo .py de todos los ejercicios, los ficheros auxiliares (siempre que no sean muy pesados), y una **memoria** con una **explicación** detallada de las soluciones propuestas, las funciones o trozos de código más importantes, y **resultados** de funcionamiento con imágenes de evaluación **originales** en forma de pantallazos o videos de demostración. También es conveniente incluir información sobre tiempos de cómputo, limitaciones de las soluciones propuestas y casos de fallo.

La memoria se presentará en un formato **pdf** o **jupyter** (en este caso se debe adjuntar también una versión **html** del notebook completamente evaluado).

Lo importante, además de la evaluación de la asignatura, es que os quede un buen documento de referencia para el futuro.


[Preguntas frecuentes](FAQ.ipynb)

### Obligatorios

**HANDS**: Amplia el ejemplo `code/DL/hands/mano.py` hecho en clase para reconocer gestos simples, como por ejemplo contar el número de dedos extendidos. Haz un controlador sin contacto de varios grados de libertad que mida, al menos, distancia de la mano a la cámara y ángulo de orientación. Utilízalo para controlar alguno de tus programas.

**FILTROS**. Muestra en vivo el efecto de diferentes filtros, seleccionando con el teclado el filtro deseado y modificando sus parámetros (p.ej. el nivel de suavizado) con trackbars. Aplica el filtro en un ROI para comparar el resultado con el resto de la imagen ([ejemplo](../images/demos/ej-c4.png)).

**CLASIFICADOR**. Prepara una aplicación sencilla de reconocimiento de imágenes. Debe admitir (al menos) dos argumentos:

`--models=<directorio>`, la carpeta donde hemos guardado un conjunto de imágenes de objetos o escenas que queremos reconocer.

`--method=<nombre>`, el nombre de un método de comparación. 

Cada fotograma de entrada se compara con los modelos utilizando el método seleccionado y se muestra información sobre el resultado (el modelo más parecido o probable, las distancias a los diferentes modelos, alguna medida de confianza, etc.). Implementa inicialmente un método basado en el "embedding" obtenido por [mediapipe](https://developers.google.com/mediapipe/solutions/vision/image_embedder) (`code/DL/embbeder`).

**SIFT**. Añade al ejercicio CLASIFICADOR un método basado en el número de coincidencias de *keypoints* SIFT. Utilízalo para reconocer objetos con bastante textura (p. ej. carátulas de CD, portadas de libros, cuadros de pintores, etc.).

**RECTIF**. Rectifica la imagen de un plano para medir distancias (tomando manualmente referencias conocidas). Por ejemplo, mide la distancia entre las monedas en `coins.png` o la distancia a la que se realiza el disparo en `gol-eder.png`. Las coordenadas reales de los puntos de referencia y sus posiciones en la imagen deben pasarse como parámetro en un archivo de texto. Aunque puedes mostrar la imagen rectificada para comprobar las operaciones, debes marcar los puntos y mostrar el resultado sobre la imagen original. Verifica los resultados con **imágenes originales** tomadas por ti.

**RA**. Crea un efecto de realidad aumentada en el que el usuario desplace objetos virtuales hacia posiciones marcadas con el ratón.

### Opcionales

**MAPA**: Amplia el ejemplo `code/medidor.py` para convertir la distancia entre dos pixels marcados con el ratón en el ángulo que forman los rayos ópticos correspondientes, sabiendo el campo visual (FOV) de la cámara. Utiliza el script para encontrar mediante una construcción geométrica la posición aproximada en un mapa desde la que se ha tomado una imagen en la que se ven algunos puntos característicos.

**FILTROS II**: **a)** Comprueba la propiedad de "cascading" del filtro gaussiano. **b)** Comprueba la propiedad de "separabilidad" del filtro gaussiano. **c)** Implementa en Python dede cero (usando bucles) el algoritmo de convolución con una máscara general y compara su eficiencia con la versión de OpenCV. **c)** Impleméntalo en C y haz un "wrapper" para utilizarlo desde Python (consulta al profesor). **d)** Implementa el box filter con la imagen integral.

**POLYGON**: Implementa un procedimiento para mejorar la aproximación poligonal obtenida por el método `cv.approxPolyDP` permitiendo vértices fuera del contorno de entrada. Da una medida de la calidad de la aproximación. Pruébalo construyendo un cuadrilátero a partir de la silueta de un carnet o una tarjeta con las esquinas redondeadas.

**VROT**. Amplía el *tracker* de Lucas-Kanade (ejemplo `LK/lk_track.py`) para **a)** determinar en qué dirección se mueve la cámara (UP, DOWN, LEFT, RIGHT, FORWARD, BACKWARD); **b)** estimar de forma aproximada la velocidad angular de rotación de la cámara (grados/segundo).

**DL**. Entrena un modelo de deep learning con tus propias imágenes. Puedes utilizar la herramienta ultralytics, siguiendo [este ejemplo](https://docs.ultralytics.com/modes/train/#usage-examples), o el modelo propuesto en `code/DL/UNET`.

**SUDOKU**. Haz un programa capaz de rellenar con realidad aumentada un sudoku que se observa en una imagen en vivo.

**CARD**. Sustituye la foto de tu carnet de la UMU que se observa en una imagen en vivo. Intenta conseguir un resultado parecido a `../images/demos/dni.mp4`.

**PANO**. Crea automáticamente un mosaico a partir de las imágenes en una carpeta. Las imágenes no tienen por qué estar ordenadas ni formar una cadena lineal y no sabemos el espacio que ocupa el resultado. El usuario debe intervenir lo menos posible. Recuerda que debe tratarse de una escena plana o de una escena cualquiera vista desde el mismo centro de proyección. Debes usar homografías. Compara el resultado con el que obtiene la utilidad de stitching de OpenCV.

**MODEL3D**. Utiliza alguna de las herramientas [colmap](https://colmap.github.io/) o [meshroom](https://meshroom-manual.readthedocs.io/en/latest/) para construir un modelo 3D de un objeto.

**LIBRE**. Resuelve un problema de visión artificial de tu elección. Solo se valorarán las aportaciones originales.