# Visión Artificial

Prof. [*Alberto Ruiz*](http://dis.um.es/profesores/alberto)

![concept map](https://raw.githubusercontent.com/albertoruiz/umucv/master/images/demos/concept_map.svg)

## Recursos

- [Szeliski: Computer Vision: Algorithms and Applications, 2nd ed.](https://szeliski.org/Book/)
- [OpenCV](https://opencv.org/): [tutoriales en Python](https://docs.opencv.org/4.7.0/d6/d00/tutorial_py_root.html), [documentación](https://docs.opencv.org/4.7.0/), [libro1](https://books.google.es/books?id=seAgiOfu2EIC&printsec=frontcover), [libro2](https://books.google.es/books?id=9uVOCwAAQBAJ&printsec=frontcover), [libro3](https://books.google.es/books?id=iNlOCwAAQBAJ&printsec=frontcover)
- [Bishop: Pattern Recognition and Machine Learning](https://www.microsoft.com/en-us/research/uploads/prod/2006/01/Bishop-Pattern-Recognition-and-Machine-Learning-2006.pdf)
- [Bishop: Deep Learning](https://www.bishopbook.com/)
- [Python](https://docs.python.org/3.10/), [numpy](http://www.numpy.org/), [matplotlib](http://matplotlib.org/index.html)
- [scikit-image](http://scikit-image.org/), [scikit-learn](http://scikit-learn.org), [scipy](http://docs.scipy.org/doc/scipy/reference/)
- [datasets](https://en.wikipedia.org/wiki/List_of_datasets_for_machine_learning_research#Image_data)


## Clases

El símbolo "→" indica enlace a los notebooks utilizados en cada capítulo.

### 0. Presentación

[→ introducción](intro.ipynb), [→ instalación](install.ipynb), [→ Python](python.ipynb)

- Introducción a la asignatura
- Repaso de Python, numpy y matplotib

### 1. Introducción a la imagen digital

[→ imagen](imagen.ipynb), [→ gráficas](graphs.ipynb), [→ indexado/stacks](stacks.ipynb), [→ dispositivos de captura](captura.ipynb)

- Modelo pinhole. Campo de visión (FOV, *field of view*, parámetro $f$)
- Imagen digital: rows, cols, depth, step. Planar or pixel order. Tipo de pixel: byte vs float
- Color encoding: RGB vs YUV vs HSV
- Coordendas de pixel, coordenadas normalizadas (indep de resolución), coordenadas calibradas (independiente del FOV).
- Aspect ratio. Resize.
- Manipulación: slice regions, "stack" de imágenes
- primitivas gráficas
- captura: webcams, cameras ip, archivos de vídeo, v4l2-ctl, etc. Load / save.
- entornos de conda, pyqtgraph, pycharm, spyder
- Herramientas: formatos de imagen, imagemagick, gimp, mplayer/mencoder/ffmpeg, mpv, gstreamer, etc.

### 2. Segmentación por color

[→ canales de color](color.ipynb), [→ histograma](histogram.ipynb), [→ efecto chroma](chroma.ipynb), [→ segmentación por color](colorseg.ipynb), [→ cuantización de color](codebook.ipynb)

- Teoría del color
- ROIs, masks, probability map, label map
- Componentes conexas vs contornos.
- inRange
- Chroma key
- Histograma, transformaciones de valor (brillo, contraste), ecualización
- Histograma nD
- Distancia entre histogramas. Reproyección de histograma
- background subtraction
- activity detection

### 3. Filtros digitales

[→ filtros de imagen](filtros.ipynb)

- lineal

    - convolution
    - máscaras para paso alto, bajo, etc.
    - separabilidad
    - integral image, box filter
    - dominio frecuencial
    - filtrado inverso


- no lineal

    - mediana
    - min, max
    - algoritmos generales


- Gaussian filter

    - separabilidad
    - cascading
    - Fourier
    - scale space



- [morphological operations](http://docs.opencv.org/master/d9/d61/tutorial_py_morphological_ops.html#gsc.tab=0)

    - structuring element
    - dilate, erode
    - open, close
    - gradient
    - fill holes


### 4a. Análisis frecuencial

[→ análisis frecuencial](fourier.ipynb), [→ filtrado inverso](inversefilt.ipynb)

### 4b. Reconocimiento de formas

[→ shapes](shapes.ipynb)

- umbralización
- análisis de regiones (componentes conexas, transformada de distancia)
- manipulación de contornos
- invariantes frecuenciales de forma

### 5. Detección de bordes

[→ detección de bordes](bordes.ipynb), [→ Canny nms en C](cannyC.ipynb)

- gradiente: visualización como *vector field*
- operador de Canny
- transformada de Hough
- Histograma de orientaciones del gradiente (HOG)
- implementación simple de HOG
- detección de *pedestrians*
- face landmarks (dlib)

### 6. Flujo óptico

[→ elipse de incertidumbre](covarianza.ipynb), [→ optical flow](harris.ipynb)

- elipse de incertidumbre
- cross-correlation
- corners (Harris)
- Lucas-Kanade

### 7. *Keypoints*

[→ keypoints](keypoints.ipynb), [→ bag of visual words](bag-of-words.ipynb)

- modelo cuadrático
- blobs / saddle points (Hessian)
- SIFT

### 8. Otras técnicas

[→ textura](textura.ipynb), [→ varios](varios.ipynb), [→ inpainting](ipmisc.ipynb), [→ transformada de distancia](transf-dist.ipynb)

- Clasificación de texturas mediante *LBP* (Wang and He, 1990, [wiki](https://en.wikipedia.org/wiki/Local_binary_patterns))
- Detección de caras mediante *adaboost* ([Viola & Jones, 2001](http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.10.6807), [wiki](https://en.wikipedia.org/wiki/Viola%E2%80%93Jones_object_detection_framework))
- Herramientas para OCR (*[tesseract](https://github.com/tesseract-ocr)*)
- Herramientas para códigos de barras y QR (*[zbar](http://zbar.sourceforge.net/)*)
- Segmentación de objetos mediante *GrabCut* ([Rother et al. 2004](https://cvg.ethz.ch/teaching/cvl/2012/grabcut-siggraph04.pdf), [tutorial](http://docs.opencv.org/3.2.0/d8/d83/tutorial_py_grabcut.html))
- Transformada de distancia
- Detección de elipses
- Inpainting

### 9. *Machine learning*

[→ machine learning](machine-learning.ipynb) 

- Repaso de *Machine Learning* y *Pattern Recognition*
- Repaso de computación neuronal
- Introducción a la redes convolucionales

### 10. *Deep learning* en visión artificial

[→ modelos avanzados](deep.ipynb)

### 11a. Coordenadas homogéneas

Comenzamos el estudio de la geometría visual.

[→ perspectiva](geovis.ipynb), [→ coordenadas homogéneas](coordhomog.ipynb)

Transformaciones lineales

- espacios lineales, vectores
- transformaciones lineales, matrices
- producto escalar (**dot** product)
- producto vectorial (**cross** product)
- puntos, rectas, planos, meet & join

Geometría del plano

- coordenadas homogéneas
- interpretación como rayos
- puntos y rectas del plano
- incidencia e intersección, dualidad
- puntos del infinito, recta del infinito
- manejo natural de puntos del infinito
- horizonte de un plano

### 11b. Transformaciones del plano

[→ transformaciones de dominio](lookup.ipynb), [→ transformaciones del plano](transf2D.ipynb), [→ sistemas de ecuaciones](sistecs.ipynb), [→ DLT](DLT.ipynb)

- Desplazamientos, rotaciones, escalado uniforme, escalado general, proyectividad.
- Grupos euclídeo, similar, afín, proyectivo.
- Propiedades invariantes de cada grupo.
- Representación como matriz homogénea $3\times 3$ y tipos de matriz de cada grupo.
- *Cross ratio* de 4 puntos en una recta. De 5 rectas.
- Estimación de transformaciones a partir de correspondencias.
- Aplicaciones: rectificación de planos, mosaico de imágenes.
- Transformaciones de dominio (deformaciones), lookup table.

Avanzado

- Transformación de rectas. Covarianza y contravarianza.
- Cónicas: incidencia, tangencia, (pole-polar), cónica dual, transformación.
- Objetos invariantes en cada grupo de transformaciones.

### 12. Modelo de cámara

[→ modelo de la cámara](camera.ipynb)

- Espacio proyectivo: puntos y líneas 3D, planos, grados de libertad, plano del infinito, analogía con 2D.
- Grupos de transformaciones 3D: y sus invariantes.
- Modelo pinhole (proyección), cámara oscura, lente.
- Transformación de perspectiva: proyección $\mathcal P^3 \rightarrow\mathcal P ^2$.
- cámara calibrada C=PRT, 6 dof, parámetros extrínsecos o pose.
- calibración, distorsión radial.
- Matriz de cámara estándar $M=K[R|t]$.
- Matriz de calibración $K$ y campo visual.
- PnP (*pose from n points*).
- Realidad aumentada.
- Anatomía de la cámara
- Rotaciones sintéticas

### 13. Visión estéreo

[→ stereo](stereo.ipynb), [→ stereo-challenge](stereo-challenge.ipynb)

- Triangulación
- Geometría epipolar
- Extracción de cámaras
- Rectificación estéreo
- Mapas de profundidad

## Prácticas

[→ Guion de las sesiones](guionpracticas.ipynb)

[→ Ejemplos de código](codesamples.ipynb)

## Evaluación

La asignatura se evaluará mediante una [colección de ejercicios](https://github.com/albertoruiz/umucv/blob/master/notebooks/ejercicios.ipynb) que se irán proponiendo durante el curso.

La entrega se hará en una tarea del aula virtual dentro de un archivo comprimido. Debe incluir el **código** completo .py de todos los ejercicios, los ficheros auxiliares (o un enlace si son muy pesados), y una **memoria** en formato **pdf** o **html**con una **explicación** detallada de las soluciones propuestas, las funciones o trozos de código más importantes, y **resultados** de funcionamiento con imágenes de evaluación **originales** en forma de pantallazos o videos de demostración. También es conveniente incluir información sobre tiempos de cómputo, limitaciones de las soluciones propuestas y casos de fallo.

Lo importante, además de la evaluación de la asignatura, es que os quede un buen documento de referencia para el futuro.
