# Ejercicios entregables

## CALIBRACIÓN

1. Calibra tu cámara mediante múltiples imágenes de un *chessboard* siguiendo las instrucciones del README en `code/calibrate`. Usa el modo standard o por defecto de la cámara y toma nota de su resolución ($W\times H$).
2. Con el parámetro $f$ obtenido en la calibración, determina el campo visual (FOV, *field of view*) horizontal y vertical.
3. Comprueba que estos datos son consistentes con el tamaño de la imagen que obtienes con un objeto de tamaño conocido y situado a una distancia conocida.
4. Calcula aproximadamente: a) el tamaño en pixels que tendrá una persona situada a 10m de la cámara. b) A qúe distancia se encuntra un coche que en la imagen tiene 20px del acho.
5. Determina a qué altura hay que poner la cámara para obtener una vista cenital completa de un campo de baloncesto.
6. Calcula el tamaño en pixels de la pelota cuando está en el suelo.
7. Escribe una función que devuelva la altura de la pelota sobre el suelo a partir de su diámetro aparente en pixels.
8. Haz una aplicación para medir el ángulo que definen dos puntos marcados con el ratón en la imagen.
9. Opcional: determina la posición aproximada desde la que se ha tomado una foto a partir ángulos observados respecto a puntos de referencia conocidos.

## FILTROS

1. Muestra en vivo el efecto de diferentes filtros, seleccionando con el teclado el filtro deseado y modificando sus parámetros (p.ej. el nivel de suavizado) con trackbars. Aplica el filtro en un ROI para comparar el resultado con el resto de la imagen ([ejemplo](../images/demos/ej-c4.png)). Diseña el ejercicio de forma que sea fácilmente ampliable.
2. Comprueba la propiedad de "cascading" del filtro gaussiano.
3. Comprueba la propiedad de "separabilidad" del filtro gaussiano.
6. Implementa el box filter con la imagen integral.
4. Implementa en Python dede cero (usando bucles) el algoritmo de convolución con una máscara general y compara su eficiencia con la versión de OpenCV.
5. Opcional: Implementa la convolución en C y haz un "wrapper" para utilizarlo desde Python (consulta al profesor).
6. Opcional: Añade alguna forma cómoda de combinar varios filtros en secuencia.

## CLASIFICADOR

Crea una aplicación sencilla de reconocimiento de imágenes. Debe admitir (al menos) dos argumentos:

`--models=<directorio>`, la carpeta donde hemos guardado un conjunto de imágenes de objetos o escenas que queremos reconocer.

`--method=<nombre>`, el nombre de un método de comparación. 

Cada fotograma de entrada se compara con los modelos utilizando el método seleccionado y se muestra información sobre el resultado (el modelo más parecido o probable, las distancias a los diferentes modelos, alguna medida de confianza, etc.).

1. Diseña la aplicación para que sea cómodo añadir nuevos métodos. Cada método debe implementarse en un módulo diferente con un interfaz común.
1. Puedes permitir que se añadan modelos sobre la marcha y dar la opción de salvarlos.
1. Precomputa todo lo necesario para cada modelo, para que la comparación sea lo más rápida posible.
1. Implementa un método basado en el "embedding" obtenido por [mediapipe](https://developers.google.com/mediapipe/solutions/vision/image_embedder) (`code/DL/embbeder`).
1. Implementa un reconocedor de gestos de manos basado, por ejemplo, en la distancia procrustes.

## SIFT

Añade al ejercicio CLASIFICADOR un método basado en el número de coincidencias de keypoints SIFT. Utilízalo para reconocer objetos con bastante textura (p. ej. carátulas de CD, portadas de libros, cuadros de pintores, etc.).

## DL

Entrena un modelo de deep learning con tus propias imágenes. Puedes utilizar la herramienta [ultralytics](https://docs.ultralytics.com/modes/train/#usage-examples) y apoyarte en el ejemplo `code/DL/yolotrain`. Otra posibilidad es reproducir el ejemplo `code/DL/UNET`.

## RECTIFICACIÓN

Deshaz la deformación de perspectiva de la imagen de un plano para medir distancias (tomando manualmente referencias conocidas). Por ejemplo, mide la distancia entre las monedas en `coins.png` o la distancia a la que se realiza el disparo en `gol-eder.png`. Las coordenadas reales de los puntos de referencia y sus posiciones en la imagen deben pasarse como parámetro en un archivo de texto. Aunque puedes mostrar la imagen rectificada para comprobar las operaciones, debes marcar los puntos y mostrar el resultado sobre la imagen original. Verifica los resultados con **imágenes originales** tomadas por ti.

## OPCIONALES

1. Haz un controlador sin contacto de varios grados de libertad que mida, al menos, distancia de la mano a la cámara y ángulo de orientación. Utilízalo para controlar alguno de tus programas.
2. Haz un clasificador de trayectorias simples dibujadas con el dedo índice en el aire enfrente de la cámara.
3. Haz una implementación propia de un algoritmo de extracción de contornos de una imagen binaria.
5. Implementa un procedimiento para mejorar la aproximación poligonal obtenida por el método `cv.approxPolyDP` permitiendo vértices fuera del contorno de entrada. Da una medida de la calidad de la aproximación. Pruébalo construyendo un cuadrilátero a partir de la silueta de un carnet o una tarjeta con las esquinas redondeadas.
6. Investiga algún modelo de deep learning para recuperar imágenes desenfocadas (deblurring) y compáralo con el filtro de Wiener en imágenes propias.
7. Amplía el tracker de Lucas-Kanade (ejemplo `LK/lk_track.py`) para a) determinar en qué dirección se mueve la cámara (UP, DOWN, LEFT, RIGHT, FORWARD, BACKWARD); b) estimar de forma aproximada la velocidad angular de rotación de la cámara (grados/segundo).
1. Haz un programa capaz de rellenar con realidad aumentada un sudoku que se observa en una imagen en vivo.

1. Sustituye la foto de tu carnet de la UMU que se observa en una imagen en vivo. Intenta conseguir un resultado parecido a `../images/demos/dni.mp4`.

1. Crea automáticamente un mosaico a partir de las imágenes en una carpeta. Las imágenes no tienen por qué estar ordenadas ni formar una cadena lineal y no sabemos el espacio que ocupa el resultado. El usuario debe intervenir lo menos posible. Recuerda que debe tratarse de una escena plana o de una escena cualquiera vista desde el mismo centro de proyección. Debes usar homografías. Compara el resultado con el que obtiene la utilidad de stitching de OpenCV.

1. Crea un efecto de realidad aumentada en el que el usuario desplace objetos virtuales hacia posiciones marcadas con el ratón.

1. Utiliza [colmap](https://colmap.github.io/) o [meshroom](https://meshroom-manual.readthedocs.io/en/latest/) para construir un modelo 3D de un objeto. Compara con [vggt](https://github.com/facebookresearch/vggt).

1. Resuelve un problema de visión artificial de tu elección. Solo se valorarán las aportaciones originales.