# RA

## Enunciado

Crea un efecto de realidad aumentada en el que el usuario desplace objetos virtuales hacia posiciones marcadas con el ratón.

# Solución

En primer lugar, se van a explicar las variables importantes para el funcionamiento del código:

1. **desplazamiento**: Contiene la posición (punto 3D) destino del objeto virtual 
2. **actual**: Contiene la posición actual (punto 3D) del objeto virtual
3. **start** y **now**: start contiene la última vez que se mostró un frame y now contiene el tiempo actual. Con start y now se puede saber cuanto tiempo ha transcurrido desde la última vez que se mostró un frame (y por lo tanto, desde que se movió el objeto).
4. **K_Matriz**: Matriz de calibración de la cámara. Si se usa otra habría que cambiarla.
5. **marker**: Los puntos de los que se compone el marcador.
6. **objeto**: Los puntos de los que se compone el objeto virtual
7. **point** y **pulsado**: point contiene el pixel que se pulsa en la pantalla, y pulsado contiene True si se acaba de pulsar y aún no se ha calculado a dónde debe ir el objeto virtual (*desplazamiento*), y False si ya se ha calculado 

Hay otras variables, pero no son globales, sino que se crean en cada frame. Por ello, se prosigue con la explicación del código del bucle principal (se llama una vez por frame):

1. Se guarda el tiempo actual en **now**.

2. Se extraen los contornos del frame (extractContours de umucv) y se almacenan los que se pueden reducir a 6 vértices (el marcador tiene 6 vértices y queremos encontrar el marcador).

    2.1. Si no ha encontrado ninguno, se muestra el frame y se pasa a otra iteración del bucle principal.

3. Se usa la función *bestPose* explicada en [los apuntes de la asignatura](https://github.com/albertoruiz/umucv/blob/96a0e8bcc9e95151c309ac48f743e4fd8a90a77c/notebooks/camera.ipynb) para iterar por todos los contornos de 6 vértices y obtener el que más probable sea el marcador. 

    bestPose dado el modelo y el contorno, calcula la matriz de cámara que debería haber para que el marcador con esa matriz de cámara diera el contorno. Devuelve la matriz de cámara y el error de reproyección.
    
    De este modo, si se tiene mucho error, indica que probablemente no sea el marcador lo que se ha detectado. Por ello, nos quedamos con el contorno que menor error de reproyección tenga (y por lo tanto, el que más probablemente sea el marcador). Almacenamos la matriz de cámara de la mejor opción, los puntos que constituyen su contorno, y su error de reproyección.

    3.1. Si el error no es menor a 4, se considera que no se ha encontrado el marcador en el frame, por lo que se muestra el frame y se pasa a otra iteración del bucle principal.

4. Se dibuja el contorno del marcador encontrado en rojo.

    4.1. Si no se había marcado ningún punto, se dibuja en verde el objeto virtual encima del marcador. Se obtiene los puntos del objeto virtual en píxeles del frame aplicándole la matriz de cámara (htrans) al objeto en la posición actual. El objeto en la posición actual (que en el inicio es la posición en la que se encuentra el marcador) se obtiene de aplicar un desplazamiento al objeto (htrans con la función *desp* de la posición actual).

5. Si *pulsado* es True, se debe calcular el desplazamiento al que debe ir el objeto virtual. Para ello, se elimina la tercera columna de la matriz de cámara (es la columna que se refiere al eje z, si se elimina entonces se obtiene una altura de 0), y se invierte. Una vez invertida, se aplica al punto marcado (*point*). De esto se obtiene la posición del punto en 3D (*desplazamiento*) ya que, como la matriz de cámara funciona para obtener de un punto en 3D al píxel en el frame, si se invierte se puede calcular del píxel en el frame al punto en 3D. *pulsado* se pone a falso para que no se vuelva a calcular.

6. Si *desplazamiento* no es igual a *actual*, entonces se debe de mover la posición del objeto virtual para ir a *desplazamiento*. Para esto:

    6.1. Se calcula el tiempo transcurrido desde el útimo frame (con *now* y *start*)
    
    6.2. El desplazamiento que necesita hacer el objeto virtual para llegar a *desplazamiento* es *desplazamiento* - *actual*.
    
    6.3. El vector de desplazamiento para llegar se divide entre la norma de este para obtener el vector con longitud 1. Después, se multiplica por el tiempo transcurrido entre 1.5. De este modo, se mueve poco a poco el objeto. Si se obtiene un desplazamiento mayor al que se necesita para llegar al destino, nos quedamos con el desplazamiento total para llegar ignorando lo hecho.
    
    6.4. Se actualiza la posición actual del objeto virtual, sumándole el desplazamiento a realizar (calculado en el punto anterior)
    
    6.5. Se dibuja el objeto virtual en verde en la posición actual. Para esto, se obtienen los píxeles correspondientes a los vértices del objeto (se aplica con htrans tanto la posición actual como la matriz de cámara).
    

7. Si *desplazamiento* es igual a *actual*, se dibuja el objeto en la posición actual. Para esto, se obtienen los píxeles correspondientes a los vértices del objeto (se aplica con htrans tanto la posición actual como la matriz de cámara).

8. Se guarda el tiempo actual en start, de forma que se sepa el tiempo en el que se hizo el último frame.

## Tardanza del código

Para ver cuanto tarda en ejecutar el inicio del código (hasta que se muestra el primer frame), se va a añadir las siguientes líneas de código cuando empieza y cuando se captura el primer frame:

In [None]:
import time
# ...
inicio = time.time()

# Código que se hace cada frame

fin = time.time()
print(fin-inicio)

Como se puede observar, este código tarda 0 segundos porque no hace nada en medio, pero al añadirlo a `RA.py`, el tiempo aumenta, obteniendo 6.36 segundos de espera antes de obtener el primer frame.

Posteriormente, si se cuenta el tiempo entre frames (de la misma forma), se obtiene:

- Una media de 0.02 segundos si se observa un marcador (varía normalmente entre 0.01 y 0.03, obteniendo en pocas ocasiones 0.04)
- Una media de 0.003 segundos si no se observa ningun contorno en la cámara, y por lo tanto ningún marcador (tiene ocasiones en las que se obtienen muy pocos segundos como 0.001 o más de la media como 0.007)

Gracias al poco tiempo, se observa de forma correcta.

## Funcionamiento incorrecto

Se observa un buen funcionamiento mostrando un marcador impreso en una cámara. Sin embargo, si se elige la opción de mostrar una imagen con --loop, si se mueve el objeto, el movimiento se observa a trozos. Si se cuenta el tiempo del inicio al final del frame, y entre frames, se obtiene:

- Un tiempo en realizar el bucle similar al que se obtiene con la cámara
- Un tiempo desde que se termina el bucle hasta que empieza de nuevo (entre frames) de media entre 0.2 y 0.3 segundos. Al ser tantos, es esta la razón del movimiento tan a trozos. Si se observa este tiempo con la cámara, se ve que varía entre 0.01 y 0.005 segundos (mucho menor que el otro y razón por la que con la cámara el movimiento se ve de forma correcta). A su vez, también se observa dos errores al ejecutar --loop, razón probable del comportamiento entre-cortado del movimiento.

## Objetos disponibles

Se puede elegir el objeto con **--objeto**, siendo por defecto una casa, pero se puede escoger una pirámide (*--objeto "piramide"*) o un reloj de arena (*--objeto "reloj-arena*). Se pueden observar a continuación los objetos:

Casa:

<img src="img/casa.png" style="width:20%"/> </td>

Pirámide:

<img src="img/piramide.png" style="width:20%"/> </td>

Reloj de arena:

<img src="img/reloj-arena.png" style="width:20%"/> </td>