![logomateriaCV.png](attachment:logomateriaCV.png)

# OpenCV 

### para a materia de Visión Artificial do Grao de Robótica. EPSE de Lugo.

<hr style = "border: none; height: 4px; background-color: # D3D3D3" />

# 8.4 O modelo da cámara

Ata agora centrámonos primeiro en indicar as ferramentas matemáticas necesarias para comprender as transformacións xerais de vectores/coordenadas e despois aplicalas para realizar diferentes transformacións de imaxes (homografías). De feito, lembra que nos cadernos anteriores, transformamos as coordenadas `MUNDO` en coordenadas `CÁMARA` e ao revés, pero iso é só unha transformación de **3D a 3D**. Pero aínda non abordamos correctamente o proceso de transformación das coordenadas **`MUNDO` (3D)** en coordenadas **`IMAXE` (2D)** (e viceversa cando sexa posible), é dicir, como se forman as imaxes a partir de obxectos 3D reais. Ben, este é o momento, imos aló!

Neste caderno aprenderemos:

- o **marco xeral** do problema que estamos abordando (<a href="#41">sección 8.4.1</a>),
- o **modelo Pinhole** (<a href="#42">sección 4.2</a>) e
- o **Modelo de cámara** (<a href="#43">sección 4.3</a>).

Por último, poñeremos a traballar os conceptos aprendidos cun exemplo práctico (<a href="#44">sección 8.4.4</a>).

## Contexto do problema: imaxes RGB-D

As imaxes RGB-D son como imaxes RGB estándar (onde cada píxel ten información sobre cada cor básica: vermello, verde e azul), pero engadindo outra información a cada píxel: **a súa distancia desde a cámara ata o  punto 3D  que é proxectado sobre el**. É dicir, estas imaxes conteñen non só información fotométrica senón tamén información xeométrica.$\\[10pt]$

<img src="./images/kinect.png" width="600"/>$\\[5pt]$

Nesta figura, a imaxe da esquerda é a imaxe RGB estándar, mentres que a dereita é a banda de *profundidade* que se mostra como unha imaxe en escala de grises (máis escura a medida que o obxecto está máis preto).

Aínda que este tipo de imaxes xa se usan dende hai décadas, nos últimos anos fixéronse populares debido ao desenvolvemento de sensores económicos, como a cámara [Microsoft's Kinect](https://en.wikipedia.org/wiki/Kinect), que son capaces de proporcionalos directamente a profundidade. No negocio do entretemento, estas imaxes utilizáronse para segmentar as persoas do fondo da imaxe e inspeccionar os seus movementos.

A grandes liñas, o principio de funcionamento destes dispositivos (chamado luz estruturada) consiste en proxectar un patrón de infravermellos na escena (ver imaxe a continuación) e inspeccionar as deformacións que sofre tal patrón debido ás superficies irregulares onde rebota a luz. Estas deformacións están directamente relacionadas coa distancia e posición do obxecto.

<img src="./images/kinect_pattern.png" width="400"/>$\\[5pt]$

Como as imaxes RGB-D realmente proporcionan información de profundidade, son un **bo exemplo para aprender como funcionan os modelos de formación de imaxes**, porque podemos converter as imaxes en mapas 3D (usando a profundidade) e ao revés (escena 3D en 2D). plano da imaxe).

## 4.1 O marco xeral <a id=41></a>

O proceso de conversión de **coordenadas mundo** en **coordenadas de imaxe** implica varios pasos que se aplican mediante a concatenación de transformacións expresadas con matrices/vectores homoxéneos. Abordamos todas estas transformacións neste caderno pero, primeiro, imos presentar todo o proceso nunha soa imaxe, só para manter un ollo no **esquema xeral** e despois desvelaremos os seus misterios.
<center><figure>
    <img src="images/cameramodel.png" >$\\[5pt]$
    <figcaption>Fig. 1 - O marco xeral da transformación implicada na conversión das coordenadas dun punto 3D $M$ (coordenadas mundo) a coordenadas imaxe $m$.</figcaption>
</figure></center>

Imos facelo paso a paso!

In [2]:
%matplotlib inline

import numpy as np
import cv2
import matplotlib.pyplot as plt
import matplotlib
import scipy.stats as stats

from mpl_toolkits.mplot3d import Axes3D
from math import sin, cos, radians, floor
images_path = './images/'
matplotlib.rcParams['figure.figsize'] = (12.0, 12.0)

### Coordenadas homoxéneas (de novo)

Ademais do que xa sabemos sobre as coordenadas homoxéneas, unha propiedade interesante delas é que as **coordenadas homoxéneas dun punto no plano ($\mathbb{R}^2$) tamén representan unha recta que pasa pola orixe nun sistema de coordenadas paralelo ao plano da imaxe**:$\\[10pt]$

<img src="./images/homogenous.png" width="300"/>$\\[5pt]$

É dicir, para un determinado punto cartesiano $\mathbf{p}=(x,y)$, a súa versión homoxénea $\tilde{\mathbf{p}}=(kx,ky,k),\forall k$ representa un liña en 3D que comeza no orixe das coordenadas. Isto chámase **liña de proxección**.
 
O **plano proxectivo**, chamado $\mathbb{P}^2$, é o conxunto de 3-tuplas de números reais tales que $\begin{bmatrix}x_1 \\ x_2 \\ 1\end{bmatrix} \equiv k \begin{bmatrix}x_1 \\ x_2 \\ 1\end{bmatrix}, \ k \ne 0$, é dicir, o conxunto de todas as liñas proxectivas a unha certa distancia $k$ da orixe das coordenadas.

En resumo:
- Un punto en $\mathbb{P}^2$ (3-tuplas) represéntase en ($\mathbb{R}^3$) como unha recta que pasa pola orixe.
- O compoñente $k$ pódese entender como a *profundidade*, xa que indica un punto específico ao longo da liña.

## 4.2 O modelo Pinhole <a id=42></a>

O modelo de cámara pinhole é o modelo máis sinxelo que podemos pensar para entender como funciona a formación de imaxes [[1]](https://web.stanford.edu/class/cs231a/course_notes/01-camera-models.pdf). Imaxinemos que queremos deseñar un sistema de cámara sinxelo que poida gravar unha imaxe dun obxecto no mundo 3D. Este sistema de cámara pódese deseñar colocando unha barreira opaca cunha abertura pequena (tamaño de pin) entre o obxecto 3D e unha película fotográfica ou sensor.

<img src="./images/pinhole_intro.png" width="500"/>$\\[5pt]$

Como mostra esta figura, cada punto do obxecto 3D rebota a luz da fonte e emite múltiples raios desa luz cara ao exterior. Sen unha barreira, cada punto da película estará influenciado polos raios de luz emitidos desde cada punto do obxecto 3D. Non obstante, debido á barreira, só un (ou algúns) destes raios de luz atravesan a abertura e golpean a película. Polo tanto, podemos establecer unha correspondencia un a un entre os puntos do obxecto 3D e a película. O resultado é que o plano imaxe queda impresionada por unha *imaxe* do obxecto 3D. Este modelo sinxelo coñécese como **modelo de cámara pinhole**.

No modelo Pinhole queremos proxectar o mundo 3D (un conxunto de $\mathbf{p}_i=[X_i,Y_i,Z_i]^T$ puntos) nun plano chamado **plano de imaxe**. Para iso, temos unha cámara situada en $\mathbf{C} = [0,0,0]^\texttt{T}$ no sistema de referencia `MUNDO` (é dicir, tanto o `MUNDO` como o `CAMARA` son coincidentes). Esta cámara ten unha propiedade fixa $f$ chamada **distancia focal**, que indica a distancia entre o centro óptico e o **sensor da cámara** (colocado no interior da cámara). O sensor da cámara é o plano **onde se proxecta a escena do mundo real**:

<img src="./images/pinhole.png" width="400"/>$\\[5pt]$

Para operar con este modelo de formación de imaxes, necesitamos coñecer dous procesos:
- para proxectar un punto do mundo 3D ao plano da imaxe
- para retroproxectar un punto 2D no plano da imaxe ao mundo 3D.

Para iso, imos utilizar a propiedade mencionada anteriormente de coordenadas homoxéneas.

### De 2D a 3D

Dado un punto $\mathbf{p} = [x,y]^\texttt{T} \in \mathbb{R}^2$ na imaxe, a súa **liña de proxección** (en vermello na figura anterior) no sistema de cámaras é moi sinxelo de calcular mediante a recta que pasa polo punto $[x,y,f]^\texttt{T} \in \mathbb{R}^3$ (engadimos o terceiro compoñente $ f$ porque o plano da imaxe sitúase a unha distancia $f$ no eixe $Z$ do sistema de referencia da cámara). En coordenadas homoxéneas, esta liña segue a expresión:$\\[5pt]$

$$k \begin{bmatrix}x \\ y \\ f \end{bmatrix} \in \mathbb{P}^2$$

onde $k$ indica un punto 3D específico ao longo da liña de proxección.

Por exemplo, se establecemos $k=2$ temos o punto:$\\[5pt]$

$$ \begin{bmatrix}2x \\ 2y \\ 2f \end{bmatrix} \in \mathbb{R}^3 \\[5pt]$$

Ten en conta que, nesta expresión, $k$ non se corresponde directamente coa profundidade do punto 3D, pero podemos corrixir ito dividindo entre a distancia focal:$\\[5pt]$

$$k' \begin{bmatrix} x/f \\ y/f \\ 1 \end{bmatrix} \in \mathbb{P}^2 \\[5pt]$$

Agora que a terceira coordenada é 1, $k'$ indica a profundidade do punto 3D, de xeito que se sabemos que a profundidade dun píxel é 5, só teremos que establecer $k'=5$ e teremos as coordenadas 3D do punto.$\\[10pt]$

### Dende 3D a 2D

Vexamos agora o proceso de proxectar puntos 3D a 2D. Dado calquera punto 3D $\mathbf{M} = [X,Y,Z]^T \in \mathbb{R}^3$, sabemos que ten unha proxección no plano da imaxe $\mathbf{m} = [x,y]^T \in \mathbb{R}^2$.

Como se viu antes, o punto 3D na liña de proxección de $\mathbf{m}$ con profundidade $Z$ é:$\\[5pt]$

$$Z \begin{bmatrix} x/f \\ y/f \\ 1 \end{bmatrix} = \begin{bmatrix} Z x/f \\ Z y/f \\ Z \end{bmatrix} \in \mathbb {R}^3 \\[5pt]$$

Para que poidamos atopar as coordenadas da imaxe 2D do punto proxectado a través de:$\\[5pt]$

$$M = \begin{bmatrix}X \\ Y \\ Z \end{bmatrix} = \begin{bmatrix} Z x/f \\ Z y/f \\ Z \end{bmatrix} \longrightarrow \begin{eqnarray} X = \frac{Zx}{f}\ \rightarrow \ x = \frac{fX}{Z} \\[3pt] Y = \frac{Zy}{f} \ \rightarrow \ y = \frac{fY} {Z} \end{eqnarray} \\[5pt]$$

Deste xeito, a relación entre o punto 3D e o seu punto 2D proxectado é a seguinte:$\\[10pt]$
<img src="./images/3dto2d.png" width="500"/>$\\[5pt]$

Ten en conta que esta transformación non é lineal, pero **convértese en lineal se usamos coordenadas homoxéneas!**:$\\[5pt]$


$$\begin{bmatrix} f & 0 & 0 & 0 \\ 0 & f & 0 & 0 \\ 0 & 0 & 1 & 0 \end{bmatrix}\begin{bmatrix} X \\ Y \\ Z \\ 1 \end{bmatrix} = \begin{bmatrix} fX \\ fY \\ Z\end{bmatrix} \xrightarrow{\text{homoxeneas a Cartesianas}} \begin{bmatrix} fX \ / \ Z \\ fY \ / \ Z \end{bmatrix} \\[5pt]$$

### Resumo

Así, estas ecuacións relacionan as coordenadas 3D e 2D dun determinado punto do mundo real e a súa proxección na imaxe:

<img src="./images/pinhole_summary.png" width="600"/>$\\[5pt]$

Ten en conta que é imposible obter a posición 3D completa dun determinado punto a partir das súas coordenadas nunha única imaxe porque necesitamos coñecer previamente a coordenada $Z$. Isto ocorre porque o conxunto de puntos 3D que cae na liña desde o centro óptico ata o punto da imaxe **todos proxectan exactamente no mesmo punto da imaxe**! Esta é tamén a razón pola que **non podemos determinar a escala dos obxectos a partir dunha única imaxe**, que se chama **indeterminación de escala** na visión monocular.

Normalmente, esta transformación faise máis xeral descompoñéndoa como $Z \tilde{\mathbf{m}} = \mathbf{K}_f\underbrace{\mathbf{P}_0\tilde{\mathbf{M}}_C}_{Z\tilde{\mathbf{m}}_1}\\[5pt]$, isto é:

$$Z \underbrace{\begin{bmatrix} x  \\ y \\ 1 \end{bmatrix}}_{\tilde{\mathbf{m}}} = \underbrace{\begin{bmatrix} f & 0 & 0\\ 0 & f & 0  \\ 0 & 0 & 1\end{bmatrix}}_{\mathbf{K}_f}\underbrace{\begin{bmatrix} 1 & 0 & 0 & 0\\ 0 & 1 & 0 & 0  \\ 0 & 0 & 1 & 0\end{bmatrix}}_{\mathbf{P}_0 = [\mathbf{I}|\mathbf{0}]}\begin{bmatrix} X  \\ Y \\ Z \\ 1 \end{bmatrix}$$

Nesta expresión, chamada **ecuación de proxección de perspectiva**, $\tilde{\mathbf{m}}$ é o punto 2D homoxéneo, $\mathbf{K}_f$ chámase **matriz de calibración** e $\ mathbf{P_0}$ representa unha certa transformación entre o sistema de referencia `CAMERA` e o `MUNDO`, como veremos máis adiante. A seguinte imaxe ilustra aínda máis estas relacións:

<img src="./images/3dto2d-2.png"/>$\\[5pt]$

### **<span style="color:green"><b><i>TAREFA 1: De coordenadas `MUNDO` a imaxe no modelo Pinhole</i></b></span>**

**A túa primeira tarefa é** transformar un número de puntos expresados en coordenadas `MUNDO` en imaxes. Tes que considerar que:

- Os puntos do mundo están indicados na matriz "world",
- a distancia focal da cámara é $f = 2,5$, e
- deberías usar **só** transformacións lineais e expresar o resultado en **coordenadas cartesianas**.

In [None]:
# %matplotlib notebook
matplotlib.rcParams['figure.figsize'] = (12.0, 12.0)

# TAREFA 1 --
# Coordenadas mundo
world = np.array([[-12, 21,-30,41, 67,-54,33,-24,46,-58],  # X
                  [ 21,-26,-34,23,-42,-67,76,-54,42,-37],  # Y 
                  [ 10,  7,  2,13,  4,  7, 5, 15, 8,  7]]) # Z

# Creamos a figura e preparamola para 3D
fig = plt.figure()
ax = fig.add_subplot(projection='3d')

# Nomes do eixes
ax.set_xlabel('X axis')
ax.set_ylabel('Y axis')
ax.set_zlabel('Z axis')

# Representamos os puntos
ax.scatter(world[0,:], world[1,:], world[2,:])
ax.scatter(0, 0, 0, color="red")
ax.view_init(elev=-60, azim=-90)

# Distancia focal
f = None

# Converter as coordenadas do mundo en homoxéneas
h_world = np.append(None, np.ones((1,world.shape[1])), axis= 0)

# Definir matrices de transformación
K_f = np.array(None)

P_0 = np.array(None)

# Obter coordenadas homoxéneas do sensor (aplicar matrices de transformación)
h_sensor = None @ None @ None

# Transformamos en cartesianas
sensor = None / None

# Para comprobar se o resultado é correcto
print(sensor.round(3))

# Creamos a figura e preparamola para 3D
fig = plt.figure()
ax = fig.add_subplot(projection='3d')

# Visualizamos
ax.scatter(None, None)
ax.scatter(0, 0, color="red")
ax.arrow(0,0,10,0)
ax.arrow(0,0,0,10)
ax.axis('equal')
ax.invert_yaxis() # para facer que o eixe "y" sexa  positivo cara abaixo

**Comprobación de se os resultados son correctos**:

<font color='blue'>**Saída esperada:**  </font>

    [[ -3.      7.5   -37.5     7.885  41.875 -19.286  16.5    -4.     14.375  -20.714]
     [  5.25   -9.286 -42.5     4.423 -26.25  -23.929  38.     -9.     13.125  -13.214]]

## 4.3 O modelo da cámara <a id=43></a>

O modelo Pinhole é un punto de partida útil para comprender os procesos de formación de imaxes, pero aínda ten varias limitacións porque:

- o punto en coordenadas da cámara $m$ ten as súas coordenadas expresadas **en metros**, pero nós queremos coñecelas en **píxeles**.
- asume que os sistemas de referencia `CAMARA` e `MUNDO` **son coincidentes**, o que, por suposto, non é o caso xeral.

Aquí é onde definimos o **modelo de cámara**, que inclúe algunhas transformacións lineais para resolver estas limitacións e permítenos abordar o problema completo da formación de imaxes como se representa na imaxe grande que se mostra.

<img src="images/cameramodel.png">$\\[5pt]$

Imos paso a paso!


### Paso 1: do cadro `MUNDO` ao cadro `CAMARA`.

Esta transformación implica atopar unha matriz de rotación $\mathbf{R}$ e un vector de translación $\mathbf{t}$ que **relacione a posición e orientación da cámara w.r.t. o mundo**. Esta é unha transformación de 3D a 3D e utilizámola nos cadernos anteriores.

<img src="images/world_camera.png">$\\[5pt]$

Como se dixo antes, a cámara non debería estar no centro do mundo, principalmente porque a cámara se moverá dentro dese entorno, ou mesmo porque haberá máis dunha cámara no noso sistema de percepción.

Lembra que no segundo caderno deste capítulo, aprendemos a aplicar unha rotación e unha traslación a un conxunto de puntos 3D mediante transformacións homoxéneas:$\\[5pt]$

$$\mathbf{M}_C = \mathbf{R}\mathbf{M}_W + \mathbf{t} \ \xrightarrow{\text{En homoxeneas}} \ \tilde{\mathbf{M}}_C = \mathbf{D} \tilde{\mathbf{M}}_W$$

Se engadimos esta transformación ao modelo Pinhole, a nova **ecuación de proxección de perspectiva** toma a expresión:

$$\lambda \tilde{\mathbf{m}} = \mathbf{K}_f \mathbf{P}_0 \tilde{\mathbf{M}}_C = \mathbf{K}_f \mathbf{P}_0 \mathbf{D} \tilde{\mathbf{M}}_W$$

que nos permiten transformar puntos en 3D dentro do sistema de referencia `MUNDO` (en metros) a puntos en 2D no sensor de imaxe (**tamén en metros!**).

### Paso 2: da imaxe do sensor a unha imaxe no ordenador

Unha vez que obtivemos os puntos de imaxe do sensor, queremos obter as **coordenadas da matriz da imaxe** de tales puntos **en píxeles** (é dicir, *fila e columna* dentro da matriz de imaxe), que son as unidades que uso no ordenador en todos os procesos de visión artificial.$\\[10pt]$

<img src="images/sensor_matrix.png">$\\[5pt]$

Como podes ver na figura, ambas as imaxes están relacionadas por unha transformación **afín** (é dicir, unha homografía 2D). Como sabemos, as transformacións afines permiten **rotación + traslación + escala** (diferente para cada eixe). Neste caso non necesitamos ningunha rotación, senón que os eixes **escalen**, e esa escala representa o tamaño en metros no sensor de cada píxel da imaxe:

$$\mathbf{m}' = \mathbf{A}\mathbf{m} + \mathbf{b} = \begin{bmatrix}k_x & 0 \\ 0 & k_y\end{bmatrix}\underbrace{\begin{bmatrix} x \\ y \end{bmatrix}}_{\text{metros}} + \underbrace{\begin{bmatrix} u_0 \\ v_0 \end{bmatrix}}_{\text{pixeles}} \xrightarrow{\text{En homoxeneas}} \begin{bmatrix} u \\ v\\ 1 \end{bmatrix} = \begin{bmatrix} k_x & 0 & u_0  \\ 0 & k_y & v_0 \\ 0 & 0 & 1 \end{bmatrix} \begin{bmatrix} x \\ y\\ 1 \end{bmatrix} \qquad \bf{\tilde{\mathbf{m}}' = \mathbf{K}_s \tilde{\mathbf{m}}}$$

Teen en conta que nesta expresión, $k_x$ e $k_y$ determinan a escala e teñen unidades de **píxeles/metro**, mentres que $u_0$ e $v_0$ son as coordenadas do **punto principal**, que é a proxección do eixe $Z$ no plano da imaxe. Estes elementos forman parte dos **parámetros intrínsecos** da cámara, o que significa que sempre son **constantes** para a mesma cámara.

### **<span style="color:green"><b><i>TAREFA 2: Desde as coordenadas da imaxe ata os píxeles</i></b></span>**

É o momento de transformar as coordenadas do sensor (en metros) obtidas na asignación anterior en coordenadas de imaxe (píxeles). Para iso, necesitarás os parámetros intrínsecos da cámara, que para este exemplo son:

- `k_x = 2`
- `k_y = 3`
- `u_0 = 300`
- `v_0 = 200`

Non te preocupes, estes valores son normalmente proporcionados polo fabricante da cámara. Tamén poderiamos calculalos mediante un proceso chamado **calibración da cámara**, que trataremos no seguinte capítulo.

Concretamente, **tedes que**:
- definir a homografía $\mathbf{K}_s$ (`H` no código) relacionando os metros cos píxeles,
- aplícalo ás coordenadas do sensor en `h_sensor` como se recuperou na asignación anterior,
- transformar as coordenadas resultantes en cartesianas, e
- ¡Mostralos!

In [None]:
# TAREFA 2 --
# Definir parámetros intrínsecos
kx = None 
ky = None 
u0 = None 
v0 = None

# Escribe aquí o teu código!

# Matriz de transformación
H = np.array(None)

# Transformar as coordenadas do sensor en coordenadas da imaxe
h_image_pixels = None @ None
center = H @ np.array([0,0,1])

# Transformar a cartesiano
image_pixels = None / None

# Para comprobar se o resultado é correcto
print(image_pixels.astype(int))

# Creamos a figura e preparamola para 3D
fig = plt.figure()
ax = fig.add_subplot(projection='3d')

# Representamos os puntos
ax.scatter(None, None, marker='s')
ax.scatter(center[0], center[1], color="red")

# Establecer límites de eixes
ax.set_xlim(0, 600)
ax.set_ylim(0, 400)
#ax.axis('equal')
ax.invert_yaxis() # para facer que o eixe "y" sexa cara abaixo

Para comprobar **se os teus resultados son correctos**:

<font color='blue'>**Saída correcta:**  </font>

    [[294 315 225 315 383 261 333 292 328 258]
     [215 172  72 213 121 128 314 173 239 160]]

### Forma xeral da matriz Perspectiva

Vexamos como sería a transformación final da perspectiva **dende o sistema de coordenadas do 3D (MUNDO) ás coordenas imaxe do ordenador**:

$$\lambda \begin{bmatrix} u \\ v\\ 1 \end{bmatrix} = \underbrace{\begin{bmatrix} k_x & 0 & u_0  \\ 0 & k_y & v_0 \\ 0 & 0 & 1 \end{bmatrix}}_{\text{dende sensor a imaxe}}\underbrace{\begin{bmatrix} f & 0 & 0  \\ 0 & f & 0 \\ 0 & 0 & 1 \end{bmatrix}\begin{bmatrix} 1 & 0 & 0 & 0  \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \end{bmatrix}}_{\text{dende camara a sensor}}\underbrace{\begin{bmatrix} \bf{R} & \bf{t}  \\ \bf{0^T_3} & 1 \end{bmatrix}}_{\text{dende mundo a camara}} \begin{bmatrix} X_W \\ Y_W\\ Z_W \\ 1 \end{bmatrix}$$

De novo, podemos combinar algunhas transformacións:

$$\lambda \begin{bmatrix} u \\ v\\ 1 \end{bmatrix} = \begin{bmatrix} f k_x & 0 & u_0  \\ 0 & f k_y & v_0 \\ 0 & 0 & 1 \end{bmatrix} \begin{bmatrix} \bf{R} & \bf{t}\end{bmatrix} \begin{bmatrix} X_W \\ Y_W\\ Z_W \\ 1 \end{bmatrix} \qquad \bf{\lambda \tilde{m}' = K \left[ R\ t \right] \tilde{M}_W}$$

onde
- $\bf{R}$ e $\bf{t}$ son parámetros **extrínsecos** que dependen da posición da cámara.
- $f$, $\ k_x$, $\ k_y$, $\ u_0$ e $v_0$ son parámetros **intrínsecos** (constantes) que dependen da cámara que se estea a utilizar.

*Nota: normalmente atoparás que $f$ exprésase directamente en píxeles, polo que en realidade será o resultado de $fk_x$ e $fk_y$, e ademais, ás veces tamén se chama $fk_x = s_x$ e $fk_y = s_y$*

Aquí tes o modelo completo da cámara en acción:$\\[10pt]$


<img src="images/camera_model.png" width="700">$\\[5pt]$

**Para unha explicación visual deste modelo, podes consultar** [esta aplicación interactiva](http://ksimek.github.io/2012/08/22/extrinsic/).

## 4.4 Poñendo a funcionar as cousas: a imaxe RGB-D <a id="44"></a>
 
Como exercicio práctico, imos aplicar o modelo de cámara pinhole para obter un conxunto de puntos 3D (tamén coñecido como **nube de puntos**) a partir dunha imaxe RGB-D. Lembras que dixemos que non é posible determinar a posición 3D dun punto só a partir das súas coordenadas nunha única imaxe? Ben, neste caso temos **a información de profundidade** incluída na imaxe e, polo tanto, agora podemos conseguilo! Entón, imos transformar puntos 2D da imaxe RGB en puntos 3D nas coordenadas `MUNDO`.

### **<span style="color:green"><b><i>TAREFA 3a: Visualizando a nosa imaxe RGB-D</i></b></span>**

Primeiro de todo, mostra a imaxe RGB-D nun subplot de 2x1 coa parte RGB á esquerda (`person_rgb.png`) e a parte de profundidade á dereita (`person_depth.png`) e mira como se ven.

In [9]:
matplotlib.rcParams['figure.figsize'] = (12.0, 12.0)
#%matplotlib notebook

# TAREFA 3a --

# Lemos as imaxes
image = cv2.imread(images_path + 'person_rgb.png',-1)
image = cv2.cvtColor(image,cv2.COLOR_BGR2RGB)
depth = cv2.imread(images_path + 'person_depth.png',0)

# Visualizamos a parte RGB
plt.subplot(121)
plt.title("RGB")
plt.imshow(image)

# Visualizamos a profundidade
plt.subplot(122)
plt.title("Profundidade")
plt.imshow(depth, cmap="gray");

<IPython.core.display.Javascript object>

### ### Desde a imaxe RGB-D ata as coordenadas 3D

Como podes ver, a imaxe de profundidade representa a profundidade con niveis de cor gris, canto máis escuro é un píxel máis preto está da cámara. Entón, para cada píxel **hai unha asignación entre a intensidade $\rightarrow$ profundidade**. Xa que temos a profundidade real dos puntos, só necesitamos obter as liñas de proxección dos píxeles da imaxe e despois seleccionar a Z do punto segundo a profundidade.

En primeiro lugar, necesitamos transformar os puntos en **coordenadas da imaxe** en **coordenadas do sensor**. Para iso, invertimos o método de sensor a imaxe visto anteriormente, ben utilizando a matriz seudo-inversa ou ben **illando as variables**.

Sabemos que *(asumindo que a escala é 1)*:

$$\bf{2D \rightarrow 2D} \qquad \underbrace{\begin{bmatrix} u \\ v\\ 1 \end{bmatrix}}_{\text{píxeles}} = \begin{bmatrix} f & 0 & u_0 \\ 0 & f & v_0 \\ 0 & 0 & 1 \end{bmatrix} \underbrace{\begin{bmatrix} x \\ y\\ 1 \end{bmatrix}}_{\text{metros}} $$

Se illamos $x$ e $y$, obtemos as coordenadas no sensor:

$$\begin{eqnarray} x = \frac{u-u_0}{f}, \; y = \frac{v-v_0}{f} \end{eqnarray}$$

Finalmente, engadimos o compoñente de profundidade $Z$, que está dispoñible na imaxe de profundidade:

$$\bf{3D \rightarrow 2D} \; \ \text{para} \; \ k=1 \; \text{así} \; Z=f\quad \begin{bmatrix} X \\ Y\\ Z \end{bmatrix} = Z \begin{bmatrix} x \\ y\\ 1 \end{bmatrix}$$

polo que $X=Zx$ e $Y=Zy$



### **<span style="color:green"><b><i>TAREFA 3b: Construír unha nube de puntos a partir dunha imaxe RGB-D</i></b></span>**

Xera unha matriz $[3\times N]$ coas coordenadas cámara 3D de todos os píxeles da imaxe `person_rgb.png` usando estes parámetros intrínsecos:

- `f = 525`
- `k_x = 1`
- `k_y = 1`
- `u_0 = 319.5`
- `v_0 = 239.5`

Ten en conta que estamos a usar unha escala lineal que discretiza o rango de funcionamento da cámara, de 0 a 5 metros, para codificar tales distancias cos valores posibles de 256 en escala de grises. Deste xeito, `escala=0.02` (aprox. $5m/256$) polo que, por exemplo, se o valor de gris dun píxel na imaxe é de 20, significa que o punto 3D correspondente a unha profundidade de `20*escala=0.4 ` metros de distancia.

In [None]:
# Lemos as imaxes
image = cv2.imread(images_path + "person_rgb.png",-1)
image = cv2.cvtColor(image,cv2.COLOR_BGR2RGB)
depth = cv2.imread(images_path + "person_depth.png",0)

# Parametros intrinsecos
f  = None
u0 = None
v0 = None

# Matriz para almacenar coordenadas (homoxéneas) do sensor
h_sensor = np.zeros((3,image.shape[0]*image.shape[1]))

# Obtén as coordenadas do sensor en metros
point = 0
for v in range(image.shape[0]): # filas
    for u in range(image.shape[1]): # columnas
        # Transformar a coordenadas do sensor
        h_sensor[0,point] = None
        h_sensor[1,point] = None
        h_sensor[2,point] = 1 # Coordenadas homoxéneas
        point += 1
        
scale = 0.02 # ~5m/256 
image_d_fila = np.reshape(depth,(1,depth.shape[0]*depth.shape[1]))
image_d_fila = image_d_fila*scale

map_3d = h_sensor * image_d_fila # multiplicación por elementos

# comprobar as coordenadas nos puntos 100060, 100061 e 100062
print(map_3d[:,100060:100063])

 **Comprobación dos resultados correctos** (Posicións dos puntos nº 100060, 100061 e 100062 no marco da cámara):

<font color='blue'>**Saídas esperadas:**  </font>

    [[-0.30702857 -0.30394286 -0.30085714]
     [-0.25765714 -0.25765714 -0.25765714]
     [ 1.62        1.62        1.62      ]]

E aquí vén a parte divertida (ou máis divertida)! Desenvolvemos un gráfico de dispersión 3D para este exercicio chamado `plot3DScene`, que mostra unha nube de puntos de cores 3D obtida a partir dunha imaxe RGB-D como a que acabamos de obter.

Chame ao método `plot3DScene`, que toma como entrada as coordenadas 3D dos puntos (unha matriz $[3\times N]$) e a imaxe RGB orixinal para obter a cor de cada píxel (próxima cela).


In [None]:
#Utilidade para facer o scacatter plot dunha imaxe 3D

def plot3DScene(map_3d,imageRGB):

    #Factor de reescalado para submostrear a imaxe
    downsample = 8

    points_x = map_3d[0,:].reshape(imageRGB.shape[0],imageRGB.shape[1])
    points_y = map_3d[1,:].reshape(imageRGB.shape[0],imageRGB.shape[1])
    points_z = map_3d[2,:].reshape(imageRGB.shape[0],imageRGB.shape[1])

    rows_down = imageRGB.shape[0]/downsample
    cols_down = imageRGB.shape[1]/downsample
    
    x_down = points_x[::downsample,::downsample]
    y_down = points_y[::downsample,::downsample]
    z_down = points_z[::downsample,::downsample]
    
    rgb_down = imageRGB[::downsample,::downsample,:]/255
    
    x_vec = x_down.reshape(int(rows_down*cols_down),1)
    y_vec = y_down.reshape(int(rows_down*cols_down),1)
    z_vec = z_down.reshape(int(rows_down*cols_down),1)
    rgb_vec = rgb_down.reshape(int(rows_down*cols_down),3)
    
    # Creamos a figura e preparamola para 3D
    fig = plt.figure()
    ax = fig.add_subplot(projection='3d')

    # Nomes eixes
    ax.set_xlabel('X axis')
    ax.set_ylabel('Y axis')
    ax.set_zlabel('Z axis')
    
    ax.view_init(elev=-60, azim=-90)

    # Representamos os puntos
    ax.scatter(x_vec,y_vec,z_vec, c=rgb_vec)
    fig.show()

In [None]:
matplotlib.rcParams['figure.figsize'] = (12.0, 12.0)

#Visualizamos a nube de puntos
%matplotlib notebook
plot3DScene(map_3d,image)

Isto é o que deberías obter:

<img src="images/pointcloud.png" >$\\[5pt]$

Podes ver como todos os píxeles da imaxe foron retroproxectados en 3D e temos unha nube de puntos elegante que mostra a nosa escena en 3D. Agora todos eses puntos están no sistema de referencia `MUNDO` e podemos mover a nosa cámara para obter unha imaxe desde unha perspectiva diferente. Imos aló!

### Movendo a cámara e observando a escena

Así, nesta última parte deste exercicio práctico imos mover a posición da cámara e proxectar de novo a nube de puntos para formar unha nova imaxe 2D dela. Isto implica:
- hai unha rotación e translación entre os sistemas de referencia `MUNDO` e `CAMARA`, polo que necesitamos calcular as coordenadas do punto neste último,
- entón, necesitamos proxectar eses puntos no plano sensor,
- entón, necesitamos escalar e transladar tales puntos no plano sensor a un *plano de imaxe do ordenador*,
- e, finalmente, necesitamos axustar as súas coordenadas para obter o plano da imaxe con orixe na parte superior esquerda.

Polo tanto, deberías usar a transformación proxectiva completa do marco de referencia mundo á imaxe:

$$\lambda \begin{bmatrix} u \\ v\\ 1 \end{bmatrix} = \begin{bmatrix} f  & 0 & u_0  \\ 0 & f  & v_0 \\ 0 & 0 & 1 \end{bmatrix} \begin{bmatrix} \bf{R} & \bf{t}\end{bmatrix} \begin{bmatrix} X_W \\ Y_W\\ Z_W \\ 1 \end{bmatrix} \qquad \bf{\lambda \tilde{m}' = K \left[ R\ t \right] \tilde{M}_W}$$

### **<span style="color:green"><b><i>TAREFA 3c: Sacar unha foto</i></b></span>**

Cambiamos a pose `CAMARA` no sistema de referencia `MUNDO` e sacamos unha nova foto da escena 3D. Para iso:

- Define unha rotación de $15º$ no eixe $Y$ e unha translación de $0,5m$ no eixe $Z$ para mover a cámara.
- A continuación, aplica o modelo completo da cámara á nube de puntos 3D calculada anteriormente `h_map3D`.
- Iterar sobre os puntos proxectados para comprobar se deben aparecer na imaxe:
     - as súas coordenadas $u$ e $v$ están dentro das dimensións da imaxe, e
     - xa que se poden proxectar varios puntos no mesmo píxel, mantén o punto máis próximo á cámara.
- Por último, mostra a imaxe orixinal e a nova!

In [None]:
%matplotlib inline

# parámetros intrínsecos
f  = None
u0 = None
v0 = None

# Definir matrices de transformación
pitch = np.radians(None)
R = np.array(None) # rotacion

T = np.zeros((3,4))
T[0:3,0:3] = R
T[0:3,3] = None # translacion

K = np.array(None)

# Transformar mapa en coordenadas homoxéneas
h_map3D = np.append(map_3d, np.ones((1,map_3d.shape[1])), axis=0)

# Aplicar transformación
h_new_image = None @ None @ None

# Transformar a cartesianas (poden aparecer ceros en z!)
proj = np.divide(h_new_image[:2,:], h_new_image[2,:], where=h_new_image[2,:]!=0)
proj[np.isnan(proj)] = 0 # Corrixe a división por 0
proj = proj.astype(int)

In [None]:
# Constrúe unha nova imaxe
new_image = np.zeros_like(image)
new_depth = np.full(depth.shape,np.inf)

image_vector = image.reshape(image.shape[0]*image.shape[1],3) # este é un vector Nx3 con todos os píxeles en RGB

# itera sobre todos os puntos da imaxe proxectados e comproba se deben aparecer na imaxe
for p in range(proj.shape[1]):
        u,v = proj[:,p]        
        z = h_map3D[2,p] # z-coordenada
        # Este píxel debería aparecer na imaxe?
        if (u>=None) and (u<None]) and (v>=None) and (v<None): # Comproba se o píxel está dentro dos límites
            if (new_depth[v,u] > z): # Comproba se o píxel está máis preto que outro nesa posición
                new_depth[v,u] = None
                new_image[v,u,:] = image_vector[p,:] # collemos a cor
            
# Mostra a imaxe orixinal
fig, (ax1,ax2) = plt.subplots(1,2,figsize=(13, 13))
ax1.imshow(None)
ax1.set_title("Imaxe RGB Orixinal")
ax2.imshow(None)
ax2.set_title("Nova imaxe");

Esta é a imaxe resultante que deberás obter:

<img src="images/new_render.png">$\\[5pt]$

Podes ver como agora temos unha nova perspectiva da nube de puntos! Genial, non?

### <font color="blue"><b><i>Reflexionando:</i></b></font>

**Agora estás nunha boa posición para responder a estas preguntas:**

- Se temos unha cámara RGB-D cun rango de funcionamento de 0 a 10 metros, cal sería a escala empregada para codificar as distancias nunha imaxe en escala de grises?

     <p style="margin: 4px 0px 6px 5px; color:blue"><i>A túa resposta aquí!</i></p>
    
- Se a escala é de 0,01, cal sería o rango máximo de funcionamento? Supón que o rango de funcionamento empeza en 0.

     <p style="margin: 4px 0px 6px 5px; color:blue"><i>A túa resposta aquí!</i></p>
  
- A seguinte imaxe foi tomada coa cámara xirada no eixe $Y$. Cal foi o ángulo xirado? $30º$ ou $-30ª$?

     <img src="images/new_render_y_30.png">$\\[5pt]$
    
     <p style="margin: 4px 0px 6px 5px; color:blue"><i>A túa resposta aquí!</i></p>
 

## Conclusión

Aínda que este foi un capítulo denso, foi satisfactorio unha vez que o consegues. Neste caderno aprendeches:

- o principio das imaxes RGB-D (amplamente utilizado na visión por ordenador e os campos da robótica hoxe en día),
- como funciona o modelo de cámara pinhole,
- como funciona un modelo de cámara máis completo,
- como proxectar un conxunto 3D de puntos nunha imaxe 2D,
- como retroproxectar unha imaxe con información de profundidade no espazo 3D para obter unha nube de puntos