# *Object Tracking* (Seguimiento de objetos)
El seguimiento de objetos es una tarea importante dentro del campo de *computer vision*. En este post consideramos la metodologia de *object tracking* conocida como *tracking-by-detection* donde los resultados de la detección de objetos se dan en cada *frame* como *input* y el objetivo es asociar las detecciones para encontrar las trayectorias de los objetos. No se puede esperar que se detecten todos los objetos en cada cuadro, puede haber falsas detecciones y algunos objetos pueden ser ocluidos por otros; estos factores hacen que la asociación de datos sea una tarea difícil, pero en este post nos vamos a limitar al problema donde las detecciones son perfectas.

Comenzamos revisando la fórmula del problema *tracking-by-detection*, siguiendo de cerca la formulación utilizada en (PONER REFERENCIAS). Asumimos la existencia de $z^{(i)}_t$, que corresponde a la detección $i$ realizada en el tiempo $t$. Notese que no se especifica la forma de la detección (por ejemplo, *bounding box*, *feature vector*, trazas de *optical-flow*). Denotamos el conjunto de todas las detecciones en un video como $\mathbf{\hat{Z}}$. Además, definimos una *track* $\mathbf{x}^{(k)} = \{z^{(i)}_{t_0}, \cdots, z^{(i)}_{t_{T_k}}\}$ como una lista ordenada de detecciones que contiene toda la información necesaria para rastrear un objeto incluyendo, pero no limitándose, a su ubicación actual. Estos *tracks* codifican los cambios que experimenta el objeto $k$ desde el momento de su primera detección efectiva hasta la última, proporcionando la noción de persistencia necesaria para distinguir los objetos entre sí dentro de un vídeo. Definimos el conjunto de todos los *tracks* de $K$ como $\mathbf{X} = \{ \mathbf{x}^{(1)}, \cdots, \mathbf{x}^{(K)}\}$.

Utilizando la formulación de *tracking-by-detection*, pretendemos maximizar la probabilidad posterior de $\mathbf{X}$ dado $\mathbf{\hat{Z}}$, como

\begin{equation}
    \begin{aligned}
       \operatorname*{max}_\mathbf{X} p(\mathbf{X} | \mathbf{\hat{Z}}) & = \operatorname*{max}_\mathbf{X} p( \mathbf{\hat{Z}} | \mathbf{X}) p(\mathbf{X}) \\
        & = \operatorname*{max}_\mathbf{X} \prod_{i,t} p(\mathbf{z}^{(i)}_{t} | \mathbf{X}) \prod_{k}  p(\mathbf{x}^{(k)}),
    \end{aligned}
    \tag{1}\label{1}
\end{equation}

donde asumimos una independencia condicional entre detecciones dada una colección de *tracks*; e independencia entre los *tracks*, esto significa queel movimiento de cada objeto es independiente. Es difícil optimizar la ecuacion anterior directamente, porque el espacio de $\mathbf{X}$ es enorme, sin embargo, podemos reducir el tamaño del espacio de búsqueda utilizando la observación de que un objeto sólo puede pertenecer a una trayectoria. Esto se traduce en la restricción de que los *tracks* no puede superponerse entre sí, es decir, $\mathbf{x}^{(k)}  \cap \mathbf{x}^{(l)} = \varnothing \mbox{  }, \forall k \neq l$. Asumimos además que las transiciones de *tracks* siguen un modelo de Markov de primer orden $p(\mathbf{x}^{(k)}) = p(x^{(k)}_{t_0}) \prod_{t} p(x^{(k)}_{t_{l}} | x^{(k)}_{t_{l-1}})$.

La ecuación $\eqref{1}$ muestra que el problema de *tracking-by-detection* puede descomponerse en dos subproblemas: evaluar la probabilidad de las detecciones $p( \mathbf{\hat{Z}} | \mathbf{X})$  (por ejemplo, ignorar las detecciones que muestran un movimiento improbable, evaluar la necesidad de nuevos *tracks*) y modelar el movimiento de los objetos $p(\mathbf{x}^{(k)})$.
## Tipos de *object tracking*
Partiendo de la ecuacion $\eqref{1}$ y de las asunciones anteriores, se puede modelar el problema de *tracking-by-detection* de dos formas concidas en la literatura como las formulaciones *batch* y *online*.

Metodos *online* como (PONER REFERENCIAS) asocian las detecciones del *frame* entrante inmediatamente a las trayectorias existentes y, por lo tanto, son apropiadas para aplicaciones en tiempo real, asimismo las trayectorias son modeladas como *linear state space models*, por ejemplo filtros de Kalman o filtros de particulas. La asociación a las detecciones en el *frame* actual se formula a menudo como una problema de asignacion binaria y se resuelve mediante el algoritmo húngaro.

Metodos *batch* como (PONER REFERENCIAS) consideran observaciones pasadas, presentes y futuras o incluso toda la secuencia a la vez. Aunque no es aplicable en tiempo real, la ventaja de los métodos *batch* es el contexto temporal, que permite realizar predicciones más robustas. Una solución elegante para asignar trayectorias a las detecciones es la formulación *network flow* introducida en (PONER REFERENCIAS).

### *Batch object tracking*
(IMAGE)

Los metodos *batch* se pueden representar como un grafo (Ver imagen) donde cada detección $\mathbf{z}_t$ se representa con dos nodos conectados por un borde (en rojo en la imagen). A este borde se le asigna la variable de flujo $y^{det}_{t}$. Para poder asociar dos detecciones que pertenecen a la misma trayectoria $\mathbf{X}$, se añaden al gráfico bordes dirigidos (en azul en la imagen) de todos los $\mathbf{z}_t$ a todos los $\mathbf{z}_{t'}$ tal que $t < t'$ y $\vert t - t'\vert < \tau_t$. A cada uno de estos bordes se le asigna una variable de flujo $y^{link}_{t, t'}$. El hecho de tener bordes en múltiples cuadros permite manejar oclusiones o detecciones fallidas. Para reducir el tamaño del gráfico, eliminamos bordes entre las detecciones que están espacialmente distantes, esto lo que la variable $\tau_t$ representa. Esta elección se basa en la suposición de los objetos de mueven aproximandamente con movimiento rectilineo uniforme en instantes cortos de tiempo. Para manejar el nacimiento y la muerte de las trayectorias, se añaden dos nodos especiales al gráfico. Un nodo fuente ($S$) se conecta con el primer nodo de cada detección con un borde (negro en la imagen) al que se le asigna la variable de flujo $y^{in}_t$. Asimismo, el segundo nodo de cada detección está conectado con un nodo de sumidero ($T$) y al borde correspondiente (negro) se le asigna la variable $y^{out}_t$. Cada variable del gráfico está asociada a un costo. Para cada uno de los cuatro tipos de variables definimos el costo correspondiente, es decir, $c^{in}_t = -\text{log } p(x^{(k)}_{t})$, $c^{out}_T = -\text{log } p(x^{(k)}_{T})$, $c^{det}_t = -\text{log } p( \mathbf{z}_{t} | \mathbf{X})$ y $c^{link}_{t, t'} = -\text{log }p(x^{(k)}_{t} | x^{(k)}_{t'})$, que resulta de aplicarel logaritmo a la ecuacion $\eqref{1}$ y cambiar el problema de maximizacion a uno de minimizacion introduciendo un signo menos. Esto nos deja con el siguiente problema de proramacion lineal conocido como *Minimum-cost flow*:
\begin{equation}
\begin{aligned}
& {\text{min}}
&& z = \displaystyle\sum_{\mathbf{x}^{(k)} \in \mathbf{X}} \left( c^{in}_{t_0} y^{in}_{t_0}  + c^{out}_{t_{T_k}} y^{out}_{t_{T_k}} +  \sum_{l>0} c^{link}_{t_{l+1}, t_{l}} y^{link}_{t_{l+1}, t_{l}} \right)  + \sum_t c^{det}_t y^{det}_{t} \\
&&& z = \sum_{t} c^{in}_{t} y^{in}_{t} + \sum_{t} c^{out}_{t} y^{out}_{t} \sum_{t, t'} c^{link}_{t, t'} y^{link}_{t, t'} + \sum_{t} c^{det}_t y^{det}_{t} \\
&\text{s.t.}
&&  y^{in}_{t} + \sum_{t'} y^{link}_{t, t'} =  y^{det}_{t}\\
&&& y^{out}_t + \sum_{t'} y^{link}_{t, t'} = y^{det}_{t} \\
&&& y^{in}_{t}, y^{link}_{t, t'}, y^{out}_t, y^{det}_{t} \in \{0, 1\} \\
\end{aligned}
\end{equation}
Encontrar la hipótesis de asociación óptima $\mathbf{X}^\star$ es equivalente a enviar el flujo de la fuente $S$ al sumidero $T$ que minimiza el costo. Cada trayectoria de flujo puede ser interpretada como la trayectoria de un objeto, la cantidad de flujo enviada de $S$ a $T$ es igual al número de trayectorias de objetos en el video, y el costo total del flujo corresponde al *loglikelihood* de la hipótesis de asociación. Las restricciones de conservación del flujo garantizan que ningún flujo comparta un borde común y, por lo tanto, que no se superpongan las trayectorias.

### *Online object tracking*
Los metodos *online* relajan aun mas las asunciones de la ecuacion $\eqref{1}$ asumiendo independencia condicional entre las detecciones hasta el instante $t$ y los *tracks*
\begin{equation}
    \begin{aligned}
        p(\mathbf{Z}_{t} | \mathbf{X}) = \prod_{k} p(\mathbf{z}^{(k)}_{t} | \mathbf{X}^{\star}_{t-1}).
    \end{aligned}
    \tag{2}\label{2}
\end{equation}