<center>
<!-- ![sesion](images/session_example.png) -->
<img src="images/session_example.png" width="600">
<h1>Recomendacion Basada en Sesiones</h1>
<h3>Sebastian Prillo</h3>
<h4>Miercoles 12 de septiembre de 2018 - Seminario Machin Lenin</h4>
</center>

# Problematica tipica
- Un usario navega productos en un sitio de e-commerce. Queremos recomendarle productos que le puedan interesar.
<img src="images/session_example.png" width="600">
- Metrica de negocio concreto: maximizar el **click-through-rate** (a.k.a. CTR) de nuestro recomendador:
$$CTR = \frac{\text{# recomendaciones clickeadas}}{\text{# recomendaciones vistas}}$$
(el objetivo podria ser distinto, como maximizar la cantidad de ventas, esto es solo a modo de motivacion para tener una metrica de negocio en la cabeza)

# Particularidades del problema
- El usuario llega a nuestro sitio, navega, compra lo que quiere, y se va. La unidad de trabajo es la **sesion**.
- Por que esto no es como recomendar peliculas en Netflix? RTA: Nadie compra 50 celulares en un año.
- No tiene sentido construir perfiles de usario.

# Propuesta para resolver el problema

Modelar el problema como uno de **prediccion del proximo termino de una secuencia**.

Si tengo un modelo que, dada la historia de navegacion durante la sesion, es capaz de darme una distribucion de probabilidad sobre el proximo producto, puedo usar el top X mas probable como recomendaciones.

Entonces, nos proponemos resolver el siguiente problema: Sea $I$ el conjunto de $m$ items (productos), $S^{(i)}$ la $i$-esima sesion de entre $n$, con $S^{(i)} = (S_1^{(i)}, \dots, S_{l_i}^{(i)}) \in I^{l_i}$. Buscamos una funcion (modelo)

$$f : \cup_k I^k \rightarrow Prob(I)$$

que dada la secuencia de productos vistos por el usuario durante la sesion, nos de una distribucion de probabilidad sobre el siguiente producto. Objetivo: maximizar ls precision (o precision at K, la metrica que usted guste)

**Observacion**: Este problema **no es equivalente al original** (maximizar CTR):
- Deseamos que resolver bien el nuevo problema implique resolver bien el original.
- La ventaja es que la metrica del problema nuevo (precision) la podemos calcular **facil a partir de datos historicos**, mientras que el CTR no!

# Cadenas de Markov
- Considerar solo el ultimo producto.
- Se calcula la matriz de probabilidad de transicion entre productos.

Ej: Dadas sesiones:
- $\text{ipod} \rightarrow \text{auriculares}$
- $\text{celular} \rightarrow \text{auriculares} \rightarrow \text{memoria 16GB}$
- $\text{celular} \rightarrow \text{memoria 16GB} \rightarrow \text{auriculares}$

El modelo es:

|actual\siguiente|ipod|celular|auriculares|memoria 16GB|
|-|-|-|-|-|
|ipod|0.0|0.0|1.0|0.0|
|celular|0.0|0.0|0.5|0.5|
|auriculares|0.0|0.0|0.0|1.0|
|memoria 16GB|0.0|0.0|1.0|0.0|

# Cadenas de Markov

- Problema:
    - Las probabilidades de transicion son solo **estimaciones de la realidad** y son pesimas para los productos que aparecen pocas veces.
    - Otra forma de verlo: Sea $t$ la cantidad promedio de transiciones relevantes desde un producto a otro. Entonces el modelo de Markov tiene que aprender $tN$ parametros. La mayoria de ellos se infiere a partir de poca data $\Rightarrow$ overfitting.

<img src="images/long_tail.jpg" width="400">

# Cadenas de Markov Factorizadas

Motivacion: Supongamos que tenemos tres sesiones:
- $\text{celular} \rightarrow \text{auricular 1} \rightarrow \text{memoria 16 GB}$
- $\text{celular} \rightarrow \text{auricular 1} \rightarrow \text{memoria 32 GB}$
- $\text{celular} \rightarrow \text{auricular 2} \rightarrow \text{memoria 16 GB}$

Estaria bueno que el modelo se de cuenta solo de que auricular 1 y auricular 2 son **'lo mismo'**. Si lo logramos, todas las transiciones desde/hacia auricular 1 van a contribuir a las estimaciones de las probabilidades de transicion de auricular 2 y viceversa! 

- Asi aprenderiamos que de auricular 2 podemos transicionar a memoria 32 GB.
- Es como si hiciera aparecer data nueva $\Rightarrow$ reduzco overfitting, generalizo mejor.

# Digresion: Embeddings

Dado un conjunto $X$ (ej: de productos), un **embedding** es una funcion $emb : X \rightarrow \mathbb R^k$.
- La idea es que con un embedding bueno, elementos 'semanticamente similares' vayan a parar a vectores similares.
- $k$ se llama la **dimension** del embedding.
- Hay que definir una nocion de 'similitud' en $\mathbb R^k$, tipicamente el producto interno. ($sim(u, v) = \left<u, v\right>$)

Ejemplo: embeddings de dimension 2 para palabras:

<img src="images/embeddings.png" width="400">

# Cadenas de Markov Factorizadas

- Para cada producto $i$ aprenderemos un embedding $v_i \in \mathbb R^k$. La idea va a ser que la probabilidad de transicionar de $i$ a $j$ sea proporcional a $sim(v_i, v_j)$ 
- En el ejemplo anterior, nos imaginamos algo como:

<img src="images/embedding_productos.png" width="400">

- Asi, por mas que no observemos una transicion de auricular 2 a memoria 32 GB, si auricular 1 y auricular 2 van a parar cerca, deducimos la transicion.

# Cadenas de Markov Factorizadas

Formalizacion: dados los embeddings $v_i$, la probabilidad de transicion del producto $i$ al $j$ en el modelo es

$$P(j | i) \propto
e^{\left<v_i, v_j\right>}$$

O sea,

$$P(j | i) = \frac{e^{\left<v_i, v_j\right>}}{\sum_{k} e^{\left<v_i, v_k\right>}}$$

tambien conocido como un **softmax**.

Ahora maximizar la probabilidad de los datos (bajo el modelo probabilistico obvio asociado):

\begin{align}
\arg \max_{v_1,\dots,v_n} P(S^{(1)}, \dots, S^{(n)}) = \arg \max_{v_1,\dots,v_n}  \prod_{i = 1}^n \prod_{j = 1}^{l_i - 1} P({S_j^{(i)}, S_{j+1}^{(i)}})
\end{align}

A.K.A. hacer maximum likelihood estimation.

**Observacion**: Hacer maximum likelihood **NO** implica maximizar precision, que es lo que nos interesa! Con lo cual tenemos **otro** nivel de simplificacion mas! La ventaja es que el likelihood es una funcion suave de los parametros que quiero optimizar entonces puedo hacer gradient descent.

**NOTA**: De hecho, es aceptado que softmax + cross entropy loss es una mala idea en este problema, en general se usa **bayesian pairwise ranking loss**. Correlaciona mejor con precision (etc.), y es mas facil de optimizar / numericamente mas estable.

# Cadenas de Markov Factorizadas

<img src="images/FMC2.png" width="400">

# Recap

- Cadenas de Markov: Estimo $P(j|i)$ sin restricciones.
- Cadenas de Markov Factorizadas: Restrinjo $P$ tal que $P(j | i) \propto
e^{\left<v_i, v_j\right>}$ $\Rightarrow$ + bias, - variance $\Rightarrow$ - overfitting

# Redes Recurrentes

- Generalizan las Cadenas de Markov Factorizadas.
- Arma de doble filo: mayor poder expresivo, menor interpretabilidad.

# Redes Recurrentes

<img src="images/RNN.png" width="400">

- $i_t$ = input en tiempo $t$.
- $h_t$ = estado en tiempo $t$ $= f(h_{t - 1}, i_t)$ para alguna $f$. Ejemplos tipicos de $f$: GRU, LSTM.
- $o_t$ = output en tiempo $t$ $= g(h_t)$ para alguna $g$. Ejemplos tipicos de $g$: softmax.

# Redes Recurrentes

## Cadenas de Markov Factorizadas como Redes Recurrentes

<img src="images/FMC_as_RNN.png" width="400">

- $i_t = v_t$
- $h_t = f(h_{t - 1}, i_t) = i_t$
- $o_t = g(h_t) = sotmax(\left<h_t, v_1\right>, \dots, \left<h_t, v_m\right>) = softmax(V h_t)$

# Redes Recurrentes

## Con GRU

<img src="images/RNN.png" width="400">

- $h_0 = 0$
- $i_t = v_t$
- $h_t = f(h_{t - 1}, i_t) = (1 - z_t) \odot h_{t-1} + z_t \odot \sigma_h(W_h x_t + U_h(r_t \odot h_{t-1}) + b_h)$ donde
$$z_t = \sigma_g(W_z x_t + U_z h_{t-1} + b_z)$$
$$r_t = \sigma_g(W_r x_t + U_r h_{t-1} + b_r)$$
$$\sigma_g(x) = \frac{1}{1 + e^{-x}}$$
$$\sigma_h(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$$
- $o_t = g(h_t) = sotmax(\left<h_t, v_1\right>, \dots, \left<h_t, v_m\right>) = softmax(V h_t)$

# Redes Recurrentes

## Algo intermedio

<img src="images/RNN.png" width="400">

Promedio ponderado de la historia:

- $h_0 = v_1$
- $i_t = v_t$
- $h_t = \frac{i_t + h_{t-1}}{2}$
- $o_t = g(h_t) = sotmax(\left<h_t, v_1\right>, \dots, \left<h_t, v_m\right>) = softmax(V h_t)$

La diferencia entre esto y la Cadena de Markov Factorizada es que aca usamos

$$\frac{v_1}{2^{t-1}} + \frac{v_2}{2^{t-1}} + \frac{v_3}{2^{t-2}} + \dots + \frac{v_t}{2}$$

para el estado en vez de $v_t$