<div >
<img src = "figs/ans_banner_1920x200.png" />
</div>

# Filtrado Colaborativo Basado en Usuarios.

Este *cuaderno* trata sobre filtrado colaborativo basado en usuarios. El objetivo del *cuaderno* es que usted obtenga una visión general del problema predictivo de los sistemas de recomendación que utilizan filtrado colaborativo basado en usuario, aprenda distintos algoritmos que lo implementan, y que sea capaz de reconocer sus características, funcionamiento, y  desarrollarlos en `Python`.

**NO** es necesario editar el archivo o hacer una entrega. Sin embargo, los ejemplos contienen celdas con código ejecutable (`en gris`), que podrá modificar  libremente. Esta puede ser una buena forma de aprender nuevas funcionalidades del *cuaderno*, o experimentar variaciones en los códigos de ejemplo.

## Introducción: el problema de predicción 

Para entender un poco mejor cuál es el problema al que nos enfrentamos, supongamos que tenemos una matriz con $m$ usuarios y $n$ ítems. En esta matriz cada fila representa un usuario y cada columna un ítem. El valor de la celda denota el rating que le dió cada usuario al ítem. Este valor lo denotamos como $r_{ij}$ que será entonces el rating que le dio el usuario $i$ al ítem $j$. Un ejemplo de esta matriz sería la siguiente:

<div  style="max-width: 40%;">
<img src = "figs/fig1.png"/>
</div>

Esta matriz tiene 7 usuarios ($m=7$) y 6 ítems ($n=6$). El usuario 1 le otorgó al ítem 1 un rating de 4, por lo tanto $r_{11}=4$. Sin embargo, no todos los usuarios calificaron/utilizaron todos los ítems y por lo tanto no todos tienen ranking. En el caso del usuario 1 este no utilizó los ítems 3, 4, y 6; por lo tanto aparecen con un signo de interrogación. Estos datos están faltando en la matriz.


Consideremos otro ejemplo más concreto. Imaginemos que somos una compañía como Netflix y tenemos un repositorio de 20.000 películas y 5.000 usuarios. Tenemos además un sistema que registra la calificación que cada usuario le otorga a una película en particular. Es decir, tenemos una  matriz de tamaño 5,000 × 20,000. Sin embargo, es muy probable que los usuarios sólo habrán visto sólo una fracción de las películas (difícilmente todos vieron 20.000 películas!). Por lo tanto, la matriz será poco densa, la mayoría de las entradas en la matriz estarán vacías.


El problema de predicción, tiene por objetivo predecir estos valores faltantes utilizando toda la información que tenemos a disposición: las calificaciones registradas, datos sobre películas, datos sobre usuarios, etc. Si el sistema es capaz de predecir con precisión los valores que faltan, podrá dar excelentes recomendaciones. Por ejemplo, si el usuario $i$ no ha utilizado el ítem $j$, pero nuestro sistema predice una calificación muy alta, es entonces muy probable que le guste $j$ si lo descubre a través del sistema de recomendación.

Para ilustrar cómo construir e implementar este tipo de sistema de recomendación utilizaremos nuevamente los datos de  [MovieLens](https://grouplens.org/datasets/movielens/latest/) provista abiertamente por [grouplens](https://grouplens.org/about/what-is-grouplens/) para: **"avanzar la teoría y la práctica de la computación social mediante la construcción y la comprensión de sistemas *(de recomendación)* utilizados por personas reales".**

Esta versión de los datos contiene varias bases con información de los usuarios, de las películas, y de los ratings. Tendremos que combinar estas bases para obtener una matriz similar a la ilustrada en la gráfica anterior. Carguemos entonces las librerías y los datos de usuarios:

In [1]:
# Cargamos las librerías a utilizar
import pandas as pd
import numpy as np
# Cargamos los datos de los usuarios
u_cols = ['user_id', 'edad', 'genero', 'ocupacion', 'codigo_postal']

users = pd.read_csv('data/u.user', sep='|', names=u_cols,
 encoding='latin-1')

users.head()

Unnamed: 0,user_id,edad,genero,ocupacion,codigo_postal
0,1,24,M,technician,85711
1,2,53,F,other,94043
2,3,23,M,writer,32067
3,4,24,M,technician,43537
4,5,33,F,other,15213


Podemos ver que esta base contiene un identificador de usuario, su edad, género, ocupación, y el código postal donde viven. Luego cargamos la base de películas:

In [2]:
# Cargamos los datos de las películas
i_cols = ['movie_id','titulo', 'fecha_estreno', 'fecha_estreno_video', 'URL_IMDb', 'desconocido', 'Accion', 'Aventura',
  'Animacion', 'Infantil', 'Comedia', 'Crimen', 'Documental', 'Drama', 'Fantasia',
  'Cine-Noir', 'Horror', 'Musical', 'Misterio', 'Romance', 'Ciencia_ficcipn', 'Thriller', 'Guerra', 'Western']

movies = pd.read_csv('data/u.item', sep='|', names=i_cols, encoding='latin-1')

movies.head()

Unnamed: 0,movie_id,titulo,fecha_estreno,fecha_estreno_video,URL_IMDb,desconocido,Accion,Aventura,Animacion,Infantil,...,Fantasia,Cine-Noir,Horror,Musical,Misterio,Romance,Ciencia_ficcipn,Thriller,Guerra,Western
0,1,Toy Story (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Toy%20Story%2...,0,0,0,1,1,...,0,0,0,0,0,0,0,0,0,0
1,2,GoldenEye (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?GoldenEye%20(...,0,1,1,0,0,...,0,0,0,0,0,0,0,1,0,0
2,3,Four Rooms (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Four%20Rooms%...,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
3,4,Get Shorty (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Get%20Shorty%...,0,1,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,5,Copycat (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Copycat%20(1995),0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0


Esta base contiene un identificador de película, el título, cuándo fue estrenada en el cine, cuándo fue estrenada en video, la dirección web a IMDb, y el género al que pertenece, incluyendo una columna que marca como desconocido si el género no pertenece a ninguna de las restantes. Notemos además que una película puede pertenecer a varios géneros, por ejemplo: Toy Story pertenece  al genero Animación e Infantil. Pero por ahora nos importa sólo el identificador y el título de la película, por lo que nos quedamos con estas columnas:

In [3]:
movies = movies[['movie_id', 'titulo']]
movies.head()

Unnamed: 0,movie_id,titulo
0,1,Toy Story (1995)
1,2,GoldenEye (1995)
2,3,Four Rooms (1995)
3,4,Get Shorty (1995)
4,5,Copycat (1995)


La última base que necesitamos cargar es la de ratings:

In [4]:
# Cargamos los datos de los ratings
r_cols = ['user_id', 'movie_id', 'rating', 'timestamp']

ratings = pd.read_csv('data/u.data', sep='\t', names=r_cols,
 encoding='latin-1')

ratings.head()

Unnamed: 0,user_id,movie_id,rating,timestamp
0,196,242,3,881250949
1,186,302,3,891717742
2,22,377,1,878887116
3,244,51,2,880606923
4,166,346,1,886397596


Esta base tiene información sobre qué `rating` el usuario (`user_id`) le otorgó a cada película (`movie_id`), e información de cuándo fue que hizo tal calificación (`timestamp`). Esta última columna no la utilizaremos por lo que la excluiremos de la base.

In [5]:
# Quitamos la columna timestamp 
ratings = ratings.drop('timestamp', axis=1)
ratings.head()

Unnamed: 0,user_id,movie_id,rating
0,196,242,3
1,186,302,3
2,22,377,1
3,244,51,2
4,166,346,1


Con estos elementos podemos construir la matriz que vincule usuarios, películas y ratings. Para ello usamos la función `pivot_table`.

In [6]:
r_matrix = ratings.pivot_table(values='rating', index='user_id', columns='movie_id')

r_matrix.head()

movie_id,1,2,3,4,5,6,7,8,9,10,...,1673,1674,1675,1676,1677,1678,1679,1680,1681,1682
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,5.0,3.0,4.0,3.0,3.0,5.0,4.0,1.0,5.0,3.0,...,,,,,,,,,,
2,4.0,,,,,,,,,2.0,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,
4,,,,,,,,,,,...,,,,,,,,,,
5,4.0,3.0,,,,,,,,,...,,,,,,,,,,


In [7]:
r_matrix.shape

(943, 1682)

Esta matriz entonces vincula los usuarios con las películas. Las filas denotan los 943 usuarios y las columnas las 1682 películas en la base. El usuario 1 le otorgó a la película 1 un rating de 5, por lo tanto $r_{11}=5$. Al igual que en el ejemplo anterior, no todos los usuarios calificaron/vieron todas las películas y por lo tanto no todas tienen ranking. En el caso del usuario 1 este no calificó las películas 1673 a 1682 y por lo tanto aparecen con `NaN`; estos datos están faltando en la matriz.

La tarea es entonces buscar estrategias para completar estos datos faltantes.

## Filtrado colaborativo sencillo: medias, medias ponderadas, y datos demográficos.

### Medias

Comencemos por la estrategia quizás más simple e intuitiva para completar las celdas faltantes. Esta estrategia consiste en calcular el rating promedio que le asignó cada usuario que ranquearon esta película. No hacemos distinción entre los usuarios, y el rating de cada uno recibirá el mismo peso. Habrá casos donde ninguna de las películas ha sido ranqueeada, en tales situaciones le pondremos un rating default de 3. 

Para evaluar además la performance de esta estrategia, dividiremos la base original en bases de entrenamiento y prueba.

In [8]:
# Importamos la función train_test_split 
from sklearn.model_selection import train_test_split
   
#Asignamos `X` como la base original de ratings e `y` el usuario 
   
X = ratings.copy()
y = ratings['user_id']

# Partimos la base en entrenamiento y prueba estratificando por usuario
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, stratify=y, random_state=42)

y definiremos como métrica el error cuadrático medio

In [9]:
# Importamos la función mean_squared_error
from sklearn.metrics import mean_squared_error

# Creamos una funcion que calcula la raíz del error cuadrático medio (RMSE)
def rmse(y_true, y_pred):
       return np.sqrt(mean_squared_error(y_true, y_pred))

Con la base lista podemos construir nuestra función recomendadora:

In [10]:
def cf_user_mean(user_id, movie_id):
    
    # Primero verificamos si la película está en la matriz
    if movie_id in r_matrix:
        # Si esta calculamos la media de los ratings
        mean_rating = r_matrix[movie_id].mean()
    
    else:
        # Si no lo está, asignamos el valor de 3 (los invito a que prueben con otros valores)
        mean_rating = 3.0
    
    return mean_rating

Podemos entonces evaluar el RMSE que obtendremos de la base de prueba de haber entrenado la función recomendadora en la base de entrenamiento:

In [11]:
def score(cf_model):
    # Construimos una lista con las tuplas usuario-película en la base de entrenamiento
    id_pairs = zip(X_test['user_id'], X_test['movie_id'])
    # Predecimos el rating para cada tupla usuario-película
    y_pred = np.array([cf_model(user, movie) for (user, movie) in
   id_pairs])
    # Extraemos los ratings que dieron los usuarios en la base de prueba
    y_true = np.array(X_test['rating'])
    # Retornamos el RMSE
    return rmse(y_true, y_pred)


Aplicamos esta función y obtenemos el RMSE de este modelo

In [12]:
score(cf_user_mean)

1.0062161517166315

Podemos entonces utlizar este resultado como una base para la comparación a los modelos subsiguientes.

### Medias ponderadas

En el modelo anterior, asignamos el mismo peso a todos los usuarios. Sin embargo, podríamos pensar que obtendríamos mejores recomendaciones si estas se generan a partir de usuarios similares. En este caso generaremos recomendaciones dando mayor peso a usuarios cuyas calificaciones son más similares a las del usuario que queremos generar la recomendación. 

Entonces alteraremos el modelo anterior teniendo en cuenta estas consideraciones. Esta estrategia sugiere que deberíamos ponderar más ciertos rankings, la pregunta natural que surge es cómo construimos estos pesos. En este caso el peso va a estar dado por cuán similares sean las calificaciones. Matemáticamente:

$$
r_{um}=\frac{\sum_{u',u'\neq u}sim(u,u').r_{u'm}}{\sum_{u',u'\neq u}sim(u,u')}
$$


Es decir la predicción del rating del usuario $u$ para la película $m$, $r_{um}$, es la suma ponderada de los ratings de los otros usuarios ($u'$) a esta película, ponderado por cuán similares son los usuarios $u'$ a $u$. La pregunta que surge aquí es qué medida de similitud utilizar. En este ejercicio utilizaremos la distancia de coseno.

#### Distancia de coseno

Existen múltiples medidas de distancia que se utilizan para medir la similitud. En el *cuaderno: Introducción al Análisis de Clusters* describimos varias de estas medidas que también pueden ser utilizadas en este contexto. Sin embargo, existen otras, como la distancia de coseno, que suele ser la más utilizada en los sistemas de recomendación.

Matemáticamente esta se define como: 

$$
coseno(x,y)=\frac{x.y'}{|x||y|}
$$

Es decir, es el cociente del producto punto, dividido por las normas de los vectores. Esto hace que la medida esté entre -1 y 1. Geométricamente esta medida es el coseno entre el ángulo de los dos vectores en el espacio. En la figura a continuación la medida de distancia estará entonces definida por el coseno del ángulo $\theta$:


<center>
<img src = "figs/dist_cos.png" alt = "coseno" style = "width: 300px;"/>
</center>


Cuando el coseno es igual a 1 o el ángulo es 0, los vectores son exactamente similares. Por el otro, si el coseno da -1, el ángulo es de 180 grados, esto nos denota que dos vectores son exactamente disimilares. 

Notemos que, si dos vectores, $x$ e $y$, tienen media cero, el coseno del angulo entre ambos coincidirá con el coeficiente de correlación de Pearson que estudiamos en el *cuaderno: Introducción al Análisis de Clusters*.

**¿Qué medida de similitud elegir?** La elección de la medida de similaridad a utilizar depende del caso de estudio. Por ejemplo, en caso que las magnitudes sean importantes, la distancia euclideana es una medida apropiada para utilizar. Pero si la correlación es lo que importa, entonces la correlación de Pearson o el coseno son más apropiadas. Por otro lado si la popularidad del ítem bajo estudio es importante, entonces el producto escalar será una medida adecuada. Puesto que si los ítems aparecen con mucha frecuencia (por ejemplo, videos populares de YouTube) estos tienden a normas grandes y el producto escalar capturará mejor esta información. Sin embargo, si no somos cuidadosos, aquellos artículos populares terminarán siendo los más recomendados. En casos como este, podemos pensar en definir una medida que "regularice" las normas, como por ejemplo: $similitud(x,y)=|x|^\alpha  |y|^\alpha cos(x,y)$ para algún $\alpha\in(0,1)$.

#### Implementación
Completado este breve desvío, estamos en condiciones de implementar nuestro recomendador basado en medias ponderadas. Comenzamos primero imputando 0 a los valores faltantes. Esto lo hacemos para poder calcular la similitud de coseno.

In [13]:
# Rellenamos los faltantes con 0
r_matrix_dummy = r_matrix.copy().fillna(0)

Con esto estamos en condiciones de usar la función `cosine_similarity` que va a calcular la similitud de coseno.

In [14]:
# Importamos cosine_similarity 
from sklearn.metrics.pairwise import cosine_similarity

#Calculamos la similitud de coseno 
cosine_sim = cosine_similarity(r_matrix_dummy, r_matrix_dummy)

# Transformamos la matriz resultante en un dataframe
cosine_sim = pd.DataFrame(cosine_sim, index=r_matrix.index, columns=r_matrix.index)

cosine_sim.head(10)

user_id,1,2,3,4,5,6,7,8,9,10,...,934,935,936,937,938,939,940,941,942,943
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,1.0,0.166931,0.04746,0.064358,0.378475,0.430239,0.440367,0.319072,0.078138,0.376544,...,0.369527,0.119482,0.274876,0.189705,0.197326,0.118095,0.314072,0.148617,0.179508,0.398175
2,0.166931,1.0,0.110591,0.178121,0.072979,0.245843,0.107328,0.103344,0.161048,0.159862,...,0.156986,0.307942,0.358789,0.424046,0.319889,0.228583,0.22679,0.161485,0.172268,0.105798
3,0.04746,0.110591,1.0,0.344151,0.021245,0.072415,0.066137,0.08306,0.06104,0.065151,...,0.031875,0.042753,0.163829,0.069038,0.124245,0.026271,0.16189,0.101243,0.133416,0.026556
4,0.064358,0.178121,0.344151,1.0,0.031804,0.068044,0.09123,0.18806,0.101284,0.060859,...,0.052107,0.036784,0.133115,0.193471,0.146058,0.030138,0.196858,0.152041,0.170086,0.058752
5,0.378475,0.072979,0.021245,0.031804,1.0,0.237286,0.3736,0.24893,0.056847,0.201427,...,0.338794,0.08058,0.094924,0.079779,0.148607,0.071459,0.239955,0.139595,0.152497,0.313941
6,0.430239,0.245843,0.072415,0.068044,0.237286,1.0,0.489255,0.201369,0.183951,0.551713,...,0.385838,0.111828,0.190075,0.225142,0.137901,0.111852,0.352449,0.144446,0.317328,0.276042
7,0.440367,0.107328,0.066137,0.09123,0.3736,0.489255,1.0,0.284951,0.14565,0.487024,...,0.456183,0.114179,0.112422,0.11786,0.153353,0.107027,0.329925,0.059993,0.282003,0.394364
8,0.319072,0.103344,0.08306,0.18806,0.24893,0.201369,0.284951,1.0,0.085942,0.233289,...,0.239171,0.067626,0.094126,0.096483,0.169737,0.095898,0.246883,0.146145,0.175322,0.299809
9,0.078138,0.161048,0.06104,0.101284,0.056847,0.183951,0.14565,0.085942,1.0,0.198223,...,0.082199,0.04864,0.163049,0.131415,0.118232,0.039852,0.120495,0.143245,0.092497,0.075617
10,0.376544,0.159862,0.065151,0.060859,0.201427,0.551713,0.487024,0.233289,0.198223,1.0,...,0.351628,0.074066,0.177044,0.149464,0.100861,0.07146,0.342961,0.090305,0.21233,0.22186


Tenemos entonces como resultado una matriz que muestra la similitud de coseno entre los diferentes usuarios. La matriz diagonal que muestra $1$ nos dice que la similitud entre el usuario 1 y sí mismo es 1. Note que el 0.16 dice que la similitud entre 1 y 2 es de 0.16. En este caso, dado que estamos evaluando ratings positivos, esta matriz retornará entradas positivas.

Con esta matriz calculada podemos entonces utilizarla para construir nuestra función recomendadora basada en medias ponderadas.

In [15]:
def cf_user_wmean(user_id, movie_id):
    
    # Primero verificamos si la película esta en la matriz
    if movie_id in r_matrix:
    
        #Buscamos las medidas de similitud con los otros usuarios
        sim_scores = cosine_sim[user_id]
        
        
        # Obtenemos los ratings no faltantes de la matriz bajo evaluación
        m_ratings = r_matrix[movie_id]
        
         # Obtenemos los índicies de las películas sin rating 
        idx = m_ratings[m_ratings.isnull()].index
        
        # Nos quedamos con similitudes y ratings completos
        sim_scores = sim_scores.drop(idx)
        m_ratings = m_ratings.dropna()
        
        # Calculamos la media ponderada
        wmean_rating = np.dot(sim_scores, m_ratings)/ sim_scores.sum()
    
    else:
        # Si no tenemos ninguna información retornamos 3
        wmean_rating = 3.0
    
    return wmean_rating

Estamos en condiciones entonces de evaluar este modelo con la función antes creada:

In [16]:
score(cf_user_wmean)

0.964396004447058

Notemos que esta simple "sofisticación" mejora el desempeño predictivo.

### Datos demográficos de los usuarios

El modelo anterior entonces incorporó  similitud entre las calificaciones de los usuarios para mejorar las recomendaciones. ¿Qué sucede entonces si utilizamos variables demográficas? La intuición es que individuos de similares géneros, profesiones, edades, etc., tendrán preferencias más similares que individuos con características demográficas diferentes.

En este caso lo que haremos es restringir a los ratings de individuos con las mismas características demográficas, en jerga estadística, utilizaremos un modelo de medias condicionales.

Para ello, primero unimos los datos originales sobre usuarios con nuestra base de entrenamiento.

In [17]:
merged_df = pd.merge(X_train, users)

In [18]:
merged_df.head()

Unnamed: 0,user_id,movie_id,rating,edad,genero,ocupacion,codigo_postal
0,862,177,4,25,M,executive,13820
1,862,416,3,25,M,executive,13820
2,862,1093,5,25,M,executive,13820
3,862,168,4,25,M,executive,13820
4,862,568,3,25,M,executive,13820


Con esta base que tiene ahora variables demográficas podemos intentar mejorar nuestro recomendador. Ilustremos entonces una función recomendadora basada en género y ocupación. Para ello, primero calculamos el rating promedio por género y ocupación. En `pandas` esto es relativamente sencillo utilizando la función `groupby`.

In [19]:
users = users.set_index('user_id')

In [20]:
# Calculamos el rating promedio basado en género y ocupación
gen_occ_mean = merged_df[['genero', 'rating', 'movie_id', 'ocupacion']].pivot_table(
    values='rating', index='movie_id', columns=['ocupacion', 'genero'], aggfunc='mean')

gen_occ_mean.head()

ocupacion,administrator,administrator,artist,artist,doctor,educator,educator,engineer,engineer,entertainment,...,salesman,salesman,scientist,scientist,student,student,technician,technician,writer,writer
genero,F,M,F,M,M,F,M,F,M,F,...,F,M,F,M,F,M,F,M,F,M
movie_id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
1,3.9375,3.75,5.0,3.4,3.666667,3.25,3.884615,4.0,4.083333,4.0,...,,4.0,3.5,4.0,4.043478,3.796296,4.0,3.75,4.0,3.0
2,3.0,3.666667,,,,4.0,3.5,,3.066667,,...,,,,3.0,2.666667,3.277778,,2.714286,,2.333333
3,3.5,4.0,,,,,2.0,,3.777778,,...,,,,,3.0,3.391304,,4.25,,1.0
4,3.666667,3.6,,4.666667,3.0,2.5,3.8,4.0,3.65,,...,4.0,4.0,,3.4,3.25,3.777778,,3.333333,4.25,3.25
5,4.0,2.333333,,,,4.0,2.333333,,3.5,,...,,,,4.0,4.333333,3.111111,,3.333333,4.0,2.0


Tenemos entonces el promedio de rating por género y ocupación. Así, los administradores femeninos ranquearon la película 1 con un promedio de 3.93 y los masculinos con 3.75. Mientras que los artistas no ranquearon la película 2. Con esta información generamos una función recomendadora que incorpore esta información y en los casos donde no tenemos información utilizaremos el rating 3 como default.

In [21]:
def cf_gen_occ(user_id, movie_id):
    
    # Verificamos si la película existe en gen_occ_mean
    if movie_id in gen_occ_mean.index:
        
        #Identificamos el usuario
        user = users.loc[user_id]
        
        #Identificamos el género y la ocupación
        gender = user['genero']
        occ = user['ocupacion']
        
        # Verificamos si la ocupación calificó la película
        if occ in gen_occ_mean.loc[movie_id]:
            
            # Verificamos si el género calificó la película
            if gender in gen_occ_mean.loc[movie_id][occ]:
                
                # Obtenemos la calificación
                rating = gen_occ_mean.loc[movie_id][occ][gender]
                
                # Default de 3.0 si no tiene calificación
                if np.isnan(rating):
                    rating = 3.0
                
                return rating
            
    # Default de 3.0 si no tiene calificación
    return 3.0

Evaluamos entonces esta función recomendadora:

In [22]:
score(cf_gen_occ)

1.1419651376788005

Vemos que esta función es la que peor funciona de las antes evaluadas. La función que incorporaba el coseno como medida de similitud lograba mejores recomendaciones. En la sección siguiente nos centraremos en entender mejor las medidas de similitud y cómo estas nos permiten mejorar los recomendadores.

## Filtrado colaborativo basado en *embeddings*

Como vimos anteriormente parte del problema reside en encontrar productos similares para recomendar. Una forma de lograrlo es incrustar (*embed*) los ítems, películas, en un espacio de baja dimensión.  *Embedding* o incrustación implica entonces un mapeo de un conjunto discreto (el conjunto de elementos a recomendar) a un espacio vectorial llamado típicamente de menor dimensión a un espacio vectorial, llamado *embedding space* o *espacio de incrustación*. 

Es decir, el sistema de recomendación mapea cada ítem, película, a un *embedding* vector en un *embedding space* común. Típicamente, este espacio, es de baja dimensión, considerablemente menor al tamaño del espacio original, y captura alguna estructura latente de los elementos. Así, elementos similares, como los videos de YouTube que suele ver el mismo usuario, terminan juntos en el mismo *embedding space* y la noción de "cercanía" se define por una medida de similitud.

Antes de describir cómo podemos generar estos *embeddings*, exploremos qué son los *embeddings* y el tipo de cualidades que queremos que tengan y como determinarlos a partir de los datos.

Supondremos, por simplicidad, que la matriz de ratings es binaria; es decir que un valor de 1 indica interés en la película. El objetivo de nuestro recomendador es que cuando un usuario visite la página de inicio, el sistema debería recomendar películas basándose tanto en la similitud con películas que le han gustado al usuario en el pasado como con películas que les gustaron a usuarios similares. 

Para ilustrar, imaginemos que tenemos sólo 5 películas, descriptas en la siguiente tabla:

|                **Película**               | **Clasificación** |                                                                                                  **Descripción**                                                                                                  |
|:-----------------------------------------:|:-----------------:|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------:|
| Batman: El caballero de la noche asciende |       PG-13       |                              Batman se esfuerza por salvar a Gotham City de la aniquilación nuclear en esta secuela del Caballero de la Noche ambientada en el universo de DC Comics.                             |
|     Harry Potter y la Piedra Filosofal    |         PG        |                       Un niño huérfano descubre que es un mago y se matricula en el Colegio Hogwarts de Magia y Hechicería donde libra su primera batalla contra el malvado Lord Voldemort.                       |
|                   Shrek                   |         PG        |                                Un ogro adorable y su compañero burro se embarcan en una misión para rescatar a la princesa Fiona que está encarcelada en su castillo por un dragón.                               |
|        Las trillizas de Belleville        |       PG-13       | Cuando el ciclista profesional Champion es secuestrado durante el Tour de Francia, su abuela y su perro con sobrepeso viajan al extranjero para rescatarlo con la ayuda de un trío de ancianos cantantes de jazz. |
|                  Memento                  |         R         |                                                       Un amnésico busca desesperadamente resolver el asesinato de su esposa tatuándose pistas en su cuerpo.                                                       |

**Embembedding o incrustación en una (1) dimensión**


Comencemos suponiendo que queremos ordenar las películas arriba mencionadas a lo largo del segmento $[-1,1]$ de forma tal que películas similares estén más cerca que de películas menos similares. 

Uno de estos posibles ordenamientos es asignar un escalar que describa si la película es para niños o adultos. El escalar va a asignar valores negativos si la película es para niños y positivos si es para adultos. La figura a continuación muestra este posible ordenamiento:

<center>
<img src = "figs/colab1.png" alt = "embedding1D" style = "width: 500px;"/>
</center>

La figura muestra que Shrek que es para niños esta más cercana a -1, y Memento, que es para adultos, está más cercana a 1. De forma similar, tenemos 4 individuos que se ubicarán más cerca de -1 si prefieren películas de niños y a 1 si prefieren películas para adultos. 

De forma similar podríamos mapear a los usuarios dependiendo de sus preferencias por películas para niños o para adultos. Así el ordenamiento resultante podríamos representarlo en la siguiente figura:


<center>
<img src = "figs/colab2.png" alt = "embedding1D" style = "width: 500px;"/>
</center>

Adicionalmente, en la figura de abajo, tenemos una matriz que une usuarios con las película que ha visto. Particularmente notemos que el tercer usuario sólo ve películas para niños y el cuarto sólo para adultos. Por lo que recomendaciones basados en esta única dimensión funcionaría muy bien para estos usuarios, pero no tanto para el primer y segundo usuario.

<center>
<img src = "figs/colab3.png" alt = "embedding1D" style = "width: 500px;"/>
</center>

Es decir, si bien este *embedding* ayuda a capturar cuánto está orientada la película hacia los niños en comparación con los adultos, hay otros aspectos de una película que queremos capturar y que ayudarían a mejorar las recomendacioens. Continuando con el ejemplo, agreguemos una segunda dimensión.


**Embembedding o incrustación en dos (2) dimensiones**

Dados los resultados anteriores, una característica no es suficiente para explicar las preferencias de todos los usuarios, tratemos entonces agregando una segunda característica. 

Supongamos que agregamos como dimensión la popularidad de película, mediada como el grado en que cada película es un éxito de taquilla o una película independiente y de culto. En este caso el escalar nuevamente estará entre $[-1,1]$ y tomará -1 si es cine de culto y 1 si es un éxito de taquilla. 

Con esta segunda característica, podemos ubicar las películas en un espacio bidimensional: 

<center>
<img src = "figs/colab4.png" alt = "embedding2D" style = "width: 500px;"/>
</center>

Con este *embedding space* bidimensional, podemos definir una distancia entre películas tal que las películas están cerca (y por lo tanto se infiere que son similares) si ambas son similares en la dimensión en que están dirigidas a niños versus adultos, así como en la medida en que son películas de gran éxito frente a películas de independientes y de culto. Estas, por supuesto, son sólo dos de las muchas características de las películas que pueden ser importantes.

De manera más general, lo que estamos haciendo es mapear las películas a un *embedding space* o *espacio incrustado*. En este espacio cada película se describe mediante un conjunto de coordenadas. Por ejemplo, en este espacio, "Shrek" tiene las coordenadas  (-1,0, 0,95) y "Memento" (1, -0,5). En general, cuando mapeamos a un espacio $d-dimensional$, cada película se representa mediante $d$ números con valores reales, cada uno de los cuales da la coordenada en una dimensión.

De la misma forma, podemos ubicar a los individuos en este espacio:

<center>
<img src = "figs/colab5.png" alt = "embedding2D" style = "width: 500px;"/>
</center>

Con este *embeddings*, volvamos a evaluar el problema de recomendar. Tenemos nuevamente la matriz de las películas que los individuos vieron o no y los *embeddings* generados anteriormente. Entonces para la película de Harry Potter tenemos (0.9,-0.2) donde 0.9 corresponde a la ubicación en la dimensión "taquilla" y el -0.2 en la dimensión "niño-adulto". 

El objetivo entonces será en combinar estos *embeddings* de forma tal de generar una recomendación, en este ejemplo buscaremos evaluar si recomendaremos Shrek al usuario 4 que no la ha visto.

<center>
<img src = "figs/colab6.png" alt = "embedding2D" style = "width: 500px;"/>
</center>

En estos ejemplos, diseñamos a mano los *embeddings* y nombramos estas dimensiones. En la práctica, los *embeddings*  se pueden generar automáticamente, que es el poder de los modelos de filtrado colaborativo. En estos casos más generales y automáticos donde se genera el *embedding space* las dimensiones individuales no tienen un nombre. En ocasiones, podemos inspeccionar los *embeddings* y asignarle una interpretación. Pero generalmente esto no será posible ya que estarán capturando una dimensión latente, ya que no representa una característica no explícita en los datos sino que se deduce de ellos.

### Factorización de matrices

Luego de la introducción a los *embedding spaces* y medidas de similitud veamos cómo  generar estos espacios. La factorización de matrices es un modelo simple que nos permite generar estos *embeddings*.

Dada la matriz $A\in\mathbb{R}^{ m\times n}$ con $m$ usuarios y $n$ ítems, buscaremos que el modelo genere:

- Una matriz de *embeddings* de usuarios $U\in\mathbb{R}^{ m\times d}$ donde la fila $i$ es el *embedding* del usuario $i$.
- Una matriz de *embeddings* de elementos $V\in\mathbb{R}^{ n\times d}$, donde la fila $j$ es el *embedding* del elemento $j$.

Los *embeddings* se generaran de forma tal que el producto $UV^T$ sea una buena representación de la matriz $A$. Volviendo al ejemplo anterior, $U$ estará dado por:

$$
U=\left(\begin{array}{cc}
1 & .1\\
-1 & 0\\
.2 & -1\\
.1 & 1
\end{array}\right)
$$

y $V$ estará dada por 

$$
V=\left(\begin{array}{cc}
.9 & -.2\\
-.8 & -.8\\
1 & -1\\
1 & .9\\
-.9 & 1
\end{array}\right)
$$

De forma tal que el producto aproxime de la matriz que indica que pelicula ha visto:

<center>
<img src = "figs/colab7.png" alt = "embedding2D" style = "width: 500px;"/>
</center>

Notemos que esta generación es similar a la descomposición de matrices que estudiamos en el *cuaderno: Descomposición en Valores Singulares. Fundamentos Teóricos*. Al factorizar estamos buscando una  representación más compacta que aprender la matriz completa. Particularmente, la matriz completa tiene $O(nm)$ entradas, mientras que las matriz de *embeddings*,  $U$ y $V$ tienen $O((n+m)d)$ entradas, donde la dimensión $d$ suele ser mucho más pequeña que $m$ y $n$.

Como resultado, la factorización de matrices encuentra una estructura latente en los datos, asumiendo que las observaciones se encuentran cerca de un subespacio de baja dimensión. En el ejemplo anterior, los valores de $n$, $m$ y $d$ son tan pequeño que la ventaja es insignificante. Sin embargo, en los sistemas de recomendación reales, la factorización de matrices puede ser significativamente más compacta que aprender la matriz completa, como vimos con la reducción de dimensión de las imágenes. 

#### Factorización de matrices con SVD


La factorización de matrices consiste en descomponer una matriz en el producto de múltiples matrices. Como estudiamos en el *cuaderno: Descomposición en Valores Singulares. Fundamentos Teóricos* esto se puede hacer a través de la Descomposición en Valores Singulares (SVD).

En este caso lo que va a hacer SVD es descomponer la matriz de ratings $A$ en la mejor representación de menor dimensión de esta matriz. Matemáticamente estamos buscando descomponer $A$, la matriz de calificaciones, en:

$$
A = U\Sigma V'
$$

$U$ es entonces la matriz de *embeddings* de usuarios, $V$ la  matriz de *embeddings* de películas, y $\Sigma$ es una matriz diagonal singular que contiene los valores singulares, que podemos pensarlos con los ponderadores. Podemos también pensar a $U$  como la representación de cuánto le "gusta" a los usuarios cada característica de la película y $V^{T}$ representa cuán relevante es cada característica a la película. 

Para obtener una representación de rango menor, tomamos estas matrices y sólo conservamos aquellas $k$ características que pensamos representan mejor los gustos y las preferencias de los usuarios.

##### Implementación en `Python`

Implementemos esta estrategia en `Python`, para ello primero necesitamos transformar los valores no observados de la matriz de ratings en 0.

In [23]:
R_df = ratings.pivot(index = 'user_id', columns ='movie_id', values = 'rating').fillna(0)
R_df.head()

movie_id,1,2,3,4,5,6,7,8,9,10,...,1673,1674,1675,1676,1677,1678,1679,1680,1681,1682
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,5.0,3.0,4.0,3.0,3.0,5.0,4.0,1.0,5.0,3.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,4.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
5,4.0,3.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


Tenemos nuevamente un dataframe con los usuarios en las filas y las películas en la columnas. Necesitamos ahora transformarlas a una matriz y centrar en cero utilizando la media de los ratings de cada usuario.

In [24]:
R = R_df.to_numpy()
user_ratings_mean = np.mean(R, axis = 1)
R_demeaned = R - user_ratings_mean.reshape(-1, 1)

Estamos ahora en posición de realizar la SVD. En el *cuaderno: Descomposición en Valores Singulares. Fundamentos Teóricos* utilizamos [Numpy](https://numpy.org/) en nuestros ejemplos, en este cuaderno usarmeos [SciPy](https://scipy.org/) y los invito a que prueben utilizando [Numpy](https://numpy.org/).

La ventaja de [SciPy](https://scipy.org/) es que permite elegir los valores singulares como argumento de la función en vez de tener que truncar la matriz posteriormente. 

En este ejemplo, utilizaremos 50 para ilustrar.

In [25]:
from scipy.sparse.linalg import svds
U, sigma, Vt = svds(R_demeaned, k = 50)

Para realizar nuestra recomendación tenemos que reconstruir la matriz $A$ con esta aproximación menor. Es decir tenermos que multiplicar $U$, $\Sigma$, and $V^{T}$ para obtener la aproximación de rango $k=50$ de $A$. Puesto que centramos en cero los ratings, necesitamos agregarlos nuevamente.

Haciendo esto tenemos:


In [26]:
sigma = np.diag(sigma)

db_recomendaciones = np.dot(np.dot(U, sigma), Vt) + user_ratings_mean.reshape(-1, 1)

Notemos que eligimos $k=50$ de forma arbitraria. Si queremos optimizar este recomendador, tendríamos que proceder de forma similar a cómo lo hicimos al inicio de este *cuaderno*, dividir la muestra en entrenamiento y prueba, y buscar el número $k$ que minimize el RMSE. Los invito a que lo hagan por su cuenta y comparen los resultados con los recomendadores que construimos anteriormente.

###### Recomendando películas.

Con la matriz de recomendaciones podemos construir una función que genere recomendaciones a cualquier usuario.

Esta función generará recomendaciones de películas para un usuario específico de forma tal que omita a aquellas que ya ha ranqueado. Estamos asumiendo que si la calificó es porque ya la vió, pero como comparación retornaremos por separado aquellas películas ya calificadas.

Comenzamos poniendo las recomendaciones en un dataframe:

In [27]:
recomendac_df = pd.DataFrame(db_recomendaciones, columns = r_matrix.columns)
recomendac_df.head()

movie_id,1,2,3,4,5,6,7,8,9,10,...,1673,1674,1675,1676,1677,1678,1679,1680,1681,1682
0,6.488436,2.959503,1.634987,3.024467,1.656526,1.659506,3.630469,0.240669,1.791518,3.347816,...,0.011976,-0.092017,-0.074553,-0.060985,0.009427,-0.035641,-0.039227,-0.037434,-0.025552,0.023513
1,2.347262,0.129689,-0.098917,0.328828,0.159517,0.481361,0.213002,0.097908,1.8921,0.671,...,0.003943,-0.026939,-0.03546,-0.029883,-0.027153,-0.015244,-0.008277,-0.01176,0.011639,-0.046924
2,0.291905,-0.26383,-0.151454,-0.179289,0.013462,-0.088309,-0.057624,0.568764,-0.018506,0.280742,...,-0.028964,-0.031622,0.045513,0.026089,-0.021705,0.002282,0.032363,0.017322,-0.006644,-0.00948
3,0.36641,-0.443535,0.041151,-0.007616,0.055373,-0.080352,0.299015,-0.010882,-0.160888,-0.118834,...,0.020069,0.015981,-0.000182,0.005593,0.026634,0.023562,0.036405,0.029984,0.015612,-0.008713
4,4.263488,1.937122,0.052529,1.04935,0.652765,0.002836,1.730461,0.870584,0.341027,0.569055,...,0.019973,-0.053521,-0.017242,-0.007137,-0.038987,0.010338,0.004869,0.007603,-0.020575,0.00333


Con este data frame armamos nuestra función recomendadora:

In [28]:
def recomendador(predictions_df, user_id, movies_df, original_ratings_df, num_recommendations=5):
    
    # Obtenemos y ordenamos los usuarios 
    user_row_number = user_id - 1 # user_id inicia en 1, no 0, corregimos el índice
    sorted_user_predictions = recomendac_df.iloc[user_row_number].sort_values(ascending=False) # UserID starts at 1
    
    # Obtenemos los datos de los usuarios y le agremamos los datos de la película
    user_data = original_ratings_df[original_ratings_df.user_id == (user_id)]
    user_full = (user_data.merge(movies, how = 'left', left_on = 'movie_id', right_on = 'movie_id').
                     sort_values(['rating'], ascending=False)
                 )

    print('El usuario {0} ha calificado {1} películas.'.format(user_id, user_full.shape[0]))
    print('Recomendando las {0} películas que no han sido calificadas.'.format(num_recommendations))
    
    # Generamos la recomendación de las películas que no ha visto todavía
    recomendaciones = (movies_df[~movies_df['movie_id'].isin(user_full['movie_id'])].
         merge(pd.DataFrame(sorted_user_predictions).reset_index(), how = 'left',
               left_on = 'movie_id',
               right_on = 'movie_id').
         rename(columns = {user_row_number: 'Predictions'}).
         sort_values('Predictions', ascending = False).
                       iloc[:num_recommendations, :-1]
                      )

    return user_full, recomendaciones

Notemos que la función toma como argumentos la base que construimos de recomendaciones predichas, el número de usuario, la base de películas y el número de películas que queremos que recomiende.

Notemos que agregamos la base de películas a la función para poder incluir características explícitas de las películas, aunque no las utilizamos en la generación de los *embeddings* y por lo tanto en la recomendación. 

In [29]:
calificadas, recomendaciones = recomendador(recomendac_df, 837, movies, ratings, 10)

El usuario 837 ha calificado 46 películas.
Recomendando las 10 películas que no han sido calificadas.


Veamos entonces las recomendaciones generadas. El usuario 837, ha calificado 46 películas, entre las 10 en su tope tiene películas de romance com 'Jane Eyre' e infantiles como 'Willy Wonka and the Chocolate Factory':

In [30]:
calificadas.head(10)

Unnamed: 0,user_id,movie_id,rating,titulo
44,837,740,5,Jane Eyre (1996)
37,837,1009,5,Stealing Beauty (1996)
9,837,283,5,Emma (1996)
36,837,125,5,Phenomenon (1996)
11,837,289,5,Evita (1996)
24,837,151,5,Willy Wonka and the Chocolate Factory (1971)
23,837,258,4,Contact (1997)
14,837,20,4,Angels and Insects (1995)
22,837,294,4,Liar Liar (1997)
27,837,328,4,Conspiracy Theory (1997)


Veamos las recomendaciones:

In [31]:
recomendaciones

Unnamed: 0,movie_id,titulo
11,14,"Postino, Il (1994)"
0,1,Toy Story (1995)
107,116,Cold Comfort Farm (1995)
116,126,"Spitfire Grill, The (1996)"
42,50,Star Wars (1977)
238,255,My Best Friend's Wedding (1997)
440,471,Courage Under Fire (1996)
92,100,Fargo (1996)
258,282,"Time to Kill, A (1996)"
704,742,Ransom (1996)


En estas recomendaciones aparecen películas de romance como "Il Postino" e infantiles como "Toy Story". Estas parecen ser recomendaciones bastante buenas. Notemos además que a pesar de que no incluimos el género como característica en la factorización, esta fue capaz de captar el *embedding* con esta dimensión.

## Consideraciones finales

En este *cuaderno* estudiamos distintos formas de construir filtrados colaborativos comenzando con formas sencillas de incorporar información de otros usuarios hasta capturar características latentes con factorización de matrices.

Sin embargo, al factorizar las matrices y reducir su dimensión hay que tener en cuenta que es probable que se esté perdiendo parte de las señales. También que considerar que cuando las matrices son poco densas, es decir, las entradas estan faltantes, la solución de SVD estará cercana a cero, produciendo recomendaciones poco eficientes.


En casos como estos se suele utilizar  **factorización matricial ponderada**:

$$
\min_{U\in\mathbb{R}^{m\times d}, V\in\mathbb{R}^{n\times d}} \sum_{(i,j)\in obs}(A_{i,j} - \langle U_i, V_j \rangle)^2 + \omega_0 \sum_{(i,j)\not\in obs} (\langle U_i, V_j \rangle)^2
$$

Esta descompone la función objetivo en dos sumas:

- Una suma sobre las entradas observadas.
- Una suma sobre entradas no observadas (tratadas como ceros).

donde, $\omega_0$ es un hiperparámetro que pondera los dos términos para que la función objetivo no esté dominada por uno u otro componente. En estos casos, será clave ajustar correctamente este hiperparámetro.

En ocaciones, cuando hay  ítems muy frecuentes o populares que pueden dominar la función objetivo se suele ponderar por la frecuencia de los elementos. En otras palabras, podemos reemplazar la función objetivo por:

$$\sum_{(i,j)\in obs}\omega_{i,j} (A_{i,j} - \langle U_i, V_j \rangle)^2 + \omega_0 \sum_{(i,j)\not\in obs} (\langle U_i, V_j \rangle)^2$$

Donde $\omega_{i,j}$ es una función de la frecuencia de ocurrencia.


Si bien la **factorización matricial ponderada** puede ser extremadamente útil, es material para otro curso.

Finalmente, es importante notar que cuando factorizamos matrices incorporamos factores latentes no sólo de los usuarios sino también de las películas, los ítems. En el cuaderno siguiente veremos cómo utilizar sólo información de los ítems *Filtrado Colaborativo Basado en Items: Análisis de Canasta de Compra.*


# Referencias

- Banik, R. (2018). Hands-on recommendation systems with Python: start building powerful and personalized, recommendation engines with Python. Packt Publishing Ltd.

- Covington, P., Adams, J., & Sargin, E. (2016). Deep Neural Networks for YouTube recommendations. Proceedings of the 10th ACM Conference on Recommender Systems. https://doi.org/10.1145/2959100.2959190 

- Google developers. (n.d.). Recommendation systems. Google. Consultado en Abril 3, 2022. Disponible en https://developers.google.com/machine-learning/recommendation/overview 

- Google developers. (n.d.). Embeddings: Motivation From Collaborative Filtering. Consultado en Mayo 13, 2022. Disponible en  https://developers.google.com/machine-learning/crash-course/embeddings/motivation-from-collaborative-filtering
